Hadoop 2.0 - pogosta vprašanja



Zanimanje za Hadoop se je v zadnjih nekaj letih povečalo do velikokrat. Ta objava odgovarja na vaša vprašanja in odpravlja številne dvome glede Hadoop 2.0 in njegove uporabe.

To je nadaljnje sporočilo z odgovorom na pogosto zastavljena vprašanja med javnim spletnim seminarjem avtorja edureka! na .

Pogosta vprašanja o Hadoopu

Deepak:





Kaj je Hadoop?
Apache Hadoop je odprtokodni programski okvir za shranjevanje in obsežno obdelavo podatkovnih nizov na grozdih blagovne strojne opreme. Je odprtokodni programski okvir za upravljanje podatkov z razširjenim pomnilnikom in porazdeljeno obdelavo. Gradi in uporablja ga svetovna skupnost sodelavcev in uporabnikov.

java je-odnos

Preberite več na našem blogu Hadoop in .



Iskanje:

Kateri primeri uporabe velikih podatkov se uporabljajo v potovalni, prevozni in letalski industriji?

Sončno:



Nam lahko pokažete nekaj resničnega vzorca implementacije Hadoop, ki ga lahko preučimo?
Mi smo liviodv dobi naraščajočih zastojev. Prevozniki nenehno iščejo stroškovno učinkovite načine za zagotavljanje svojih storitev, hkrati pa vzdržujejo svoj vozni park v dobrih pogojih. Uporaba analitike velikih podatkov v tej domeni lahko pomaga organizaciji pri:

  • Optimizacija poti
  • Geoprostorska analitika
  • Vzorci prometa in zastoji
  • Vzdrževanje premoženja
  • Upravljanje prihodkov (tj. Letalski prevoznik)
  • Upravljanje zalog
  • Varčevanje z gorivom
  • Ciljno trženje
  • Zvestoba stranke
  • Napoved zmogljivosti
  • Učinkovitost omrežja in optimizacija

Nekaj ​​primerov dejanske uporabe je:
do) Določanje stroškov leta
b) Modeliranje napovedi za logistiko zalog
c) Orbitz po vsem svetu - vzorci kupcev
d) Šest uvedb Hadoop Super-Scale
je) Hadoop - več kot doda
f) Hadoop v podjetju

Več o implementacijah Hadoop v resničnem svetu lahko izveste na:

Hirdesh:

Je Hadoop vse v zvezi z obdelavo in obdelavo podatkov? Kako se odločimo za poročanje in vizualno analitiko. Ali se Qlikview, Tableau lahko uporablja na vrhu Hadoopa?
Osnovni komponenti Hadoop HDFS in MapReduce sta namenjeni shranjevanju in obdelavi podatkov. HDFS za shranjevanje in MapReduce za obdelavo. Toda ključne komponente Hadoop, kot sta Pig in Hive, se uporabljajo za analitiko. Za tabelo vizualnih poročil lahko QlikView povežete s Hadoop za vizualno poročanje.

Amit:

Hadoop Vs. mongoDB
MongoDB se uporablja kot 'operativna' shramba podatkov v realnem času, medtem ko se Hadoop uporablja za obdelavo in analizo paketnih podatkov brez povezave.
mongoDB je dokumentacijsko shranjena podatkovna shramba brez shem, ki jo lahko v spletni aplikaciji uporabite kot zaledje namesto RDBMS, kot je MySQL, medtem ko se Hadoop uporablja predvsem kot pomanjšava in razširjena obdelava velike količine podatkov.

Preberite več pri nas objava v blogu mongoDB in Hadoop .

Tukaj:

Je Apache Spark del Hadoopa ?
Apache Spark je hiter in splošen motor za obsežno obdelavo podatkov. Spark je hitrejši in podpira obdelavo v pomnilniku. Stroj za izvrševanje isker razširja vrsto računalniških delovnih obremenitev, s katerimi se lahko ukvarja Hadoop in jih lahko izvaja na gruči Hadoop 2.0 YARN Gre za sistem obdelave ogrodja, ki omogoča shranjevanje predmetov v pomnilniku (RDD), skupaj z možnostjo obdelave teh predmetov z zapirali Scala. Podpira graf, skladišče podatkov, strojno učenje in obdelavo tokov.

Če imate gručo Hadoop 2, lahko Spark zaženete brez kakršne koli namestitve. V nasprotnem primeru je Spark enostavno zagnati samostojno ali na EC2 ali Mesos. Lahko bere iz HDFS, HBase, Cassandre in katerega koli vira podatkov Hadoop.

Preberite več na Spark tukaj .

Prasad:

Kaj je Apache Flume?
Apache Flume je porazdeljen, zanesljiv in razpoložljiv sistem za učinkovito zbiranje, združevanje in premikanje velikih količin dnevniških podatkov iz številnih različnih virov v centraliziran podatkovni vir.

Amit:

Podatkovne baze SQL vs NO-SQL
Baze podatkov NoSQL so baze podatkov naslednje generacije in večinoma obravnavajo nekatere točke

  • nerelacijski
  • razdeljeno
  • odprtokodno
  • vodoravno prilagodljiv

Pogosto se uporablja več značilnosti, kot so brez sheme, enostavna podpora za kopiranje, preprost API, sčasoma skladen / BASE (ne ACID), ogromna količina podatkov in še več. Na primer, nekaj diferenciatorjev je:

  • Podatkovne baze NoSQL se povečajo vodoravno in dodajo več strežnikov za obravnavo večjih obremenitev. Podatkovne baze SQL pa se običajno povečajo navpično in dodajajo vedno več virov enemu strežniku, ko se promet poveča.
  • Podatkovne baze SQL so zahtevale, da pred dodajanjem kakršnih koli informacij in podatkov definirate svoje sheme, vendar zbirke podatkov NoSQL ne vsebujejo shem in ne zahtevajo vnaprejšnje opredelitve sheme.
  • Podatkovne baze SQL so tabele z vrsticami in stolpci, ki sledijo načelom RDBMS, medtem ko so zbirke podatkov NoSQL dokumenti, pari ključ / vrednost, shrambe grafov ali širokih stolpcev.
  • Podatkovne baze SQL uporabljajo SQL (jezik strukturiranih poizvedb) za definiranje in obdelavo podatkov. V zbirki podatkov NoSQL se poizvedbe razlikujejo od ene do druge baze podatkov.

Priljubljene zbirke podatkov SQL: MySQL, Oracle, Postgres in MS-SQL
Priljubljeno Zbirke podatkov NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j in CouchDB

Preglejte naše bloge na Hadoop in NoSQL baze podatkov in prednosti ene takšne baze podatkov:

Koteswararao:

Ali ima Hadoop vgrajeno tehnologijo grozdov?
Grozd Hadoop uporablja arhitekturo Master-Slave. Sestavljen je iz enega glavnega (NameNode) in grozda podrejenih (DataNodes) za shranjevanje in obdelavo podatkov. Hadoop je zasnovan za delovanje na velikem številu naprav, ki nimajo skupnega pomnilnika ali diskov. Ta DataNodes so konfigurirana kot grozd z uporabo . Hadoop s konceptom replikacije zagotavlja, da je v gruči ves čas na voljo vsaj ena kopija podatkov. Ker je kopij podatkov več, lahko podatke, shranjene na strežniku, ki je brez povezave ali umre, samodejno razmnožimo iz znane dobre kopije.

Dinesh:

Kaj je zaposlitev v Hadoopu? Kaj vse je mogoče doseči z delom?
V Hadoopu je Job program MapReduce za obdelavo / analizo podatkov. Izraz MapReduce se dejansko nanaša na dve ločeni in ločeni nalogi, ki ju izvajata programa Hadoop. Prva je naloga Map, ki vzame nabor podatkov in jih pretvori v drug nabor vmesnih podatkov, kjer se posamezni elementi razdelijo v pare ključ / vrednost. Drugi del opravila MapReduce, naloga »Zmanjšaj«, vzame izhod iz zemljevida kot vhod in združi pare ključ / vrednost v manjši nabor združenega para ključ / vrednost. Kot pomeni zaporedje imena MapReduce, se naloga Reduce vedno izvede po zaključku opravil Map. Preberite več na MapReduce Job .

Sukruth:

Kaj je posebnega pri NameNode ?
NameNode je srce datotečnega sistema HDFS. Hrani metapodatke, kot je drevo imenikov vseh datotek v datotečnem sistemu, in sledi, kje v gruči se hranijo podatki o datotekah. Dejanski podatki se shranijo na DataNodes kot bloki HDFS.
Odjemalske aplikacije se pogovorijo z NameNode, kadar želijo poiskati datoteko ali kadar želijo datoteko dodati / kopirati / premakniti / izbrisati. NameNode odgovori na uspešne zahteve tako, da vrne seznam ustreznih strežnikov DataNodes, kjer živijo podatki. Preberite več o HDFS Architecture .

Dinesh:

Kdaj je bil Hadoop 2.0 predstavljen na trgu?
Odprtokodna skupina Apache Software Foundation (ASF), ki upravlja Hadoop Development, je v svojem blogu 15. oktobra 2013 objavila, da je Hadoop 2.0 zdaj splošno dostopen (GA). Ta napoved pomeni, da sta Apache Hadoop 2.0 in YARN po dolgem čakanju zdaj pripravljena za proizvodno uvajanje. Več o tem Spletni dnevnik.

binarno na decimalno mesto v javi

Dinesh:

Katerih nekaj primerov aplikacije Big Data, ki ni MapReduce?
MapReduce je odličen za številne aplikacije za reševanje težav z velikimi podatki, ne pa tudi za vse, kar drugi programski modeli bolje ustrezajo zahtevam, kot so obdelava grafov (npr. Google Pregel / Apache Giraph) in iterativno modeliranje z vmesnikom za posredovanje sporočil (MPI).

Marish:

kako narediti opozorilo v

Kako so podatki razporejeni in indeksirani v HDFS?
Podatki so razdeljeni na bloke po 64 MB (nastavljiv s parametrom) in so shranjeni v HDFS. NameNode shrani informacije o shranjevanju teh blokov kot ID blokov v svojem RAM-u (metapodatki NameNode). Opravila MapReduce lahko dostopajo do teh blokov z uporabo metapodatkov, shranjenih v RAM-u NameNode.

Shashwat:

Ali lahko uporabimo MapReduce (MRv1) in MRv2 (z YARN) v isti gruči?
Hadoop 2.0 je predstavil novo ogrodje YARN za pisanje in izvajanje različnih aplikacij v Hadoopu. Torej sta YARN in MapReduce dva različna koncepta v Hadoop 2.0 in ju ne bi smeli mešati in uporabljati med seboj. Pravo vprašanje je 'Ali je možno zagnati MRv1 in MRv2 na grozdu Hadoop 2.0, ki ima omogočeno YARN?' Odgovor na to vprašanje je a 'Ne' čeprav je Hadoop Cluster mogoče konfigurirati tako, da zažene MRv1 in MRv2, lahko pa v katerem koli trenutku zažene samo en niz demonov. Oba okvira sčasoma uporabljata iste konfiguracijske datoteke ( yarn-site.xml in mapred-site.xml ) za zagon demonov, zato je v gruči Hadoop omogočena samo ena od obeh konfiguracij.

Lutka:

Kakšna je razlika med naslednjo generacijo MapReduce (MRv2) in YARN?
Preja in naslednja generacija MapReduce (MRv2) sta dva različna koncepta in tehnologije v Hadoop 2.0. YARN je programski okvir, ki se lahko uporablja za izvajanje ne samo MRv2, temveč tudi drugih aplikacij. MRv2 je aplikacijski okvir, napisan z uporabo YARN API, in deluje znotraj YARN.

Bharat:

Ali Hadoop 2.0 zagotavlja združljivost za aplikacije Hadoop 1.x?
Neha:

Ali migracija Hadoop 1.0 na 2.0 zahteva zahtevno kodo aplikacije migracije?
Ne, večina aplikacije, razvite z uporabo API-jev „org.apache.hadoop.mapred“, se lahko izvaja na YARN brez kakršne koli ponovne prevajanja. YARN je binarno združljiv z aplikacijami MRv1, za oddajo teh aplikacij na YARN pa lahko uporabite “bin / hadoop”. Preberite več o tem tukaj .

Sherin:

Kaj se zgodi, če vozlišče Resource Manager odpove v Hadoop 2.0?
Od izdaje Hadoop 2.4.0 je na voljo tudi podpora za visoko razpoložljivost za Resource Manager. ResourceManager za odpoved uporablja Apache ZooKeeper. Ko vozlišče Resource Manager odpove, se lahko sekundarno vozlišče hitro obnovi prek stanja gruče, shranjene v ZooKeeper. ResourceManager ob okvari znova zažene vse aplikacije v čakalni vrsti in teče.

Sabbirali:

Ali Apacheov okvir Hadoop deluje na Cloudera Hadoop?
Apache Hadoop je bil predstavljen leta 2005 z osnovnim procesorjem MapReduce za podporo porazdeljeni obdelavi obsežnih delovnih obremenitev podatkov, shranjenih v HDFS. Je odprtokodni projekt in ima več distribucij (podobno kot Linux). Cloudera Hadoop (CDH) je ena takih distribucij Cloudere. Druge podobne distribucije so HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights itd.

Arulvadivel:

Kakšen preprost način namestitve Hadoopa na prenosni računalnik in preizkus migracije baze podatkov Oracle na Hadoop?
Ti lahko začetek s HortonWorks Sandbox ali Cloudera Quick VM na prenosnem računalniku (z vsaj 4 GB RAM-a in procesorjem i3 ali novejšim). Uporabite SQOOP za premikanje podatkov iz Oracle v Hadoop, kot je razloženo tukaj .

Bhabani:

Katere najboljše knjige so na voljo za učenje Hadoopa?
Začeti z Hadoop: dokončni vodnik avtorja Toma Whitea in Hadoop operacije avtor Eric Sammer.

Mahendra:

Ali je za Hadoop 2.0 na voljo kakšno branje, tako kot dokončni vodnik za Hadoop?
Preglejte zadnji prihod na knjižnih policah, ki jih je napisal nekaj ustvarjalcev Hadoop 2.0.

Ostanite z nami za več vprašanj v tej seriji.