Bistvena orodja Hadoop za drobljenje velikih podatkov



Hadoop je današnja modna beseda v svetu IT in ta prispevek opisuje bistvena orodja Hadoop, ki drobijo velike podatke.

Danes je najbolj priljubljen izraz v svetu IT „Hadoop“. V kratkem času, Hadoop je močno zrasel in se izkazal za koristnega za veliko zbirko raznolikih projektov. Skupnost Hadoop se hitro razvija in ima pomembno vlogo v svojem ekosistemu.





Tukaj je pogled na bistvena orodja Hadoop, ki se uporabljajo za obdelavo velikih podatkov.

prednosti preobremenitve metode v javi

ambari



Ambari je projekt Apache, ki ga podpira Hortonworks. Ponuja spletni grafični uporabniški vmesnik (grafični uporabniški vmesnik) s čarovniškimi skripti za nastavitev grozdov z večino standardnih komponent. Ambari zagotavlja, upravlja in nadzira vse grozde delovnih mest Hadoop.

hdfs-logo

The HDFS , distribuiran pod licenco Apache, ponuja osnovni okvir za razdelitev zbirk podatkov med več vozlišč. V HDFS so velike datoteke razdeljene na bloke, kjer več vozlišč vsebuje vse bloke iz datoteke. Datotečni sistem je zasnovan tako, da združuje toleranco napak z visoko prepustnostjo. Bloki HDFS so naloženi za vzdrževanje enakomernega pretakanja. Običajno se ne shranijo v predpomnilnik, da bi zmanjšali zakasnitev.



hbaselogo

HBase je stolpčno usmerjen sistem za upravljanje baz podatkov, ki deluje na vrhu HDFS. Aplikacije HBase so napisane v Javi, podobno kot aplikacija MapReduce. Vsebuje nabor tabel, kjer vsaka tabela vsebuje vrstice in stolpce kot tradicionalna baza podatkov. Ko podatki padejo v veliko tabelo, jih bo HBase shranil, jih poiskal in samodejno delil tabelo na več vozliščih, tako da jih lahko opravila MapReduce izvajajo lokalno. HBase ponuja omejeno garancijo za nekatere lokalne spremembe. Spremembe, ki se zgodijo v eni vrstici, lahko istočasno uspejo ali ne.

hive

Če že obvladate SQL, lahko uporabite Hadoop Panj . Panj so razvili nekateri ljudje na Facebooku. Apache Hive ureja postopek ekstrakcije bitov iz vseh datotek v HBase. Podpira analizo velikih naborov podatkov, shranjenih v Hadoopovem HDFS in združljivih datotečnih sistemih. Ponuja tudi jezik, podoben SQL, imenovan HSQL (HiveSQL), ki vstopi v datoteke in izvleče zahtevane delčke kode.

sqoop

Apache Sqoop je posebej zasnovan za učinkovit prenos množičnih podatkov iz tradicionalnih zbirk podatkov v panj ali HBase. Uporablja se lahko tudi za pridobivanje podatkov iz Hadoopa in njihovo izvoz v zunanje strukturirane shrambe podatkov, kot so relacijske zbirke podatkov in skladišča podatkov podjetja. Sqoop je orodje ukazne vrstice, ki preslika med tabelami in plastjo za shranjevanje podatkov in pretvori tabele v nastavljivo kombinacijo HDFS, HBase ali Hive.

Pig1

Ko so shranjeni podatki vidni Hadoopu, Apache Pig potopi se v podatke in zažene kodo, ki je napisana v svojem jeziku, imenovanem Pig Latin. Prašičja latinica je napolnjena z abstrakcijami za obdelavo podatkov. Pig ima standardne funkcije za običajne naloge, kot je povprečenje podatkov, delo z datumi ali iskanje razlik med nizi. Pig uporabniku omogoča tudi samostojno pisanje jezikov, imenovanega UDF (User Defined Function), kadar standardne funkcije ne uspejo.

zookeper

Oskrbnik živalskega vrta je centralizirana storitev, ki vzdržuje, konfigurira informacije, daje ime in zagotavlja porazdeljeno sinhronizacijo po gruči. Skupini naloži hierarhijo, podobno datotečnemu sistemu, in shrani vse metapodatke za stroje, tako da lahko sinhroniziramo delo različnih strojev.

NoSQL

Nekatere skupine Hadoop se integrirajo z NoSQL shrambe podatkov, ki imajo lastne mehanizme za shranjevanje podatkov v gruči vozlišč. To jim omogoča shranjevanje in pridobivanje podatkov z vsemi lastnostmi baze podatkov NoSQL, nato pa lahko Hadoop uporabljamo za razporejanje opravil analize podatkov v isti gruči.

mahoutlogo

Mahout je zasnovan za izvajanje velikega števila algoritmov, klasifikacij in filtriranja analize podatkov v gruči Hadoop. Številni standardni algoritmi, kot so K-pomeni, Dirichelet, vzporedni vzorec in Bayesova klasifikacija, so pripravljeni za izvajanje podatkov s pomočjo zemljevida v slogu Hadoop in njihovo zmanjšanje.

Lucen, napisan v Javi in ​​zlahka integriran v Hadoop, je naravni spremljevalec Hadoopa. Je orodje, namenjeno indeksiranju velikih blokov nestrukturiranega besedila. Lucene skrbi za indeksiranje, Hadoop pa za porazdeljene poizvedbe po gruči. Funkcije Lucene-Hadoop se hitro razvijajo, ko se razvijajo novi projekti.

Avro

Evro je sistem za serializacijo, ki združuje podatke skupaj s shemo za njihovo razumevanje. Vsak paket ima podatkovno strukturo JSON. JSON razloži, kako je mogoče podatke razčleniti. Glava JSON določa strukturo podatkov, kjer se je mogoče izogniti potrebi po pisanju dodatnih oznak v podatke za označevanje polj. Izhod je precej bolj kompakten kot tradicionalni formati, kot je XML.

Opravilo lahko poenostavite tako, da ga razdelite na korake. Na razdelitvi projekta na več delovnih mest Hadoop, Oozie jih začne obdelovati v pravem zaporedju. Upravlja potek dela, kot določa DAG (Directed Acyclic Graph), in ni potrebe po pravočasnem nadzoru.

GIS orodja

Delo z zemljepisnimi zemljevidi je za grozde, ki izvajajo Hadoop, veliko delo. GIS ( Geografski informacijski sistem ) orodja za projekte Hadoop so prilagodila najboljša orodja, ki temeljijo na Javi, za razumevanje geografskih informacij za izvajanje s Hadoop Zbirke podatkov lahko zdaj obdelujejo geografske poizvedbe z uporabo koordinat, kode pa lahko uporabljajo orodja GIS.

Zbiranje vseh podatkov je enako shranjevanju in analiziranju. Apache Flume pošlje „posebne agente“ za zbiranje informacij, ki bodo shranjene v HDFS. Zbrane informacije so lahko dnevniške datoteke, Twitter API ali ostanki spletnih mest. Ti podatki so lahko verižni in podvrženi analizi.

Spark

Iskra je naslednja generacija, ki v veliki meri deluje kot Hadoop, ki obdeluje podatke, shranjene v pomnilniku. Njegov cilj je, da se analiza podatkov hitro izvaja in piše s splošnim izvedbenim modelom. To lahko optimizira poljubne grafi operaterjev in podpira računalništvo v pomnilniku, kar omogoča hitrejše poizvedovanje po podatkih kot diskovni motorji, kot je Hadoop.

SQL na Hadoopu

Ko je treba zagnati hitro ad-hoc poizvedbo vseh podatkov v gruči, lahko napišete novo opravilo Hadoop, vendar to traja nekaj časa. Ko so programerji to začeli početi pogosteje, so prišli do orodij, napisanih v preprostem jeziku SQL. Ta orodja ponujajo hiter dostop do rezultatov.

Apache Drill

Apache Drill ponuja priložnostne poizvedbe z nizko zakasnitvijo za številne in raznolike vire podatkov, vključno z ugnezdenimi podatki. Drill, navdihnjen z Googlovim Dremelom, je zasnovan tako, da v nekaj sekundah meri do 10.000 strežnikov in poišče petabajte podatkov.

To so bistvena orodja Hadoop za drobljenje velikih podatkov!

Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.

Sorodne objave:

Praktični razlogi za učenje Hadoop 2.0