Globok potop v prašiča



Ta objava v spletnem dnevniku se poglobi v Prašiča in njegove funkcije. Našli boste predstavitev, kako lahko uporabljate Hadoop z uporabo Pig, ne da bi bili odvisni od Jave.

Eden največjih razlogov, zakaj se je priljubljenost Hadoopa v zadnjem času močno povečala, je dejstvo, da na njem delujejo funkcije, kot sta Pig in Hive, ki ne-programerjem omogočajo funkcionalnost, ki je bila prej izključna za programerje Java. Te značilnosti so bile posledica naraščajočega povpraševanja po strokovnjakih Hadoop. Druge funkcije, ki jih uporabljajo strokovnjaki Hadoop iz okolja, ki ni Java, so Flume, Sqoop, HBase in Oozie.





Če želite razumeti, zakaj za učenje Hadoopa ne potrebujete Jave, si oglejte ta blog .

1Zgodovina prašičev



Razumejmo, kako te funkcije delujejo.

Vsi vemo, da je znanje programiranja nujno za pisanje kod MapReduce. Kaj pa, če imam orodje, ki lahko izvaja kodiranje, če bi samo navedel podrobnosti? Tam Prašič pokaže svojo mišično moč. Pig uporablja platformo, imenovano Pig Latin, ki abstrahira programiranje iz idioma Java MapReduce v zapis, ki naredi programiranje MapReduce na visoki ravni, podobno kot SQL za sisteme RDBMS. Kode, napisane v Pig Latin MapReduce, se samodejno pretvorijo v enakovredne funkcije MapReduce. Ali ni to super? Še eno nenavadno dejstvo je, da je za nadomestitev 200 vrstic Java potrebnih le 10 vrstic prašiča.



10 vrstic Pig = 200 vrstic Java

To ne pomeni samo, da strokovnjaki, ki niso Java, uporabljajo Hadoop, ampak tudi potrjuje dejstvo, da Pig uporablja enako število tehničnih razvijalcev.

Če želite napisati svojo kodo MapReduce, lahko to storite v katerem koli jeziku, kot so Perl, Python, Ruby ali C. Nekatere osnovne operacije, ki jih lahko izvedemo na katerem koli naboru podatkov s pomočjo Pig, so Group, Join, Filter in Sort . Te operacije je mogoče izvajati na strukturiranih, nestrukturiranih in tudi polstrukturiranih podatkih. Zagotavljajo priložnostni način za ustvarjanje in izvajanje opravil MapReduce na zelo velikih naborih podatkov.

Naslednje, da razumemo Panj. Je odprtokodni okvir za skladiščenje podatkov v obsegu peta bajtov, ki temelji na Hadoopu za povzemanje, poizvedovanje in analizo podatkov. Hive ponuja vmesnik, podoben SQL, za Hadoop. Hive lahko uporabljate za branje in pisanje datotek v Hadoopu ter zagon poročil iz orodja BI. Nekatere tipične funkcionalnosti Hadoopa so:

Naj vam pokažem predstavitev z uporabo nabora podatkov Pig on Clickstream
Te podatke bomo uporabili in izvedli preoblikovanja, združevanja in združevanja.

preprost uvod v podatkovno znanost

ClickStream je vrsta klikov z miško, ki jih uporabnik opravi med dostopom do interneta, zlasti pod nadzorom, da oceni interese osebe za tržne namene. Uporabljajo ga predvsem spletna spletna mesta, kot sta Flipkart in Amazon, ki sledijo vašim dejavnostim, da ustvarijo priporočila. Nabor podatkov Clickstream, ki smo ga uporabili, ima naslednja polja:

1. Vrsta jezika, ki jo podpira spletna aplikacija

2. Tip brskalnika

3. Vrsta povezave

4. ID države

5. Časovni žig

razmerje isa in hasa v javi

6. URL

7. Status uporabnika

8. Vrsta uporabnika

Tako bo videti z ustreznimi polji.

Spodaj je seznam vrst brskalnikov, ki so jih različni ljudje uporabljali med brskanjem po določeni spletni strani. Med njimi so brskalniki, kot so Internet Explorer, Google Chrome, Lynx itd.

Vrsta internetne povezave je lahko Lan / Modem / Wifi. Za celoten seznam si oglejte spodnjo sliko:

Na naslednji sliki boste našli seznam držav, iz katerih je spletno mesto pritegnilo občinstvo, skupaj z njihovimi osebnimi dokumenti.

Ko zberemo vse nabore podatkov, moramo zagnati lupino Pig's Grunt, ki se zažene za izvajanje ukazov Pig.

Prva stvar, ki jo moramo storiti pri zagonu lupine Grunt, je nalaganje podatkov Clickstream v povezavo Pig. Relacija ni nič drugega kot miza. Spodaj je ukaz, ki ga uporabljamo za nalaganje datoteke, ki prebiva v HDFS, na Pigov odnos.

Shemo relacije lahko preverimo z ukazom description click_stream.

Zdaj moramo dodati referenčne datoteke, ki bodo vsebovale podrobnosti o seznamu držav z njihovimi ID-ji in različnimi vrstami brskalnikov ter njihovimi ID-ji.

Zdaj imamo dve referenčni datoteki, vendar ju je treba povezati, da se tvori relacija.
Zaženemo ukaz connection_ref, da označimo vrsto povezave.

Zdaj, ko imamo delujočo povezavo in vzpostavljeno zvezo, vam bomo pokazali, kako lahko spremenimo te podatke.
Za vsak zapis v Clickstreamu bomo ustvarili nov zapis v drugačni obliki, tj. Preoblikovane podatke. Nova oblika bo vključevala polja, kot so časovni žig, vrsta brskalnika, ID-ji držav in nekaj drugih.

Za obrezovanje velikih podatkov lahko izvedemo operacijo filtra. Uporabniki so različni tipi skrbnikov, gostov ali botov. V naši predstavitvi sem filtriral seznam za goste.

Če se spomnite, je ID države prisoten v Clickstreamu in naložili smo datoteko country_ref, ki vsebuje imena držav skupaj z njihovimi ID-ji. Tako lahko izvedemo operacijo Združevanja med obema datotekama in združimo podatke, da dobimo vpoglede.

Če smo se povezali s podatki, potem lahko z razvrščanjem v skupine ugotovimo, v katerih državah so uporabniki. Ko imamo te podatke, lahko izvedemo operacijo štetja, da določimo število uporabnikov iz določene države.

Nobena raketna znanost ni pridobivati ​​vpogled iz velikih podatkov. To je le nekaj številnih funkcij, ki sem jih uvedel, in z orodji, kot so Hive, Hbase, Oozie, Sqoop in Flume, je zaklad podatkov še treba raziskati. Tisti, ki se zadržujete pri učenju Hadoopa, je čas, da se spremenite.

Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.

class vs vmesnik v javi

Sorodne objave:

4 načini za skupno uporabo R in Hadoop

Vse o Cloudera certificiranem razvijalcu za Apache Hadoop