Operaterji v Apache Pig: 1. del - Relacijski operaterji



Ta objava opisuje operaterje v Apache Pig. Oglejte si to objavo za Operaterji v Apache Pig: 1. del - Relacijski operaterji.

Ta objava govori o operaterjih v Apache Pig.Apache Pig vam omogoča tudi pisanje zapletenih podatkovnih pretvorb brez vedenja Jave, zaradi česar je za .Poglejmo na hitro, kaj je Pig in Pig Latin, in različne načine, v katerih lahko delujejo, preden se odpravimo na operaterje.

Kaj je Apache Pig?

Apache Pig je postopkovni jezik na visoki ravni za poizvedovanje po velikih naborih podatkov s pomočjo Hadoop in Map Reduce Platform. Gre za paket Java, kjer je mogoče skripte izvajati iz katere koli jezikovne izvedbe, ki se izvaja na JVM. To se zelo uporablja v ponavljajočih se procesih.





Apache Pig poenostavlja uporabo Hadoopa, tako da omogoča podobne SQL poizvedbe v porazdeljeni nabor podatkov in omogoča ustvarjanje zapletenih nalog za hitro in učinkovito obdelavo velike količine podatkov. Najboljša lastnost Pig-a je ta, da podpira številne relacijske funkcije, kot so Join, Group in Aggregate.

Vem, da Prašič zveni veliko bolj kot orodje ETL in ima veliko funkcij, skupnih orodjem ETL. Toda prednost Pig pred ETL orodji je v tem, da lahko hkrati deluje na več strežnikih.



Kaj je Apache Pig Latin?

Apache Pig ustvari enostavnejšo abstrakcijo postopkovnega jezika nad Map Reduce, da razkrije bolj podoben vmesnik strukturiranega poizvedbe (SQL) za programe Hadoop, imenovan Apache Pig Latin, zato lahko namesto pisanja ločene aplikacije Map Reduce v Apache napišete en sam skript Prašičja latinica, ki se samodejno vzporedno vzporedno porazdeli po gruči. Z enostavnimi besedami, prašičja latinica, je zaporedje preprostih izjav, ki vnesejo in ustvarijo izhod. Vhodni in izhodni podatki so sestavljeni iz vrečk, zemljevidov, nabora in skalarja.

Načini izvajanja prašičev Apache:

Apache Pig ima dva načina izvajanja:

  • Lokalni način

V 'Lokalnem načinu' bi bili izvorni podatki izbrani iz lokalnega imenika v vašem računalniškem sistemu. Način MapReduce lahko določite z ukazom 'pig -x local'.



Operaterji v Apache Pig - 1

  • MapReduce Mode:

Če želite zagnati Pig v načinu MapReduce, potrebujete dostop do grozda Hadoop in namestitve HDFS. Način MapReduce lahko določite z ukazom 'pig'.

Operaterji prašičev Apache:

Apache Pig Operators je postopkovni jezik na visoki ravni za poizvedovanje po velikih naborih podatkov s pomočjo Hadoop in Map Reduce Platform. Stavek Pig Latin je operater, ki vzame relacijo kot vhod in ustvari drugo relacijo kot izhod. Ti operaterji so glavno orodje, ki ga Pig Latin ponuja za obdelavo podatkov. Omogočajo vam pretvorbo z razvrščanjem, združevanjem, združevanjem, projiciranjem in filtriranjem.

Ustvarimo dve datoteki za zagon ukazov:

Imamo dve datoteki z imenom „prva“ in „druga.“ Prva datoteka vsebuje tri polja: uporabnik, URL in id.

Druga datoteka vsebuje dve polji: url in rating. Ti dve datoteki sta datoteki CSV.

Operaterje Apache Pig lahko razvrstimo med: Relacijski in diagnostični.

Relacijski operaterji:

Relacijski operaterji so glavno orodje, ki ga Pig Latin ponuja za upravljanje s podatki. Omogoča vam pretvorbo podatkov z razvrščanjem, združevanjem, združevanjem, projiciranjem in filtriranjem. Ta oddelek zajema osnovne relacijske operatorje.

OBREMENITEV:

Operator LOAD se uporablja za nalaganje podatkov iz datotečnega sistema ali pomnilnika HDFS v razmerje Pig.

V tem primeru operator Load naloži podatke iz datoteke 'first', da tvori relacijo 'loading1'. Imena polj so user, url, id.

Vodič za vizualni studio za začetnike

ZA VSAKOGAR:

Ta operater generira pretvorbe podatkov na podlagi stolpcev podatkov. Uporablja se za dodajanje ali odstranjevanje polj iz relacije. Za delo s stolpci podatkov uporabite operacijo FOREACH-GENERATE.

FOREACH rezultat:

FILTER:

Ta operater izbere nabora iz relacije, ki temelji na pogoju.

V tem primeru zapis filtriramo iz 'load1', ko je pogoj 'id' večji od 8.

Rezultat filtra:

PRIDRUŽITE SE:

Operator JOIN se uporablja za izvedbo notranjega, enakomernega združevanja dveh ali več relacij na podlagi skupnih vrednosti polja. Operator JOIN vedno izvede notranje združevanje. Notranje združitve prezrejo ničelne tipke, zato jih je smiselno filtrirati pred združitvijo.

V tem primeru združite dve relaciji na podlagi stolpca 'url' iz 'loading1' in 'loading2'.

Pridružite se rezultatu:

NAROČITE PO:

Order By se uporablja za razvrščanje relacije na podlagi enega ali več polj. Razvrščanje lahko izvedete v naraščajočem ali padajočem vrstnem redu s pomočjo ključnih besed ASC in DESC.

V spodnjem primeru razvrščamo podatke v nakladanju2 v naraščajočem vrstnem redu v polju ocen.

NAROČI PO REZULTATU :

IZRAZIT:

Distinct odstrani podvojene nabore v relaciji. Vzemimo vhodno datoteko, kot je prikazano spodaj, ki je amr, sranje, 8 in amr, myblog, 10 dvakrat v datoteki. Ko za podatke v tej datoteki uporabimo ločeno, se podvojeni vnosi odstranijo.

DISTINCT Rezultat:

TRGOVINA:

Trgovina se uporablja za shranjevanje rezultatov v datotečni sistem.

Tukaj varčujemo nakladanje3 podatke v datoteko z imenom shranjevanje na HDFS.

Rezultat TRGOVINE:

SKUPINA:

Operator GROUP združuje nabore z istim ključem skupine (polje ključa). Polje ključa bo nabor, če ima ključ skupine več kot eno polje, sicer bo isto vrsto kot ključ skupine. Rezultat operacije GROUP je razmerje, ki vključuje en tuple na skupino.

V tem primeru skupina th

relacija „nalaganje1“ po URL-ju stolpca.

Rezultat skupine:

SKUPINA:

COGROUP je enak kot operater GROUP. Za berljivost programerji običajno uporabljajo GROUP, kadar gre samo za eno relacijo, in COGROUP, kadar gre za več relacij.

V tem primeru v obeh relacijah združite polji 'loading1' in 'loading2' po url.

REZULTAT SKUPINE:

KRIŽ:

Operator CROSS se uporablja za izračun navzkrižnega zmnožka (kartezični zmnožek) dveh ali več relacij.

Uporaba navzkrižnega proizvoda pri nakladanju1 in nakladanju2.

kako uporabiti iterator v javi -

PREHODNI REZULTAT:

OMEJITEV:

Operator LIMIT se uporablja za omejitev števila izhodnih kompletov. Če je določeno število izhodnih naborov enako ali večje od števila nabora v relaciji, bo izhod vključeval vse nabore v relaciji.

Omejitev Rezultat:

SPLIT:

Operator SPLIT se uporablja za razdelitev vsebine relacije na dve ali več relacij na podlagi nekega izraza. Odvisno od pogojev, navedenih v izrazu.

Razdelite nakladanje2 na dva razmerja x in y. relacija x, ustvarjena z nalaganjem2, vsebuje polja, da je ocena večja od 8, y relacija pa polja, katerih ocena je manjša ali enaka 8.

Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.

Sorodne objave:

Operaterji v Apache Pig - Diagnostični operaterji

Koraki za ustvarjanje UDF v Apache Pig