Programiranje prašičev: ustvarite svoj prvi skript za prašiče Apache



Preberite to objavo v blogu, da ustvarite svoj prvi skript Apache Pig. Skripti Apache Pig se uporabljajo za skupno izvajanje nabora ukazov Apache Pig.

Programiranje prašičev: ustvarite svoj prvi skript za prašiče Apache

V našem , zdaj se bomo naučili, kako ustvariti skript Apache Pig. Skripti Apache Pig se uporabljajo za skupno izvajanje nabora ukazov Apache Pig. To pomaga pri zmanjševanju časa in truda, vloženega v pisanje in ročno izvajanje vsakega ukaza, medtem ko to počnete pri programiranju prašičev.Je tudi sestavni del .Ta spletni dnevnik je vodnik po korakih, ki vam bo pomagal ustvariti svoj prvi skript Apache Pig.

kako uporabiti parametre v tabeli

Načini izvajanja skripta Apache Pig

Lokalni način : V 'lokalnem načinu' lahko izvedete prašičji skript v lokalnem datotečnem sistemu. V tem primeru vam ni treba shranjevati podatkov v datotečnem sistemu Hadoop HDFS, temveč lahko delate s podatki, shranjenimi v samem lokalnem datotečnem sistemu.





MapReduce Mode : V načinu MapReduce je treba podatke shraniti v datotečni sistem HDFS, podatke pa lahko obdelate s pomočjo prašičjega skripta.

Apache Pig Script v načinu MapReduce

Recimo, da je naša naloga brati podatke iz podatkovne datoteke in prikazati zahtevano vsebino na terminalu kot izhod.



Vzorčna podatkovna datoteka vsebuje naslednje podatke:

Txt datoteka z informacijami - Apache Pig Script - Edureka

Shranite besedilno datoteko z imenom „information.txt“



Vzorčna podatkovna datoteka vsebuje pet stolpcev Ime , Priimek , MobileNo , Mesto , in Poklic ločeni z tipko zavihek . Naša naloga je prebrati vsebino te datoteke iz HDFS in prikazati vse stolpce teh zapisov.

Za obdelavo teh podatkov s pomočjo Pig mora biti ta datoteka prisotna v Apache Hadoop HDFS.

Ukaz : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Korak 1: Pisanje prašičjega scenarija

Ustvarite in odprite datoteko skripta Apache Pig v urejevalniku (npr. Gedit).

Ukaz : sudo gedit /home/edureka/output.pig

Ta ukaz bo ustvaril datoteko ‘output.pig’ v domačem imeniku uporabnika edureka.

Zapišimo nekaj ukazov PIG v datoteko output.pig.

A = LOAD '/edureka/information.txt' z uporabo PigStorage ('') kot (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Poklic: chararray) B = FOREACH A ustvari FName, MobileNo, Poklic DUMP B

Shranite in zaprite datoteko.

  • Prvi ukaz naloži datoteko ‘information.txt’ v spremenljivko A s posredno shemo (FName, LName, MobileNo, City, Profession).
  • Drugi ukaz naloži zahtevane podatke iz spremenljivke A v spremenljivko B.
  • V tretji vrstici je prikazana vsebina spremenljivke B na terminalu / konzoli.

2. korak: Izvedite Apache Pig Script

Če želite zagnati prašičji skript v načinu HDFS, zaženite naslednji ukaz:

Ukaz : pig /home/edureka/output.pig

Po končani izvedbi pregledajte rezultat. Te spodnje slike prikazujejo rezultate in njihov vmesni zemljevid ter funkcije zmanjšanja.

Spodnja slika prikazuje uspešno izvedbo skripta.

Spodnja slika prikazuje rezultat našega skripta.

Čestitamo za uspešno izvedbo prvega skripta Apache Pig!

Zdaj veste, kako ustvariti in zagnati skript Apache Pig. Zato je naš naslednji blog v bo pokrival, kako ustvari UDF (uporabniško določene funkcije) v Apache Pig in ga zaženite v načinu MapReduce / HDFS.

Zdaj, ko ste ustvarili in izvedli Apache Pig Script, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, ki se širijo po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma in financ.

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.