Apache Flink: Naslednje generirano ogrodje analitike velikih podatkov za pretočno in serijsko obdelavo podatkov



V tem blogu preberite vse o Apache Flink in nastavitvi gruče Flink. Flink podpira sprotno in serijsko obdelavo ter je za Big Data Analytics nujna tehnologija Big Data.

Apache Flink je odprtokodna platforma za distribucijo pretočnih in paketnih podatkov. Lahko deluje v sistemih Windows, Mac OS in Linux OS. V tej objavi v blogu se pogovorimo o tem, kako lokalno nastaviti grozd Flink. V marsičem je podoben Sparku - ima API-je za obdelavo grafov in strojnega učenja, kot je Apache Spark, vendar Apache Flink in Apache Spark nista popolnoma enaka.





Če želite nastaviti gručo Flink, morate imeti v sistemu nameščeno javo 7.x ali novejšo. Ker imam na koncu nameščen Hadoop-2.2.0 na CentOS (Linux), sem prenesel paket Flink, ki je združljiv s Hadoop 2.x. Zaženite spodnji ukaz za prenos paketa Flink.

Ukaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Odstranite datoteko, da dobite imenik flink.

Ukaz: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Ukaz: ls

V datoteko .bashrc dodajte spremenljivke okolja Flink.

Ukaz: sudo gedit .bashrc

Zagnati morate spodnji ukaz, da bodo spremembe v datoteki .bashrc aktivirane

Ukaz: vir .bashrc

Zdaj pojdite v imenik flink in zaženite gručo lokalno.

Ukaz: cd zajeten-1.0.0

kaj je postopek v sql

Ukaz: bin / start-local.sh

Ko zaženete gručo, boste lahko videli, da se izvaja nov demon JobManager.

Ukaz: jps

Odprite brskalnik in pojdite na http: // localhost: 8081, da si ogledate spletni uporabniški vmesnik Apache Flink.

Zaženimo preprost primer štetja besed z uporabo Apache Flink.

Pred zagonom primera namestite netcat v sistem (sudo yum install nc).

Zdaj v novem terminalu zaženite spodnji ukaz.

Ukaz: nc -lk 9000

Zaženite spodnji ukaz v terminalu flink. Ta ukaz zažene program, ki prevzame pretočne podatke kot vhod in izvede postopek štetja besed na teh pretočnih podatkih.

kako klonirati predmet

Ukaz: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

V spletnem uporabniškem vmesniku boste lahko videli delo v delujočem stanju.

Zaženite spodnji ukaz v novem terminalu, to bo natisnilo pretočne in obdelane podatke.

Ukaz: tail -f log / flink - * - jobmanager - *. out

Zdaj pojdite na terminal, kjer ste zagnali netcat, in vnesite nekaj.

V trenutku, ko na ključni besedi pritisnete gumb za vnos, potem ko ste vtipkali nekaj podatkov na terminalu netcat, bo za te podatke uporabljena operacija štetja besed, izpis pa bo v milisekundah natisnjen tukaj (dnevnik vodnika opravil flinka)!

V zelo kratkem času bodo podatki pretočeni, obdelani in natisnjeni.

O Apache Flink je mogoče izvedeti še veliko več. V našem prihajajočem blogu se bomo dotaknili drugih tem Flink.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

Sorodne objave:

Apache Falcon: nova platforma za upravljanje podatkov za ekosistem Hadoop