APACHE FLINK: OGRODJE ANALITIKE VELIKIH PODATKOV NASLEDNJE GENERACIJE

Apache Flink je odprtokodna platforma za distribucijo pretočnih in paketnih podatkov. Lahko deluje v sistemih Windows, Mac OS in Linux OS. V tej objavi v blogu se pogovorimo o tem, kako lokalno nastaviti grozd Flink. V marsičem je podoben Sparku - ima API-je za obdelavo grafov in strojnega učenja, kot je Apache Spark, vendar Apache Flink in Apache Spark nista popolnoma enaka.

Če želite nastaviti gručo Flink, morate imeti v sistemu nameščeno javo 7.x ali novejšo. Ker imam na koncu nameščen Hadoop-2.2.0 na CentOS (Linux), sem prenesel paket Flink, ki je združljiv s Hadoop 2.x. Zaženite spodnji ukaz za prenos paketa Flink.

Ukaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

Odstranite datoteko, da dobite imenik flink.

Ukaz: tar -xvf Downloads / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Ukaz: ls

V datoteko .bashrc dodajte spremenljivke okolja Flink.

Ukaz: sudo gedit .bashrc

Zagnati morate spodnji ukaz, da bodo spremembe v datoteki .bashrc aktivirane

Ukaz: vir .bashrc

Zdaj pojdite v imenik flink in zaženite gručo lokalno.

Ukaz: cd zajeten-1.0.0

kaj je postopek v sql

Ukaz: bin / start-local.sh

Ko zaženete gručo, boste lahko videli, da se izvaja nov demon JobManager.

Ukaz: jps

Odprite brskalnik in pojdite na http: // localhost: 8081, da si ogledate spletni uporabniški vmesnik Apache Flink.

Zaženimo preprost primer štetja besed z uporabo Apache Flink.

Pred zagonom primera namestite netcat v sistem (sudo yum install nc).

Zdaj v novem terminalu zaženite spodnji ukaz.

Ukaz: nc -lk 9000

Zaženite spodnji ukaz v terminalu flink. Ta ukaz zažene program, ki prevzame pretočne podatke kot vhod in izvede postopek štetja besed na teh pretočnih podatkih.

kako klonirati predmet

Ukaz: bin / flink run examples / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

V spletnem uporabniškem vmesniku boste lahko videli delo v delujočem stanju.

Zaženite spodnji ukaz v novem terminalu, to bo natisnilo pretočne in obdelane podatke.

Ukaz: tail -f log / flink - * - jobmanager - *. out

Zdaj pojdite na terminal, kjer ste zagnali netcat, in vnesite nekaj.

V trenutku, ko na ključni besedi pritisnete gumb za vnos, potem ko ste vtipkali nekaj podatkov na terminalu netcat, bo za te podatke uporabljena operacija štetja besed, izpis pa bo v milisekundah natisnjen tukaj (dnevnik vodnika opravil flinka)!

V zelo kratkem času bodo podatki pretočeni, obdelani in natisnjeni.

O Apache Flink je mogoče izvedeti še veliko več. V našem prihajajočem blogu se bomo dotaknili drugih tem Flink.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

Sorodne objave:

Apache Falcon: nova platforma za upravljanje podatkov za ekosistem Hadoop

Apache Flink: Naslednje generirano ogrodje analitike velikih podatkov za pretočno in serijsko obdelavo podatkov

V tem blogu preberite vse o Apache Flink in nastavitvi gruče Flink. Flink podpira sprotno in serijsko obdelavo ter je za Big Data Analytics nujna tehnologija Big Data.

Kategorije

Popular Articles

Matrica zmede v strojnem učenju: rešitev na enem mestu

Tableau vs QlikView - Katero orodje za vizualizacijo podatkov izbrati?

Spark MLlib - knjižnica strojnega učenja Apache Spark

Zakaj je programski jezik Python nujno spreten?

Katere so pogoste napake Git in kako jih odpraviti?

Kako implementirati navidezno funkcijo v C ++?

Zakaj potrebujemo Hadoop za podatkovno znanost?

Ukazi Linuxa v DevOps: mora vedeti vsak DevOps Professional

ISO 9000 v primerjavi s Six Sigmo: Vizualni vodnik

Kako implementirati arhitekturo MVC v Javo?

Kaj je oddaljeno priklic metode v Javi?

Vadnica za Struts 2 - rešitev na enem mestu za začetnike