Vadnica za Apache Flume: Twitter Data Streaming



V tem blogu z vadnicami za Apache Flume so razložene osnove Apache Flume in njegove značilnosti. Predstavil bo tudi pretakanje Twitterja z uporabo Apache Flume.

V tem blogu z vadnicami za Apache Flume bomo razumeli, kako Flume pomaga pri pretakanju podatkov iz različnih virov. Toda pred tem naj razumemo pomen zaužitja podatkov. Zaužitje podatkov je začetni in pomemben korak za obdelavo in analizo podatkov ter nato iz njih izpeljati poslovne vrednosti. Obstaja več virov, iz katerih se zbirajo podatki v organizaciji.

Pogovorimo se o še enem pomembnem razlogu, zakaj je Flume postal tako priljubljen. Upam, da ste morda seznanjeni s tem , ki se v industriji izjemno uporablja, saj lahko shranjuje vse vrste podatkov. Flume se lahko zlahka integrira s sistemom Hadoop in odstrani nestrukturirane, pa tudi polstrukturirane podatke na HDFS, kar dopolnjuje moč Hadoopa. Zato je Apache Flume pomemben del ekosistema Hadoop.





V tem blogu z vadnicami za Apache Flume bomo obravnavali:



Ta vadnica za Flume bomo začeli z razpravo o tem, kaj je Apache Flume. Nato bomo razumeli prednosti uporabe Flume.

Vadnica za Apache Flume: Uvod v Apache Flume

Logotip Apache Flume - Vadnica za Apache Flume - EdurekaApache Flume je orodje za vnos podatkov v HDFS. Zbira, združuje in prenaša na HDFS veliko količino pretočnih podatkov, kot so dnevniške datoteke, dogodki iz različnih virov, kot so omrežni promet, družabni mediji, e-poštna sporočila itd.Flume je zelo zanesljiv in distribuiran.

Glavna ideja zasnove Flume je zajemanje pretočnih podatkov z različnih spletnih strežnikov na HDFS. Ima preprosto in prilagodljivo arhitekturo, ki temelji na pretakanju podatkovnih tokov. Je odporen na napake in zagotavlja mehanizem zanesljivosti za toleranco napak in odpravljanje napak.



Potem, ko smo razumeli, kaj je Flume, pojdimo naprej v ta blog Vadnice za Flume in razumemo prednosti Apache Flume. Nato si bomo ogledali arhitekturo Flume in poskušali razumeti, kako deluje v osnovi.

privzeta vrednost za niz v javi

Vadnica za Apache Flume: Prednosti Apache Flume

Apache Flume ima več prednosti, zaradi česar je boljša izbira kot drugi. Prednosti so:

  • Flume je prilagodljiv, zanesljiv, odporen proti napakam in prilagodljiv za različne vire in ponore.
  • Apache Flume lahko shranjuje podatke v centraliziranih trgovinah (tj. Podatki se dobavljajo iz ene same trgovine), kot so HBase in HDFS.
  • Flume je vodoravno prilagodljiv.
  • Če hitrost branja preseže hitrost zapisovanja, Flume zagotavlja stalen pretok podatkov med operacijami branja in pisanja.
  • Flume zagotavlja zanesljivo dostavo sporočil. Transakcije v Flumeu temeljijo na kanalih, kjer se za vsako sporočilo vzdržujeta dve transakciji (en pošiljatelj in en prejemnik).
  • Z uporabo Flume lahko v Hadoop vnesemo podatke iz več strežnikov.
  • Omogoča nam zanesljivo in distribuirano rešitev ter nam pomaga pri zbiranju, združevanju in premikanju velike količine podatkovnih nizov, kot so spletna mesta Facebook, Twitter in e-poslovanje.
  • Pomaga nam, da v HDFS vnesemo podatke o spletnem pretakanju iz različnih virov, kot so omrežni promet, družabni mediji, e-poštna sporočila, dnevniške datoteke itd.
  • Podpira velik nabor vrst in ciljev.

Arhitektura je tista, ki s temi prednostmi daje moč Apache Flume. Zdaj, ko poznamo prednosti Apache Flume, gremo naprej in razumemo arhitekturo Apache Flume.

Vadnica za Apache Flume: Flume Architecture

Zdaj pa razumimo arhitekturo Flume iz spodnjega diagrama:

Obstaja agent Flume, ki prenaša pretočne podatke iz različnih podatkovnih virov v HDFS. Iz diagrama lahko zlahka razumete, da spletni strežnik označuje vir podatkov. Twitter je eden najbolj znanih virov za pretakanje podatkov.

Sredstvo za hlajenje ima 3 komponente: vir, umivalnik in kanal.

    1. Vir : Sprejema podatke iz dohodne usmeritve in jih shrani v kanal.
    2. Kanal : Na splošno je hitrost branja hitrejša od hitrosti pisanja. Tako potrebujemo nekaj medpomnilnika, da se ujema z razliko v hitrosti branja in pisanja. Vmesnik v bistvu deluje kot vmesni pomnilnik, ki začasno shranjuje podatke, ki se prenašajo, in tako preprečuje izgubo podatkov. Podobno kanal deluje kot lokalni pomnilnik ali začasni pomnilnik med virom podatkov in trajnimi podatki v HDFS.
    3. Umivalnik : Nato naša zadnja komponenta, tj. Sink, zbira podatke iz kanala in podatke trajno zapisuje ali zapisuje v HDFS.

Zdaj, ko vemo, kako deluje Apache Flume, si oglejmo praktično, kamor bomo potopili Twitter podatke in jih shranili v HDFS.

Vadnica za Apache Flume: Pretakanje Twitter podatkov

V tem praktičnem delu bomo pretakali podatke s storitve Twitter using Flume in jih nato shranili v HDFS, kot je prikazano na spodnji sliki.

Prvi korak je ustvariti Twitter aplikacijo. Za to morate najprej odpreti ta url: https://apps.twitter.com/ in se prijavite v svoj Twitter račun. Pojdite na ustvarjanje zavihka aplikacije, kot je prikazano na spodnji sliki.

Nato ustvarite aplikacijo, kot je prikazano na spodnji sliki.

Po ustvarjanju te aplikacije boste našli žeton Key & Access. Kopirajte ključ in žeton za dostop. Te žetone bomo predali v našo konfiguracijsko datoteko Flume za povezavo s to aplikacijo.

Zdaj ustvarite datoteko flume.conf v korenskem imeniku flume, kot je prikazano na spodnji sliki. Kot smo že razpravljali, bomo v arhitekturi Flume konfigurirali svoj vir, umivalnik in kanal. Naš vir je Twitter, od koder pretakamo podatke, naš umivalnik pa HDFS, kamor zapisujemo podatke.

V konfiguraciji vira posredujemo vrsto vira Twitter kot org.apache.flume.source.twitter.TwitterSource. Nato posredujemo vse štiri žetone, ki smo jih prejeli od Twitterja. Končno v izvorni konfiguraciji posredujemo ključne besede, za katere bomo prinesli tweet.

V konfiguraciji Sink bomo konfigurirali lastnosti HDFS. Nastavili bomo pot HDFS, format zapisa, vrsto datoteke, velikost serije itd. Končno bomo nastavili pomnilniški kanal, kot je prikazano na spodnji sliki.

Zdaj smo vsi pripravljeni na izvedbo. Izvedimo ta ukaz:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Ko nekaj časa izvajate ta ukaz in nato lahko s tipkami CTRL + C zapustite terminal. Nato lahko nadaljujete v svojem imeniku Hadoop in preverite omenjeno pot, ne glede na to, ali je datoteka ustvarjena ali ne.

dinamično dodeljevanje pomnilnika v c ++

Prenesite datoteko in jo odprite. Dobili boste nekaj, kot je prikazano na spodnji sliki.

Upam, da je ta spletni dnevnik informativen in dodane vrednosti za vas. Če vas zanima več, lahko to storite ki vam govori o velikih podatkih in o tem, kako Hadoop rešuje izzive, povezane z velikimi podatki.

Zdaj, ko ste razumeli Apache Flume, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, razširjenih po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma in financ.

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.