Pregled združenja arhitekture grozdov Hadoop 2.0



Apache Hadoop 2.x je sestavljen iz pomembnih izboljšav v primerjavi s Hadoop 1.x. Ta blog govori o združenju arhitekture grozdov Hadoop 2.0 in njegovih sestavnih delih.

Zveza arhitekturnih grozdov Hadoop 2.0

Uvod:

V tem blogu se bom poglobil v Zvezo arhitekturnih grozdov Hadoop 2.0. Apache Hadoop se je od izdaje Apache Hadoop 1.x zelo razvil. Kot veste iz mojega prejšnjega spletnega dnevnika, da sledi glavna / podrejena topologija, kjer NameNode deluje kot glavni demon in je odgovoren za upravljanje drugih podrejenih vozlišč, imenovanih DataNodes. V tem ekosistemu en sam Master Daemon ali NameNode postane ozko grlo in nasprotno, podjetja morajo imeti NameNode, ki je zelo na voljo. Prav ta razlog je postal temelj HDFS Federation Architecture in HA (visoka razpoložljivost) arhitektura .

Teme, ki sem jih obravnaval v tem blogu, so naslednje:





  • Trenutna arhitektura HDFS
  • Omejitve trenutne arhitekture HDFS
  • HDFS Federation Architecture

Pregled trenutne arhitekture HDFS:

Arhitektura HDFS z enim imenskim prostorom - Pregled federacije arhitekturnih grozdov Hadoop 2.0 - Edureka

Kot lahko vidite na zgornji sliki, ima trenutni HDFS dva sloja:



  • Imenski prostor HDFS (NS): Ta plast je odgovorna za upravljanje imenikov, datotek in blokov. Omogoča vse operacije datotečnega sistema, povezane z imenskim prostorom, kot je ustvarjanje, brisanje ali spreminjanje datotek ali imenikov datotek.
  • Sloj za shranjevanje: Sestavljen je iz dveh osnovnih komponent.
    1. Upravljanje blokov : Izvaja naslednje operacije:
      • Redno preverja srčni utrip DataNodes in upravlja članstvo DataNode v gruči.
      • Upravlja poročila o blokih in vzdržuje lokacijo bloka.
      • Podpira blokovne operacije, kot so ustvarjanje, spreminjanje, brisanje in dodelitev lokacije bloka.
      • Vzdržuje faktor replikacije v celotni gruči.

2. Fizično shranjevanje : Upravljajo ga DataNodes, ki so odgovorna za shranjevanje podatkov in s tem omogoča dostop do branja / pisanja do podatkov, shranjenih v HDFS.

kaj je jframe v javi

Torej, trenutna arhitektura HDFS vam omogoča, da imate en sam imenski prostor za gručo. V tej arhitekturi je eno imensko vozlišče odgovorno za upravljanje imenskega prostora. Ta arhitektura je zelo priročna in enostavna za izvedbo. Zagotavlja tudi zadostne zmogljivosti za zadovoljevanje potreb majhnega proizvodnega grozda.

Omejitve trenutnega HDFS:

Kot smo že omenili, je sedanji HDFS zadostoval potrebam in primerom uporabe majhnega proizvodnega grozda. Toda velike organizacije, kot je Yahoo, je Facebook našel nekatere omejitve, ko je grozd HDFS eksponentno naraščal. Na hitro si oglejmo nekatere omejitve:



  1. Imenski prostor je ni razširljivo kot DataNodes. Tako imamo lahko v gruči le toliko podatkovnih vozlišč, ki jih lahko obravnava posamezno NameNode.
  2. Dve plasti, tj. Plast imenskega prostora in plast pomnilnika sta tesno povezani kar zelo otežuje nadomestno izvajanje NameNode.
  3. Učinkovitost celotnega sistema Hadoop je odvisna od pretočnost NameNode. Zato je celotna uspešnost vseh operacij HDFS odvisna od tega, koliko nalog NameNode lahko obvlada v določenem trenutku.
  4. NameNode shrani celoten imenski prostor v RAM za hiter dostop. To vodi do omejitev glede velikost pomnilnika tj. Število predmetov imenskega prostora (datotek in blokov), s katerimi se lahko spopade en strežnik imenskega prostora.
  5. Mnoge organizacije (prodajalci), ki imajo uvedbo HDFS, omogočajo več organizacijam (najemnikom), da uporabljajo svoj imenski prostor gruč. Torej ločitev imenskega prostora ni in zato tudi obstaja brez izolacije med najemniškimi organizacijami, ki uporabljajo grozd.

Arhitektura zveze HDFS:

  • V HDFS Federation Architecture imamo horizontalno razširljivost storitve imen. Zato imamo več imenskih vozlišč, ki so zvezna, torej neodvisna drug od drugega.
  • Vozlišča podatkov so prisotna na dnu, tj. Osnovni sloj za shranjevanje.
  • Vsako DataNode se registrira z vsemi NameNodes v gruči.
  • DataNodes prenašajo periodične srčne utripe, blokirajo poročila in obravnavajo ukaze iz NameNodes.

Slikovna predstavitev HDFS Federation Architecture je podana spodaj:

Preden grem naprej, naj na kratko spregovorim o zgornji arhitekturni podobi:

  • Obstaja več imenskih prostorov (NS1, NS2,…, NSn) in vsakega od njih upravlja svoje ImeNode.
  • Vsak imenski prostor ima svoje področje blokov (NS1 ima področje 1, NSk ima področje k itd.).
  • Kot je prikazano na sliki, so bloki iz področja 1 (nebesno modri) shranjeni v DataNode 1, DataNode 2 itd. Podobno bodo vsi bloki iz vsakega področja blokov nastanjeni na vseh DataNodes.

Zdaj pa podrobno razumemo sestavne dele HDFS Federation Architecture:

Block Pool:

Blok blokov ni nič drugega kot nabor blokov, ki pripadajo določenemu imenskemu prostoru. Tako imamo zbirko blokovnega področja, kjer se vsak blokovni bazen upravlja neodvisno od drugega. Ta neodvisnost, pri kateri se vsako področje blokov upravlja neodvisno, omogoča imenskemu prostoru, da ustvari ID-je blokov za nove bloke brez usklajevanja z drugimi prostori imen. Podatkovni bloki, ki so prisotni v celotnem področju blokov, so shranjeni v vseh DataNodes. V bistvu področje blokov zagotavlja abstrakcijo, tako da lahko podatkovne bloke, ki prebivajo v DataNodes (kot v arhitekturi enotnega imenskega prostora), združimo v določen imenski prostor.

Prostornina imenskega prostora:

Prostor imenskega prostora ni nič drugega kot imenski prostor, skupaj z bazenom blokov. Zato imamo v federaciji HDFS več zvezkov imenskega prostora. Je samostojna enota upravljanja, tj. Vsak zvezek imenskega prostora lahko deluje neodvisno. Če se NameNode ali imenski prostor izbriše, se izbriše tudi ustrezno področje blokov, ki se nahaja na DataNodes.

Predstavitev združenja arhitekturnih grozdov Hadoop 2.0 | Edureka

Zdaj mislim, da imate precej dobro predstavo o HDFS Federation Architecture. Gre bolj za teoretični koncept, ki ga ljudje na splošno ne uporabljajo v praktičnem proizvodnem sistemu. Obstaja nekaj težav z izvajanjem zveze HDFS, ki otežujejo uvajanje. Zato je HA (visoka razpoložljivost) arhitektura je prednostno rešiti problem enotne točke neuspeha. Pokrila sem Arhitektura HDFS HA v mojem naslednjem blogu.

Zdaj, ko ste razumeli Hadoop HDFS Federation Architecture, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, razširjenih po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma in financ.

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.