Vadnica za HDFS: Uvod v HDFS in njegove značilnosti



Ta blog o vadnicah HDFS vam bo pomagal razumeti HDFS ali Hadoop Distributed File System in njegove funkcije. Na kratko boste tudi raziskali njegove ključne sestavine.

Vadnica HDFS

Preden nadaljujem v tem blogu z vadnicami HDFS, naj vas popeljem skozi nekaj norih statistik, povezanih s HDFS:

  • Leta 2010 Facebook trdi, da ima eno največjih shramb HDFS 21 petabajtov podatkov.
  • Leta 2012 Facebook je izjavil, da imajo največjo posamezno skupino HDFS z več kot 100 PB podatkov .
  • In Yahoo ! ima več kot 100.000 CPU čez 40.000 strežnikov teče Hadoop z največjo skupino Hadoop 4.500 vozlišč . Vse povedano, Yahoo! trgovine 455 petabajtov podatkov v HDFS.
  • Pravzaprav je do leta 2013 večina velikih imen v Fortune 50 začela uporabljati Hadoop.

Pretežno za prebavo? Prav. Kot je razloženo v , Hadoop ima dve temeljni enoti - S torage in Obravnavati . Ko rečem, da je del skladiščenja Hadoop, mislim na to HDFS kar pomeni Distribuirani datotečni sistem Hadoop . V tem blogu vas bom predstavil HDFS .





Tukaj bom govoril o:

  • Kaj je HDFS?
  • Prednosti HDFS
  • Značilnosti HDFS

Preden se pogovorimo o HDFS, naj vam povem, kaj je porazdeljeni datotečni sistem?



DFS ali porazdeljeni datotečni sistem:

Distribuirani datotečni sistem govori o upravljanje podatkov , tj. datotek ali map v več računalnikih ali strežnikih. Z drugimi besedami, DFS je datotečni sistem, ki nam omogoča shranjevanje podatkov na več vozliščih ali strojih v gruči in omogoča več uporabnikom dostop do podatkov. Torej v bistvu služi istemu namenu kot datotečni sistem, ki je na voljo v vaši napravi, na primer za Windows z NTFS (New Technology File System) ali za Mac s HFS (Hierarchical File System). Edina razlika je v tem, da v primeru porazdeljenega datotečnega sistema podatke shranjujete v več računalnikih in ne v enem računalniku. Čeprav so datoteke shranjene v celotnem omrežju, DFS organizira in prikaže podatke na tak način, da ima uporabnik, ki sedi v računalniku, občutek, da so vsi podatki shranjeni v tej napravi.

Kaj je HDFS?

Razdeljeni datotečni sistem Hadoop ali HDFS je porazdeljeni datotečni sistem, ki temelji na Javi in ​​vam omogoča shranjevanje velikih podatkov v več vozliščih v gruči Hadoop. Torej, če namestite Hadoop, dobite HDFS kot osnovni sistem za shranjevanje podatkov v shranjenem okolju.

Vzemimo primer, da ga razumemo. Predstavljajte si, da imate na vsakem računalniku deset naprav ali deset računalnikov s trdim diskom 1 TB. Zdaj HDFS pravi, da če namestite Hadoop kot platformo na teh deset naprav, boste HDFS dobili kot storitev za shranjevanje. Distribuirani datotečni sistem Hadoop je razdeljen tako, da vsaka naprava prispeva svoj individualni pomnilnik za shranjevanje kakršnih koli podatkov.



Vadnica HDFS: Prednosti HDFS

1. Porazdeljeno skladišče:

Distribuirana shramba - Vadnica HDFS - Edureka

okrogla dvojnica do int java

Ko dostopite do datotečnega sistema Hadoop Distributed iz katerega koli od desetih računalnikov v gruči Hadoop, se boste počutili, kot da ste prijavljeni v en velik računalnik s kapaciteto 10 TB (skupni prostor za shranjevanje več kot deset naprav). Kaj to pomeni? To pomeni, da lahko shranite eno samo veliko datoteko z 10 TB, ki bo razdeljena med deset naprav (po 1 TB).Tako je ni omejeno na fizične meje vsakega posameznega stroja.

2. Porazdeljeno in vzporedno računanje:

Ker so podatki razdeljeni med stroje, nam omogoča, da to izkoristimo Porazdeljeno in vzporedno računanje . Razumimo ta koncept na zgornjem primeru. Recimo, da traja 43 minut za obdelavo datoteke 1 TB na enem računalniku. Torej, zdaj mi povejte, koliko časa bo trajalo za obdelavo iste datoteke z velikostjo 1 TB, če imate 10 naprav v gruči Hadoop s podobno konfiguracijo - 43 minut ali 4,3 minute? 4,3 minute, prav! Kaj se je zgodilo tukaj? Vsako vozlišče vzporedno deluje z delom datoteke 1 TB. Zato je delo, ki je trajalo 43 minut prej, končano v samo 4,3 minute, ko je bilo delo razdeljeno na deset strojev.

3. Horizontalna razširljivost:

Nenazadnje, pogovorimo se o vodoravno skaliranje ali zmanjšanje v Hadoopu. Obstajata dve vrsti skaliranja: navpično in vodoravno . Pri navpičnem spreminjanju (povečanju) povečate strojno zmogljivost vašega sistema. Z drugimi besedami, nabavite več RAM-a ali CPU-ja in ga dodate obstoječemu sistemu, da postane bolj robusten in zmogljiv. Vendar pa obstajajo izzivi, povezani z vertikalnim skaliranjem ali povečevanjem:

  • Vedno obstaja omejitev, do katere lahko povečate svojo zmogljivost strojne opreme. Torej ne morete še naprej povečevati RAM-a ali CPU-ja naprave.
  • Pri navpičnem skaliranju najprej zaustavite napravo. Nato povečate RAM ali CPU, da postane močnejši sklad strojne opreme. Ko povečate zmogljivost strojne opreme, znova zaženite napravo. Ta čas, ko ustavite sistem, postane izziv.

V primeru vodoravno skaliranje (pomanjšava) , obstoječi gruči dodate več vozlišč, namesto da bi povečali zmogljivost strojne opreme posameznih strojev. In kar je najpomembneje, lahko dodajte več strojev na poti torej brez ustavitve sistema . Zato med zmanjševanjem nimamo časa izpada ali zelene cone, nič takega. Na koncu boste imeli več naprav, ki delujejo vzporedno, da bodo ustrezale vašim zahtevam.

HDFS vadbeni video:

Oglejte si spodnji video, kjer so bili podrobno obravnavani vsi koncepti, povezani s HDFS:

statična funkcija člana v c ++

Vadnica HDFS: Značilnosti HDFS

Te funkcije bomo podrobno razumeli, ko bomo raziskali arhitekturo HDFS v naslednjem blogu z vadnicami HDFS. Za zdaj pa si oglejmo funkcije HDFS:

  • Stroški: HDFS je na splošno nameščen na osnovni strojni opremi, kot je namizje / prenosnik, ki jo uporabljate vsak dan. Torej je zelo ekonomičen glede stroškov lastništva projekta. Ker uporabljamo nizkocenovno osnovno strojno opremo, vam ni treba zapraviti ogromno denarja za zmanjšanje grozda Hadoop. Z drugimi besedami, dodajanje več vozlišč v vaš HDFS je stroškovno učinkovito.
  • Raznolikost in obseg podatkov: Ko govorimo o HDFS, govorimo o shranjevanju ogromnih podatkov, tj. Terabajtov in petabajtov podatkov in različnih vrst podatkov. Tako lahko v HDFS shranite katero koli vrsto podatkov, naj bo to strukturirano, nestrukturirano ali polstrukturirano.
  • Zanesljivost in toleranca napak: Ko shranjujete podatke na HDFS, jih da notranje razdeljene podatke na podatkovne bloke in jih porazdeli po celotni gruči Hadoop. Informacije o tem, kateri podatkovni blok se nahaja na katerem od podatkovnih vozlišč, so zabeležene v metapodatkih. NameNode upravlja metapodatke in DataNodes so odgovorni za shranjevanje podatkov.
    Vozlišče imena tudi podvaja podatke, tj.ohrani več kopij podatkov. Zaradi tega kopiranja podatkov je HDFS zelo zanesljiv in odporen na napake. Torej, tudi če katero koli vozlišče odpove, lahko podatke pridobimo iz replik, ki se nahajajo na drugih podatkovnih vozliščih. Privzeto je faktor replikacije 3. Če shranite 1 GB datoteke v HDFS, bo končno zasedla 3 GB prostora. Vozlišče imena redno posodablja metapodatke in vzdržuje faktor replikacije.
  • Celovitost podatkov: Data Integrity govori o tem, ali so podatki, shranjeni v mojem HDFS, pravilni ali ne. HDFS stalno preverja celovitost shranjenih podatkov glede na svojo kontrolno vsoto. Če ugotovi kakršno koli napako, o tem sporoči vozlišču imena. Nato ime vozlišče ustvari dodatne nove replike in zato izbriše poškodovane kopije.
  • Velika prepustnost: Pretočnost je količina dela, opravljenega v enoti časa. Govori o tem, kako hitro lahko dostopate do podatkov iz datotečnega sistema. V bistvu vam daje vpogled v delovanje sistema. Kot ste videli v zgornjem primeru, kjer smo za izboljšanje računanja skupaj uporabili deset strojev. Tam smo lahko čas obdelave skrajšali z 43 minut na zgolj 4,3 minute saj so vsi stroji delali vzporedno. Zato smo z vzporedno obdelavo podatkov izjemno skrajšali čas obdelave in tako dosegli veliko pretočnost.
  • Lokacija podatkov: Lokalnost podatkov govori o selitvi procesne enote v podatke in ne v podatkovno enoto. V našem tradicionalnem sistemu smo podatke vnašali v aplikacijsko plast in nato obdelali. Toda zdaj, zaradi arhitekture in velikega obsega podatkov, bodo podatki v aplikacijski slojzmanjšati zmogljivost omrežja v opaznem obsegu.Torej v HDFS računski del pripeljemo do podatkovnih vozlišč, kjer so podatki. Zato podatkov ne premikate, temveč program ali postopekdel podatkov.

Zdaj imate kratko predstavo o HDFS in njegovih lastnostih. Toda verjemite mi, to je le vrh ledene gore. V mojem naslednjem , Poglobil se bom v Arhitektura HDFS in razkril bom skrivnosti uspeha HDFS. Skupaj bomo odgovorili na vsa vprašanja, ki se premišljujejo v vaši glavi, kot so:

  • Kaj se zgodi v ozadju, ko berete ali pišete podatke v distribucijskem datotečnem sistemu Hadoop?
  • Kateri so algoritmi, kot je ozaveščanje o nosilcih, zaradi katerih je HDFS tako odporen na napake?
  • Kako Hadoop Distributed File System upravlja in ustvarja replike?
  • Kaj so blokovne operacije?

Zdaj, ko ste razumeli HDFS in njegove funkcije, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, razširjenih po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma in financ.

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.