Cloudera Hadoop: Uvod v distribucijo CDH



Ta spletni dnevnik Edureka v vadnici Cloudera Hadoop vam bo dal popoln vpogled v različne komponente Cloudere, kot so Cloudera Manager, Parcels, Hue itd.

Z naraščajočim povpraševanjem po velikih podatkih je Apache Hadoop tudiobsrce revolucije je spremenilo način organizacije in izračunavanja podatkov. Potreba organizacij, da Hadoop prilagodijo svojim poslovnim potrebam, je spodbudila pojav komercialnih distribucij. Komercialne distribucije Hadoop so ponavadi opremljene s funkcijami, namenjenimi poenostavitvi uvajanja Hadoop-a. Cloudera Hadoop Distribution ponuja prilagodljivo, prilagodljivo, integrirano platformo, ki olajša upravljanje hitro naraščajočih količin in sort podatkov v vašem podjetju.

V tem blogu o Cloudera Hadoop Distribution bomo obravnavali naslednje teme:





Cloudera Hadoop: Uvod v Hadoop

Hadoop je odprtokodni okvir Apache, ki hrani in obdeluje velike podatke v porazdeljenem okoljučezgrozd z uporabo preprostih programskih modelov. Hadoop omogoča vzporedno računanje na vrhu porazdeljene shrambe.Če želite izvedeti več o Hadoopu v podrobnostih lahko se sklicujete na to

Po tem kratkem uvodu v Hadoop, naj zdaj razložim različne vrste distribucije Hadoop.



Cloudera Hadoop: Porazdelitve Hadoop

Ker je Apache Hadoop odprtokodna, so številna podjetja razvila distribucije, ki presegajo prvotno odprtokodno kodo. To je zelo podobno distribucijam Linuxa, kot so RedHat, Fedora in Ubuntu. Vsaka distribucija Linuxa podpira lastne funkcionalnosti in funkcije, kot je uporabniku prijazen GUI v Ubuntuju. Podobno, rdeč klobuk je priljubljena v podjetjih, ker ponuja podporo in tudi ideologijo za poljubno spreminjanje katerega koli dela sistema. Red Hat vas reši težav z združljivostjo programske opreme. To je običajno veliko vprašanje za uporabnikeki prehajajo iz sistema Windows.

Prav tako obstajajo 3 glavne vrste distribucij Hadoop, ki imajo svoj nabor funkcionalnosti in funkcij in so zgrajene pod osnovnim HDFS.

Cloudera vs MapR vs Hortonworks

Slika: MapR vs Hortonworks vs Cloudera

Slika: MapR vs Hortonworks vs Cloudera



Distribucija Cloudera Hadoop

Cloudera je tržni trend v prostoru Hadoop in je prva, ki je izdala komercialno distribucijo Hadoop. Ponuja svetovalne storitve za premostitev vrzeli med - »kaj ponuja Apache Hadoop« in »tisto, kar organizacije potrebujejo«.

Distribucija Cloudera je:

  • Hitro za posel : Od analitike do znanosti o podatkih in vsega vmesnega, Cloudera zagotavlja zmogljivost, ki jo potrebujete, da sprostite potencial neomejenih podatkov.
  • Hadoop je enostaven za upravljanje : Z Cloudera Manager vam avtomatizirani čarovniki omogočajo hitro razmestitev vaše gruče, ne glede na obseg ali okolje za razmestitev.
  • Varno brez kompromisov: Izpolnjuje stroge potrebe po varnosti podatkov in skladnosti brez žrtvovanja poslovne spretnosti. Cloudera ponuja celostni pristop k varnosti in upravljanju podatkov.

Horton-Works Porazdelitev

Podatkovna platforma Horton-Works (HDP) je v celoti odprtokodna platforma, zasnovana za manevriranje podatkov iz številnih virov in formatov. Platforma vključuje različna orodja Hadoop, kot so Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive in dodatne komponente.

Podpira tudi funkcije, kot so:

  • HDP naredi panj hitreje s svojim novim projektom Stinger.
  • HDP izogiba se zaklepanju prodajalca tako, da se zastavijo na razvejano različico Hadoopa.
  • HDP je osredotočen na izboljšanje uporabnost platforme Hadoop.

Distribucija MapR

MapR je ponudnik rešitev za platformo Hadoop, tako kot HortonWorks in Cloudera. MapR integrira svoj sistem zbirke podatkov, imenovan MapR-DB, hkrati pa ponuja storitve distribucije Hadoop. Trdi se, da je MapR-DB štiri do sedemkrat hitrejši od zaloge Hadoop baze podatkov, tj. HBase, ki se izvaja v drugih distribucijah.

Ima svoje zanimive lastnosti, kot so:

  • To je edina distribucija Hadoop, ki vključuje Pig, Hive in Sqoop brez kakršnih koli odvisnosti Java - saj temelji na sistemu MapR-File.
  • MapR je najbolj produkcijsko pripravljena distribucija Hadoop s številnimi izboljšavami, ki jo naredijo uporabniku prijaznejšo, hitrejšo in zanesljivejšo.

Zdaj pa poglobljeno razpravljajmo o distribuciji Cloudera Hadoop.

Naročite se na naš YouTube kanal in prejemajte nove posodobitve ...

Cloudera Hadoop: Cloudera Distribution

Cloudera je najbolj znan igralec v prostoru Hadoop, ki je izdal prvo komercialno distribucijo Hadoop.

Fig: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution podpira naslednje sklope funkcij:

  1. Clouderin CDH obsega vse odprtokodne komponente, cilja na uvedbe v podjetniškem razredu in je ena izmed najbolj priljubljenih komercialnih distribucij Hadoop.
  2. Cloudera, ki je bila znana po svojih novostih, je prva ponudila SQL-za-Hadoop s svojimi Impala poizvedbeni mehanizem.
  3. Upravljalna konzola - Cloudera Manager , je enostaven za uporabo in izvedbo z bogatim uporabniškim vmesnikom, ki prikazuje vse informacije o gruči na organiziran in čist način.
  4. V CDH lahko storitvam, ki delujejo, dodate storitve brez kakršnih koli motenj.
  5. Drugi dodatki Cloudere vključujejo varnost, uporabniški vmesnik in vmesnike za integracijo s programi drugih proizvajalcev.
  6. CDH zagotavlja Predloge vozlišč torej omogoča ustvarjanje skupine vozlišč v gruči Hadoop z različno konfiguracijo. Izkorenini uporabo iste konfiguracije v celotni gruči Hadoop.
  7. Podpira tudi:
    • Zanesljivost
      Ponudniki Hadoop se takoj odzovejo, kadar koli zaznajo napako. Da bi komercialne rešitve naredili bolj stabilne, se popravki in popravki uvedejo takoj.
    • Podpora
      Ponudniki Cloudera Hadoop nudijo tehnična navodila in pomoč, ki strankam olajšajo uporabo Hadoop-a za naloge na ravni podjetja in kritične aplikacije.

    • Popolnost
      Ponudniki Hadoop svoje distribucije povežejo z različnimi drugimi dodatnimi orodji, ki strankam pomagajo, da aplikacijo Hadoop prilagodijo svojim specifičnim nalogam.

      kaj je podatkovna znanost?

Distribucije Cloudera imajo dve različni izdaji.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Zdaj pa poglejmo razlike med njimi.

Lastnosti Cloudera-Express Cloudera-Enterprise
Upravljanje grozdov
1. Upravljanje z več grozdiDaDa
2. Upravljanje virovDaDa
Uvajanje
1. Podpora za CDH 4 in 5DaDa
2. Tekoča nadgradnja CDHNeDa
Upravljanje storitev in konfiguracije
1. Upravljanje storitev HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark in AccumuloDaDa
2. Tekoči ponovni zagon storitevNeDa
Varnost
1. Preverjanje pristnosti LDAPNeDa
2. Preverjanje pristnosti SAMLNeDa
Spremljanje in diagnostika
1. Zdravstvena zgodovinaDaDa
Upravljanje opozoril
1. Opozorilo po e-poštiDaDa
2. Opozorilo prek SNMPNeDa
Napredne funkcije upravljanja
1. Avtomatizirano varnostno kopiranje in obnovitevNeDa
2. Brskanje po datotekah in iskanjeNeDa
3. Poročila o uporabi MapReduce, Impala, HBase, prejeNeDa

Cloudera Hadoop: Vodja Cloudere

Po mnenju Cloudere je Cloudera Manager najboljši način za to namestite , konfigurirati , upravljati , in monitor sklad Hadoop.

Zagotavlja:

  1. Avtomatizirana razmestitev in konfiguracija
  2. Prilagodljivo spremljanje in poročanje
  3. Robustno enostavno odpravljanje težav
  4. Zero - vzdrževanje izpadov

Pridobite poglobljeno znanje o Cloudera Hadoop in njegovih različnih orodjih

Prikaz upravitelja Cloudere

Raziščimo Cloudera Manager.

1. Spodnja slika prikazuje število storitev, ki se trenutno izvajajo v upravitelju Cloudera. Ogledate si lahko tudi grafikone o uporabi CPU grozda, uporabi IO diska itd.

Slika: Domača stran Cloudera Manager

2. Spodnja slika prikazuje grozd HBase. Prikaže vam grafikone o zdravstvenih razmerah trenutno delujočega strežnika HBase REST.

Slika: Zdravstveni pogoji strežnika HBase

3. Zdaj pa si oglejmo zavihek Primerki grozda HBase, kjer lahko preverite stanje in konfiguracijo IP-ja.

Slika: Stanje in naslov IP gostiteljskega strežnika grozda HBase

4. Nato imate zavihek Konfiguracija. Tu si lahko ogledate vse konfiguracijske parametre in spremenite njihove vrednosti.

Slika: Konfiguracija grozda HBase

Zdaj pa poglejmo, kaj so Parcele v Clouderi.

Cloudera Hadoop: Paketi

Paket je binarna oblika distribucije, ki vsebuje programske datoteke, skupaj z dodatnimi metapodatki, ki jih uporablja Cloudera Manager.

Paketi so samostojni in nameščeni v imeniku z različicami, kar pomeni, da je mogoče namestiti več različic dane storitve vzporedno.

Spodaj so prednosti uporabe paketa:

  • Omogoča distribucijo CDH kot enega samega predmeta, torej namesto, da bi imeli paket za vsak del CDH ločen paket, je treba namestiti samo en predmet.

  • Ponuja notranjo doslednost (ker je celoten CDH razdeljen kot en paket, se vse komponente CDH ujemajo in ne bo nevarnosti, da bodo različni deli prišli iz različnih različic CDH).

  • Pakete lahko z nekaj kliki namestite, nadgradite, znižate, distribuirate in aktivirate pakete v CDH.

Zdaj pa poglejmo, kako namestiti in aktivirati storitev Kafka v CDH s pomočjo paketov.

  1. Pojdite na domačo stran upravitelja Cloudera >> Gostitelji >> Paketi, kot je prikazano spodaj

    Slika: Izbira paketov od gostiteljev

2. Če na seznamu paketov ne vidite Kafke, lahko paket dodate na seznam.

  1. Poiščite paket različice Kafke, ki jo želite uporabiti. Če je ne vidite, lahko na seznam dodate skladišče paketov.
  2. Poiščite paket za različico Kafke, ki jo želite namestiti - Cloudera Distribucija različic Apache Kafka .
    Spodnja slika prikazuje enako.

Slika: Pot skladišča za paket.

3.. Kopirajte povezavo, kot je prikazano na zgornji sliki, in jo dodajte v odlagališče oddaljenih paketov, kot je prikazano spodaj.

Slika: Dodajanje Kafkove poti iz odlagališča

Štiri.Po dodajanju poti bo Kafka pripravljen za prenos. Lahko samo kliknete gumb za prenos in prenesete Kafko.

Slika: Nalaganje Kafke

5. Ko je Kafka prenesena, jo morate le distribuirati in aktivirati.

Slika: Aktiviranje Kafke

Ko je aktiviran, si lahko Kafko ogledate na zavihku storitev v upravitelju Cloudera.

Fig: Kafka storitev

Cloudera Hadoop: Ustvarjanje poteka dela Oozie

Ustvarjanje poteka dela z ročnim pisanjem kode XML in njenim izvajanjem je zapleteno. Lahko se sklicujete na to Načrtovanje opravila Oozie blog, če želite vedeti o tradicionalnem pristopu.

kako uporabljati br v html -

Ogledate si lahko spodnjo sliko, kjer smo napisali datoteko XML za ustvarjanje preprostega poteka dela Oozie. Slika: Ustvarjanje Ooziejevega poteka dela s tradicionalnim pristopom

Kot lahko vidite celo za ustvarjanje preprostega načrtovalnika Oozie, smo morali napisati ogromno kodo XML, ki je zamudna in odpravljanje napak v vsaki vrstici postane okorno. Da bi to premagal, je Cloudera Manager predstavil novo funkcijo, imenovano Hue ki ponuja grafični uporabniški vmesnik in preproste funkcije povleci in spusti za ustvarjanje in izvajanje potekov dela Oozie.

Zdaj pa poglejmo, kako Hue poenostavljeno izvaja isto nalogo.

Pred ustvarjanjem poteka dela najprej ustvarimo vhodne datoteke, to je clickstream.txt in user.txt.
V datoteki user.txt imamo uporabniški ID, ime, starost, državo, spol, kot je prikazano spodaj. To uporabniško datoteko potrebujemo, da vemo, koliko uporabnikov šteje in klikne URL (omenjen v datoteki s kliki) na podlagi ID-ja uporabnika.

Slika: Ustvarjanje besedilne datoteke

Da bi vedeli, koliko uporabnikov klikne posamezen URL, imamo tok klikov, ki vsebuje ID uporabnika in URL.

Slika: Datoteka Clickstream

Zapišimo poizvedbe v datoteko skripta.

Slika: Skriptna datoteka

Po ustvarjanju uporabniške datoteke, datoteke s klikom in datoteke s skripti lahko nadaljujemo in ustvarimo potek dela Oozie.

1. Potek dela Oozie lahko preprosto povlečete in spustite, kot je prikazano na sliki.

Slika: Povlecite in spustite funkcijo ustvarjanja poteka dela Oozie

2. Kmalu po opuščanju dejanja morate določiti poti do datoteke skripta in dodati parametre, omenjene v datoteki skripta. Tukaj morate dodati parametre OUTPUT, CLICKSTREAM in USER in določiti pot do vsakega od parametrov.

<> operator v sql

Slika: Dodajanje skriptne datoteke in potrebnih parametrov za izvedbo dejanja

3. Ko določite poti in dodate parametre, zdaj preprosto shranite in oddajte potek dela, kot je prikazano na spodnji sliki.

Slika: Shranjevanje in oddajanje akcije Oozie

4. Ko oddate nalogo, je vaše delo končano. Za izvedbo in ostale korake skrbi Hue.

Slika: Status izvedbe opravila Oozie

5.Zdaj, ko smo izvedli delo Oozie, si oglejmo zavihek dejanj. Vsebuje ID uporabnika in stanje poteka dela. Prikaže tudi kode napak, če obstajajo, čas začetka in konca elementa dejanja.

Slika: Elementi, ki so na zavihku dejanj poteka dela Oozie

6. Poleg zavihka dejanja je zavihek s podrobnostmi. V tem lahko vidimo začetni čas in zadnji spremenjeni čas opravila.

Slika: Podrobnosti o poteku dela Oozie.

7. Poleg zavihka Podrobnosti imamo zavihek Konfiguracija poteka dela.

Slika: Konfiguracijske nastavitve poteka dela Oozie

7. Če med izvajanjem elementa dejanja pride do napak, bo naveden na zavihku Dnevnik. Lahko se sklicujete na izjave o napakah in jih ustrezno odpravite.

Slika: Dnevnik, ki vsebuje kode napak in izjave o napakah

8. Tu je XML koda poteka dela, ki jo samodejno ustvari Hue.

Slika: Koda XML delovnega toka Oozie

9.1. Kot ste v koraku 2 že določili pot do izhodnega imenika, imate tukaj izhodni imenik v brskalniku HDFS, kot je prikazano spodaj.

Slika: Izhodni imenik brskalnika HDFS

9.2 Ko kliknete izhodni imenik, boste našli besedilno datoteko z imenom output.txt in ta besedilna datoteka vsebuje dejanski izhod, kot je prikazano na spodnji sliki.

Slika: Končno izhodno besedilo

Tako nam Hue olajša delo z zagotavljanjem možnosti povleci in spusti, da ustvari Oozie potek dela.

Upam, da je bil ta dnevnik koristen za razumevanje distribucije Cloudera in različnih komponent Cloudera.

Želite sodelovati v revoluciji velikih podatkov?

Zdaj, ko ste razumeli Cloudera Hadoop Distribution, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, ki se širijo po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma in financ.

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.