Kako ustvariti Hadoop grozd z Amazon EMR?



V tem članku bomo raziskali storitev AWS EMR, v postopku pa se bomo naučili Kako ustvariti Hadoop grozd z Amazon EMR?

V tem članku o tem, kako ustvariti Grozd Z Amazon EMR bi videli, kako enostavno zagnati in prilagoditi programe Hadoop in Big Data. V tem članku bodo zajeti naslednji napotki:

Nadaljujete s tem Kako ustvariti grozd Hadoop z Amazon EMR?





Kako ustvariti Hadoop grozd z Amazon EMR?

Ko nekaj poiščemo v Googlu ali Yahooju, odgovor dobimo v delčku sekunde. Kako je mogoče, da Google, Yahoo in drugi iskalniki tako hitro vrnejo rezultate iz nenehno rastočega spleta? Iskalniki plazijo po internetu, prenašajo spletne strani in ustvarjajo indeks, kot je prikazano spodaj. Za kakršno koli poizvedbo pri nas s pomočjo indeksa ugotovijo, katere vse spletne strani vsebujejo besedilo, ki smo ga iskali. Če pogledamo spodnji indeks na desni strani, lahko jasno vemo, da Hadoop obstaja na spletnih straneh 1, 2 in 3.

Slika - Kako ustvariti Hadoop grozd z Amazon EMR - EdurekaPotem, PageRanking algoritem se uporablja, kar temelji na tem, kako so strani povezane, da ugotovi, katero stran naj prikaže na vrhu in katero na dnu. V spodnjem scenariju je W1 'najbolj priljubljen', ker se vsi povezujejo z njim, W4 pa je 'najmanj priljubljen', saj ga nihče ne povezuje. Torej, W1 je prikazan zgoraj in W4 spodaj v rezultatih iskanja.



Z eksplozijo spletnih strani so ti iskalniki iskali izzive za ustvarjanje indeksa in izračune PageRanking. Tu se je rodilo Hadoop v Yahooju, kasneje pa je postalo FOSS (brezplačna in odprtokodna programska oprema) v okviru ASF (Apache Software Foundation). Nekoč v času ASF se je veliko podjetij začelo zanimati za Hadoop in začelo prispevati k njegovemu izboljšanju. Hadoop je bil tisti, ki je začel revolucijo velikih podatkov, vendar se je veliko drugih programov, kot so Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, začelo razvijati, da bi odpravilo omejitve in vrzeli v Hadoopu.

Spletni iskalniki so bili prvi, ki so uporabili Hadoop, kasneje pa se je začelo razvijati veliko primerov uporabe, ko se je ustvarjalo vedno več podatkov. Vzemimo primer e-trgovine, ki se uporablja za priporočanje knjig uporabnikom. V skladu s spodnjim diagramom je uporabnik1 kupil knjigo1, knjigo2 in knjigo3, uporabnik2 je kupil nekaj knjig itd. Če natančno pogledamo, lahko opazimo, da imata uporabnik1 in uporabnik2 podoben okus, kot da sta kupila book1 in book2. Tako lahko knjigo3 priporočite uporabniku2 in knjigo4 uporabniku1. Temu pravimo kolaborativno filtriranje, vrsta algoritma strojnega učenja. Spodnji diagram lahko obrnemo in dobimo podobne knjige.

V zgornjem primeru smo ustvarili indeks, PageRanked in priporočil uporabniku, velikost podatkov je bila majhna, zato smo lahko podatke vizualizirali in iz njih sklepali na nekatere rezultate. Ker se velikost podatkov iz dneva v dan veča in je brez nadzora, se tu pojavljajo orodja za velike podatke, kot je Hadoop.



Hadoop rešuje veliko težav, vendar namestitev Hadoopa in druge programske opreme za velike podatke še nikoli ni bila lahka naloga. Obstaja veliko nastavitvenih parametrov, na primer težave z integracijo, namestitvijo in konfiguracijo. Tukaj so podjetja, kot je Cloudera, in Databricks pomagajo. Olajšajo namestitev programske opreme Big Data in nudijo komercialno podporo, na primer recimo, da se nekaj zgodi v proizvodnji. Amazon EMR (Elastic MapReduce) olajša uporabo Hadoopa itd. Ime Elastic MapReduce je nekoliko napačno, saj EMR podpira tudi druge modele porazdeljenega računalništva, kot so elastični porazdeljeni nabori podatkov in ne samo MapReduce.

V tej vadnici bomo raziskali, kako nastaviti oblak EMR v oblaku AWS, v prihodnji vadnici pa bomo raziskali, kako na njej zagnati programe Spark, Hive in druge programe.

Nadaljujete s tem Kako ustvariti grozd Hadoop z Amazon EMR?

Predstavitev: Ustvarjanje EMR grozda v AWS

Korak 1: Pojdite na EMR Management Console in kliknite »Ustvari gručo«. V konzoli so metapodatki za zaključena grozd tudi dva meseca brezplačno. To omogoča, da se zaključena grozd klonira in znova ustvari.

2. korak : Na zaslonu hitrih možnosti kliknite »Pojdi na napredne možnosti«, da določite veliko več podrobnosti o gruči.

3. korak: Na zavihku Napredne možnosti lahko izberemo različno programsko opremo, ki se namesti v gručo EMR. Za vmesnik SQL lahko izberete Hive. Za jezikovni vmesnik pretoka podatkov lahko izberete Pig. Za porazdeljeno koordinacijo aplikacij lahko izberete ZooKeeper itd. Ta zavihek nam omogoča tudi dodajanje korakov, kar je neobvezna naloga. Koraki so opravila za obdelavo velikih podatkov z MapReduce, Pig, Hive itd. Lahko jih dodate v ta zavihek ali kasneje, ko je grozd ustvarjen. Kliknite »Naprej«, da izberete želeno strojno opremo za EMR gručo.

4. korak: Hadoop sledi arhitekturi master-worker, pri kateri poveljnik opravi vsa usklajevanja, na primer razporejanje in dodeljevanje del ter preverjanje njihovega napredka, medtem ko delavci dejansko opravijo obdelavo in shranjevanje podatkov. En sam master je Single-Point-Of-Failure (SPOF). Amazon EMR podpira multi-master za visoko razpoložljivost (HA). Prejšnji korak omogoča nastavitev več-glavne gruče v EMR.

EMR omogoča dve vrsti vozlišč, Core in Task. Jedro vozlišča se uporablja za obdelavo in shranjevanje podatkov, vozlišče opravil pa za samo obdelavo podatkov. Za to vadnico lahko izberemo samo eno jedro in nobenega vozlišča opravil, saj za nas pomeni manj stroškov. Izberite tudi Spot primeri konec Na zahtevo saj so primerki Spot cenejši. Ujem pri primerkih Spot je v tem, da jih lahko AWS samodejno prekine z dve minuti vnaprej . To je v redu zaradi prakse in tudi v nekaterih dejanskih scenarijih. Spoti primerov se samodejno zaključijo, ker imajo nizko prednost pred drugimi vrstami primerkov. Kliknite 'Naprej'.

5. korak: Določite ime grozda. in kliknite 'Naprej'. Upoštevajte, da je »Zaščita pred zaključkom« privzeto vklopljena, s tem zagotovite, da se EMR gruča ne naključno izbriše z uvedbo nekaj korakov med zaključevanjem gruče.

6. korak: V zavihku so določene različne varnostne možnosti za EMR gručo. Za prijavo v primerek EC2 je treba izbrati KeyPair. EMR bo samodejno ustvaril ustrezne vloge in varnostne skupine ter jih pritrdil na glavno in delovno vozlišče EC2. Kliknite »Ustvari gručo«.

Ustvarjanje grozda traja nekaj minut, saj je treba odkupiti primerke EC2 ter namestiti in konfigurirati različno programsko opremo za velike podatke. Sprva bi bilo stanje grozda v stanju »Začetek« in prehod v stanje »Čakanje«. V stanju »Čakanje« grozd EMR preprosto čaka, da predložimo različna opravila za obdelavo velikih podatkov, kot so MR, Spark, Hive itd.

Obvestite tudi iz konzole za upravljanje EC2 in upoštevajte, da morajo biti primerki EC2 glavne in delovne enote v delujočem stanju. To so primeri Spot, ki so bili ustvarjeni kot del ustvarjanja grozda EMR. Isti EC2 lahko opazite tudi na zavihku Strojna oprema v EMR Management Console. Upoštevajte, da je na zavihku Strojna oprema za primere Spot EC2 navedena 0,032 USD / uro. Cena primerov Spot se s časom spreminja in je precej nižja kot pri cenah EC2 na zahtevo.

7. korak: Zdaj, ko je bila skupina EMR uspešno dodana, je mogoče dodati opravila za obdelavo korakov ali velikih podatkov. Pojdite na zavihek Koraki in kliknite na 'Dodaj korak' in izberite vrsto koraka (MR, panj, iskra itd.). Enako bomo raziskali v prihajajoči vadnici. Za zdaj kliknite Prekliči.

8. korak: Zdaj, ko smo videli, kako zagnati EMR, poglejmo, kako ustaviti isto.

Korak 8.1: Kliknite Prekini.

Korak 8.2: Kot je bilo omenjeno v prejšnjih korakih, je za zaščito EMR vklopljena možnost »Zaščita pred zaključkom« in gumb Prekini je onemogočen. Kliknite Spremeni.

Korak 8.3: Izberite izbirni gumb »Izključeno« in kliknite na kljukico. Zdaj mora biti omogočen gumb Prekini. To je dodaten korak, ki ga je EMR uvedel, samo zato, da ne bi pomotoma izbrisali gručo EMR.

Upoštevajte, da bo grozd EMR v končnem statusu, EC2 pa bodo ukinjeni. Končno bo grozd EMR premaknjen v stanje Prekinjeno, od tu pa se naše obračunavanje z AWS ustavi. Prepričajte se, da ste gručo končali, da ne bi imeli dodatnih stroškov AWS.

Zaključek

V tej vadnici smo videli, kako zagnati gručo EMR v nekaj minutah od spletne konzole (brskalnika), isto lahko avtomatiziramo s pomočjo , AWS SDK ali z uporabo Oblikovanje oblaka AWS . Kot smo že opazili, je nastavitev EMR grozda nekaj minut in obdelavo velikih podatkov lahko začnemo takoj, ko je obdelava končana, lahko izhod shranimo v S3 ali DynamoDB in tako zaustavitev gruče, da ustavi obračun. Zaradi tega cenovnega modela in enostavnosti uporabe je EMR velik hit pri tistih, ki se ukvarjajo z obdelavo velikih podatkov. Ni vam treba kupovati strežnikov v velikem številu, pridobiti licenc za programsko opremo Big Data in jih vzdrževati. '

razlika med c c # in c ++

Torej, to je to, fantje, to nas pripelje do konca tega članka o tem, kako ustvariti Hadoop grozd z Amazon EMR?Če želite pridobiti strokovno znanje o tej temi, je Edureka pripravila učni načrt, ki natančno zajema, kaj bi potrebovali, če želite opraviti izpit za arhitekta rešitev! Ogledate si lahko podrobnosti tečaja za usposabljanje.

V primeru kakršnih koli vprašanj, povezanih s tem spletnim dnevnikom, vas prosimo, da postavite vprašanje v spodnji odsek za komentarje in z veseljem vam bomo odgovorili čim prej.