Veliki podatki v AWS - pametna rešitev za velike podatke



Ta članek vam pomaga razumeti, kako se AWS pametno ukvarja z velikimi podatki. Prav tako prikazuje, kako lahko AWS z lahkoto reši izzive velikih podatkov.

Ideja velikih podatkov preprosto ni nova, je povsod. Učinek velikih podatkov je povsod, od podjetij do znanosti, od vlade do umetnosti itd. Ni boljšega spremljevalca kot za obdelavo in analizo velikih podatkov. V tem članku bom pokazal, kako se AWS spopada z izzivi velikih podatkov in kazalci, ki jih bom pokrival, so naslednji:

Kaj so veliki podatki?

značilnosti velikih podatkov





Velike podatke lahko štejete za množična, hitrostna in / ali raznolika informacijska sredstva, ki zahtevajo stroškovno učinkovite, inovativne oblike obdelave informacij, ki omogočajo boljši vpogled, odločanje in avtomatizacijo procesov.

Veliki podatki obsegajo 5 pomembnih V-jev, ki opredeljujejo značilnosti velikih podatkov. Pogovorimo se o teh, preden se preselimo na AWS.



Kaj je AWS?

obsega veliko različnih izdelkov in storitev za računalništvo v oblaku. Izredno donosna oddelek Amazon ponuja strežnike, shranjevanje, mreženje, oddaljeno računalništvo, e-pošto, mobilni razvoj, skupaj z varnostjo. Poleg tega. AWS sestavljata dva glavna izdelka: EC2, Amazonova storitev navideznih strojev in S3, Amazonov sistem za shranjevanje. V računalniškem svetu je tako velik in prisoten, da je zdaj vsaj desetkrat večji od najbližjega konkurenta in gosti priljubljena spletna mesta, kot sta Netflix in Instagram.

.

AWS je razdeljen na 12 globalnih regij po vsem svetu, od katerih ima vsaka več razpoložljivih con, v katerih so njegovi strežniki.Te oskrbovane regije so razdeljene, da lahko uporabniki določijo geografske omejitve svojih storitev, hkrati pa zagotavljajo varnost z diverzifikacijo fizičnih lokacij, na katerih se hranijo podatki.



Zakaj veliki podatki v AWS?

Znanstveniki, razvijalci in drugi tehnološki navdušenci iz številnih različnih področij izkoriščajo AWS za izvajanje analitike velikih podatkov in soočanje s kritičnimi izzivi naraščajočih V digitalnih informacij. AWS vam ponuja portfelj storitev računalništva v oblaku, ki vam pomagajo pri upravljanju velikih podatkov tako, da znatno zmanjšajo stroške, prilagodijo povpraševanje in povečajo hitrost inovacij.

Spletne storitve Amazon ponujajo a popolnoma integriran portfelj storitev računalništva v oblaku. Poleg tega vam pomaga zgraditi, zavarovati in uvesti aplikacije za velike podatke. Poleg tega pri AWS ne potrebujete strojne opreme za nabavo in infrastrukture za vzdrževanje in spreminjanje. Zaradi tega lahko vire usmerite v odkrivanje novih spoznanj.Ker se nove funkcije nenehno dodajajo, boste vedno lahko izkoristili najnovejše tehnologije, ne da bi se morali dolgoročno zavezati naložbam.

Kako lahko AWS reši izzive velikih podatkov?

Rešitve AWS za velike podatke

AWS ima številne rešitve za vse namene razvoja in uvajanja. Tudi na področju znanosti o podatkih in velikih podatkov je AWS prišel do nedavnega razvoja različnih vidikov ravnanja z velikimi podatki. Preden se lotimo orodij, nam dovolite, da razumemo različne vidike velikih podatkov, za katere lahko AWS ponuja rešitve.

  1. Zaužitje podatkov
    Zbiranje surovih podatkov - transakcij, dnevnikov, mobilnih naprav in še več - je prvi izziv, s katerim se mnoge organizacije srečujejo pri obdelavi velikih podatkov. Dobra platforma za velike podatke olajša ta korak, saj razvijalcem omogoča vnos najrazličnejših podatkov - od strukturiranih do nestrukturiranih - s katero koli hitrostjo - od sprotnega do paketnega.

  2. Shranjevanje podatkov
    Vsaka platforma za velike podatke potrebuje varno, razširljivo in trajno skladišče za shranjevanje podatkov pred ali celo po obdelavi nalog. Glede na vaše posebne potrebe boste morda potrebovali tudi začasne shrambe za prenos podatkov.

  3. Obdelava podatkov
    To je korak, pri katerem se preoblikovanje podatkov zgodi iz surovega stanja v potrošni format - običajno s sortiranjem, združevanjem, združevanjem in celo izvajanjem naprednejših funkcij in algoritmov. Nastali nabori podatkov se shranijo za nadaljnjo obdelavo ali pa so na voljo za uporabo prek orodij za poslovno inteligenco in vizualizacijo podatkov.

  4. Vizualizacija

    Veliki podatki so namenjeni pridobivanju dragocenih vpogledov iz podatkovnih sredstev. V idealnem primeru so podatki na voljo zainteresiranim stranem prek samopostrežne poslovne inteligence in gibčnih orodij za vizualizacijo podatkov, ki omogočajo hitro in enostavno raziskovanje naborov podatkov.

Orodja AWS za velike podatke

V prejšnjih razdelkih smo si ogledali polja v velikih podatkih, kjer lahko AWS ponuja rešitve. Poleg tega ima AWS v svojem arzenalu več orodij in storitev, ki strankam omogočajo zmogljivosti velikih podatkov.

Oglejmo si različne rešitve, ki jih ponuja AWS za obdelavo različnih stopenj, povezanih z obdelavo velikih podatkov

Zaužitje

  1. Kineza

    Amazon Kinesis Firehose je popolnoma vodena storitev za dostavo pretočnih podatkov v realnem času neposredno na Amazon S3. Kinesis Firehose samodejno prilagaja obseg in pretok pretočnih podatkov in ne zahteva stalnega upravljanja. Kinesis Firehose lahko konfigurirate za preoblikovanje pretočnih podatkov, preden jih shranite v Amazon S3.

  2. Snežna kepa
    Lahko uporabiš AWS Snežna kepa za varno in učinkovito selitev množičnih podatkov s krajevnih pomnilniških platform in grozdov Hadoop v vedra S3. Ko ustvarite opravilo v konzoli za upravljanje AWS, samodejno dobite napravo Snowball. Ko prispe Snowball, ga povežite z lokalnim omrežjem, odjemalca Snowball namestite v svoj lokalni podatkovni vir in nato z odjemalcem Snowball izberite in prenesite imenike datotek v napravo Snowball.

Skladiščenje

  1. Amazon S3

Amazon S3 je varno, zelo razširljivo, trajno shranjevanje predmetov z milisekundno zakasnitvijo za dostop do podatkov. S3 lahko shrani kakršno koli vrsto podatkov od koder koli - na spletnih mestih in v mobilnih aplikacijah, poslovnih aplikacijah in podatkih senzorjev ali naprav IoT. Prav tako lahko shrani in pridobi katero koli količino podatkov z neprimerljivo razpoložljivostjo in zgrajen od tal do 99,999999999% (11 devet) trajnosti.

2. Lepilo AWS

Lepilo je popolnoma vodena storitev, ki ponuja podatkovni katalog, s pomočjo katerega bodo podatki v podatkovnem jezeru vidni. Poleg tega lahko izvleče, pretvori in naloži (ETL) za pripravo podatkov za analizo. Poleg tega je vgrajeni katalog podatkov kot trajna shramba metapodatkov za vsa podatkovna sredstva, zaradi česar je vse podatke mogoče iskati in poizvedovati v enem pogledu.

Obravnavati

  1. EMR
    Za obdelavo velikih podatkov z uporabo Spark in Hadoop, Amazon EMR ponuja upravljano storitev, ki omogoča enostavno, hitro in stroškovno učinkovito obdelavo ogromnih količin podatkov. Poleg tega EMR podpira 19 različnih odprtokodnih projektov, vključno z Hadoop , Iskra , in Na voljo so tudi upravljani prenosniki EMR za podatkovno inženirstvo, razvoj znanosti o znanosti in sodelovanje.

  2. Redshift
    Za shranjevanje podatkov, Amazonka Redshift ponuja možnost izvajanja zapletenih, analitičnih poizvedb proti petabajtom strukturiranih podatkov. Prav tako vključuje Redshift Spectrum ki izvaja SQL poizvedbe neposredno proti Exabytes-u strukturiranih ali nestrukturiranih podatkov v S3 brez nepotrebnega premikanja podatkov.

Vizualizacije

  1. Amazon QuickSight

    Za nadzorne plošče in vizualizacije vam Amazon Quicksight ponuja hitro storitev analitike v oblaku. Omogoča enostavno izdelavo osupljivih vizualizacij in bogatih nadzornih plošč. Do njih lahko dostopate iz katerega koli brskalnika ali mobilne naprave.

Demo - analiza podatkov o ogroženih vrstah rastlin in živali v Avstraliji.

V tej predstavitvi bomo uporabili vzorčne podatke o ogroženih rastlinskih in živalskih vrstah iz držav in ozemelj Avstralije. Tu bomo ustvarili EMR gručo in jo konfigurirali za izvajanje večstopenjskih opravil Apache Hive. V gruči EMR bo nameščen Apache Hive. Ta gruča bo uporabila EMRFS kot datotečni sistem, tako da se bodo njene vhodne in izhodne lokacije preslikale v vedro S3. Grozd bo za shranjevanje dnevniških datotek uporabil isto vedro S3.

pretvorba dvojnega v int java

Zdaj bomo v gruči ustvarili številne korake EMR za obdelavo vzorčnega nabora podatkov. Tu bo v vsakem od teh korakov zagnan Hive skript, končni izhod pa bo shranjen v vedro S3. Ti koraki bodo ustvarili dnevnike MapReduce in to zato, ker se ukazi Hive v času izvajanja prevedejo v opravila MapReduce. Datoteke dnevnika za vsak korak so združene iz vsebnikov, ki jih ustvari.

Vzorčni podatki

Vzorčni nabor podatkov za ta primer uporabe je javno dostopen pri Spletno mesto odprtih podatkov avstralske vlade . Ta niz podatkov govori o ogroženih živalskih in rastlinskih vrstah iz različnih držav in ozemelj Avstralije. Ogled in prenos datoteke polj tega nabora podatkov in datoteke CSV tukaj .

Koraki obdelave

Prvi korak opravila EMR tukaj vključuje ustvarjanje tabele Hive kot sheme za osnovno izvorno datoteko v S3. V drugem koraku dela bomo zdaj izvedli uspešno poizvedbo glede podatkov. Podobno bomo izvedli še tretjo in četrto poizvedbo.

Te štiri korake bomo nekajkrat ponovili v eni uri in simulirali zaporedne teke večstopenjskega serijskega posla. V resničnem scenariju pa bi bila lahko časovna razlika med vsakim zagonom serije veliko večja. Majhna časovna vrzel med zaporednimi teki naj bi pospešila naše testiranje.

Žlica in mape S3

Preden smo ustvarili EMR gručo, smo tukaj morali ustvariti vedro S3 za gostovanje njenih datotek. V našem primeru imenujemo to vedro 'arvind1-bucket'. Mape pod tem vedrom so spodaj prikazane v konzoli AWS za S3:

  • V vhodni mapi so vzorčni podatki

  • Mapa skriptov vsebuje datoteke skripta Hive za korake opravila EMR

  • V izhodni mapi bo očitno shranjen izhod programa Hive

  • Skupina EMR uporablja mapo dnevniki za shranjevanje svojih dnevniških datotek.

Hive Scripts for EMR Job Steps

1. Ta korak opravi skript Hiveda ustvarite zunanjo tabelo panj. Ta tabela opisuje tabelarno shemo osnovne podatkovne datoteke CSV. Skript za to je naslednji:

USTVARI ZUNANJO TABELO `ogrožene vrste '(niz' znanstvenega imena ', niz' splošno ime ', niz' trenutno znanstveno ime ', niz' ogroženo stanje ', niz' dejanje ', niz' nsw ', niz' nt ',` qld` niz, `sa` niz,` tas` niz, `vic` niz,` wa` niz, `aci` niz,` cki` niz, `ci` niz,` csi` niz, `jbt` niz,` nfi` niz, niz 'hmi', niz 'aat', niz 'cma', 'navedena velika količina sprat taxonid', 'bigint trenutne količine taksonov', niz 'kraljestva', niz 'razreda', niz profila 'datum izvlečen' niz, niz `ime nsl, niz` družina`, niz `rod`, niz` vrsta`, niz `infraspecifični rang`, niz` vrsta vrste`, niz `avtor avtorja`, niz` vrsta avtorja`) VRSTNA OBLIKA DELIMIRANA POLJA PREKINJA Z ',' SKLADIŠČENO KOT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket

2. Ta korak opravi poizvedbo za izračun petih najbolj ogroženih vrst v državi Novi Južni Wales (NSW). Ime datoteke poizvedbe Hive je ogroženeVrsteNSW.q in prikazano spodaj:

IZBERITE vrste, ŠTEVILO (nsw) KOT število_endangered_species OD grozno_vrste WHERE (nsw = 'Da' ALI nsw = 'Ogroženo') IN 'ogroženo stanje' = 'Ogroženo' RAZVRSTITEV PO VRSTAH, KI IMAJO ŠTEVILO (nsw)> 1 NAROČI PO število_of_endangered_species DESC LIMIT 5

3.Ta korak opravi poizvedbo za izračun skupnega števila ogroženih rastlinskih vrst za vsako rastlinsko družino v Avstraliji. Ime datoteke poizvedbe Hive jeogroženePlantSpecies.qin je prikazano spodaj

IZBERI družino, ŠTEVILO (vrst) KOT število_endangered_species FROM ogrožene_vrste2 WHERE kraljestvo = 'Plantae' IN 'ogroženo stanje' = 'Ogroženo' GROUP BY family

4. V tem koraku so navedena znanstvena imena izumrlih živalskih vrst v avstralski državi Queensland. Datoteka skripta se pokliče extinctAnimalsQLD.q in je prikazano spodaj:

IZBERITE 'splošno ime', 'znanstveno ime' FROM ogrožene_vrste WHERE kraljestvo = 'Animalia' IN (qld = 'Da' ALI qld = 'Izumrlo') IN 'ogroženo stanje' = 'Izumrlo'

Združevanje dnevnikov

Tukaj smo naložili tudi datoteko JSON z imenom logAggregation.json v mapo s skripti v vedru S3. To datoteko uporabljamo za združevanje dnevniških datotek YARN. Združevanje dnevnikov je konfigurirano v konfiguracijski datoteki yarn-site.xml, ko se gruča zažene. Vsebina datoteke logAggregation.json je naslednja:

kaj je char v javi

[{“Klasifikacija”: “preja-mesto”, “Lastnosti”: {“yarn.log-aggregation-enable”: “true”, “yarn.log-aggregation.retain-seconds”: “-1”, “preja .nodemanager.remote-app-log-dir ':' s3: // arvind1-vedro / dnevniki '}}]

Ko ustvarite vedro S3 in kopirate datoteke s podatki in datotekami v njihove mape, je zdaj čas, da nastavite EMR gručo. Naslednji posnetki opisujejo postopek, ko ustvarjamo gručo z večinoma privzetimi nastavitvami.

Nastavitev EMR grozda

Na prvi sliki smo za konfiguracijo gruče v konzoli AWS obdržali vse aplikacije, ki jih priporoča EMR, vključno s Hive. Za shranjevanje metapodatkov o panju nam ni treba uporabiti lepila AWS, prav tako pa trenutno ne dodajamo nobenega koraka za opravilo. Vendar moramo dodati nastavitev programske opreme za Hive. Tu morate pozorno opazovati, kako v tem polju podajamo pot do datoteke JSON za združevanje dnevnikov.

V naslednjem koraku smo ohranili vse privzete nastavitve. Zaradi našega testa bo imela grozd eno glavno vozlišče in dve jedrni vozlišči. Vsako vozlišče tukaj je primerek m3.xlarge in ima 10 GB korenskega volumna. V naslednjem koraku poimenujemo gručo arvind1-cluster in določimo lokacijo s3 po meri za njene dnevniške datoteke.

Nazadnje smo za dostop do glavnega vozlišča grozda določili par ključev EC2. Privzete vloge IAM za možnosti EMR, profil primerka EC2 in možnosti samodejnega spreminjanja niso spremenjene. Tudi glavno in jedrno vozlišče privzeto uporabljata razpoložljive varnostne skupine. Običajno je to privzeta nastavitev za EMR gručo. Ko je vse pripravljeno, je grozd v stanju »čakanja«, kot je prikazano spodaj:

Predložite Hive Job Steps

Po tem moramo dovoliti dostop SSH.

  1. Odprite konzolo Amazon EMR na https://console.aws.amazon.com/elasticmapreduce/ .
  2. Izberite Grozdi .
  3. Izberite Ime grozda.
  4. Spodaj Varnost in dostop izberite Varnostne skupine za Master povezava.
  5. Izberite ElasticMapReduce-master s seznama.
  6. Izberite Vhodno , Uredi .
  7. Poiščite pravilo z naslednjimi nastavitvami in izberite x ikono, da jo izbrišete:
    • Tip SSH
    • Pristanišče 22.
    • Vir Po meri 0.0.0.0/0
  8. Pomaknite se na dno seznama pravil in izberite Dodaj pravilo .
  9. Za Tip , izberite SSH .To samodejno vstopi TCP za Protokol in 22. za Port Range .
  10. Za vir izberite Moj IP .To samodejno doda naslov IP vašega odjemalskega računalnika kot izvorni naslov. Lahko pa dodate obseg Po meri zaupanja vreden naslov IP odjemalca in se odločite za dodajte pravilo ustvariti dodatna pravila za druge stranke. V mnogih omrežnih okoljih naslove IP dodelite dinamično, zato boste morda morali redno urejati pravila varnostne skupine, da posodobite naslov IP zaupanja vrednih odjemalcev.
  11. Izberite Shrani .
  12. Neobvezno izberite ElasticMapReduce-slave s seznama in ponovite zgornje korake, da odjemalcu SSH omogočite dostop do vozlišč jedra in nalog od zaupanja vrednih odjemalcev.

Ker je gruča EMR odprta in deluje, smo dodali štiri korake opravil. To so koraki, ki bi jih EMR izvajal eden za drugim. Naslednja slika prikazuje korake iz konzole AWS EMR:

Ko dodamo štiri korake, lahko preverimo stanje teh korakov kot zaključenih. Tudi če je pri izvajanju teh korakov nekaj težav, jih je v takšnih primerih mogoče rešiti z uporabo dnevniških datotek teh korakov.

Torej, to je z moje strani v tem članku o velikih podatkih v AWS. Upam, da ste razumeli vse, kar sem razložil tukaj.

Če se vam zdijo ti veliki podatki v AWS ustrezni, si lahko ogledate Edurekin tečaj v živo in inštruktorje , ki so ga soustvarili strokovnjaki iz industrije.

Imate vprašanje za nas? Prosimo, omenite ga v oddelku za komentarje tega Kako razporediti spletno aplikacijo Java v AWS, mi pa se vam bomo oglasili.