Porazdeljeno predpomnjenje z razširjenimi spremenljivkami: Apache Spark



Ta objava v spletnem dnevniku obravnava porazdeljeno predpomnjenje s spremenljivkami oddajanja in vam daje uvod v učinkovito distribucijo velikih vrednosti v programiranju Spark.

Prispeval Prithviraj Bose





Oddajne spremenljivke so uporabne, kadar je treba velike nabore podatkov predpomniti v izvršiteljih. Ta spletni dnevnik razlaga, kako začeti.

algoritem za razvrščanje lahko uporabimo za razporeditev nabora ________ v ________ vrstnem redu.

Kaj so spremenljivke oddajanja?



Oddajne spremenljivke v Apache Spark so mehanizem za izmenjavo spremenljivk med izvršitelji, ki naj bi bile samo za branje. Brez spremenljivih spremenljivk bi bile te spremenljivke poslane vsakemu izvršitelju za vsako transformacijo in dejanje, kar lahko povzroči obremenitev omrežja. Vendar pa se s spremenljivkami oddajanja enkrat pošljejo vsem izvršiteljem in se shranijo v prihodnje.

Oddajanje spremenljivk Primer uporabe

Predstavljajte si, da moramo med preoblikovanjem poiskati veliko tabelo poštnih številk / kod PIN. Tu velika izvedbena tabela ni izvedljiva niti vsakič mogoče poslati izvršiteljem, niti baze podatkov ne moremo vsakič poizvedovati. Rešitev bi morala biti pretvorba te iskalne tabele v predvajane spremenljivke in Spark jo bo shranil v vsak izvajalec za nadaljnjo uporabo.

Vzemimo preprost primer za razumevanje zgornjih konceptov. Imamo datoteko CSV z imeni držav in njihovih glavnih mest. Datoteko CSV je mogoče najti tukaj .



CSV-file-distributed-caching

Ob predpostavki, da obdelujemo demografske podatke držav in moramo dobiti prestolnico te države. V tem primeru lahko podatke v datoteki CSV pretvorimo v spremenljivo spremenljivko.

Najprej naložimo datoteko CSV na zemljevid, če datoteko najdemo, se metoda vrne Nekatere (države) sicer se vrne Nobenega .

scrum master vloge in odgovornosti pdf

Po uspešnem nalaganju datoteke CSV pretvorimo zemljevid v spremenljivo spremenljivko in jo uporabimo v našem programu.

V zgornjem delčku kode naložimo datoteko CSV na zemljevid držav potem pretvorimo ta zemljevid v spremenljivo spremenljivko countriesCache . Nato iz ključev ustvarite RDD držav . V searchCountryDetails metoda iščemo vse države, začenši z uporabniško določeno črko, metoda pa vrne RDD držav skupaj z njihovimi velikimi črkami. Spremenljivka countrieCache se uporablja za iskanje glavnih mest.
Tako nam ni treba poslati celotnih podatkov CSV vsakič, ko moramo iskati.

Koda za searchCountryDetails je prikazano spodaj,

Najdete lahko celotno izvorno kodo tukaj .

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

kako namestiti php na Windows

Sorodne objave:

Pojasnjeni akumulatorji isker

Apache Spark kombinacijaByKey Explained