Apache Spark s Hadoop - Zakaj je to pomembno?



Izvajanje Apache Spark s Hadoop v velikem obsegu s strani vodilnih podjetij kaže na njegov uspeh in njegov potencial, ko gre za obdelavo v realnem času.

Hadoop, ogrodje za obdelavo podatkov, ki je postalo platforma zase, postane še boljše, ko so nanj povezane dobre komponente. Nekatere pomanjkljivosti Hadoopa, na primer komponenta MapReduce v Hadoopu, slovijo kot počasne pri analizi podatkov v realnem času.





Vstopite v Apache Spark, sistem za obdelavo podatkov, ki temelji na Hadoopu in je zasnovan tako za serijske kot pretočne delovne obremenitve, zdaj v različici 1.0 in opremljen s funkcijami, ki ponazarjajo, katera dela Hadoop vključuje. Spark deluje nad obstoječimi grozdi Hadoop, da zagotovi izboljšane in dodatne funkcije.

Oglejmo si ključne značilnosti iskre in kako deluje skupaj s Hadoop in .



Ključne prednosti Apache Spark:

img2-R

Sparkine izjemne lastnosti:

  • Hadoop integracija - Spark lahko deluje z datotekami, shranjenimi v HDFS.
  • Sparkova interaktivna lupina - Spark je napisan v Scali in ima svojo različico tolmača Scala.
  • Spark’s Analytic Suite - Spark ima orodja za interaktivno analizo poizvedb, obsežno obdelavo in analizo grafov ter analizo v realnem času.
  • Prožni distribuirani nabori podatkov (RDD) - RDD-ji so porazdeljeni predmeti, ki jih je mogoče predpomniti v pomnilniku, skozi skupino računskih vozlišč. So primarni podatkovni objekti, ki se uporabljajo v Sparku.
  • Porazdeljeni operaterji - Poleg MapReduce obstaja še veliko drugih operaterjev, ki jih lahko uporabljate na RDD.

Prednosti uporabe Apache Spark s Hadoop:

kaj iterator počne v javi
  • Apache Spark se prilega odprtokodni skupnosti Hadoop, stavba na vrhu distribuiranega datotečnega sistema Hadoop (HDFS). Vendar Spark ni vezan na dvostopenjsko paradigmo MapReduce in za nekatere aplikacije obljublja zmogljivost do 100-krat hitrejšo od Hadoop MapReduce.



  • Primerno za algoritme strojnega učenja - Spark ponuja primitive za računalništvo v gruči v pomnilniku, ki uporabniškim programom omogoča, da podatke naložijo v pomnilnik gruče in jih večkrat poizvedujejo.

  • Teči 100-krat hitreje - Programska oprema za analizo Spark lahko tudi pospeši opravila, ki se izvajajo na platformi za obdelavo podatkov Hadoop. Apache Spark, poimenovan 'švicarski nož Hadoop', ponuja možnost ustvarjanja delovnih mest za analizo podatkov, ki lahko delujejo 100-krat hitreje od tistih, ki se izvajajo na standardnem Apache Hadoop MapReduce. MapReduce je bil pogosto kritiziran kot ozko grlo v grozdih Hadoop, ker izvaja opravila v paketnem načinu, kar pomeni, da analiza podatkov v realnem času ni mogoča.

  • Alternativa MapReduce - Spark je alternativa MapReduce. Izvaja naloge v kratkih izbruhih mikroserij, ki so narazen pet sekund ali manj. Zagotavlja tudi večjo stabilnost kot sproti usmerjeni Hadoop-ovi okviri, kot je Twitter Storm. Programsko opremo je mogoče uporabiti za različna opravila, na primer za tekočo analizo podatkov v živo in po zaslugi knjižnice programske opreme, bolj računsko poglobljena dela, ki vključujejo strojno učenje in obdelavo grafov.

  • Podpora za več jezikov - Z uporabo Sparka lahko razvijalci v Java, Scala ali Python napišejo opravila za analizo podatkov z uporabo več kot 80 visokih operaterjev.

  • Podpora knjižnicam - Sparkove knjižnice so zasnovane tako, da z najnovejšimi komercialno podprtimi uvedbami Hadoopa dopolnjujejo vrste procesnih opravil, ki jih bolj agresivno raziskujejo. MLlib izvaja množico običajnih algoritmov strojnega učenja, kot sta naivna Bayesova klasifikacija ali združevanje v skupine Spark Streaming omogoča hitro obdelavo podatkov, vnesenih iz več virov, GraphX ​​pa omogoča izračune na grafičnih podatkih.

  • Stabilen API - Z različico 1.0 Apache Spark ponuja stabilen API (vmesnik za programiranje aplikacij), ki ga razvijalci lahko uporabljajo za interakcijo s Sparkom prek svojih aplikacij. To pomaga pri lažji uporabi Storma pri uvajanju na osnovi Hadoop.

  • Komponenta SPARK SQL - Komponenta Spark SQL za dostop do strukturiranih podatkov omogoča, da se podatki analizirajo skupaj z nestrukturiranimi podatki. Spark SQL, ki je trenutno samo v alfa različici, omogoča izvajanje poizvedb, podobnih SQL, glede podatkov, shranjenih v Apache Hive. Izdvajanje podatkov iz Hadoopa prek poizvedb SQL je še ena različica funkcije sprotnega poizvedovanja, ki se pojavlja okoli Hadoopa.

  • Združljivost Apache Spark s Hadoop [HDFS, HBASE in YARN] - Apache Spark je popolnoma združljiv s Hadoopovim porazdeljenim datotečnim sistemom (HDFS), pa tudi z drugimi komponentami Hadoop, kot sta YARN (Yet Another Resource Negotiator) in HBase distribuirana baza podatkov.

    kaj je metoda javascript

Posvojitelji v industriji:

IT podjetja, kot so Cloudera, Pivotal, IBM, Intel in MapR, so Spark zložila v svoje sklade Hadoop. Podjetje Databricks, ki so ga ustanovili nekateri razvijalci Spark, ponuja komercialno podporo za programsko opremo. Yahoo in NASA med drugim uporabljata programsko opremo za vsakodnevne podatkovne operacije.

Zaključek:

Kar ponuja Spark, bo zagotovo veliko zanimanje tako za uporabnike kot za komercialne prodajalce Hadoopa. Uporabnike, ki želijo uvesti Hadoop in so že zgradili številne svoje analitične sisteme okoli Hadoopa, privlači ideja, da bi lahko Hadoop uporabljali kot sistem za obdelavo v realnem času.

Spark 1.0 jim nudi drugo vrsto funkcij za podporo ali gradnjo lastniških elementov. Pravzaprav je eden od treh velikih prodajalcev Hadoopa, Cloudera, že ponujal komercialno podporo za Spark s svojo ponudbo Cloudera Enterprise. Hortonworks Spark ponuja tudi kot del svoje distribucije Hadoop. Izvajanje Sparka v velikem obsegu s strani vodilnih podjetij kaže na njegov uspeh in potencial pri obdelavi v realnem času.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

Sorodne objave:

pretvorba tipa v c ++