4 načini za skupno uporabo R in Hadoop



R in Hadoop se med seboj precej dobro dopolnjujeta v smislu vizualizacije in analitike velikih podatkov. Ta objava v blogu govori o 4 načinih njihove skupne uporabe.

Hadoop je moteč programski okvir na osnovi Jave, ki podpira obdelavo velikih naborov podatkov v porazdeljenem računalniškem okolju, medtem ko je R programski jezik in programsko okolje za statistično računalništvo in grafiko. Jezik R se pogosto uporablja med statistiki in rudarji podatkov za razvoj statistične programske opreme in izvajanje analize podatkov. Na področjih interaktivne analize podatkov, splošne statistike in napovednega modeliranja je R pridobil veliko popularnost zaradi svojih možnosti razvrščanja, združevanja in razvrščanja.

KM





Hadoop in R se med seboj precej dobro dopolnjujeta v smislu vizualizacije in analitike velikih podatkov.

Uporaba R in Hadoop

Obstajajo štirje različni načini uporabe Hadoop in R skupaj:



1. RHadoop

RHadoop je zbirka treh paketov R: rmr, rhdfs in rhbase. rmr paket zagotavlja funkcionalnost Hadoop MapReduce v R, rhdfs zagotavlja upravljanje datotek HDFS v R, rhbase pa upravljanje baze podatkov HBase znotraj R. Vsakega od teh primarnih paketov je mogoče uporabiti za boljšo analizo in upravljanje podatkov okvira Hadoop.

2. ORCH



ORCH pomeni Oracle R Connector za Hadoop. Gre za zbirko paketov R, ki nudijo ustrezne vmesnike za delo s tabelami Hive, računsko infrastrukturo Apache Hadoop, lokalnim okoljem R in tabelami podatkovnih baz Oracle. Poleg tega ORCH ponuja tudi napovedne analitične tehnike, ki jih je mogoče uporabiti za podatke v datotekah HDFS.

3. RIPE

RHIPE je paket R, ki ponuja API za uporabo Hadoopa. RHIPE pomeni R in Hadoop integrirano programsko okolje in je v bistvu RHadoop z drugačnim API-jem.

Štiri. Hadoop pretakanje

sort () v c ++

Hadoop Streaming je pripomoček, ki uporabnikom omogoča ustvarjanje in izvajanje nalog z vsemi izvršljivimi datotekami, kot je preslikavalec in / ali reduktor. Z uporabo pretočnega sistema lahko razvijemo delujoča opravila Hadoop z ravno dovolj znanja Java, da napišemo dve skripti lupine, ki delujeta v tandemu.

Kombinacija R in Hadoop se pojavlja kot nujno potrebno orodje za ljudi, ki delajo s statistiko in velikimi nabori podatkov. Vendar pa so nekateri navdušenci Hadoopa dvignili rdečo zastavo, ko so se ukvarjali z izjemno velikimi fragmenti velikih podatkov. Trdijo, da prednost R ni njegova sintaksa, temveč izčrpna knjižnica primitivov za vizualizacijo in statistiko. Te knjižnice se v bistvu ne distribuirajo, zato je iskanje podatkov zamudno. To je pri R lastna napaka in če jo spregledate, lahko R in Hadoop v tandemu še vedno delata čudeže.

Zdaj pa si oglejmo predstavitev:

Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.

Sorodne objave: