Drilling Down on Apache Drill, New-Age Query Engine



Ta vadnica Apache Drill vam ponuja vse informacije, ki jih potrebujete za začetek uporabe poizvedbe Apache Drill, uporabo s Hadoop, Big Data & Apache Spark.

Apache Drill je prvi v industriji SQL Engine brez shem. Drill ni prvi motor za poizvedbe na svetu, je pa prvi, ki vzpostavlja natančno ravnovesje med prilagodljivostjo in hitrostjo. Drill je zasnovan tako, da meri na več tisoč vozlišč in poizveduje po petabajtih podatkov z interaktivnimi hitrostmi, ki jih potrebujejo okolja BI / Analytics.





Lahko se integrira z več viri podatkov, kot so Hive, HBase, MongoDB, datotečni sistem, RDBMS. Tudi vhodne oblike, kot so datoteke Avro, CSV, TSV, PSV, Parket, datoteke Hadoop Sequence in številne druge, lahko v programu Drill z lahkoto uporabljate.

Zakaj Apache Drill?

Največja prednost Apache Drill je, da lahko shemo sproti odkrije, ko povprašate po vseh podatkih. Poleg tega lahko za boljšo analitiko deluje z vašimi BI orodji, kot so Tableau, Qlikview, MicroStrategy itd.



Tu je citat industrijskega analitika, ki povzema vrednost Apache Drill:

»Pri Drillu ne gre samo za SQL-on-Hadoop. Gre za SQL-na-skoraj-karkoli, takoj in brez formalnosti. '

- Andrew Burst, Gigaom Research, januar 2015



Drillbit je demon Apache Drill-a, ki se izvaja na vsakem vozlišču v gruči. ZooKeeper uporablja za vso komunikacijo v gruči in maintaisn članstvo v gruči. Odgovorna je za sprejemanje zahtev stranke, obdelavo poizvedb in vrnitev rezultatov stranki. Vrtalni bit, ki prejme zahtevo od stranke, se imenuje 'nadzornik'. Ustvari izvedbeni načrt, fragmenti izvajanja se pošljejo drugim vrtalnim bitom, ki se izvajajo v gruči.

Drillbits-Apache-Drill

Še ena prednost je, da je namestitev in namestitev svedra precej preprosta. Naučimo se, kako namestiti Apache Drill.

Prvi korak je prenos paketa svedrov.

max heap izvedba v javi

Ukaz: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Ukaz: tar -xvf apache-drill-1.5.0.tar.gz

Ukaz: ls

Nato nastavite spremenljivke okolja v datoteki .bashrc.

Ukaz: sudo gedit .bashrc

izvoz DRILL_HOME = / home / edureka / apache-drill-1.5.0

izvoz POT = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Ta ukaz bo posodobil spremembe:

Ukaz: vir .bashrc

Zdaj pojdite v imenik drill conf in uredite datoteko drill-override.conf z ID-jem grozda in gostiteljem in vrati zookeeper, zagnali ga bomo v lokalni gruči.

Ukaz: cd apache-drill-1.5.0

Ukaz: sudo gedit conf / drill-override.conf

Privzeto bo DRILL_MAX_DIRECT_MEMORY 8 GB v drill-env.sh in ga moramo hraniti v skladu s pomnilnikom, ki ga imamo.

Ukaz: sudo gedit conf / drill-env.sh

Če želite sveder namestiti samo v eno vozlišče, lahko uporabite vdelani način, kjer bo deloval lokalno. Ko zaženete ta ukaz, bo samodejno zagnal storitev drillbit.

Ukaz: ./bin/drill-embedded

Za preverjanje namestitve lahko izvedete preprosto poizvedbo.

Ukaz: izberite * med sys.options WHERE vtipkajte = 'SISTEM' in poimenujte 'varnost%'

Če želite preveriti spletno konzolo Apache Drill, moramo v spletnem brskalniku odpreti localhost: 8047.

Poizvedbo lahko zaženete tudi na zavihku Poizvedba.

Če želite vadbo zagnati v porazdeljenem načinu, morate urediti ID gruče in dodati informacije ZooKeeper v drill-override.conf, kot je prikazano spodaj.

Nato moramo na vsakem vozlišču zagnati storitev ZooKeeper. Po tem morate s tem ukazom zagnati storitev drillbit na vsakem vozlišču.

Ukaz: ./bin/drillbit.sh start

Ukaz: jps

Zdaj za ukaz vrtalne lupine uporabimo spodnji ukaz.

Zdaj lahko izvajamo poizvedbe v gruči v porazdeljenem načinu.

theano vs tensorflow vs keras

To je prva objava v dvodelni seriji blogov Apache Drill. Kmalu prihaja drugi blog iz serije.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

Sorodne objave:

Vrtanje na vrtalniku Apache 2. del

Apache Spark Vs Hadoop MapReduce