Uvod v Apache Hive



Apache Hive je paket za skladiščenje podatkov, zgrajen na vrhu Hadoop-a in se uporablja za analizo podatkov. Panj je namenjen uporabnikom, ki so zadovoljni s sistemom SQL.

Apache Hive je paket za skladiščenje podatkov, zgrajen na vrhu Hadoop-a in se uporablja za analizo podatkov. Panj je namenjen uporabnikom, ki so zadovoljni s sistemom SQL. Podoben je SQL-u in se imenuje HiveQL, ki se uporablja za upravljanje in poizvedovanje po strukturiranih podatkih. Apache Hive se uporablja za abstraktno kompleksnost Hadoopa. Ta jezik omogoča tudi tradicionalnim programerjem zemljevidov / reduktorjev, da priklopijo svoje prilagojene mape in reduktorje. Priljubljena lastnost Hiveja je, da se Java ni treba učiti.





Hive, odprtokodni petabajtni okvir za skladiščenje datumov na osnovi Hadoop, je razvila skupina Data Infrastructure Team na Facebooku. Panj je tudi ena izmed tehnologij, ki se uporablja za obravnavo zahtev na Facebooku. Panj je zelo priljubljen pri vseh uporabnikih na Facebooku in se uporablja za izvajanje tisočih delovnih mest v grozdu s stotimi uporabniki za najrazličnejše aplikacije. Grozd Hive-Hadoop na Facebooku shrani več kot 2PB surovih podatkov in redno dnevno nalaga 15 TB podatkov.

pretvori objekt v matriko php

Oglejmo si nekaj njegovih lastnosti, zaradi katerih je priljubljen in uporabniku prijazen:



  • Programerjem omogoča, da priklopijo Mape in reduktorje po meri.
  • Ima infrastrukturo skladišča podatkov.
  • Ponuja orodja, ki omogočajo enostavno podatkovno ETL.
  • Določa SQL podoben poizvedbeni jezik, imenovan QL.

Primer uporabe panja Apache - Facebook:

Primer panjev - Facebook

Pred uvedbo Hiveja se je Facebook soočil z veliko izzivi, saj se je velikost ustvarjenih podatkov povečala ali pa eksplodirala, zaradi česar je bilo z njimi res težko ravnati. Tradicionalni RDBMS ni mogel obvladati pritiska, zato je Facebook iskal boljše možnosti. Za rešitev te bližajoče se težave je Facebook sprva poskušal uporabiti Hadoop MapReduce, vendar je s težavami pri programiranju in obveznim znanjem v SQL naredil nepraktično rešitev. Panj jim je omogočil premagovanje izzivov, s katerimi so se soočali.

S Hive lahko zdaj izvajajo naslednje:



  • Mize se lahko delijo in sestavljajo
  • Prožnost sheme in razvoj
  • Na voljo so gonilniki JDBC / ODBC
  • Tabele panjev lahko definiramo neposredno v HDFS
  • Razširljivo - vrste, formati, funkcije in skripti

Primer uporabe panja v zdravstvu:

Kje uporabiti panj?

Apache Hive lahko uporabljate na naslednjih mestih:

  • Podatkovno rudarjenje
  • Obdelava dnevnika
  • Indeksiranje dokumentov
  • Stranka se sooča s poslovno inteligenco
  • Prediktivno modeliranje
  • Preizkušanje hipotez

Panjska arhitektura:

Panj je sestavljen iz naslednjih glavnih sestavnih delov:

  • Metastore - za shranjevanje metapodatkov.
  • JDBC / ODBC - Prevajalnik poizvedb in izvršilni mehanizem za pretvorbo poizvedb SQL v zaporedje MapReduce.
  • SerDe in ObjectInspectors - za oblike in vrste podatkov.
  • UDF / UDAF - za uporabniško določene funkcije.
  • Stranke - podobno kot ukazna vrstica MySQL in spletni uporabniški vmesnik.

Sestavni deli panja:

Metastore:

kaj so paketi v javi

Metastore shranjuje informacije o tabelah, particijah, stolpcih v tabelah. Obstajajo trije načini shranjevanja v Metastore: Embedded Metastore, Local Metastore in Remote Metastore. Remote Metastore se bo večinoma uporabljal v produkcijskem načinu.

Omejitve panja:

Panj ima naslednje omejitve in ga v takšnih okoliščinah ni mogoče uporabiti:

  • Ni namenjen za spletno obdelavo transakcij.
  • Zagotavlja sprejemljivo zakasnitev za interaktivno brskanje po podatkih.
  • Ne ponuja poizvedb v realnem času in posodobitev na ravni vrstic.
  • Latenca za poizvedbe Hive je na splošno zelo velika.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.

Sorodne objave:

opis dela razvijalca velikih podatkov

Ukazi za panj