java plača razvijalca v Indiji
Hive je sistem skladiščenja podatkov za Hadoop, ki omogoča enostavno povzemanje podatkov, priložnostne poizvedbe in analizo velikih naborov podatkov, shranjenih v datotečnih sistemih, združljivih s Hadoop. Panj strukturira podatke v dobro razumljene koncepte zbirke podatkov, kot so tabele, vrstice, stolpci in particije. Podpira primitivne tipe, kot so cela števila, plovci, dvojnice in nizi. Hive podpira tudi pridružene nize, sezname, strukture in API za serializacijo in deserializacijo, ki se uporablja za premikanje podatkov v in iz tabel.
Oglejmo si podrobno Hive Data Modele
Modeli podatkov o panju:
Podatkovni modeli panj vsebujejo naslednje komponente:
- Zbirke podatkov
- Mize
- Predelne stene
- Vedra ali grozdi
Predelne stene:
Particija pomeni razdelitev tabele na grobo zrnate dele na podlagi vrednosti stolpca particije, kot je 'podatki'. To omogoča hitrejše poizvedovanje po rezinah podatkov
Torej, kakšna je funkcija particije? Prekatni ključi določajo, kako se shranjujejo podatki. Tu vsaka unikatna vrednost particijskega ključa definira particijo tabele. Predelne stene so zaradi udobja poimenovane po datumih. Podobno je 'Block Splitting' v HDFS.
Žlice:
Segmenti dajejo dodatno strukturo podatkom, ki se lahko uporabljajo za učinkovite poizvedbe. Združevanje dveh tabel, ki sta združeni v istih stolpcih, vključno s stolpcem za združevanje, se lahko izvede kot združevanje na strani zemljevida. Segmentiranje z uporabljenim ID-jem pomeni, da lahko uporabniško poizvedbo hitro ocenimo tako, da jo zaženemo na naključnem vzorcu celotnega nabora uporabnikov.
razvrsti matriko c ++ naraščajoče
Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.
Sorodne objave:
dolžina javascripta polja