MongoDB s Hadoop in sorodnimi tehnologijami za velike podatke



MongoDB s sistemom Hadoop in s tem povezanimi tehnologijami za velike podatke je zmogljiva kombinacija, ki nudi rešitev za zapletene razmere v analitiki.

Relacijske zbirke podatkov že dolgo časa zadostujejo za obdelavo majhnih ali srednje velikih naborov podatkov. Toda ogromna hitrost naraščanja podatkov onemogoča tradicionalni pristop hrambe in pridobivanja podatkov. To težavo rešujejo novejše tehnologije, ki lahko obdelujejo velike podatke. Hadoop, Hive in Hbase so priljubljene platforme za upravljanje tovrstnih velikih podatkovnih nizov. Podatkovne baze NoSQL ali ne samo SQL, kot je MongoDB, ponujajo mehanizem za shranjevanje in pridobivanje podatkov v modelu doslednosti poražencev s prednostmi, kot so:

  • Horizontalno skaliranje
  • Večja razpoložljivost
  • Hitrejši dostop

Inženirska skupina MongoDB je pred kratkim posodobila MongoDB Connector za Hadoop, da ima boljšo integracijo. Tako uporabniki Hadoopa lažje:





  • Vključite podatke iz MongoDB v realnem času s sistemom Hadoop za globoko analitiko brez povezave.
  • Priključek izpostavlja analitično moč Hadoopovega MapReducea v živo v aplikacijskih podatkih iz MongoDB, s čimer hitreje in učinkoviteje poganja vrednost iz velikih podatkov.
  • Connector predstavlja MongoDB kot datotečni sistem, združljiv s Hadoop, ki omogoča, da opravilo MapReduce bere neposredno iz MongoDB, ne da bi ga prej kopiral v HDFS (datotečni sistem Hadoop), s čimer je odpravljena potreba po premikanju terabajtov podatkov po omrežju.
  • Opravila MapReduce lahko pošiljajo poizvedbe kot filtre, s čimer se izognemo potrebi po skeniranju celotnih zbirk, lahko pa tudi izkoristimo bogate zmogljivosti indeksiranja MongoDB, vključno z geo-prostorskim, besedilnim iskanjem, nizom, sestavljenim in redkim indeksom.
  • Če beremo iz MongoDB, lahko rezultate del Hadoop tudi zapišemo nazaj v MongoDB, da podpirajo operativne procese v realnem času in ad-hoc poizvedbe.

Primeri uporabe Hadoop in MongoDB:

Oglejmo si opis na visoki ravni, kako se MongoDB in Hadoop lahko združita v tipičen niz velikih podatkov. Predvsem imamo:

  • MongoDB se uporablja kot 'Operativna' shramba podatkov v realnem času
  • Hadoop za obdelava in analiza paketnih podatkov brez povezave

Preberite, če želite vedeti, zakaj in kako so MongoDB uporabljala podjetja in organizacije, kot so Aadhar, Shutterfly, Metlife in eBay .



Uporaba MongoDB s Hadoop pri združevanju paketov:

V večini primerov vgrajena funkcionalnost združevanja, ki jo nudi MongoDB, zadostuje za analizo podatkov. V nekaterih primerih pa bo morda potrebno bistveno bolj zapleteno združevanje podatkov. Tu lahko Hadoop zagotovi močan okvir za kompleksno analitiko.

V tem primeru:

  • Podatki se potegnejo iz MongoDB in obdelajo v Hadoopu prek enega ali več opravil MapReduce. Podatke lahko dobite tudi od drugih krajev znotraj teh opravil MapReduce, da razvijete rešitev za več podatkovnih virov.
  • Izhod iz teh opravil MapReduce lahko nato zapišete nazaj v MongoDB za poznejše poizvedbe in za kakršno koli analizo na podlagi ad hoc.
  • Aplikacije, zgrajene na vrhu MongoDB, lahko zato podatke iz paketne analitike uporabijo za predstavitev končnemu odjemalcu ali za omogočanje drugih nadaljnjih funkcij.

Združevanje DB Hadoop Mongo



Uporaba pri skladiščenju podatkov:

V tipični proizvodni nastavitvi se lahko podatki aplikacije nahajajo v več shrambah podatkov, od katerih ima vsak svoj jezik poizvedb in funkcionalnost. Za zmanjšanje zapletenosti v teh scenarijih lahko Hadoop uporabljamo kot podatkovno skladišče in deluje kot centralizirano skladišče podatkov iz različnih virov.

ustvari naključni niz v javi

V tej vrsti scenarija:

  • Periodična MapReduce opravila naložijo podatke iz MongoDB v Hadoop.
  • Ko so podatki iz MongoDB in drugih virov na voljo v Hadoopu, se lahko vpraša večji nabor podatkov.
  • Podatkovni analitiki imajo zdaj na voljo možnost MapReduce ali Pig za ustvarjanje delovnih mest, ki poizvedujejo po večjih naborih podatkov, ki vključujejo podatke iz MongoDB.

Skupina, ki dela za MongoDB, je zagotovila, da se lahko s svojo bogato integracijo s tehnologijami velikih podatkov, kot je Hadoop, dobro integrira v velik podatkovni sklad in pomaga rešiti nekatera zapletena arhitekturna vprašanja pri shranjevanju, pridobivanju, obdelavi, združevanju in skladiščenju podatkov . Spremljajte našo prihajajočo objavo o možnostih za kariero tistih, ki se pridružijo Hadoopu z MongoDB. Če že delate s Hadoopom ali samo pobirate MongoDB, si oglejte tečaje, ki jih ponujamo za MongoDB