Pomen znanosti o podatkih s Cassandro



Cassandra je odprtokodna baza podatkov za obdelavo velikih količin podatkov v številnih strežnikih, zato je povpraševanje podatkovnih znanstvenikov z znanjem o cassandri veliko.

'

Hitra širitev digitalnih podatkov prek računalnikov, mobilnih naprav, videa, družbenih medijev, digitalnih senzorjev itd., Skupaj z velikimi preboji v nižji stroškovni procesorski moči, aplikacijami z odprtokodnimi zbirkami podatkov in širšo pasovno širino, je sprožila veliko zanimanje v celotnem poslovnem svetu nastajajoče področje znanosti o velikih podatkih in analitiko.





Veliki podatki v velikih nestrukturiranih količinah so preveliki, da bi jih bilo mogoče upravljati in analizirati s tradicionalnimi metodami. Zaradi velike količine in hitrosti današnjih podatkov je zajemanje, filtriranje, shranjevanje in analiziranje resničen izziv. Za spopadanje s tem se redno razvijajo novi izdelki, ki zahtevajo nova znanja in spretnosti. Vedno bolj so potrebni posamezniki, ki lahko v organizacijo vključijo novo infrastrukturo, platforme in procese, pa tudi tisti, ki lahko zgradijo novo analitiko in algoritme, ki lahko ustvarijo ogromno inteligence velike poslovne vrednosti. Za več informacij preberite naš blog v

Pomembnost podatkovne znanosti v različnih panogah:

Data Science & Analytics se uporablja v vseh panogah:



  • elektronsko poslovanje - mehanizmi za personalizacijo in priporočila, ki povečujejo prodajo.
  • Oglaševanje - Izjemno ciljno usmerjeno prikazovanje oglasov v realnem času potrošnikom.
  • Mediji in zabava - Prilagojen razvoj vsebine, ki poveča angažiranost uporabnikov.
  • Socialni mediji - Povečana »lepljivost«, rast uporabnikov, sposobnost sledenja hitrim trendom na podlagi razpoloženja potrošnikov.
  • Finančne storitve –Optimizirane prakse posojanja, ki zmanjšujejo tveganje in prevare.
  • Farmacija / bioinformatika - Izboljšano odkrivanje zdravil, učinkovitejše zdravljenje nevarnih bolezni, izboljšave genskega inženiringa.
  • Skrb za zdravje - boljše točkovanje zdravstvenih bolnikov glede zdravstvenih tveganj ter predvidevanje in zgodnje preprečevanje bolezni.
  • Moč / energija - Inteligentna omrežna inteligenca, učinkovitost uporabe, prihranek energije in zmanjšanje izpadov.
  • Varnost informacij - Izredno izboljšano odkrivanje kraje in spremljanje dragocenih informacij in premoženja podjetja.

Ključne spretnosti strokovnjakov za podatkovne vede:

Domena podatkovne znanosti zahteva strokovnjake, ki:

  • Razume analitiko podatkov in znanost odločanja
  • Dobro poznajo IT
  • Imeti močno poslovno pronicljivost
  • Imeti sposobnost učinkovite komunikacije z odločevalci

Preberi več: Osnovne veščine, ki jih potrebujete za podatkovnega znanstvenika.

Pogoste tehnologije, povezane s prakso znanosti o podatkih:

Tehnologije, povezane z znanostjo o podatkih



  • Zbirke podatkov

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Jeziki

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Panj, Prašič, Lucen, Mahout, Solr

  • Statistika in napovedovanje

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Vizualizacija podatkov

QlikView, Spotfire, Tableau, yWorks, R

  • BI in poročanje

BusinessObjects, Cognos, MicroStrategy

Kaj je Cassandra?

  • Apache Cassandra je odprtokodni sistem za upravljanje porazdeljenih baz podatkov, zasnovan za obdelavo velikih količin podatkov na številnih blagovnih strežnikih.
  • Cassandra zagotavlja visoko razpoložljivost brez ene same točke okvare.
  • Cassandra ponuja robustno podporo za grozde, ki se raztezajo na več podatkovnih centrih, z asinhrono replikacijo brez glavnega vodiča, ki omogoča nizke zakasnitve za vse stranke.

Za več informacij preberite objavo v spletnem dnevniku na .

Kako Data Science uporablja Cassandro?

Cassandra je sramežljiva in sramežljiva porazdeljena baza podatkov z nizkimi zakasnitvami in storitvami z veliko prepustnostjo, ki obdelujejo v realnem času delovne obremenitve, ki obsegajo stotine posodobitev na sekundo in deset tisoče branja na sekundo.

Cassandra Primer uporabe - PROSI:

PROS je podjetje za programsko opremo Big Data, ki v svoji programski opremi ponuja analitično analitiko, ki svojim strankam omogoča analizo njihovih podatkov ter pridobivanje vpogledov in napotkov za optimizacijo upravljanja cen, prodaje in prihodkov.

osnovne podatkovne strukture v javi

Imajo storitev v realnem času, ki izračuna razpoložljivost letalskih prevoznikov, pri čemer dinamično upošteva podatke o nadzoru prihodkov in ravni zalog, ki se lahko spremenijo več sto krat na sekundo.

Za to storitev se zahteva več tisoč krat na sekundo, kar pomeni več deset tisoč podatkovnih iskanj. Njihov zaledni sloj za shranjevanje te storitve je Cassandra.

Za njihovo sprotno rešitev je PROS spoznal potrebo po:

  • Razdeljeni predpomnilnik, ki je zelo na voljo.
  • Preprosto razširljivo.
  • Z arhitekturo brez mojstra.
  • Z replikacijo podatkov v skoraj realnem času celo v podatkovnih centrih.
  • To omogoča branje in pisanje v realnem času.

PROS je ocenil Cassandro glede na Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort in Redis. Apache Cassandra se je zlahka uvrstila na vrh seznama.

PROS in Cassandra

  • PROS uporablja Cassandro kot porazdeljeno bazo podatkov za storitve z majhno zakasnitvijo in visoko prepustnostjo, ki obvladujejo delovne obremenitve v realnem času, ki obsega stotine posodobitev na sekundo in deset tisoč branja na sekundo.
  • Na primer, imajo storitev v realnem času, ki dinamično izračuna razpoložljivost letalskih družb ob upoštevanju podatkov o nadzoru prihodkov in ravni zalog, ki se lahko spremenijo več sto krat na sekundo. Za to storitev se zahteva več tisoč krat na sekundo, kar pomeni na desettisoče podatkovnih iskanj. Njihov zaledni sloj za shranjevanje te storitve je Cassandra. Nekatere njihove ponudbe SaaS uporabljajo Cassandro kot zaledno trgovino za obdelavo kombinacije serijskih delovnih obremenitev v realnem času in Hadoop.
  • Ko govorimo o Hadoopu in Cassandri, podatke izvlečejo iz Cassandre in jih vstavijo v Hadoop ter vodijo serijo in analitiko o tem, nato pa se to vrne nazaj v Cassandro. To se doseže s Cassandrino integracijo Hadoop.
  • Opravila Hadoop potegnejo podatke iz Cassandre, uporabijo transformacije ali analize, specifične za delovna mesta, in podatke potisnejo nazaj v Cassandro. Za to integracijo ne uporabljajo Datastax (uradna izdaja podjetja Cassandra Maintainer) Enterprise, ampak samo odprtokodno namestitev Hadoop s Cassandro.

Modeliranje podatkov s Cassandro:

Ko želimo shraniti shrambo ključ-vrednost z nečim bolj zmogljivim za sprotno kopiranje in distribucijo podatkov, raziskave o Dinamu, izrek CAP in model morebitne skladnosti kažejo, da Cassandra temu modelu povsem ustreza. Ko se več naučimo o zmožnostih modeliranja podatkov, postopoma prehajamo k razgradnji podatkov.

Če nekdo prihaja iz ozadja relacijske baze podatkov z močno semantiko ACID, si mora vzeti čas za razumevanje morebitnega modela skladnosti.

Dobro razumejte Cassandrino arhitekturo in kaj počne pod pokrovom. Z Cassandro 2.0 dobite lahke transakcije in sprožilce, vendar niso enaki tradicionalnim transakcijam z bazami podatkov, ki jih lahko poznate. Na primer, na voljo ni nobenih omejitev tujega ključa - to mora obravnavati lastna aplikacija. Jasno razumevanje primerov uporabe in vzorcev dostopa do podatkov pred modeliranjem podatkov s Cassandro in branje vse razpoložljive dokumentacije je nujno.

Zaključek:

Apache Cassandra se hitro razvija in se učimo in razumemo njegove zmogljivosti - zlasti na strani modeliranja podatkov. Vidimo jo kot porazdeljeno zbirko podatkov NoSQL za naše storitve in rešitve za velike podatke.

Edureka ponuja celovito za tiste, ki želijo postati podatkovni znanstvenik. Tečaj zajema vrsto tehnik Hadoop, R in strojnega učenja, ki zajemajo celotno študijo Data Science. Edureka tudi zagotavlja ki vam pomaga pri obvladovanju baz podatkov NoSQL. Ta tečaj je namenjen zagotavljanju znanja in spretnosti, da postanete uspešen strokovnjak za Cassandra.