Vadnica za velike podatke: vse, kar morate vedeti o velikih podatkih!



Ta spletni dnevnik o vajah za velike podatke vam ponuja popoln pregled velikih podatkov, njihovih značilnosti, aplikacij in izzivov pri velikih podatkih.

Vadnica za velike podatke

Big Data, še niste slišali tega izraza? Prepričan sem, da ste. V zadnjih 4 do 5 letih vsi govorijo o velikih podatkih. Toda ali resnično veste, kaj točno so ti veliki podatki, kako vplivajo na naše življenje in zakaj organizacije lovijo strokovnjake z ? V tej vadnici za velike podatke vam bom dal popoln vpogled v Big Data.

Spodaj so teme, ki jih bom obravnaval v tej vadnici za velike podatke:





  • Zgodba o velikih podatkih
  • Dejavniki, ki spodbujajo velike podatke
  • Kaj so veliki podatki?
  • Značilnosti velikih podatkov
  • Vrste velikih podatkov
  • Primeri velikih podatkov
  • Aplikacije velikih podatkov
  • Izzivi z velikimi podatki

Vadnica za velike podatke - Edureka

Naj začnem to Vadnico za velike podatke s kratko zgodbo.



Zgodba o velikih podatkih

V starih časih so se ljudje vozili iz ene vasi v drugo s konjskimi vozički, a sčasoma so vasi postale mesta in ljudje so se razširili. Povečala se je tudi razdalja za potovanje od enega do drugega mesta. Tako je postalo problem potovati med mesti, skupaj s prtljago. Na pamet je predlagal en pameten fant, da bi morali več rešiti in nahraniti konja, da bi rešili ta problem. Ko pogledam to rešitev, ni tako slabo, toda ali mislite, da lahko konj postane slon? Mislim, da ne. Še en pameten človek je rekel, da namesto enega konja, ki vleče voz, imejmo 4 konje, ki bodo vlekli isti voz. Kaj mislite o tej rešitvi? Mislim, da je to fantastična rešitev. Zdaj lahko ljudje v krajšem času prepotujejo velike razdalje in imajo celo več prtljage.

Enak koncept velja za velike podatke. Big Data pravi, da smo bili do danes v redu s shranjevanjem podatkov v naše strežnike, ker je bil obseg podatkov precej omejen in tudi čas za obdelavo teh podatkov je bil v redu. Toda zdaj v sedanjem tehnološkem svetu podatki rastejo prehitro in ljudje se na njih velikokrat zanašajo. Tudi s hitrostjo naraščanja podatkov postaja nemogoče shraniti podatke v kateri koli strežnik.

V tem blogu o vajah za velike podatke raziščimo vire velikih podatkov, ki jih tradicionalni sistemi ne uspejo shraniti in obdelati.



php ustvari matriko iz niza

Dejavniki, ki spodbujajo velike podatke

Količina podatkov na planetu Zemlja iz številnih razlogov narašča eksponentno. Različni viri in naše vsakodnevne dejavnosti ustvarjajo veliko podatkov. Z izumom spleta se je ves svet povezal z internetom, vsaka stvar, ki jo počnemo, pušča digitalno sled. S povezovanjem pametnih predmetov se je hitrost rasti podatkov hitro povečala. Glavni viri velikih podatkov so spletna mesta v družabnih omrežjih, senzorska omrežja, digitalne slike / videoposnetki, mobilni telefoni, evidence transakcij nakupov, spletni dnevniki, zdravstveni zapisi, arhivi, vojaški nadzor, e-trgovina, zapletene znanstvene raziskave itd. Vse te informacije znašajo približno nekaj kvintiljonskih bajtov podatkov. Do leta 2020 bo obseg podatkov približno 40 zettabajtov, kar je enako dodajanju vsakega zrnca peska na planetu, pomnoženega s petinsedemdesetimi.

Kaj so veliki podatki?

Veliki podatki so izraz, ki se uporablja za zbiranje naborov podatkov, ki so veliki in zapleteni, kar je težko shraniti in obdelati z uporabo razpoložljivih orodij za upravljanje baz podatkov ali tradicionalnih aplikacij za obdelavo podatkov. Izziv vključuje zajemanje, urejanje, shranjevanje, iskanje, skupno rabo, prenos, analizo in vizualizacijo teh podatkov.

Značilnosti velikih podatkov

Pet značilnosti, ki opredeljujejo velike podatke, so: obseg, hitrost, raznolikost, verodostojnost in vrednost.

  1. GLASNOST

    Količina se nanaša na „količino podatkov“, ki iz dneva v dan raste zelo hitro. Velikost podatkov, ki jih ustvarijo ljudje, stroji in njihove interakcije v družabnih omrežjih, je ogromna. Raziskovalci predvidevajo, da bo do leta 2020 nastalo 40 zettabajtov (40.000 egzabajtov), ​​kar je 300-krat več kot leta 2005.

  2. HITROST

    Hitrost je definirana kot hitrost, s katero različni viri dnevno ustvarjajo podatke. Ta pretok podatkov je ogromen in neprekinjen. Trenutno je v mobilni napravi 1,03 milijarde dnevno aktivnih uporabnikov (Facebook DAU), kar je 22% več kot v enakem obdobju lani. To kaže, kako hitro raste število uporabnikov v družabnih omrežjih in kako hitro se podatki dnevno ustvarjajo. Če ste sposobni obvladati hitrost, boste lahko ustvarili vpoglede in sprejemali odločitve na podlagi podatkov v realnem času.

  3. SORTA

    Ker obstaja veliko virov, ki prispevajo k velikim podatkom, je vrsta podatkov, ki jih ustvarjajo, drugačna. Lahko je strukturiran, polstrukturiran ali nestrukturiran. Zato obstajajo številni podatki, ki se ustvarjajo vsak dan. Prej smo podatke dobivali iz Excela in baz podatkov, zdaj pa podatki prihajajo v obliki slik, zvokov, videoposnetkov, podatkov senzorjev itd., Kot je prikazano na spodnji sliki. Zato ta vrsta nestrukturiranih podatkov ustvarja težave pri zajemanju, shranjevanju, rudarjenju in analiziranju podatkov.

  4. VERAKTNOST

    Resničnost se nanaša na podatke, ki so dvomljivi ali negotovi glede razpoložljivih podatkov zaradi njihove nedoslednosti in nepopolnosti. Na spodnji sliki lahko vidite, da v tabeli manjka nekaj vrednosti. Prav tako je težko sprejeti nekaj vrednosti, na primer - 15000 najmanjše vrednosti v 3. vrstici ni mogoče. Ta nedoslednost in nepopolnost je verodostojnost.
    Podatki, ki so na voljo, so lahko včasih neurejeni in jim je morda težko zaupati. Pri številnih oblikah velikih podatkov je kakovost in natančnost težko nadzorovati, na primer objave na Twitterju s hashtagi, kraticami, tipkarskimi napakami in pogovornim govorom. Obseg je pogosto razlog za pomanjkanje kakovosti in natančnosti podatkov.

    • Zaradi negotovosti podatkov vsak tretji vodja podjetja ne zaupa informacijam, ki jih uporabljajo za sprejemanje odločitev.
    • V raziskavi je bilo ugotovljeno, da 27% vprašanih ni prepričano, koliko njihovih podatkov je netočnih.
    • Slaba kakovost podatkov ameriško gospodarstvo stane približno 3,1 bilijona dolarjev na leto.
  5. VREDNOST

    Po razpravi o količini, hitrosti, raznolikosti in verodostojnosti je še en V, ki ga je treba upoštevati pri pregledu velikih podatkov, tj. Vrednosti. Vse je lepo in dobro imeti dostop do velikegapodatkovampakče ga ne spremenimo v vrednost, je neuporaben. S tem, ko ga spremenim v vrednost, mislim, ali to prinaša koristi organizacijam, ki analizirajo velike podatke? Ali organizacija dela na področju velikih podatkov, da bi dosegla visoko donosnost naložbe? Če ni njihov dobiček z delom na področju Big Data, je neuporaben.

Oglejte si spodnji video o Big Data, če želite izvedeti več o Big Data:

Vadnica za velike podatke za začetnike | Kaj so veliki podatki | Edureka

Kot smo že razpravljali v programu Variety, obstajajo različne vrste podatkov, ki se ustvarjajo vsak dan. Torej, zdaj razumimo vrste podatkov:

Vrste velikih podatkov

Veliki podatki so lahko treh vrst:

  • Strukturirano
  • Polstrukturiran
  • Nestrukturirano

  1. Strukturirano

    Podatki, ki jih je mogoče shraniti in obdelati v določeni obliki, se imenujejo strukturirani podatki. Podatki, shranjeni v sistemu upravljanja relacijske baze podatkov (RDBMS), so en primer 'strukturiranih' podatkov. Strukturirane podatke je enostavno obdelati, saj imajo fiksno shemo. Za upravljanje tovrstnih podatkov se pogosto uporablja strukturiran poizvedbeni jezik (SQL).

  2. Polstrukturiran

    Polstrukturirani podatki so vrsta podatkov, ki nimajo formalne strukture podatkovnega modela, tj. Definicije tabele v relacijskem DBMS, kljub temu pa imajo nekatere organizacijske lastnosti, kot so oznake in drugi označevalniki, da ločijo semantične elemente, kar olajša analizirati. Datoteke XML ali dokumenti JSON so primeri polstrukturiranih podatkov.

  3. Nestrukturirano

    Podatki, ki so v neznani obliki in jih ni mogoče shraniti v RDBMS in jih ni mogoče analizirati, razen če se preoblikujejo v strukturirano obliko, imenujemo nestrukturirani podatki. Besedilne datoteke in večpredstavnostne vsebine, kot so slike, zvoki, videoposnetki, so primer nestrukturiranih podatkov. Nestrukturirani podatki rastejo hitreje kot drugi, strokovnjaki pravijo, da je 80 odstotkov podatkov v organizaciji nestrukturiranih.

Do zdaj sem pravkar obravnaval uvedbo velikih podatkov. Poleg tega ta vadnica za Big Data govori o primerih, aplikacijah in izzivih v Big Data.

Primeri velikih podatkov

Dnevno naložimo milijone bajtov podatkov. V zadnjih dveh letih je bilo ustvarjenih 90% svetovnih podatkov.

  • Walmart obvlada več kot 1 milijon transakcije strank vsako uro.
  • Facebook shranjuje, dostopa in analizira 30+ petabajtov uporabniško ustvarjenih podatkov.
  • 230+ milijonov tweetov ustvarjajo vsak dan.
  • Več kot 5 milijard ljudje po vsem svetu kličejo, pošiljajo sporočila, tvitajo in brskajo po mobilnih telefonih.
  • YouTube uporabniki naložijo 48 ur novega videa vsako minuto dneva.
  • Amazon ročaji 15 milijonov stranka klikne tok uporabniških podatkov na dan, da priporoči izdelke.
  • 294 milijard e-poštna sporočila se pošiljajo vsak dan. Storitve analizirajo te podatke, da bi našli neželeno pošto.
  • Sodobni avtomobili imajo blizu 100 senzorjev ki nadzoruje nivo goriva, tlak v pnevmatikah itd., vsako vozilo ustvari veliko podatkov senzorjev.

Aplikacije velikih podatkov

O podatkih ne moremo govoriti, ne da bi se pogovarjali o ljudeh, ljudeh, ki so deležni ugodnosti aplikacij za velike podatke. Skoraj vse panoge danes tako ali drugače uporabljajo aplikacije za velike podatke.

  • Pametnejše zdravstveno varstvo : Z uporabo petabajtov pacientovih podatkov lahko organizacija pridobi pomembne informacije in nato zgradi aplikacije, ki lahko vnaprej predvidijo bolnikovo poslabšanje stanja.
  • Telekom : Telekomunikacijski sektor zbira informacije, jih analizira in ponuja rešitve za različne probleme. Z uporabo aplikacij Big Data so telekomunikacijska podjetja lahko znatno zmanjšala izgubo podatkovnih paketov, do katere pride, ko so omrežja preobremenjena, in tako svojim strankam omogočila nemoteno povezavo.
  • Maloprodaja : Trgovina na drobno ima nekaj najnižjih marž in je ena največjih upravičencev do velikih podatkov. Lepota uporabe velikih podatkov v maloprodaji je razumevanje vedenja potrošnikov. Amazonov mehanizem priporočil ponuja predloge, ki temeljijo na zgodovini brskanja potrošnika.
  • Nadzor prometa : Zastoji v prometu so velik izziv za številna mesta po vsem svetu. Učinkovita uporaba podatkov in senzorjev bo ključnega pomena za boljše upravljanje prometa, saj bodo mesta vse bolj gosto poseljena.
  • Predelovalne dejavnosti : Analiza velikih podatkov v predelovalni industriji lahko zmanjša napake komponent, izboljša kakovost izdelkov, poveča učinkovitost in prihrani čas in denar.
  • Kakovost iskanja : Vsakič, ko iz Googla pridobivamo podatke, hkrati ustvarjamo podatke zanje. Google shranjuje te podatke in jih uporablja za izboljšanje kakovosti iskanja.

Nekdo je upravičeno rekel: 'Na vrtu ni vse rožnato!' . Do zdaj sem v tej vadnici za velike podatke pravkar pokazal rožnato sliko velikih podatkov. A če bi bilo tako enostavno izkoristiti velike podatke, ali se vam ne zdi, da bi vse organizacije vanje vlagale? Naj vam vnaprej povem, da ni tako. Pri delu z velikimi podatki se pojavlja več izzivov.

Zdaj, ko ste seznanjeni z velikimi podatki in njihovimi različnimi funkcijami, bo naslednji razdelek tega spletnega dnevnika o vajah za velike podatke osvetlil nekatere glavne izzive, s katerimi se srečujejo veliki podatki.

Izzivi z velikimi podatki

Naj vam povem nekaj izzivov, ki jih prinašajo Big Data:

  1. Kakovost podatkov - Tukaj je težava 4thV to je verodostojnost. Podatki tukaj so zelo grdi, nedosledni in nepopolni. Umazani podatki stanejo podjetja vsako leto v ZDA 600 milijard dolarjev.
  1. Odkritje - Iskanje vpogledov v Big Data je kot iskanje igle v kozolcu. Analiziranje petabajtov podatkov z uporabo izjemno zmogljivih algoritmov za iskanje vzorcev in vpogledov je zelo težko.
  1. Skladiščenje - Več kot ima organizacija podatkov, bolj zapleteni lahko postanejo problemi upravljanja. Tu se zastavlja vprašanje »Kje ga shraniti?«. Potrebujemo sistem za shranjevanje, ki se lahko na zahtevo enostavno poveča ali zmanjša.
  1. Analitika - V primeru velikih podatkov večino časa ne poznamo vrste podatkov, s katerimi imamo opravka, zato je njihova analiza še težja.
  1. Varnost - Ker so podatki ogromne velikosti, je še en izziv ohranjanje njihove varnosti. Vključuje preverjanje pristnosti uporabnika, omejevanje dostopa na podlagi uporabnika, beleženje zgodovine dostopa do podatkov, pravilno uporabo šifriranja podatkov itd.
  1. Pomanjkanje talenta - V velikih organizacijah je veliko projektov Big Data, a izpopolnjena skupina razvijalcev, podatkovnih znanstvenikov in analitikov, ki imajo tudi zadostno količino domenskega znanja, je še vedno izziv.

Hadoop za reševanje

Za reševanje izzivov velikih podatkov imamo rešitelja Hadoop . Hadoop je odprtokodni programski okvir, ki temelji na Javi in ​​podpira shranjevanje in obdelavo izredno velikih naborov podatkov v porazdeljenem računalniškem okolju. Je del projekta Apache, ki ga sponzorira Apache Software Foundation.

Hadoop s svojo porazdeljeno obdelavo učinkoviteje obravnava velike količine strukturiranih in nestrukturiranih podatkov kot tradicionalno skladišče podatkov v podjetju. Hadoop omogoča zagon aplikacij v sistemih s tisočimi vozlišči strojne opreme in obdelavo tisoč terabajtov podatkov. Organizacije uporabljajo Hadoop, ker je odprtokodna programska oprema in lahko deluje na osnovni strojni opremi (vašem osebnem računalniku).Začetni prihranek stroškov je dramatičen, saj je strojna oprema zelo poceni. Ker se organizacijski podatki povečujejo, morate na hitro dodati več in več blagovne strojne opreme, da jo shranite, zato se Hadoop izkaže za varčnega.Poleg tega ima Hadoop za seboj trdno skupnost Apache, ki še naprej prispeva k njenemu napredku.

Kot sem že obljubil, sem vam v tem blogu o vajah za velike podatke dal največ informacij o velikih podatkih. To je konec vaje za velike podatke. Naslednji korak naprej je spoznavanje in učenje Hadoopa. Imamo serija vadnic Hadoop blogi, ki bodo podrobno predstavili celoten ekosistem Hadoop.

Vse najboljše, vesel Hadooping!

Zdaj, ko ste razumeli, kaj so veliki podatki, si oglejte Edureka, zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, razširjenih po vsem svetu. Tečaj Edureka Big Data Hadoop Certification Training pomaga učencem, da postanejo strokovnjaki za HDFS, prejo, MapReduce, Pig, Hive, HBase, Oozie, Flume in Sqoop z uporabo primerov uporabe v realnem času na področju maloprodaje, družbenih medijev, letalstva, turizma, financ

Imate vprašanje za nas? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.

Sorodne objave: