Kaj je podatkovna znanost? Začetniški vodnik po znanosti o podatkih

Data Science je prihodnost umetne inteligence. Naučite se, kaj je Data Science, kako lahko doda vrednost vašemu podjetju in različnim fazam življenjskega cikla.

Ko je svet vstopil v obdobje velikih podatkov, se je povečala tudi potreba po njihovem shranjevanju. Glavni izziv in skrb za podjetniške panoge je bil do leta 2010. Glavni poudarek je bil na oblikovanju okvira in rešitev za shranjevanje podatkov. Zdaj, ko so Hadoop in drugi okviri uspešno rešili problem shranjevanja, se je poudarek preusmeril na obdelavo teh podatkov. Data Science je tu skrivnostna omaka. Vse ideje, ki jih vidite v hollywoodskih znanstvenofantastičnih filmih, lahko Data Science dejansko uresničijo. Data Science je prihodnost umetne inteligence. Zato je zelo pomembno razumeti, kaj je Data Science in kako lahko doda vrednost vašemu podjetju.

Izšel je vodnik za tehnično kariero Edureka 2019! Najbolj vroče delovne vloge, natančne učne poti, panoga in drugo v priročniku. Prenesi zdaj.

V tem blogu bom obravnaval naslednje teme.





Do konca tega spletnega dnevnika boste lahko razumeli, kaj je Data Science in kakšna je njena vloga pri pridobivanju pomembnih vpogledov iz zapletenih in velikih naborov podatkov okoli nas.Če želite pridobiti poglobljeno znanje o znanosti znanosti, se lahko vpišete v živo Edureka s 24-urno podporo in življenjskim dostopom.

Kaj je Data Science?

Data Science je mešanica različnih orodij, algoritmov in načel strojnega učenja s ciljem odkriti skrite vzorce iz surovih podatkov. Toda kako se to razlikuje od tega, kar statisti počnejo že leta?



Odgovor je v razliki med razlaganjem in napovedovanjem.

Data Analyst v / s Data Science - Edureka

Kot lahko vidite iz zgornje slike, Data Analystponavadi pojasni, kaj se dogaja z obdelavo zgodovine podatkov. Po drugi strani Data Scientist ne samo, da s pomočjo raziskovalne analize odkrije vpoglede, temveč tudi z uporabo različnih naprednih algoritmov strojnega učenja za prepoznavanje pojava določenega dogodka v prihodnosti. Data Scientist bo podatke preučeval z različnih zornih kotov, včasih zornih kotov, ki jih prej nismo poznali.



Data Science se torej uporablja predvsem za sprejemanje odločitev in napovedi z uporabo napovedne vzročne analitike, preskriptivne analitike (napovedna znanost in odločanje) in strojnega učenja.

  • Napovedovalna vzročna analitika - Če želite model, ki lahko napove možnosti določenega dogodka v prihodnosti, morate uporabiti napovedno vzročno analitiko. Recimo, če denar dajete na kredit, vas verjetno skrbi, da bodo stranke pravočasno plačale kredit. Tu lahko zgradite model, ki lahko izvaja napovedno analizo na zgodovini plačil stranke, da predvidi, ali bodo prihodnja plačila pravočasna ali ne.
  • Predpisana analitika: Če želite model, ki ima inteligenco sprejemanja lastnih odločitev in ga lahko spreminja z dinamičnimi parametri, zanj zagotovo potrebujete analitiko na predpisan način. Na tem razmeroma novem področju gre za svetovanje. Z drugimi besedami, ne le predvideva, temveč predlaga vrsto predpisanih ukrepov in s tem povezanih rezultatov.
    Najboljši primer za to je Googlov samovozeči avto, o katerem sem že prej razpravljal. Podatke, ki jih zberejo vozila, lahko uporabimo za usposabljanje samovozečih avtomobilov. Na teh podatkih lahko zaženete algoritme, da jim dodate inteligenco. Tako bo lahko vaš avto sprejel odločitve, na primer, kdaj bo zavil, katero pot bo ubral,kdaj upočasniti ali pospešiti.
  • Strojno učenje za napovedovanje - Če imate podatke o transakcijah finančnega podjetja in morate zgraditi model za določitev prihodnjega trenda, so algoritmi strojnega učenja najboljša izbira. To spada pod paradigmo nadzorovanega učenja. Imenuje se nadzorovan, ker že imate podatke, na podlagi katerih lahko trenirate svoje stroje. Na primer, model odkrivanja goljufij je mogoče usposobiti z uporabo preteklih evidenc goljufivih nakupov.
  • Strojno učenje za odkrivanje vzorcev - Če nimate parametrov, na podlagi katerih lahko napovedujete, morate ugotoviti skrite vzorce v naboru podatkov, da boste lahko smiselno predvidevali. To ni nič drugega kot nenadzorovani model, saj nimate nobenih vnaprej določenih oznak za razvrščanje v skupine. Najpogostejši algoritem, ki se uporablja za odkrivanje vzorcev, je grozdenje.
    Recimo, da delate v telefonskem podjetju in morate vzpostaviti omrežje tako, da postavite stolpe v regiji. Nato lahko s tehniko združevanja poiščete mesta stolpov, ki bodo zagotovila, da bodo vsi uporabniki dobili optimalno moč signala.

Poglejmo, kako se delež zgoraj opisanih pristopov razlikuje tako za analizo podatkov kot za podatkovno znanost. Kot lahko vidite na spodnji sliki, Analiza podatkovvključuje opisno analitiko in predvidevanje do določene mere. Po drugi strani pa Data Science bolj govori o napovedni vzročni analizi in strojnem učenju.

Data Science Analytics - Edureka

Zdaj, ko veste, kaj točno je Data Science, poiščite razlog, zakaj je bil sploh potreben.

Zakaj Data Science?

  • Tradicionalno so bili naši podatki večinoma strukturirani in majhni, kar je bilo mogoče analizirati z uporabo preprostih orodij BI.Za razliko od podatkov vtradicionalni sistemi, ki so bili večinoma strukturirani, danes je večina podatkov nestrukturiranih ali polstrukturiranih. Oglejmo si trende podatkov na spodnji sliki, ki kaže, da bo do leta 2020 več kot 80% podatkov nestrukturiranih.
    Pretok nestrukturiranih podatkov - Edureka
    Ti podatki so pridobljeni iz različnih virov, kot so finančni dnevniki, besedilne datoteke, večpredstavnostni obrazci, senzorji in instrumenti. Preprosta BI orodja ne morejo obdelati te velike količine in raznolikosti podatkov. Zato potrebujemo bolj zapletena in napredna analitična orodja in algoritme za obdelavo, analizo in črpanje pomembnih vpogledov iz njih.

To ni edini razlog, zakaj je Data Science postal tako priljubljen. Poglobimo se in poglejmo, kako se Data Science uporablja na različnih področjih.

  • Kaj pa, če bi lahko iz obstoječih podatkov, kot so pretekla zgodovina brskanja, zgodovina nakupov, starost in dohodek, razumeli natančne zahteve vaših strank. Brez dvoma ste imeli vse te podatke tudi prej, zdaj pa z veliko količino in raznolikostjo podatkov lahko učinkoviteje trenirate modele in izdelek natančneje priporočite svojim strankam. Ali ne bi bilo neverjetno, saj bo vaši organizaciji prineslo več poslov?
  • Vzemimo drugačen scenarij za razumevanje vloge Data Science v odločanje.Kaj pa, če bi vaš avto imel dovolj inteligence, da bi vas peljal domov? Samovozeči avtomobili zbirajo podatke v živo s senzorjev, vključno z radarji, kamerami in laserji, da ustvarijo zemljevid okolice. Na podlagi teh podatkov sprejema odločitve, na primer, kdaj pospešiti, kdaj pospešiti, kdaj prehiteti, kje zaviti - z uporabo naprednih algoritmov strojnega učenja.
  • Poglejmo, kako se lahko Data Science uporablja pri napovedni analitiki. Za primer vzemimo vremensko napoved. Podatke z ladij, letal, radarjev, satelitov je mogoče zbirati in analizirati za izdelavo modelov. Ti modeli ne bodo le napovedovali vremena, ampak bodo tudi pomagali pri napovedovanju pojava naravnih nesreč. Pomagal vam bo, da predhodno sprejmete ustrezne ukrepe in rešite veliko dragocenih življenj.

Oglejmo si spodnjo infografiko in si oglejte vse domene, na katerih ustvarja vtis Data Science.

Primeri uporabe podatkovne znanosti - Edureka

Kdo je podatkovni znanstvenik?

Za Data Scientist je na voljo več definicij. Z enostavnimi besedami je Data Scientist tisti, ki se ukvarja z umetnostjo Data Science.Izraz 'Data Scientist' je bilskovan po preučitvi dejstva, da Data Scientist črpa veliko informacij z znanstvenih področij in aplikacij, ne glede na to, ali gre za statistiko ali matematiko.

Kaj počne Data Scientist?

Podatkovni znanstveniki so tisti, ki rešujejo zapletene podatkovne težave s svojim močnim strokovnim znanjem v nekaterih znanstvenih disciplinah. Delajo z več elementi, povezanimi z matematiko, statistiko, računalništvom itd. (Čeprav morda niso strokovnjak na vseh teh področjih).Veliko uporabljajo najnovejše tehnologije pri iskanju rešitev in sklepih, ki so ključnega pomena za rast in razvoj organizacije. Podatkovni znanstveniki predstavljajo podatke v veliko bolj uporabni obliki v primerjavi s surovimi podatki, ki so jim na voljo iz strukturiranih in nestrukturiranih obrazcev.

kako najti podatkovni tip v pythonu

Če želite izvedeti več o Data Scientistu, si oglejte ta članek

Če nadaljujemo, se zdaj pogovorimo o BI. Prepričan sem, da ste morda že slišali za Business Intelligence (BI). Data Science pogosto zamenjujejo z BI. Navedel bom nekaj jedrnatega in jasnegakontrasti med obema, kar vam bo pomagalo do boljšega razumevanja. Poglejmo.

Poslovna inteligenca (BI) v primerjavi s podatkovno znanostjo

  • Poslovna inteligenca (BI) v bistvu analizira prejšnje podatke, da bi našla nazaj in vpogled za opis poslovnih trendov. Tu vam BI omogoča jemanje podatkov iz zunanjih in notranjih virov, njihovo pripravo, izvajanje poizvedb na njih in ustvarjanje nadzornih plošč za odgovore na vprašanja, kot ječetrtletna analiza prihodkovali poslovne težave. BI lahko oceni vpliv nekaterih dogodkov v bližnji prihodnosti.
  • Podatkovna znanost je bolj usmerjen v prihodnost, raziskovalni način s poudarkom na analiziranju preteklih ali sedanjih podatkov in napovedovanju prihodnjih rezultatov z namenom sprejemanja utemeljenih odločitev. Odgovarja na odprta vprašanja glede »kaj« in »kako« se dogajajo.

Oglejmo si nekaj kontrastnih lastnosti.

Lastnosti Poslovna inteligenca (BI) Podatkovna znanost
Viri podatkovStrukturirano
(Običajno SQL, pogosto skladišče podatkov)
Tako strukturirano kot nestrukturirano

(dnevniki, podatki v oblaku, SQL, NoSQL, besedilo)

PristopStatistika in vizualizacijaStatistika, strojno učenje, analiza grafov, nevrolingvistično programiranje (NLP)
Osredotočite sePreteklost in sedanjostSedanjost in prihodnost
OrodjaPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Vse je bilo v tem, kaj je Data Science, zdaj pa razumimo življenjski cikel Data Science.

Pogosta napaka pri projektih Data Science je hitenje pri zbiranju in analizi podatkov, ne da bi razumeli zahteve ali celo pravilno oblikovali poslovni problem. Zato je zelo pomembno, da v celotnem življenjskem ciklu Data Science sledite vsem fazam, da zagotovite nemoteno delovanje projekta.

Življenjski cikel znanosti o podatkih

Tu je kratek pregled glavnih faz življenjskega cikla znanosti o podatkih:

Življenjski cikel znanosti o podatkih - Edureka


Odkritje znanosti o podatkih - Edureka1. faza - odkritje:
Preden začnete projekt, je pomembno razumeti različne specifikacije, zahteve, prednostne naloge in potrebni proračun. Imeti morate sposobnost postavljanja pravih vprašanj.Tu ocenite, ali imate na voljo potrebne vire glede na ljudi, tehnologijo, čas in podatke za podporo projektu.V tej fazi morate oblikovati tudi poslovni problem in oblikovati začetne hipoteze (IH) za preizkušanje.

Data Science priprava podatkov - Edureka

2. faza - Priprava podatkov: V tej fazi potrebujete analitični peskovnik, v katerem lahko izvajate analitiko ves čas trajanja projekta. Pred modeliranjem morate raziskati, predhodno obdelati in pripraviti podatke. Nadalje boste izvedli ETLT (izvleček, pretvorba, nalaganje in preoblikovanje), da pridobite podatke v peskovniku. Oglejmo si tok statistične analize spodaj.

Življenjski cikel znanosti o podatkih
R lahko uporabite za čiščenje, pretvorbo in vizualizacijo podatkov. To vam bo pomagalo odkriti odstopanja in vzpostaviti razmerje med spremenljivkami.Ko podatke očistite in pripravite, je čas, da opravite raziskovanjeanalitikana njem. Poglejmo, kako lahko to dosežete.

Faza 3 - Načrtovanje modelov: Načrtovanje podatkovnih znanosti - Edureka Tu boste določili metode in tehnike za risanje razmerij med spremenljivkami.Ti odnosi bodo postavili osnovo za algoritme, ki jih boste implementirali v naslednji fazi.Analizo raziskovalnih podatkov (EDA) boste uporabili z različnimi statističnimi formulami in orodji za vizualizacijo.

Oglejmo si različna orodja za načrtovanje modelov.

Orodja za načrtovanje modelov v znanosti o podatkih - Edureka

  1. R ima celoten nabor zmožnosti modeliranja in zagotavlja dobro okolje za izdelavo interpretativnih modelov.
  2. Storitve analize SQL lahko izvaja analitiko v zbirki podatkov z uporabo običajnih funkcij podatkovnega rudarjenja in osnovnih napovednih modelov.
  3. SAS / DOSTOP se lahko uporablja za dostop do podatkov iz Hadoopa in se uporablja za ustvarjanje ponovljivih in ponovnih diagramov pretoka modelov.

Na trgu je sicer prisotnih veliko orodij, vendar je R najpogosteje uporabljeno orodje.

Zdaj, ko ste dobili vpogled v naravo svojih podatkov in ste se odločili, katere algoritme boste uporabili. V naslednji fazi bosteprijavitialgoritem in zgraditi model.

Izdelava modela podatkovne znanosti - Edureka4. faza - izdelava modelov: V tej fazi boste razvili nabore podatkov za namene usposabljanja in testiranja. Tukaj yUpoštevati morate, ali bodo vaša obstoječa orodja zadostovala za zagon modelov ali pa bodo potrebovala močnejše okolje (na primer hitro in vzporedno obdelavo). Za izdelavo modela boste analizirali različne učne tehnike, kot so razvrščanje, povezovanje in združevanje v skupine.

Gradnjo modelov lahko dosežete z naslednjimi orodji.

Model orodij za gradnjo podatkov v znanosti o podatkih

5. faza - operacionalizacija: Data Science operacionalizirati - Edureka V tej fazi posredujete končna poročila, informativne sestanke, kode in tehnično dokumentacijo.Poleg tega se včasih pilotni projekt izvaja tudi v realnem času proizvodnje. To vam bo zagotovilo jasno sliko učinkovitosti in drugih s tem povezanih omejitev v majhnem obsegu pred popolno uvedbo.


Komunikacija v znanosti o podatkih - Edureka6. faza - Sporočanje rezultatov:
Zdaj je pomembno oceniti, ali ste uspeli doseči svoj cilj, ki ste ga načrtovali v prvi fazi. V zadnji fazi torej ugotovite vse ključne ugotovitve, sporočite zainteresiranim stranem in ugotovite, ali so rezultatiuspeha ali neuspeha na podlagi meril, razvitih v 1. fazi.

Zdaj bom vzel študijo primera, da vam razložim različne faze, opisane zgoraj.

Študija primera: Preprečevanje diabetesa

Kaj pa, če bi lahko napovedali pojav diabetesa in predhodno sprejeli ustrezne ukrepe za njegovo preprečitev?
V tem primeru bomo predvideli pojav diabetesa, pri čemer bomo uporabili celoten življenjski cikel, o katerem smo že govorili. Pojdimo skozi različne korake.

Korak 1:

  • Najprej,podatke bomo zbirali na podlagi anamnezebolnika, kot je razloženo v 1. fazi. Spodaj se lahko sklicujete na vzorčne podatke.

Vzorčni podatki Data Science - Edureka

  • Kot lahko vidite, imamo različne atribute, kot je navedeno spodaj.

Lastnosti:

  1. npreg - število nosečnosti
  2. glukoza - koncentracija glukoze v plazmi
  3. bp - krvni tlak
  4. koža - Triceps debelina kože
  5. bmi - indeks telesne mase
  6. ped - Diabetično rodovniško delovanje
  7. starost - starost
  8. dohodek - dohodek

2. korak:

  • Zdaj, ko imamo podatke, jih moramo očistiti in pripraviti za analizo.
  • Ti podatki imajo veliko nedoslednosti, kot so manjkajoče vrednosti, prazni stolpci, nenadne vrednosti in nepravilna oblika podatkov, ki jih je treba očistiti.
  • Tu smo podatke razvrstili v eno tabelo pod različnimi atributi - zaradi česar so videti bolj strukturirani.
  • Oglejmo si spodnje vzorčne podatke.

Data Science nedosledni podatki - Edureka

Ti podatki imajo veliko nedoslednosti.

  1. V stolpcu npreg , »One« je napisano vbesede,ker bi moral biti v številčni obliki, kot je 1.
  2. V stolpcu bp ena od vrednosti je 6600, kar je nemogoče (vsaj za ljudi) saj bp ne more priti do tako velike vrednosti.
  3. Kot lahko vidite dohodek stolpec prazen in tudi nima smisla pri napovedovanju diabetesa. Zato je odvečno, če ga imamo tukaj, in ga je treba odstraniti iz mize.
  • Torej bomo te podatke očistili in vnaprej obdelali tako, da bomo odstranili odstopanja, izpolnili ničelne vrednosti in normalizirali tip podatkov. Če se spomnite, je to naša druga faza, ki je predobdelava podatkov.
  • Na koncu dobimo čiste podatke, kot je prikazano spodaj, ki jih lahko uporabimo za analizo.

Podatki v znanosti o podatkih - Edureka

3. korak:

Zdaj pa naredimo nekaj analiz, kot smo že omenili v 3. fazi.

  • Najprej bomo podatke naložili v analitični peskovnik in na njem uporabili različne statistične funkcije. Na primer, R ima funkcije, kot je opisuje kar nam daje število manjkajočih vrednosti in enoličnih vrednosti. Uporabimo lahko tudi funkcijo povzetka, ki nam bo dala statistične podatke, kot so srednje vrednosti, mediana, obseg, min in max vrednosti.
  • Nato uporabimo tehnike vizualizacije, kot so histogrami, linijski grafi, ploskve, da dobimo pošteno predstavo o distribuciji podatkov.

Vizualizacija podatkovne znanosti - Edureka

4. korak:

Na podlagi spoznanj iz prejšnjega koraka je za tovrstno težavo najbolj primerno drevo odločanja. Poglejmo, kako?

  • Ker že imamo glavne lastnosti za analizo, kot je npreg, bmi itd., zato bomo uporabilinadzorovana učna tehnika za gradnjo amodel tukaj.
  • Poleg tega smo še posebej uporabili drevo odločitev, ker upošteva vse atribute naenkrat, na primer tiste, ki imajo alinearno razmerje kot tudi tiste, ki imajo nelinearno razmerje. V našem primeru imamo linearno razmerje med npreg in starost, ker je nelinearna povezava med npreg in ped .
  • Modeli dreves odločanja so tudi zelo robustni, saj lahko uporabimo različno kombinacijo atributov za izdelavo različnih dreves in nato na koncu implementiramo tisto z največjo učinkovitostjo.

Oglejmo si naše drevo odločitev.

Oblikovanje nabora podatkov drevesa

Tu je najpomembnejši parameter raven glukoze, torej je naše koreninsko vozlišče. Zdaj trenutno vozlišče in njegova vrednost določata naslednji pomemben parameter, ki ga je treba sprejeti. Nadaljuje se, dokler ne dobimo rezultata v smislu poz ali neg . Poz pomeni, da je nagnjenost k diabetesu pozitivna, neg pa nagnjenost k diabetesu negativna.

Če želite izvedeti več o izvajanju drevesa odločitev, si oglejte ta spletni dnevnik

5. korak:

V tej fazi bomo izvedli majhen pilotni projekt, da preverimo, ali so naši rezultati ustrezni. Poiskali bomo tudi omejitve zmogljivosti, če sploh. Če rezultati niso točni, moramo model znova načrtovati in zgraditi.

6. korak:

Ko bomo projekt uspešno izvedli, bomo rezultate delili za popolno uvajanje.

Biti podatkovni znanstvenik je lažje reči kot narediti. Torej, poglejmo, kaj vse potrebuješ, da bi bil Data Scientist.Data Scientist v osnovi zahteva znanjes treh glavnih področij, kot je prikazano spodaj.

kaj je init v pythonu

Spretnosti podatkovne znanosti - Edureka

Kot lahko vidite na zgornji sliki, morate pridobiti različne trde in mehke veščine. V tem moraš biti dober statistika in matematika za analizo in vizualizacijo podatkov. Da sploh ne omenjamo, Strojno učenje tvori srce Data Science in od vas zahteva, da ga dobro poznate. Prav tako morate dobro razumeti domene delate, da boste jasno razumeli poslovne težave. Vaša naloga se tu še ne konča. Morali bi biti sposobni izvajati različne algoritme, ki zahtevajo dobro kodiranje spretnosti. Na koncu, ko sprejmete določene ključne odločitve, je pomembno, da jih posredujete zainteresiranim stranem. Tako dobro komunikacijo bo zagotovo dodal piškote za piškote svojim znanjem.

Prosim vas, da si ogledate to video vadnico Data Science, ki pojasnjuje, kaj je Data Science in kaj vse smo razpravljali v blogu. Pojdi naprej, uživaj v videu in mi povej, kaj misliš.

Kaj je podatkovna znanost? Tečaj znanosti o podatkih - Vadnica za znanost o podatkih za začetnike | Edureka

Ta video tečaja Edureka Data Science vas bo popeljal skozi potrebe po znanosti o podatkih, kaj je znanost o podatkih, primeri uporabe podatkov v znanosti o podjetju, BI vs podatki o znanosti, orodja za analitiko podatkov, življenjski cikel znanosti o znanosti in demo.

Na koncu ne bo narobe, če rečemo, da prihodnost pripada Data Scientistom. Predvideva se, da bo do konca leta 2018 potrebno približno milijon podatkovnih znanstvenikov. Vse več podatkov bo zagotovilo priložnosti za odločanje o ključnih poslovnih odločitvah. Kmalu se bo spremenil pogled na svet, zasut s podatki okoli nas. Zato bi moral biti Data Scientist visoko usposobljen in motiviran za reševanje najbolj zapletenih problemov.

Upam, da ste uživali v branju mojega spletnega dnevnika in razumeli, kaj je Data Science.Oglejte si našo tu prihaja z izobraževanjem v živo inštruktorjev in izkušnjami iz resničnih projektov.