Vadnica za Data Science - Naučite se Science Science iz nič!



Ta vadnica Data Science je idealna za tiste, ki iščejo prehod na domeno Data Science. Vključuje vse najpomembnejše podatke o znanosti s karierno potjo.

Želite začeti svojo kariero kot Data Scientist, vendar ne veste, kje začeti? Na pravem ste mestu! Hej, fantje, dobrodošli v tem čudovitem blogu z vajami o znanosti o znanosti, ki vam bo omogočil začetek sveta znanosti o podatkih. Če želite pridobiti poglobljeno znanje o znanosti znanosti, se lahko vpišete v živo Edureka s 24-urno podporo in življenjskim dostopom. Poglejmo, česa se bomo danes učili:

    1. Zakaj Data Science?
    2. Kaj je Data Science?
    3. Kdo je podatkovni znanstvenik?
    4. Trendi zaposlitve
    5. Kako rešiti težavo v Data Science?
    6. Komponente podatkovne znanosti
    7. Vloge zaposlitve podatkovnega znanstvenika





Zakaj Data Science?

Rečeno je bilo, da je Data Scientist 'najbolj seksi delo 21. stoletja'. Zakaj? Ker so podjetja v zadnjih nekaj letih hranila svoje podatke. In to, kar počne vsako podjetje, je nenadoma privedlo do eksplozije podatkov. Podatki so danes najbolj razširjeni.

Kaj pa boste storili s temi podatki? Razumimo to na primeru:



Recimo, imate podjetje, ki izdeluje mobilne telefone. Izdali ste svoj prvi izdelek in postal je velik hit. Vsaka tehnologija ima svoje življenje, kajne? Torej, zdaj je čas, da izumimo nekaj novega. Toda ne veste, kaj bi bilo treba novosti, da bi izpolnili pričakovanja uporabnikov, ki nestrpno čakajo na vašo naslednjo izdajo?

Nekdo v vašem podjetju se domisli, da bi uporabil povratne informacije, ki jih ustvarijo uporabniki, in izbral stvari, za katere menimo, da jih uporabniki pričakujejo v naslednji izdaji.

Prihaja v Data Science, uporabljate različne tehnike rudarjenja podatkov, kot je analiza sentimenta itd., In dosežete želene rezultate.



Pa ni samo to, lahko sprejemate boljše odločitve, z učinkovitimi načini lahko zmanjšate svoje proizvodne stroške in kupcem zagotovite, kar dejansko želijo!

S tem lahko privede do neštetih koristi, ki jih lahko prinese Data Science, zato je postalo nujno, da ima vaše podjetje ekipo za Data Science.Takšne zahteve so danes vodile k 'znanosti o podatkih' in zato pišemo ta blog o vadnici za znanost o podatkih za vas. :)

Vadnica za Data Science: Kaj je Data Science?

Izraz Data Science se je pojavil pred kratkim z razvojem matematične statistike in analize podatkov. Potovanje je bilo neverjetno, danes smo na področju podatkovne znanosti dosegli toliko.

V naslednjih nekaj letih bomo lahko napovedovali prihodnost, kot trdijo raziskovalci z MIT-a. S svojimi izjemnimi raziskavami so že dosegli mejnik napovedovanja prihodnosti. Zdaj lahko s svojim strojem predvidijo, kaj se bo zgodilo v naslednjem prizoru filma! Kako? No, morda boste za zdaj nekoliko zapleteni, da boste to razumeli, vendar ne skrbite do konca tega spletnega dnevnika, tudi na to boste dobili odgovor.

Če se vrnemo nazaj, smo govorili o podatkovni znanosti, znani tudi kot podatkovna znanost, ki uporablja znanstvene metode, procese in sisteme za pridobivanje znanja ali vpogledov iz podatkov v različnih oblikah, tj. Strukturiranih ali nestrukturiranih.

Katere so te metode in procesi, o čemer bomo danes razpravljali v tem priročniku za Data Science.

Če gremo naprej, kdo dela vse te možgane ali kdo izvaja Data Science? A Data Scientist .

Kdo je podatkovni znanstvenik?

Kot lahko vidite na sliki, je Data Scientist mojster vseh poslov! Moral bi znati matematiko, delovati bi moral na poslovnem področju in bi moral imeti tudi odlične veščine računalništva. Prestrašen? Ne bodi. Čeprav moraš biti dober na vseh teh področjih, a tudi če nisi, nisi sam! 'Popoln znanstvenik podatkov' ne obstaja. Če govorimo o delu v poslovnem okolju, je delo razdeljeno med ekipe, pri čemer ima vsaka ekipa svoje znanje. Stvar pa je v tem, da bi morali biti sposobni vsaj enega od teh področij. Tudi če so te veščine za vas nove, se ohladite! Morda bo trajalo nekaj časa, vendar se te sposobnosti lahko razvijejo in verjemite mi, da bi bilo vredno časa, ki ga boste vložili. Zakaj? No, poglejmo trende na delovnem mestu.

orodja za analizo velikih podatkov

Trendi zaposlitve znanstvenika podatkov

No, graf pove vse, ne samo, da je veliko delovnih mest za znanstvenika, ampak tudi delovna mesta so dobro plačana! In ne, naš blog ne bo pokrival številk plač, pojdite na google!

No, zdaj vemo, učenje znanosti o podatkih je dejansko smiselno, ne samo zato, ker je zelo koristno, ampak tudi v bližnji prihodnosti imate v njem veliko kariero.

Začnimo svojo pot pri učenju znanosti o podatkih zdaj in začnimo z,

Kako rešiti težavo v Data Science?

Zdaj pa se pogovorimo o tem, kako naj se nekdo loti problema in ga reši z znanostjo o podatkih. Težave v znanosti o podatkih se rešujejo z algoritmi. Toda največja stvar, ki jo je treba presoditi, je, kateri algoritem uporabiti in kdaj ga uporabiti?

V bistvu obstaja 5 vrst težav, s katerimi se lahko soočite v znanosti o podatkih.

Vsako od teh vprašanj in pripadajočih algoritmov obravnavajmo eno za drugim:

Je to A ali B?

S tem vprašanjem se sklicujemo na težave, ki imajo kategoričen odgovor, saj je pri težavah s fiksno rešitvijo lahko odgovor pritrdilen ali ne, 1 ali 0, zainteresiran, morda ali ne.

Na primer:

Q. Kaj boste dobili, čaj ali kavo?

Tukaj ne morete reči, da bi radi kokakolo! Ker vprašanje ponuja samo čaj ali kavo, zato lahko odgovorite le na eno od teh.

Ko imamo samo dve vrsti odgovorov, tj. Da ali ne, 1 ali 0, se to imenuje 2-razredna klasifikacija. Z več kot dvema možnostma se imenuje Multi Class Classification.

Če na koncu naletite na vprašanja, na katera je odgovor kategoričen, boste v Data Science te težave reševali z uporabo algoritmov klasifikacije.

Naslednja težava v tej vadnici Data Science, ki jo lahko naletite, morda kaj takega,

Je to čudno?

Takšna vprašanja obravnavajo vzorce in jih je mogoče rešiti z uporabo algoritmov za odkrivanje anomalij.

Na primer:

Poskusite težavo povezati »je to čudno?« temu diagramu,

Kaj je čudnega v zgornjem vzorcu? Rdeči fant, kajne?

Kadar pride do preloma vzorca, algoritem označi ta dogodek, da ga pregledamo. Podjetja s kreditnimi karticami so implementirala resnično aplikacijo tega algoritma, kjer je vsaka nenavadna transakcija uporabnika označena za pregled. Zato uvajamo varnost in zmanjšujemo prizadevanja ljudi za nadzor.

Poglejmo si naslednji problem v tej vadnici za Data Science, ne bojte se, ukvarja se z matematiko!

Koliko ali koliko?

Tisti, ki ne marate matematike, si oddahnite! Regresijski algoritmi so tu!

Torej, kadar koli pride do težave, ki lahko zahteva številke ali številčne vrednosti, jo rešimo z uporabo regresijskih algoritmov.

Na primer:

Kakšna bo temperatura jutri?

Ker v odgovoru na to težavo pričakujemo številčno vrednost, jo bomo rešili z uporabo regresijskih algoritmov.

V nadaljevanju te vadnice o znanosti o znanosti razpravljajmo o naslednjem algoritmu,

Kako je to organizirano?

Recimo, da imate nekaj podatkov, zdaj pa nimate pojma, kako bi te podatke imeli smiselno. Od tod tudi vprašanje, kako je to organizirano?

No, to lahko rešite z uporabo algoritmov za združevanje v skupine. Kako rešujejo te težave? Pa poglejmo:

Algoritmi grozdanja podatke razvrščajo glede na skupne značilnosti. Na primer v zgornjem diagramu so pike razporejene glede na barve. Podobno, naj gre za kakršne koli podatke, algoritmi za združevanje v gruče poskušajo razumeti, kaj je skupno med njimi, in jih zato združujejo v grozde.

Naslednja in zadnja vrsta težave v tem vadnici Data Science, s katero se lahko srečate, je,

Kaj naj naredim naprej?

Kadarkoli naletite na težavo, pri kateri se mora vaš računalnik odločiti na podlagi usposabljanja, ki ste ga opravili, vključuje algoritme za okrepitev.

Na primer:

Vaš sistem za nadzor temperature, ko se mora odločiti, ali naj zniža temperaturo v prostoru ali jo zviša.

Kako delujejo ti algoritmi?

Ti algoritmi temeljijo na človeški psihologiji. Radi bi bili cenjeni, kajne? Računalniki uporabljajo te algoritme in pričakujejo, da jih bomo med usposabljanjem cenili. Kako? Pa poglejmo.

Namesto da bi računalnika poučevali, kaj naj naredi, mu pustite, da se sam odloči, kaj na koncu, in na koncu tega dejanja podate pozitivne ali negativne povratne informacije. Zato namesto, da določite, kaj je prav in kaj narobe v vašem sistemu, pustite, da se sistem 'odloči', kaj bo naredil, in na koncu pošljete povratne informacije.

Tako kot treniranje psa. Ne morete nadzorovati, kaj počne vaš pes, kajne? Lahko pa ga grajate, ko stori narobe. Podobno ga morda treplja po rami, ko naredi, kar se pričakuje.

Uporabimo to razumevanje v zgornjem primeru, predstavljajte si, da trenirate sistem za nadzor temperature, tako da kadar koli št. ljudi v sobi se poveča, sistem mora ukrepati. Ali znižajte temperaturo ali jo zvišajte. Ker naš sistem ničesar ne razume, sprejme naključno odločitev, domnevamo, da poveča temperaturo. Zato dajete negativne povratne informacije. S tem računalnik razume, kadar se v sobi poveča število ljudi, nikoli ne poveča temperature.

Podobno kot za druga dejanja boste poslali povratne informacije.Z vsako povratno informacijo se vaš sistem uči in s tem postane natančnejši pri naslednji odločitvi, tovrstno učenje se imenuje ojačitveno učenje.

Zdaj algoritmi, ki smo se jih naučili zgoraj v tej vadnici za Data Science, vključujejo običajno 'učno prakso'. Stroj se učimo kajne?

Kaj je strojno učenje?

Gre za vrsto umetne inteligence, ki omogoča, da se računalniki lahko učijo sami, torej brez izrecnega programiranja. S strojnim učenjem lahko stroji posodobijo lastno kodo, kadar koli naletijo na novo situacijo.

Na koncu v tej vadnici Data Science zdaj vemo, da Data Science podpira strojno učenje in njegovi algoritmi za analizo. Kako naredimo analizo, kje jo naredimo. Podatkovna znanost ima tudi nekaj komponent, ki nam pomagajo pri reševanju vseh teh vprašanj.

Pred tem naj odgovorim, kako lahko MIT napoveduje prihodnost, ker mislim, da jo boste zdaj lahko povezali. Torej, raziskovalci v MIT-u so svoj model učili s filmi, računalniki pa so se naučili, kako se ljudje odzivajo ali kako ravnajo, preden ukrepajo.

Na primer, ko se želite rokovati z nekom, vzamete roko iz žepa ali se morda naslonite na osebo. V bistvu je za vsako stvar, ki jo počnemo, vezan 'predhodni ukrep'. Računalnik s pomočjo filmov je bil usposobljen za te 'predhodne ukrepe'. In z opazovanjem vedno več filmov so njihovi računalniki nato lahko napovedali, kakšno bi lahko bilo nadaljnje dejanje lika.

Enostavno, kajne? Dovolite mi, da vam postavim še eno vprašanje v tem priročniku za Data Science! Kateri algoritem strojnega učenja so pri tem morali uporabiti?

Komponente podatkovne znanosti

1. Nabori podatkov

Na kaj boste analizirali? Podatki, kajne? Potrebujete veliko podatkov, ki jih je mogoče analizirati, ti podatki se posredujejo vašim algoritmom ali analitičnim orodjem. Te podatke dobite iz različnih raziskav, opravljenih v preteklosti.

2. R Studio

R je odprtokodni programski jezik in programsko okolje za statistično računalništvo in grafiko, ki ga podpira fundacija R. Jezik R se uporablja v IDE, imenovanem R Studio.

Zakaj se uporablja?

  • Programiranje in statistični jezik
    • Poleg tega, da se uporablja kot statistični jezik, se lahko za analitične namene uporablja tudi programski jezik.
  • Analiza in vizualizacija podatkov
    • Poleg enega najbolj prevladujočih analitičnih orodij je R eno najbolj priljubljenih orodij za vizualizacijo podatkov.
  • Preprosto in enostavno za učenje
    • R je preprost in enostaven za učenje, branje in pisanje

  • Prosti in odprtokodni
    • R je primer FLOSS (brezplačna / svobodna in odprtokodna programska oprema), kar pomeni, da lahko prosto distribuirate kopije te programske opreme, preberete izvorno kodo, jo spremenite itd.

R Studio je zadostoval za analizo, dokler naši nabori podatkov niso postali ogromni, hkrati pa tudi nestrukturirani. Ta vrsta podatkov se je imenovala Big Data.

3. Veliki podatki

Veliki podatki so izraz za zbirko naborov podatkov, tako velike in zapletene, da jih je težko obdelati z ročnimi orodji za upravljanje baz podatkov ali tradicionalnimi aplikacijami za obdelavo podatkov.

Da bi ukrotili te podatke, smo morali pripraviti orodje, saj nobena tradicionalna programska oprema ni mogla obdelovati tovrstnih podatkov, zato smo prišli do Hadoopa.

4. Hadoop

Hadoop je okvir, ki nam pomaga trgovina in proces velike nabore podatkov vzporedno in na način distribucije.

Osredotočimo se na trgovino in obdelamo del Hadoopa.

Shrani

Del za shranjevanje v Hadoopu ureja HDFS, tj. Hadoop Distributed File System. Zagotavlja visoko razpoložljivost v porazdeljenem ekosistemu. Tako deluje tako, da razbije dohodne informacije na koščke in jih razdeli različnim vozliščem v gruči, kar omogoča porazdeljeno shranjevanje.

Proces

MapReduce je srce obdelave Hadoop. Algoritmi naredijo dve pomembni nalogi, preslikajo in zmanjšajo. Mape razdelijo nalogo na manjše naloge, ki se obdelujejo vzporedno. Ko vsi ustvarjalci zemljevidov opravijo svoj del dela, seštejejo svoje rezultate, nato pa se s postopkom zmanjšanja ti rezultati zmanjšajo na enostavnejšo vrednost. Če želite izvedeti več o Hadoopu, si oglejte naš .

Če uporabljamo Hadoop kot shrambo v Data Science, postane vhod težko obdelati z R Studio, ker ni sposoben dobro delovati v porazdeljenem okolju, zato imamo Spark R.

5. Iskra R

To je paket R, ki omogoča lahek način uporabe Apache Spark z R. Zakaj ga boste uporabljali nad tradicionalnimi aplikacijami R? Ker zagotavlja izvajanje porazdeljenega podatkovnega okvira, ki podpira delovanje, kot je izbira, filtriranje, združevanje itd., Vendar na velikih naborih podatkov.

primerjava soli lutkovnega kuharja

Zdaj si oddahnite! Končali smo s tehničnim delom v tej vadnici za Data Science, poglejmo ga zdaj z vidika vaše službe. Mislim, da bi do zdaj že poguglali plače za znanstvenika, vendar vseeno pogovorimo se o delovnih vlogah, ki so vam na voljo kot znanstveniku.

Vloge zaposlitve podatkovnega znanstvenika

Nekateri ugledni nazivi delovnih mest Data Scientist so:

  • Data Scientist
  • Podatkovni inženir
  • Podatkovni arhitekt
  • Skrbnik podatkov
  • Podatkovni analitik
  • Poslovni analitik
  • Upravitelj podatkov / analitike
  • Vodja poslovne inteligence

Grafikon Payscale.com v tej vadnici Data Science spodaj prikazuje povprečno plačo Data Scientist glede na spretnosti v ZDA in Indiji.

Zrel je čas za nadgradnjo Data Science in Big Data Analytics, da izkoristite priložnosti za kariero Data Science, ki se vam odprejo. To nas pripelje do konca bloga z vajami o Data Science. Upam, da je bil ta blog informativen in vam je dodal vrednost. Zdaj je čas, da vstopite v svet Data Science in postanete uspešen Data Scientist.

Edureka ima posebej kurirano ki vam pomaga pridobiti strokovno znanje o algoritmih strojnega učenja, kot so grozdenje K-Means, drevesa odločanja, naključni gozd, naivni Bayes. Spoznali boste koncepte statistike, časovnih vrst, rudarjenja besedil in uvod v globoko učenje. Kmalu se začenjajo nove serije za ta tečaj !!

Imate vprašanje za nas v vadnici Data Science? Prosimo, omenite to v oddelku za komentarje in se vam bomo javili.