Predictive Analytics Process in Business Analytics with R



Blog daje kratek vpogled v postopek napovedne analitike v storitvi Business Analytics z R

Tipičen postopek modeliranja:

V tipičnem postopku modeliranja je pomembno, da začnemo oblikovati hipotezo. Prejmemo RFP (Zahtevek za predlog) in nato izvlečemo hipotezo.





  1. Določite pravi vir podatkov - Tu lahko kupec navede vir podatkov, v nasprotnem primeru ga moramo poiskati. Glede na scenarij, v katerem poskušamo oceniti, kdo bi zmagal na volitvah, se izvede javna analiza podatkov z viri, ki vključujejo družbena omrežja, novice ali javno mnenje. Razumeti moramo tudi količino podatkov, potrebnih za analizo težave. V tem primeru običajno iščemo velike vzorce, saj gre za volilni primer. Po drugi strani pa je, če se analiza opravi na področju zdravstvenega varstva, težko odločiti za veliko populacijo, ker obstaja možnost, da ni dovolj ljudi, ki bi potrdili hipotezo. Zelo pomembna je tudi kakovost podatkov.
  2. Izvleček podatkov - Če na primer vzamemo vzorec populacije, lahko za začetek študije preučimo lastnosti, kot so visok dohodek, nizek dohodek, starost, delovno sposobno prebivalstvo (zunaj / na kraju samem), prebivalci, NRI, pokritost bolnišnic itd. . Tu morda ne bomo potrebovali toliko atributov za hipotezo. Zavedamo se, da atributi, kot so visoki in nizki dohodki, morda ne bodo prispevali k odločitvi, kdo bo zmagal na volitvah. Toda starost lahko spremeni, saj bo neposredno štela, koliko ljudi bo glasovalo. Velikokrat lahko izključimo manj uporabljene atribute ali vključimo koristne. V obeh primerih bi lahko šlo narobe. To je razlog, zakaj je analitika izziv.
  3. Masirajte podatke tako, da ustrezajo orodju - To je zato, ker vsa orodja ne morejo sprejeti vseh podatkov. Nekatera orodja sprejemajo samo podatke CSV ali excel. Pomanjkanje orodij je izziv.
  4. Zaženite analizo - To operacijo lahko izvedemo z uporabo številnih analitičnih tehnik.
  5. Narišite sklepe - Analiza daje natančne številke. Uporabnik pa mora na podlagi teh številk izpeljati zaključke. Če na primer piše 10% ali 20%, moramo razumeti, kaj to pomeni? Ali izhaja iz korelacije med lastnostjo A in lastnostjo B?
  6. Rezultati izvajanja - Pomembno je izvajati zaključke, da bi videli rezultate v poslu. Na primer, lahko sklepamo, da 'Ljudje kupujejo dežnik v deževni sezoni' kar lahko povzroči več posla. Tu moramo izvesti zaključek, kjer bomo dežnik dali na voljo v trgovinah, potem pa ima lahko težave z upravljanjem. V trenutku, ko bo statistika dala rezultat, bo izvedba morda narobe.
  7. Spremljajte napredek - Zadnji korak pri tem ima spremljanje pomembno vlogo. Spremljanje se lahko zgodi narobe, ker malo organizacij želi spremljati napredek in je to zanemarljiv korak. Toda spremljanje je pomembno, saj lahko razumemo, ali gredo naše raziskave in zaključki v pravo smer.

Oglejte si tudi ta članek' Korelacija ne pomeni vzročne zveze 'kar daje vpogled v to, kako se lahko analitiki zmotijo. Pomembno je opozoriti v tem grafikonu, da je analiza delovanja edini korak, kjer je stroj odgovoren, poleg tega pa je to odvisno od človeka, ki bo na koncu določil, kako bo potekala raziskava.

Imate vprašanje za nas? Omenite jih v oddelku za komentarje in javili se vam bomo.



Sorodne objave:

obdelava datotek v primeru Java