Statistika strojnega učenja: vodnik za začetnike

Ta članek o Statistiki za strojno učenje je izčrpen priročnik o različnih konceptih in statistikah s primeri.

Razumevanje podatkov in sposobnost ustvarjanja vrednosti je veščina desetletja. Strojno učenje je ena izmed temeljnih veščin, ki podjetjem pomaga, da jo izpolnijo. Za začetek pa si morate pravilno postaviti temelje. V tem članku bom torej zajel nekaj osnovnih konceptov in vam ponudil smernice za začetek poti v strojnem učenju. V tem članku o statistiki strojnega učenja bomo obravnavali naslednje teme:

  1. Verjetnost
  2. Statistika
  3. Linearna algebra

Verjetnost in statistika strojnega učenja:





Kaj je verjetnost?

Verjetnost kvantificira verjetnost dogodka. Na primer, če kolcate pošteno, nepristransko kocko, potem je verjetnost eno obračanje navzgor je 1/6 . Zdaj, če se sprašujete why? Potem je odgovor povsem preprost!

To je zato, ker obstaja šest možnosti in so vse enako verjetne (poštena smrt). Zato lahko dodamo 1 + 1 + 1 + 1 + 1 + 1 = 6. Ker pa nas zanima dogodek, kjer se pojavi 1 . Tukaj je dogodek lahko nastopi le na en način. Zato



Verjetnost 1 navzgor = 1/6

Podobno je z vsemi drugimi številkami, saj so vsi dogodki enako verjetni. Preprosto, kajne?

No, pogosta opredelitev verjetnosti za ta primer bi se slišala tako - verjetnost, da se 1 obrne navzgor, je razmerje med številom krat 1, ki se obrne navzgor, in skupnim številom, ko je bil kolut valjan, če je matrica valjana neskončno krat.Kako je to smiselno?



Naj bo bolj zanimivo. Razmislite o dveh primerih - petkrat ste valjali kocko. V enem primeru je zaporedje številk, ki se obračajo, - [1,4,2,6,4,3]. V drugem primeru dobimo - [2,2,2,2,2,2]. Kateri je po vašem mnenju bolj verjeten?

Oboje je enako verjetno. Zdi se čudno, kajne?

Zdaj pa razmislite o drugem primeru, ko je vseh 5 zvitkov v vsakem primeru neodvisen . To pomeni, da en zvitek ne vpliva na drugega. V prvem primeru, ko se je pojavilo 6, sploh ni vedel, da sta se pred njim pojavila 2. Zato je vseh 5 zvitkov enako verjetno.

Podobno lahko ravne 2 v drugem primeru razumemo kot zaporedje neodvisnih dogodkov. In vsi ti dogodki so enako verjetni. Na splošno, ker imamo iste kocke, verjetnost, da se bo določeno število pojavilo v primeru, da je enaka enakem primeru kot drugi. Nato v tem članku o statistiki strojnega učenja razumemo ta izraz Neodvisnost.

Neodvisnost

Dva dogodka A in B naj bi bila neodvisna, če pojav A ne vpliva na dogodek B . Če na primer vržete kovanec in zavrtite matrico, rezultat matrice ne vpliva na to, ali kovanec kaže glave ali repove. Tudi za dva neodvisna dogodka A in B , verjetnost, da se A in B lahko pojavita skupaj . Tako na primer, če želite verjetnost, da kovanec prikazuje glave in kock kaže 3.

P (A in B) = P (A) * P (B)

Zato je P = & frac12 (verjetnost obračanja glave) * ⅙ (verjetnost 3 obračanja) = 1/12

V prejšnjem primeru je P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Zdaj pa se pogovorimo o dogodkih, ki niso neodvisni. Upoštevajte naslednjo tabelo:

Debel Niso debeli
Težave s srcemŠtiri, petpetnajst
Brez težav s srcem10.30.

Izvedena je bila raziskava 100 ljudi. 60 jih je imelo težave s srcem, 40 pa ne. Od 60, ki so imeli težave s srcem, jih je bilo 45 debelih. Od 40, ki niso imeli težav s srcem, jih je bilo 10 debelih. Če vas nekdo vpraša -

  1. Kakšna je verjetnost težav s srcem?
  2. Kakšna je verjetnost, da bi imeli težave s srcem in ne bi bili debeli?

Odgovor na prva vprašanja je enostaven - 60/100. Za drugo bi bilo 15/100. Zdaj pa razmislite o tretjem vprašanju - oseba je bila izbrana naključno. Ugotovljeno je bilo, da ima srčno bolezen. Kakšna je verjetnost, da je predebel?

Zdaj pa razmislite o podatkih, ki ste jih dobili - Znano je, da ima bolezni srca. Zato ne more biti med 40-imi, ki nimajo bolezni srca. Možnosti je le 60 (zgornja vrstica v tabeli). Zdaj je med temi zmanjšanimi možnostmi verjetnost debelosti 45/60. Zdaj, ko ste vedeli, kaj so neodvisni dogodki, nam v nadaljevanju v tem članku o statistiki strojnega učenja razložimo pogojne verjetnosti.

Pogojne verjetnosti

Da bi razumeli pogojne verjetnosti, nadaljujmo našo razpravo z zgornjim primerom. Status debelosti in status osebe s srčnimi težavami ni neodvisen. Če debelost ne bi vplivala na težave s srcem, bi bilo število debelih in ne-debelih primerov za ljudi s srčnimi težavami enako.

Prav tako smo dobili, da ima oseba težave s srcem in smo morali ugotoviti verjetnost, da je debel. Torej naj bi bila verjetnost v tem primeru pogojena s tem, da ima težave s srcem. Če je verjetnost dogodka A pogojena z dogodkom B, jo predstavimo kot

sklad in kup v javi

P (A | B)

Zdaj obstaja izrek, ki nam pomaga izračunati to pogojno verjetnost. Imenuje se Bayesovo pravilo .

P (A | B) = P (A in B) / P (B)

Ta izrek lahko preverite tako, da vključite primer, o katerem smo pravkar razpravljali. Če ste do zdaj razumeli, lahko začnete z naslednjim - Naivni Bayes . Uporablja pogojne verjetnosti za razvrščanje, ali je e-poštno sporočilo vsiljena pošta ali ne. Lahko opravlja številne druge naloge razvrščanja. V bistvu pa je v središču pogojna verjetnost .

Statistika:

Statistika je uporablja za povzemanje in sklepanje o velikem številu podatkovnih točk. Pri znanosti o podatkih in strojnem učenju boste pogosto naleteli na naslednjo terminologijo

  • Centralni ukrepi
  • Porazdelitve (zlasti običajne)

Ukrepi centralnosti in ukrepi razmikov

Pomeni:

Mean pomeni samo povprečje števil . Če želite ugotoviti povprečje, morate sešteti števila in ga deliti s številom števil. Na primer, povprečje [1,2,3,4,5] je 15/5 = 3.

mean-statistics-for-machine-learning

Mediana:

Mediana je srednji element nabora števil ko so razporejeni po naraščajočem vrstnem redu. Števila [1,2,4,3,5] so na primer razporejena v naraščajočem vrstnem redu [1,2,3,4,5]. Srednja od teh je 3. Zato je mediana 3. Toda kaj, če je število števil sodo in zato nima srednje številke? V tem primeru vzamete povprečje dveh najbolj srednjih števil. Za zaporedje 2n števil v naraščajočem vrstnem redu povprečite nth in (n + 1)thštevilko, da dobimo mediano. Primer - [1,2,3,4,5,6] ima srednjo vrednost (3 + 4) / 2 = 3,5

Način:

Način je preprosto najpogostejša številka v nizu številk . Na primer način [1,2,3,3,4,5,5,5] je 5.

Varianca:

Variacija ni osrednje merilo. Meri kako se vaši podatki širijo okoli povprečja . Kvantificira se kot

xje srednja vrednost N števil. Vzameš točko, odšteješ povprečje, vzameš kvadrat te razlike. Naredite to za vseh N številk in jih povprečite. Kvadratni koren variance se imenuje standardni odklon. Nato v tem članku o statistiki strojnega učenja razumemo Normal Distribution.

Običajna porazdelitev

Distribucija nam pomaga razumeti, kako se naši podatki širijo . Na primer, v vzorcu starosti lahko imamo več mladih kot starejših odraslih in s tem manjše vrednosti starosti več kot večje. Kako pa definiramo distribucijo? Oglejte si spodnji primer

Os y predstavlja gostoto. Način te distribucije je 30, saj je največji in zato najpogostejši. Poiščemo lahko tudi mediano. Mediana leži na točki na osi x, kjer je pokrita polovica površine pod krivuljo. Območje pod katero koli normalno porazdelitvijo je 1, ker je vsota verjetnosti vseh dogodkov 1. Na primer,

Mediana v zgornjem primeru je približno 4. To pomeni, da je površina pod krivuljo pred 4 enaka kot pod 4. Razmislite o drugem primeru

Vidimo tri običajne porazdelitve. Modra in rdeča imata enako povprečje. Rdeča ima večjo varianco. Zato je bolj razpršen kot modri. Ker pa mora biti območje 1, je vrh rdeče krivulje krajši od modre krivulje, da območje ostane konstantno.

Upam, da ste razumeli osnovne statistike in običajne porazdelitve. Zdaj, v tem članku o statistiki strojnega učenja, spoznajmo Linearno algebro.

Linearna algebra

Sodobna umetna inteligenca ne bi bila mogoča brez linearne algebre. Tvori jedro Globoko učenje in je bil uporabljen celo v preprostih algoritmih, kot je . Brez nadaljnjih zamud začnimo.

datum tipa podatkov v primeru sql

Morate biti seznanjeni z vektorji. So neke vrste geometrijske predstave v vesolju. Na primer, vektor [3,4] ima 3 enote vzdolž osi x in 4 enote vzdolž osi y. Upoštevajte naslednjo sliko -

Vektor d1 ima 0,707 enot po osi x in 0,707 enot po osi y. Vektor ima 1 dimenzijo. Nujno ima velikost in smer. Na primer

Zgornja slika ima vektor (4,3). Njegova velikost je 5, z osjo x pa 36,9 stopinje.

Kaj je matrica? Matrica je večdimenzionalno polje števil. Za kaj se uporablja? Bomo videli naprej. Najprej pa poglejmo, kako se uporablja.

Matrica

Matrica ima lahko veliko dimenzij. Upoštevajmo dvodimenzionalno matriko. Ima vrstice (m) in stolpce (n). Zato ima m * n elementov.

Na primer

Ta matrika ima 5 vrstic in 5 stolpcev. Recimo ji A. Zato je A (2,3) vnos v drugi vrstici in tretjem stolpcu, ki je 8.

Zdaj, ko veste, kaj je matrika, nam omogoča, da si ogledamo različne operacije matrike.

Matrične operacije

Dodajanje matric

Dve matriki enako dimenzije lahko dodate. Dodajanje se zgodi po elementih.

Skalarno množenje

Matrico lahko pomnožimo s skalarno količino. Takšno množenje vodi do tega, da se vsak vnos v matriko pomnoži s skalarjem. Škalar je le številka

Prenos matrike

Prenos matrike je preprost. Za matriko A (m, n) naj bo A 'njen prenos. Potem

A '(i, j) = A (j, i)

Na primer

Množenje matrike

To je verjetno nekoliko zapleteno kot pri drugih operacijah. Preden se potopimo vanj, določimo pikčasti zmnožek med dvema vektorjema.

Upoštevajmo vektor X = [1,4,6,0] in vektor Y = [2,3,4,5]. Nato je pika med X in Y definirana kot

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

c ++ fibonaccijev rekurziven

Gre torej za množenje in seštevanje elementov. Zdaj,razmislimo o dveh matricah A (m, n) in B (n, k), kjer so m, n, k dimenzije in s tem cela števila. Množenje matrice definiramo kot

V zgornjem primeru prvi element izdelka (44) dobimo s pikčastim zmnožkom prve vrstice leve matrike s prvim stolpcem desne matrice. Podobno 72 dobimo s pikčastim zmnožkom prve vrstice leve matrice z drugim stolpcem desne matrice.

Upoštevajte, da mora biti za levo matrico število stolpcev enako številu vrstic v desnem stolpcu. V našem primeru zmnožek AB obstaja, BA pa ne, saj m ni enako k. Za dve matriki A (m, n) in B (n, k) je definiran zmnožek AB in dimenzija zmnožka (m, k) (najbolj zunanje dimenzije (m, n), (n, k )). BA pa ni opredeljen, razen če je m = k.

S tem smo zaključili ta članek o Statistiki za strojno učenje. Upam, da ste nekaj razumeli žargon strojnega učenja. Vendar se tu še ne konča. Če ste prepričani, da ste pripravljeni na panogo, si oglejte Edurekine tečaje o znanosti o podatkih in umetni inteligenci. Lahko jih najdemo