Kaj je varianca pristranskosti pri strojnem učenju?



Ta članek zajema koncept pristranskosti in variance pri strojnem učenju z razmerjem med njimi, ki določa napovedno natančnost modela.

V , uspešnost modela temelji na njegovih napovedih in na tem, kako dobro posplošuje nevidne, neodvisne podatke. Eden od načinov za merjenje natančnosti modela je upoštevanje pristranskosti in variance v modelu. V tem članku bomo izvedeli, kako varianca pristranskosti igra pomembno vlogo pri določanju pristnosti modela. V tem članku so obravnavane naslednje teme:

Neodločljiva napaka

Vsak model v se oceni na podlagi napake napovedi na novem neodvisnem, nevidnem naboru podatkov. Napaka ni nič drugega kot razlika med dejanskim izhodom in napovedanim izhodom. Za izračun napake naredimo seštevanje reducibilne in nesmanjšane napake, ki se imenuje dekompozicija variance pristranskosti.





Nepovratna napaka ni nič drugega kot tiste napake, ki jih ni mogoče zmanjšati ne glede na nobeno ki ga uporabljate v modelu. Povzročajo ga nenavadne spremenljivke, ki neposredno vplivajo na izhodno spremenljivko. Da bi bil vaš model učinkovit, nam preostane manjša napaka, ki jo moramo za vsako ceno optimizirati.

Zmanjšana napaka ima dve komponenti - Pristranskost in varianca , pristranskost in varianca vplivajo na natančnost modela na več načinov overfitting, underfitting itd.Oglejmo si pristranskost in varianco, da bomo razumeli, kako ravnati z zmanjšljivo napako v .



Kaj je pristranskost pri strojnem učenju?

Pristranskost je v bistvu, kako daleč smo napovedali vrednost od dejanske vrednosti. Pravimo, da je pristranskost previsoka, če so povprečne napovedi daleč od dejanskih vrednosti.

Zaradi velike pristranskosti bo algoritem zgrešil prevladujoč vzorec ali razmerje med vhodnimi in izhodnimi spremenljivkami. Če je pristranskost previsoka, se domneva, da je model dokaj preprost in ne razume zapletenosti nabora podatkov, da bi določil razmerje in tako,povzroča premalo opreme.

Variacija v modelu strojnega učenja?

Na neodvisnem, nevidnem naboru podatkov ali naboru preverjanja veljavnosti. Kadar model ne deluje tako dobro kot pri usposobljenem naboru podatkov, obstaja možnost, da ima model varianco. V bistvu pove, kako razpršene so predvidene vrednosti od dejanskih vrednosti.



Velika varianca v naboru podatkov pomeni, da je model treniral z veliko hrupa in nepomembnih podatkov. Tako povzroča prekomerno opremljanje modela. Ko ima model veliko varianco, postane zelo prilagodljiv in napačno napoveduje nove podatkovne točke. Ker se je prilagodil podatkovnim točkam vadbenega sklopa.

Poskusimo tudi matematično razumeti koncept pristranskosti variance. Naj bo spremenljivka, za katero predvidevamo, da je Y, druge neodvisne spremenljivke pa X. Zdaj domnevajmo, da obstaja med dvema spremenljivkama takšna povezava, da:

Y = f (X) + e

V zgornji enačbi, tukaj je je ocenjena napaka s srednjo vrednostjo 0. Ko naredimo klasifikator z uporabo algoritmov kot linearna regresija , , itd., pričakovana napaka na kvadrat v točki x bo:

napaka (x) = pristranskost2.+ Varianca + nespremenljiva napaka

Razumejmo tudi, kako bo odstopanje od pristranskosti vplivalo na a Strojno učenje uspešnosti modela.

Kako to vpliva na model strojnega učenja?

Razmerje med varianco pristranskosti lahko postavimo v štiri spodaj naštete kategorije:

  1. Visoka varianca-visoka pristranskost - model je nedosleden in v povprečju tudi netočen
  2. Nizka varianca - visoka pristranskost - modeli so dosledni, v povprečju pa nizki
  3. Visoka varianca-nizka pristranskost - nekoliko natančna, a neskladna s povprečji
  4. Nizka varianca - nizka pristranskost - To je idealen scenarij, model je v povprečju skladen in natančen.

pristranskost-varianca v strojnem učenju-edureka

Čeprav je odkrivanje pristranskosti in odstopanja v modelu povsem očitno. Model z veliko varianco bo imel majhno napako pri treningu in veliko napako pri preverjanju. V primeru velike pristranskosti bo model imel veliko napako pri treningu in napaka pri preverjanju je enaka napaki pri treningu.

Čeprav se zdi, da je odkrivanje enostavno, je resnična naloga, da ga zmanjšamo na minimum. V tem primeru lahko naredimo naslednje:

podiplomska diploma vs magistri
  • Dodajte več vhodnih funkcij
  • Več zapletenosti z uvedbo polinomskih lastnosti
  • Zmanjšajte rok regularizacije
  • Pridobivanje več podatkov o usposabljanju

Zdaj, ko vemo, kaj je pristranskost in varianca in kako vpliva na naš model, si oglejmo kompromis pristranskosti in variance.

Kompromis pristranskosti in variance

Iskanje pravega ravnovesja med pristranskostjo in varianco modela se imenuje kompromis Bias-Variance. To je v bistvu način, da se prepričate, da model v nobenem primeru ni niti preveč ali premalo opremljen.

Če je model preveč preprost in ima zelo malo parametrov, bo trpel zaradi velike pristranskosti in majhne variance. Če pa ima model veliko število parametrov, bo imel veliko varianco in nizko pristranskost. Ta kompromis naj bi privedel do popolnoma uravnoteženega odnosa med njima. V idealnem primeru je cilj vsakega modela strojnega učenja nizka pristranskost in majhna varianca.

Popolna napaka

V katerem koli modelu strojnega učenja je dobro ravnotežje med pristranskostjo in varianco popoln scenarij v smislu napovedne natančnosti in izogibanja prekomernemu opremljanju. Optimalno ravnovesje med pristranskostjo in varianco glede na zapletenost algoritma bo zagotovilo, da model sploh ni nikoli preveč ali premalo opremljen.

Povprečna kvadratna napaka v statističnem modelu se šteje kot vsota kvadratne pristranskosti in variance ter variance napake. Vse to lahko postavimo v skupno napako, kjer imamo v modelu pristranskost, varianco in nespremenljivo napako.

Dovolite nam, da razumemo, kako lahko s pomočjo praktične izvedbe zmanjšamo skupno napako.

Ustvarili smo klasifikator linearne regresije v Linearna regresija v strojnem učenju članek o Edureki z uporabo niza podatkov o diabetesu v modulu nabora podatkov v scikit naučiti knjižnica.

kaj je keyerror v pythonu

Ko smo ocenili povprečno kvadratno napako klasifikatorja, smo dobili skupno napako okoli 2500.

Da bi zmanjšali skupno napako, smo klasifikatorju dodali več podatkov, v zameno pa je bila povprečna napaka na kvadrat zmanjšana na 2000.

To je preprosta izvedba zmanjšanja skupne napake z dodajanjem več podatkov o treningu modelu. Podobno lahko uporabimo druge tehnike za zmanjšanje napake in ohranjanje ravnovesja med pristranskostjo in varianco za učinkovit model strojnega učenja.

To nas pripelje do konca tega članka, kjer smo se naučili Bias-Variance v MahuUčenje z njegovim izvajanjem in uporabo. Upam, da vam je jasno vse, kar je bilo v tej vadnici z vami deljeno.

Če se vam zdi ta članek o »pristranskosti variance pri strojnem učenju« ustrezen, si oglejte zaupanja vredno podjetje za spletno učenje z mrežo več kot 250.000 zadovoljnih učencev, razširjenih po vsem svetu.

Tu smo, da vam pomagamo pri vsakem koraku na poti in pripravimo učni načrt, ki je zasnovan za študente in strokovnjake, ki želijo biti . Tečaj je zasnovan tako, da vam omogoči uvod v programiranje Python in vas usposobi za osnovne in napredne koncepte Pythona ter različne všeč , itd.

Če naletite na kakršna koli vprašanja, vas prosimo, da vsa vprašanja postavite v oddelku za komentarje v »Prednostna variacija pri strojnem učenju« in naša ekipa vam bo z veseljem odgovorila.