Kateri so predpogoji za strojno učenje?



Ta spletni dnevnik o predpogojih za strojno učenje vam bo pomagal razumeti osnovne koncepte, ki jih morate poznati, preden začnete uporabljati strojno učenje.

Strojno učenje je nedvomno najbolj zahtevna tehnologija tiste dobe! Če ste začetnik, ki začenja s strojnim učenjem, je pomembno, da poznate predpogoje za strojno učenje. Ta spletni dnevnik vam bo pomagal razumeti različne koncepte, ki jih morate poznati, preden začnete s strojnim učenjem.

Če želite poglobljeno znanje o umetni inteligenci in strojnem učenju, se lahko vpišete v živo avtor Edureka s 24-urno podporo in življenjskim dostopom.





Tu je seznam tem zajeto v tem blogu:

  1. Predpogoji za strojno učenje
  2. Razumevanje strojnega učenja s primerom uporabe

Predpogoji za strojno učenje

Za začetekStrojno učenje morate poznati naslednje pojme:



  1. Statistika
  2. Linearna algebra
  3. Račun
  4. Verjetnost
  5. Programski jeziki

Statistika

Statistični podatki vsebujejo orodja, s pomočjo katerih lahko na podlagi podatkov dobimo nekaj rezultatov. Obstaja opisna statistika, ki se uporablja za pretvorbo surovih podatkov v nekatere pomembne informacije. Naključne statistike je mogoče uporabiti tudi za pridobivanje pomembnih informacij iz vzorca podatkov, namesto da bi uporabili celoten nabor podatkov.

Če želite izvedeti več o Statistični podatki lahko pregledujete naslednje bloge:

Linearna algebra

Ponudbe linearne algebrez vektorji, matricami in linearnimi transformacijami. Pri strojnem učenju je zelo pomemben, saj ga lahko uporabimo za preoblikovanje in izvajanje operacij na naboru podatkov.



Račun

Račun je pomembno področje matematike in ima pomembno vlogo v mnogih algoritmih strojnega učenja. Podatkovni niz z več funkcijami jeuporablja se za izdelavo modelov strojnega učenja, saj so funkcije večkratni spremenljivi račun, igra pomembno vlogo pri izdelavi modela strojnega učenja. Integracije in diferenciacije so nujne.

Verjetnost

Verjetnost pomaga napovedati verjetnost pojavov, pomaga nam sklepati, da se situacija lahko ponovi ali ne. Za strojno učenje je verjetnost a temelj.

Mathematics

Če želite izvedeti več o verjetnosti, lahko to preberete Spletni dnevnik.

Programski jezik

Za izvajanje celotnega procesa strojnega učenja je nujno poznati programske jezike, kot sta R in Python. Python in R ponujata vgrajene knjižnice, ki zelo olajšajo izvajanje algoritmov strojnega učenja.

Poleg osnovnega znanja programiranja je pomembno tudi, da znate izvleči, obdelati in analizirati podatke. To je ena najpomembnejših veščin, ki je potrebna za strojno učenje.

Če želite izvedeti več o programiranju jezikov za strojno učenje, lahko obiščete naslednje bloge:

  1. Najboljše knjižnice Python za podatkovne vede in strojno učenje

Primer uporabe strojnega učenja

Strojno učenje je namenjeno ustvarjanju algoritma, ki se lahko na podlagi podatkov uči za napovedovanje, kot so vrste predmetov na sliki, ali priporočilni mehanizem, najboljša kombinacija zdravil za zdravljenje določene bolezni ali filtriranje neželene pošte.

Strojno učenje temelji na matematičnih predpogojih in če veste, zakaj se pri strojnem učenju uporablja matematika, bo zabavno. Vedeti morate matematiko funkcij, ki jih boste uporabljali, in kateri model je primeren za podatke in zakaj.

Začnimo torej z zanimivim problemom napovedovanja cen stanovanj, ki ima nabor podatkov, ki vsebuje zgodovino različnih lastnosti in cen, za zdaj bomo upoštevali površino bivalnega prostora v kvadratnih metrih in cene.

Zdaj imamo nabor podatkov, ki vsebuje dva stolpca, kot je prikazano spodaj:

Med tema dvema spremenljivkama mora obstajati neka povezava, da bomo ugotovili, ali bomo morali zgraditi model, ki bo lahko napovedal ceno hiš, kako lahko to storimo?

Grafizirajmo te podatke in si oglejmo, kako so videti:

Tu je os X cena na kvadratni meter življenjske površine, os Y pa cena hiše. Če narišemo vse podatkovne točke, bomo dobili razpršeni diagram, ki ga lahko predstavimo s črto, kot je prikazano na zgornji sliki, in če vnesemo nekaj podatkov, bo napovedal nek rezultat. V idealnem primeru moramo najti črto, ki bo sekala največ podatkovnih točk.

Tu poskušamo ustvariti vrstico, ki se imenuje:

Y = mX + c

Ta metoda napovedovanja linearnega razmerja med ciljno (odvisna spremenljivka) in napovedovalno spremenljivko (neodvisna spremenljivka) se imenuje linearna regresija. Omogoča nam, da preučimo in povzamemo razmerje med dvema spremenljivkama.

  • X = Neodvisna spremenljivka
  • Y = odvisna spremenljivka
  • c = presek y
  • m = naklon črte

Če upoštevamo enačbo, imamo vrednosti za X, ki je neodvisna spremenljivka, zato moramo le izračunati vrednosti za m in c, da napovemo vrednost Y.

kakšna je razlika med preglasitvijo in preobremenitvijo

Torej, kako najdemo te spremenljivke?

Da bi našli te spremenljivke, lahko preizkusimo kup vrednosti in poiščemo črto, ki seka največje število podatkovnih točk. Ampak, kako najti najboljšo linijo?

Da bi našli najprimernejšo črto, lahko uporabimo funkcijo napake najmanjših kvadratov, ki bo našla napako med dejansko vrednostjo y in predvideno vrednostjo y`.

Funkcijo napake najmanjših kvadratov lahko predstavimo z uporabo naslednje enačbe:

S to funkcijo lahko ugotovimo napako za vsako predvideno podatkovno točko, tako da jo primerjamo z dejansko vrednostjo podatkovne točke. Nato vzamete seštevek vseh teh napak in jih poravnate, da ugotovite odstopanje v napovedi.

Če v naš graf, ki vsebuje vse možne vrednosti napak, dodamo tretjo os in jo narišemo v tridimenzionalni prostor, bo videti tako:

Na zgornji sliki bi bile idealne vrednosti v spodnjem črnem delu, ki bo napovedal cene blizu dejanske podatkovne točke. Naslednji korak je najti najboljše možne vrednosti za m in c. To lahko storimo z uporabo tehnike optimizacije, imenovane gradientni spust.

Gradientni spust je iterativna metoda, pri kateri začnemo z inicializiranjem določenega nabora vrednosti za naše spremenljivke in jih počasi izboljšujemo tako, da zmanjšamo napako med dejansko vrednostjo in napovedano vrednostjo.

Zdaj, če mislimo, da cene stanovanja v resnici niso odvisne samo od cene na kvadratni meter, obstaja veliko dejavnikov, kot je število spalnic, kopalnic itd. Če upoštevamo tudi te lastnosti, bo enačba videti nekaj Všečkaj to

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

To je večlinearna regresija, pripada linearni algebri, tu lahko uporabimo matrike velikosti mxn, kjer so m značilnosti in n podatkovne točke.

Poglejmo še eno situacijo, ko lahko z verjetnostjo poiščemo stanje hiše, da hišo razvrstimo glede na to, ali je v dobrem ali slabem stanju. Za to bomo morali uporabiti tehniko, imenovano Logistična regresija, ki deluje na verjetnost pojavov, ki jih predstavlja sigmoidna funkcija.

V tem članku smo obravnavali predpogoje strojnega učenja in kako se uporabljajo pri strojnem učenju. V bistvu je torej sestavljen iz statistike, računa, linearne algebre in teorije verjetnosti. Račun ima tehnike, ki se uporabljajo za optimizacijo, linearna algebra ima algoritme, ki lahko delujejo na ogromnih naborih podatkov, z verjetnostjo lahko predvidimo verjetnost pojavov, statistika pa nam pomaga izkoristiti koristne vpoglede iz vzorca naborov podatkov.

Zdaj, ko poznate pogoje za strojno učenje, sem prepričan, da vas zanima več. Tu je nekaj spletnih dnevnikov, ki vam bodo pomagali začeti uporabljati Data Science:

Če se želite vpisati na celoten tečaj o umetni inteligenci in strojnem učenju, ima Edureka posebej kurirano s tem boste usposobljeni za tehnike, kot so nadzorovano učenje, nenadzorovano učenje in obdelava naravnega jezika. Vključuje usposabljanje o najnovejših dosežkih in tehničnih pristopih na področju umetne inteligence in strojnega učenja, kot so globoko učenje, grafični modeli in učenje okrepitve.