Vadnica za Python Pande: Naučite se Pande za analizo podatkov



V tej vadnici Python Pandas boste spoznali različne operacije Pand. Vključuje tudi primer uporabe, kjer lahko podatke analizirate s pomočjo Pandas.

V tem blogu bomo razpravljali o analizi podatkov z uporabo Pandas v Pythonu.Danes je vroča veščina v industriji, ki je po splošni priljubljenosti in uporabi presegla PHP v letu 2017 in C # v letu 2018.Preden govorimo o Pandah, moramo razumeti koncept Numpyjevih nizov. Zakaj? Ker je Pandas odprtokodna knjižnica programske opreme, ki je zgrajena na vrhu . V tej vadnici Python Pandas vas bom popeljal skozi naslednje teme, ki bodo služile kot osnova za prihajajoče bloge:

Začnimo. :-)





Kaj so Python Pande?

Pandas se uporablja za obdelavo, analizo in čiščenje podatkov. Pandone Python so zelo primerne za različne vrste podatkov, kot so:

  • Tabelarni podatki s heterogeno vtipkanimi stolpci
  • Urejeni in neurejeni podatki o časovnih vrstah
  • Podatki o poljubni matriki z oznakami vrstic in stolpcev
  • Neoznačeni podatki
  • Kakršna koli druga oblika opazovalnih ali statističnih podatkovnih nizov

Kako namestiti Pande?

Če želite namestiti Python Pande, pojdite v ukazno vrstico / terminal in vnesite »pip install pandas«, sicer pa, če imate v sistemu nameščeno anacondo, preprosto vnesite »conda install pandas«. Ko je namestitev končana, pojdite na svoj IDE (Jupyter, PyCharm itd.) In ga preprosto uvozite, tako da vtipkate: “import pandas as pd”



V nadaljevanju vaje za pando Python si oglejmo nekaj njenih operacij:

Python Pandas Operations

Z uporabo pand Python lahko izvedete veliko operacij s serijami, podatkovnimi okviri, manjkajočimi podatki, razvrščanjem po itd. Spodaj so navedene nekatere pogoste operacije za obdelavo podatkov:



PandasOperations - Vadnica za Python Pande - Edureka

Zdaj pa razumimo vse te operacije eno za drugo.

Rezanje podatkovnega okvira

Za izvedbo rezanja podatkov potrebujete podatkovni okvir. Ne skrbite, podatkovni okvir je dvodimenzionalna podatkovna struktura in najpogostejši predmet pand. Najprej ustvarimo podatkovni okvir.

Za izvedbo v PyCharmu si oglejte spodnjo kodo:

uvozi pande kot pd XYZ_web = {'Dan': [1,2,3,4,5,6], 'Obiskovalci': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Izhod :

Obiskovalci Bounce_Rate dneva 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350

Zgornja koda bo pretvorila slovar v podatkovni okvir pandas skupaj z indeksom na levi. Zdaj pa izrežemo določen stolpec iz tega podatkovnega okvira. Glejte spodnjo sliko:

tiskanje (df.head (2))

Izhod:

Obiskovalci Bounce_Rate dneva 0 20 1 1000 1 20 2 700

Podobno, če želite zadnji dve vrstici podatkov, vnesite spodnji ukaz:

tisk (df.tail (2))

Izhod:

Obiskovalci Bounce_Rate dneva 4 10 5 400 5 34 6 350

Naslednje v vadnici Python Pandas izvedimo spajanje in združevanje.

Združevanje in združevanje

Pri združevanju lahko združite dva podatkovna okvira, da tvorite en sam podatkovni okvir. Odločite se lahko tudi, katere stolpce želite imeti skupne. Naj to praktično izvedem, najprej bom ustvaril tri podatkovne okvire, ki imajo nekaj parov ključ-vrednost, nato pa okvirje podatkov združim skupaj. Glejte spodnjo kodo:

HPI IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Izhod:

uvozi pande kot pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) združeno = pd.merge (df1, df2) print (spojeno)

Kot lahko vidite zgoraj, sta se dva podatkovna okvira združila v en podatkovni okvir. Zdaj lahko določite tudi stolpec, ki ga želite narediti skupnega. Na primer, želim, da je stolpec »HPI« pogost, za vse ostalo pa ločene stolpce. Torej, naj to praktično uporabim:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) združeno = pd.merge (df1, df2, on = 'HPI') print (spojeno)

Izhod:

IND_GDP Int_Rate Low_Tier_HPI Brezposelnost 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Nato naj razumemo pridružitev v vadnici python pand. Še ena priročna metoda je kombiniranje dveh različno indeksiranih podatkovnih okvirov v en sam podatkovni okvir rezultata. To je precej podobno operaciji »spajanje«, le da bo operacija združevanja namesto v stolpcih navedena v indeksu. Uresničimo ga praktično.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, indeks = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Brezposelnost': [1,3,5,6]}, indeks = [2001, 2003,2004,2004]) joined = df1. pridruži (df2) natisni (pridruži)

Izhod:

IND_GDP Int_Rate Low_Tier_HPI Brezposelnost 2001 50 2 50,0 1,0 2002 45 1 NaN NaN 2003 45 2 45,0 3,0 2004 67 3 67,0 5,0 2004 67 3 34,0 6,0

Kot lahko opazite v zgornjem izidu, v letu 2002 (indeks) na stolpce 'low_tier_HPI' in 'brezposelnost' ni dodana nobena vrednost, zato je natisnjen NaN (ni številka). Kasneje leta 2004 sta na voljo obe vrednosti, zato je natisnil ustrezne vrednosti.

Lahko si ogledate ta posnetek vadnice Python Pandas, kjer je naš inštruktor podrobno razložil teme s primeri, ki vam bodo pomagali bolje razumeti ta koncept.

Python za analizo podatkov | Vadnica za Python Pande | Usposabljanje za Python | Edureka


V nadaljevanju vaje o pandah Python bomo razumeli, kako združiti dva podatkovna okvira.

Združevanje

Združevanje v bistvu povezuje podatkovne okvire. Izberete lahko dimenzijo, na kateri želite združiti. Za to preprosto uporabite 'pd.concat' in podajte seznam podatkovnih okvirov, da se združite. Upoštevajte spodnji primer.

javni niz tostring ()
df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Izhod:

HPI IND_GDP Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Kot lahko vidite zgoraj, sta dva podatkovna okvira zlepljena v enem podatkovnem okviru, kjer se indeks začne od leta 2001 do leta 2008. Nato lahko določite tudi os = 1, da se združite, združite ali povežete po stolpcih. Glejte spodnjo kodo:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, indeks = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], os = 1) print (concat)

Izhod:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80,0 50,0 2,0 NaN NaN NaN 2002 90,0 45,0 1,0 NaN NaN NaN 2003 70,0 45,0 2,0 NaN NaN NaN 2004 60,0 67,0 3,0 NaN NaN NaN 2005 NaN NaN NaN 80,0 50,0 2,0 2006 NaN NaN NaN 90,0 45,0 1,0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Kot lahko zgoraj, manjka vrednosti. To se zgodi, ker podatkovni okviri niso imeli vrednosti za vse indekse, ki jih želite združiti. Zato se prepričajte, da imate vse informacije pravilno poravnane, ko se na osi združite ali združite.

Spremenite indeks

Naslednja vadnica za patone python bo razumela, kako spremeniti vrednosti indeksa v podatkovnem okviru. Ustvarimo na primer podatkovni okvir z nekaj pari vrednosti ključev v slovarju in spremenimo vrednosti indeksa. Upoštevajte spodnji primer:

Poglejmo, kako se to dejansko zgodi:

uvozi pande kot pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Dan', namesto = True) print (df)

Izhod:

Bounce_Rate Obiskovalci 1. dan 20 200 2 45 100 3 60 230 4 10 300

Kot lahko opazite v zgornjem izhodu, je bila vrednost indeksa spremenjena glede na stolpec 'Dan'.

Spremenite glave stolpcev

Spremenimo zdaj glave stolpcev v tej vadnici za patone python. Vzemimo isti primer, kjer bom glavo stolpca spremenil iz »Obiskovalci« v »Uporabniki«. Torej, naj ga izvedem praktično.

uvozi pande kot pd df = pd.DataFrame ({'Day': [1,2,3,4], 'Visitors': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (stolpci = {'Obiskovalci': 'Uporabniki'}) print (df)

Izhod:

Uporabniki Bounce_Rate Day 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300

Kot vidite zgoraj, je naslov stolpca »Obiskovalci« spremenjen v »Uporabniki«. Naslednje v vadnici za patone python izvedimo spreminjanje podatkov.

Spreminjanje podatkov

V razdelku Spreminjanje podatkov lahko določene podatke pretvorite v drugo obliko. Če imate na primer datoteko .csv, jo lahko pretvorite tudi v .html ali katero koli drugo obliko zapisa podatkov. Torej, naj to praktično izvedem.

uvozi pande kot pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-brezposelnostiAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Ko zaženete to kodo, bo ustvarjena datoteka HTML z imenom 'edu.html'. Pot datoteke lahko neposredno kopirate in prilepite v brskalnik, ki prikazuje podatke v obliki HTML. Oglejte si spodnji posnetek zaslona:


Naslednji del vaje za python pande si oglejmo primer uporabe, ki govori o globalni brezposelnosti mladih.

Vadnica za Python Pandas: Primer za analizo podatkov o brezposelnosti mladih

Izjava o težavi :Dobili ste nabor podatkov, ki obsega odstotek brezposelne mladine po vsem svetu od leta 2010 do 2014. Uporabiti morate ta podatkovni niz in najti spremembo v odstotku mladih za vsako državo v obdobju 2010–2011.

Najprej naj razumemo nabor podatkov, ki vsebuje stolpce, kot so ime države, koda države in leto od 2010 do 2014. Zdaj bomo z uporabo pand uporabili »pd.read_csv« za branje datoteke .csv.
Oglejte si spodnji posnetek zaslona:

Gremo naprej in opravimo analizo podatkov, v kateri bomo ugotovili odstotno spremembo brezposelne mladine med letoma 2010 in 2011. Nato bomo isto vizualizirali z uporabo knjižnica, ki je zmogljiva knjižnica za vizualizacijo v Pythonu. Uporablja se lahko v skriptih Python, lupini, strežnikih spletnih aplikacij in drugih orodjih za GUI. Več o tem lahko uporabite tukaj:

Zdaj pa uporabimo kodo v PyCharm:

uvozi pande kot pd uvozi matplotlib.pyplot kot plt iz matplotlib uvozi slog style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-nezaposlenostAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Koda države']) sd = sd.reindex (stolpci = ['2010', '2011']) db = sd.diff (os = 1) db.plot (vrsta = 'bar') plt.show ()

Kot lahko vidite zgoraj, sem analizo izvedel v zgornjih 5 vrsticah podatkovnega okvira države. Nato sem določil vrednost indeksa kot »Koda države« in nato stolpec znova indeksiral na leti 2010 in 2011. Nato imamo še en podatkovni okvir db, ki natisne razliko med obema stolpcema ali odstotno spremembo brezposelne mladine. od 2010 do 2011. Končno sem izrisal barplot z uporabo knjižnice Matplotlib v Pythonu.


Če ste v zgornji zaroti opazili, se je v Afganistanu (AFG) med letoma 2010 in 2011 število brezposelnih mladih povečalo za približno 0,25%. Nato je v Angoli (AGO) negativen trend, kar pomeni, da se je zmanjšal odstotek brezposelne mladine. Podobno lahko izvajate analizo na različnih naborih podatkov.

Upam, da je bil moj blog o vadnici Python Pandas primeren za vas. Če želite pridobiti poglobljeno znanje o pythonu skupaj z različnimi aplikacijami, se lahko prijavite v živo avtor Edureka s 24-urno podporo in življenjskim dostopom.

Imate vprašanje za nas? Prosimo, omenite ga v oddelku za komentarje tega bloga 'Vadnice za Python Pandas', mi pa se vam bomo oglasili takoj, ko bo mogoče.