Zakaj izbrati Python za velike podatke



Programerji in podatkovni znanstveniki radi delajo s Pythonom za velike podatke. Ta objava v blogu pojasnjuje, zakaj je Python nujen za strokovnjake za Big Data Analytics.

Python ponuja ogromno knjižnic za delo na velikih podatkih. Tudi pri razvoju kode lahko veliko hitreje kot kateri koli drug programski jezik uporabljate Python za velike podatke. Ta dva vidika razvijalcem po vsem svetu omogočata, da Python sprejmejo kot jezik, ki ga izberejo za projekte Big Data. Če želite pridobiti poglobljeno znanje o Pythonu skupaj z različnimi aplikacijami, se lahko prijavite v živo s 24-urno podporo in življenjskim dostopom.

V pythonu je izjemno enostavno obdelati katero koli vrsto podatkov. Ugotovimo to s preprostim primerom. Iz spodnjega posnetka lahko vidite, da je podatkovni tip 'a' niz, podatkovni tip 'b' pa celo število. Dobra novica je, da vam ni treba skrbeti za ravnanje s podatkovnim tipom. Python je že poskrbel za to.





Data-type-Python-for-big-data

Zdaj je vprašanje za milijon dolarjev Python z velikimi podatki ali Java z velikimi podatki?



Najraje bi imel Python vsak dan z velikimi podatki, saj lahko v javi, če napišete 200 vrstic kode, z Pythonom naredim isto stvar v samo 20 vrsticah kode. Nekateri razvijalci pravijo, da je zmogljivost Jave boljša od Pythona, vendar sem opazil, da je pri delu z ogromno količino podatkov (v GB, TB in več) zmogljivost skoraj enaka, medtem ko je čas razvoja manjši, ko delo s Pythonom na velikih podatkih.

Najboljše pri Pythonu je, da podatki niso omejeni. Podatke lahko obdelujete tudi s preprostim strojem, kot je blagovna strojna oprema, prenosnik, namizje in drugi.

Python se lahko uporablja za pisanje programov in aplikacij Hadoop MapReduce za dostop do API-ja HDFS za Hadoop s pomočjo paketa PyDoop



Ena največjih prednosti PyDoop-a je HDFS API. To vam omogoča povezavo z namestitvijo HDFS, branje in pisanje datotek ter nemoteno pridobivanje informacij o datotekah, imenikih in lastnostih globalnega datotečnega sistema.

API MapReduce PyDoop vam omogoča, da z minimalnimi programskimi napori rešite številne zapletene probleme. Napredne koncepte MapReduce, kot sta »Števci« in »Bralniki zapisov«, je mogoče v Pythonu implementirati s pomočjo PyDoop.

V spodnjem primeru bom zagnal preprost program za štetje besed MapReduce, napisan v Pythonu, ki šteje pogostost pojavitve besede v vhodni datoteki. Tako imamo spodaj dve datoteki - 'mapper.py' in 'reducer.py', obe napisani v pythonu.

privzeta vrednost niza v javi

Slika: mapper.py

Slika: reducer.py

Slika: zagon opravila MapReduce

Slika: izhod

To je zelo osnovni primer, toda ko pišete zapleten program MapReduce, bo Python zmanjšal število vrstic kode za 10-krat v primerjavi z istim programom MapReduce, napisanim v Javi.

Zakaj je Python smiseln za podatkovne znanstvenike

Vsakodnevne naloge podatkovnega znanstvenika vključujejo številne med seboj povezane, a različne dejavnosti, kot so dostop do podatkov in manipulacija z njimi, računanje statistik in ustvarjanje vizualnih poročil okoli teh podatkov. Naloge vključujejo tudi gradnjo napovednih in pojasnjevalnih modelov, vrednotenje teh modelov na dodatnih podatkih, med drugim vključevanje modelov v proizvodne sisteme. Python ima raznolik nabor odprtokodnih knjižnic za skoraj vse, kar povprečen dan počne Data Scientist.

SciPy (izgovarja se 'Sigh Pie') je ekosistem odprtokodne programske opreme za matematiko, znanost in inženirstvo, ki temelji na Pythonu. Obstaja veliko drugih knjižnic, ki jih je mogoče uporabiti.

Razsodba je, da je Python najboljša izbira za uporabo z velikimi podatki.

Imate vprašanje za nas? Prosimo, da jih omenite v oddelku za komentarje, pa se vam bomo oglasili.

Sorodne objave:

kaj je spremenljivka primerka v javi