Pandaskirjasto tekee python-pohjaisesta datatieteestä helpon ajon. Se on suosittu Python-kirjasto tietojen lukemiseen, yhdistämiseen, lajitteluun, puhdistamiseen ja muuhun. Vaikka pandoja on helppo käyttää ja soveltaa tietosarjoihin, sillä on monia tiedonkäsittelytoimintoja opittavakseen.
Saatat käyttää pandoja, mutta on hyvä mahdollisuus, että käytät niitä liian vähän dataan liittyvien ongelmien ratkaisemiseen. Tässä on luettelo arvokkaista datan manipuloivista pandatoiminnoista, jotka jokaisen datatieteilijän pitäisi tietää.
Asenna pandat virtuaaliympäristöösi
Ennen kuin jatkamme, varmista, että asennat pandat virtuaaliympäristöösi pip: n avulla:
pip asentaa pandat
Tuo asennuksen jälkeen pandat komentosarjasi yläosassa ja jatketaan.
1. pandat. Datakehys
Sinä käytät pandat. Datakehys() DataFrame-kehyksen luomiseen pandassa. Tätä toimintoa voi käyttää kahdella tavalla.
Voit muodostaa DataFramen sarakekohtaisesti välittämällä sanakirjan hakemistoon pandat. Datakehys() toiminto. Tässä jokainen avain on sarake, kun taas arvot ovat rivejä:
tuonti pandat
DataFrame = pandat. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tulosta (DataFrame)
Toinen tapa on muodostaa DataFrame rivien yli. Mutta tässä erotat arvot (rivikohdat) sarakkeista. Kunkin luettelon tietojen (rivitietojen) lukumäärän on myös vastattava sarakkeiden määrää.
tuonti pandat
DataFrame = pandat. DataFrame([[1, 4, 5], [7, 19, 13]], sarakkeet= ["J", "K", "L"])
tulosta (DataFrame)
2. Lue lähteestä ja kirjoita Exceliin tai CSV: hen pandassa
Voit lukea tai kirjoittaa Excel- tai CSV-tiedostoja pandoilla.
Excel- tai CSV-tiedostojen lukeminen
Excel-tiedoston lukeminen:
#Korvaa esimerkki.xlsx Excel-tiedostopolullasi
DataFrame = DataFrame.read_excel("esimerkki.xlsx")
Voit lukea CSV-tiedoston seuraavasti:
#Korvaa esimerkki.csv CSV-tiedostopolullasi
DataFrame = DataFrame.read_csv("esimerkki.csv")
Kirjoittaminen Exceliin tai CSV: hen
Exceliin tai CSV: hen kirjoittaminen on hyvin tunnettu pandatoiminto. Ja se on kätevä tallentaa juuri lasketut taulukot erillisiksi tietotaulukoiksi.
Voit kirjoittaa Excel-arkkiin seuraavasti:
DataFrame.to_excel("kohdekansion_koko_polku/tiedostonimi.xlsx")
Jos haluat kirjoittaa CSV: hen:
DataFrame.to_csv("kohdekansion_koko_polku/tiedostonimi.csv")
Voit myös laskea DataFramen kunkin sarakkeen keskeiset suuntaukset pandoilla.
Näin saat kunkin sarakkeen keskiarvon:
DataFrame.mean()
Vaihda mediaani- tai tila-arvo tarkoittaa() kanssa mediaani() tai mode().
4. DataFrame.transform
pandat DataFrame.transform() muuttaa DataFramen arvoja. Se hyväksyy funktion argumenttina.
Esimerkiksi alla oleva koodi kertoo jokaisen DataFramen arvon kolmella käyttämällä Pythonin lambda-funktio:
DataFrame = DataFrame.transform (lambda y: y*3)
tulosta (DataFrame)
5. DataFrame.isnull
Tämä funktio palauttaa Boolen arvon ja merkitsee kaikki tyhjät arvot sisältävät rivit muodossa Totta:
DataFrame.isnull()
Yllä olevan koodin tulosta voi olla vaikea lukea suuremmille tietojoukoille. Joten voit käyttää isnull().sum() toiminto sen sijaan. Tämä palauttaa yhteenvedon kaikista puuttuvista arvoista kustakin sarakkeesta:
DataFrame.isnull().sum()
6. Dataframe.info
The tiedot() toiminto on an tärkeä pandan toiminta. Se palauttaa sen sijaan yhteenvedon kunkin sarakkeen puuttumattomista arvoista:
DataFrame.info()
7. DataFrame.describe
The kuvaile () -funktio antaa sinulle yhteenvetotilaston DataFramesta:
DataFrame.describe()
8. DataFrame.replace
Käyttämällä DataFrame.replace() menetelmällä pandassa, voit korvata valitut rivit muilla arvoilla.
Esimerkiksi vaihtaaksesi virheellisiä rivejä Nan:
# Varmista, että pip install numpy, jotta tämä toimii
tuonti numpy
tuonti pandat
# Paikallisen avainsanan lisääminen ja sen arvoksi asettaminen True tekee muutoksista pysyviä:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tulosta (DataFrame)
9. DataFrame.fillna
Tämän toiminnon avulla voit täyttää tyhjät rivit tietyllä arvolla. Voit täyttää kaikki Nan tietojoukon rivit, joissa on keskiarvo, esimerkiksi:
DataFrame.fillna (df.mean(), paikka = tosi)
tulosta (DataFrame)
Voit myös olla sarakekohtainen:
DataFrame['sarakkeen_nimi'].fillna (df[sarakkeen_nimi].keskiarvo(), paikka = tosi)
tulosta (DataFrame)
10. DataFrame.dropna
The dropna () menetelmä poistaa kaikki rivit, jotka sisältävät nolla-arvoja:
DataFrame.dropna (inplace = tosi)
tulosta (DataFrame)
11. DataFrame.insert
Voit käyttää pandaa insert() toiminto lisätäksesi uuden sarakkeen DataFrame-kehykseen. Se hyväksyy kolme avainsanaa, sarakkeen nimi, luettelo sen tiedoista ja sen sijainti, joka on sarakeindeksi.
Näin se toimii:
DataFrame.insert (sarake = 'C', arvo = [3, 4, 6, 7], loc=0)
tulosta (DataFrame)
Yllä oleva koodi lisää uuden sarakkeen nollasarakeindeksiin (sitä tulee ensimmäinen sarake).
12. DataFrame.loc
Voit käyttää loc löytääksesi tietyn hakemiston elementit. Voit tarkastella kaikkia kolmannen rivin kohteita esimerkiksi seuraavasti:
DataFrame.loc[2]
13. DataFrame.pop
Tämän toiminnon avulla voit poistaa tietyn sarakkeen pandas DataFramesta.
Se hyväksyy an kohde avainsana, palauttaa avatun sarakkeen ja erottaa sen muusta DataFramesta:
DataFrame.pop (item= 'sarakkeen_nimi')
tulosta (DataFrame)
14. DataFrame.max, min
Maksimi- ja vähimmäisarvojen saaminen pandoilla on helppoa:
DataFrame.min()
Yllä oleva koodi palauttaa kunkin sarakkeen vähimmäisarvon. Saadaksesi maksimi, vaihda min kanssa max.
15. DataFrame.join
The liittyä seuraan() Panda-funktion avulla voit yhdistää DataFrame-kehykset eri sarakkeiden nimillä. Voit käyttää vasenta, oikeaa, sisä- tai ulkoliitosta. DataFramen liittäminen vasemmalle kahden muun kanssa:
#Liitä pidemmät sarakkeet vasemmalle lyhyempiin
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
tulosta (newDataFrame)
Jos haluat liittyä DataFrame-kehykseen, jolla on samankaltaiset sarakkeiden nimet, voit erottaa ne lisäämällä jälkiliitteen vasemmalle tai oikealle. Tee tämä sisällyttämällä lsuffix tai rsfiksi avainsana:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
tulosta (newDataFrame)
16. DataFrame.combine
The yhdistää() -toiminto on kätevä kahden DataFrame-kehyksen yhdistämiseen, jotka sisältävät samankaltaisia sarakkeiden nimiä asetettujen kriteerien perusteella. Se hyväksyy a toiminto avainsana.
Jos esimerkiksi haluat yhdistää kaksi DataFrame-kehystä, joilla on samanlaiset sarakkeiden nimet, perustuen vain enimmäisarvoihin:
newDataFrame = df.combine (df2, numpy.minimum)
tulosta (newDataFrame)
Merkintä: Voit myös määrittää mukautetun valintatoiminnon ja lisätä numpy.minimi.
17. DataFrame.astype
The astype() funktio muuttaa tietyn sarakkeen tai DataFramen tietotyyppiä.
Voit muuttaa kaikki DataFramen arvot merkkijonoksi esimerkiksi seuraavasti:
DataFrame.astype (str)
18. DataFrame.sum
The summa() funktio pandassa palauttaa kunkin sarakkeen arvojen summan:
DataFrame.sum()
Löydät myös kaikkien käytettyjen kohteiden kumulatiivisen summan cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandat pudota() toiminto poistaa tietyt rivit tai sarakkeet DataFramesta. Sinun on annettava sarakkeiden nimet tai riviindeksi ja akseli käyttääksesi sitä.
Voit poistaa tiettyjä sarakkeita esimerkiksi seuraavasti:
df.drop (columns=['sarake1', 'sarake2'], akseli=0)
Esimerkiksi hakemistojen 1, 3 ja 4 rivien pudottaminen:
df.drop([1, 3, 4], akseli=0)
20. DataFrame.corr
Haluatko löytää korrelaation kokonaisluku- tai float-sarakkeiden välillä? pandat voivat auttaa sinua saavuttamaan sen käyttämällä oikein() toiminto:
DataFrame.corr()
Yllä oleva koodi palauttaa uuden DataFramen, joka sisältää korrelaatiosekvenssin kaikkien kokonaisluku- tai float-sarakkeiden välillä.
21. DataFrame.add
The lisätä() -funktion avulla voit lisätä tietyn numeron jokaiseen DataFramen arvoon. Se toimii iteroimalla DataFramen läpi ja toimimalla jokaisen kohteen kanssa.
Aiheeseen liittyvä:Kuinka käyttää For Loopsia Pythonissa
Jos haluat lisätä 20 jokaiseen arvoon tietyssä sarakkeessa, joka sisältää kokonaislukuja tai liukulukuja, esimerkiksi:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Kuten summausfunktio, voit myös vähentää luvun jokaisesta DataFrame- tai tietyn sarakkeen arvosta:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Tämä on kertolasku versio pandan summausfunktiosta:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
Vastaavasti voit jakaa jokaisen sarakkeen tai DataFrame: n datapisteen tietyllä numerolla:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Käyttämällä std() funktion avulla pandat voit myös laskea keskihajonnan DataFrame-kehyksen jokaiselle sarakkeelle. Se toimii iteroimalla jokaisen tietojoukon sarakkeen läpi ja laskemalla kunkin sarakkeen keskihajonnan:
DataFrame.std()
26. DataFrame.sort_values
Voit myös lajitella arvot nousevasti tai laskevasti tietyn sarakkeen perusteella. Voit lajitella DataFrame-kehyksen laskevaan järjestykseen esimerkiksi seuraavasti:
newDataFrame = DataFrame.sort_values (by = "colmun_name", laskeva = True)
27. DataFrame.melt
The sulaa() Funktio pandassa kääntää DataFramen sarakkeet yksittäisiksi riveiksi. Se on kuin DataFramen anatomian paljastaminen. Sen avulla voit tarkastella kullekin sarakkeelle nimenomaisesti määritettyä arvoa.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Tämä funktio palauttaa kunkin sarakkeen kohteiden kokonaismäärän:
DataFrame.count()
29. DataFrame.query
pandat kysely() voit soittaa kohteita käyttämällä niiden indeksinumeroa. Voit saada kolmannen rivin kohteet esimerkiksi seuraavasti:
DataFrame.query('4') # Soita kyselyyn neljännessä indeksissä
30. DataFrame.where
The missä() -funktio on pandas-kysely, joka hyväksyy ehdon tiettyjen arvojen saamiseksi sarakkeeseen. Esimerkiksi saadaksesi kaikki alle 30-vuotiaat Ikä sarake:
DataFrame.where (DataFrame['Ikä'] < 30)
Yllä oleva koodi tulostaa DataFrame-kehyksen, joka sisältää kaikki alle 30-vuotiaat, mutta määritetyt Nan riveille, jotka eivät täytä ehtoa.
Käsittele tietoja kuin ammattilainen pandojen kanssa
pandas on toimintojen ja menetelmien aarreaitta pienten ja suurten tietojoukkojen käsittelyyn Pythonilla. Kirjasto on hyödyllinen myös tietojen puhdistamiseen, validointiin ja valmisteluun analysointia tai koneoppimista varten.
Kun käytät aikaa sen hallitsemiseen, se helpottaa elämääsi datatieteilijänä, ja se on vaivan arvoista. Joten voit vapaasti poimia kaikki toiminnot, joita voit käsitellä.
Python Standard Library sisältää monia toimintoja, jotka auttavat ohjelmointitehtävissäsi. Opi hyödyllisimmistä ja luo tehokkaampi koodi.
Lue Seuraava
- Ohjelmointi
- Python
- Ohjelmointi
- tietokanta

Idowu on intohimoinen kaikkeen älykkääseen tekniikkaan ja tuottavuuteen. Vapaa-ajallaan hän leikkii koodaamalla ja vaihtuu shakkilaudalle, kun on kyllästynyt, mutta hän myös pitää välillä irtautumisesta rutiineista. Hänen intohimonsa näyttää ihmisille tietä modernin tekniikan parissa motivoi häntä kirjoittamaan lisää.
tilaa uutiskirjeemme
Liity uutiskirjeemme saadaksesi teknisiä vinkkejä, arvosteluja, ilmaisia e-kirjoja ja eksklusiivisia tarjouksia!
Klikkaa tästä tilataksesi