30 pandan komentoa datakehysten manipulointiin

Pandaskirjasto tekee python-pohjaisesta datatieteestä helpon ajon. Se on suosittu Python-kirjasto tietojen lukemiseen, yhdistämiseen, lajitteluun, puhdistamiseen ja muuhun. Vaikka pandoja on helppo käyttää ja soveltaa tietosarjoihin, sillä on monia tiedonkäsittelytoimintoja opittavakseen.

Saatat käyttää pandoja, mutta on hyvä mahdollisuus, että käytät niitä liian vähän dataan liittyvien ongelmien ratkaisemiseen. Tässä on luettelo arvokkaista datan manipuloivista pandatoiminnoista, jotka jokaisen datatieteilijän pitäisi tietää.

Asenna pandat virtuaaliympäristöösi

Ennen kuin jatkamme, varmista, että asennat pandat virtuaaliympäristöösi pip: n avulla:

pip asentaa pandat

Tuo asennuksen jälkeen pandat komentosarjasi yläosassa ja jatketaan.

1. pandat. Datakehys

Sinä käytät pandat. Datakehys() DataFrame-kehyksen luomiseen pandassa. Tätä toimintoa voi käyttää kahdella tavalla.

Voit muodostaa DataFramen sarakekohtaisesti välittämällä sanakirjan hakemistoon pandat. Datakehys() toiminto. Tässä jokainen avain on sarake, kun taas arvot ovat rivejä:

instagram viewer

tuonti pandat
DataFrame = pandat. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
tulosta (DataFrame)

Toinen tapa on muodostaa DataFrame rivien yli. Mutta tässä erotat arvot (rivikohdat) sarakkeista. Kunkin luettelon tietojen (rivitietojen) lukumäärän on myös vastattava sarakkeiden määrää.

tuonti pandat
DataFrame = pandat. DataFrame([[1, 4, 5], [7, 19, 13]], sarakkeet= ["J", "K", "L"])
tulosta (DataFrame)

2. Lue lähteestä ja kirjoita Exceliin tai CSV: hen pandassa

Voit lukea tai kirjoittaa Excel- tai CSV-tiedostoja pandoilla.

Excel- tai CSV-tiedostojen lukeminen

Excel-tiedoston lukeminen:

#Korvaa esimerkki.xlsx Excel-tiedostopolullasi
DataFrame = DataFrame.read_excel("esimerkki.xlsx")

Voit lukea CSV-tiedoston seuraavasti:

#Korvaa esimerkki.csv CSV-tiedostopolullasi
DataFrame = DataFrame.read_csv("esimerkki.csv")

Kirjoittaminen Exceliin tai CSV: hen

Exceliin tai CSV: hen kirjoittaminen on hyvin tunnettu pandatoiminto. Ja se on kätevä tallentaa juuri lasketut taulukot erillisiksi tietotaulukoiksi.

Voit kirjoittaa Excel-arkkiin seuraavasti:

DataFrame.to_excel("kohdekansion_koko_polku/tiedostonimi.xlsx")

Jos haluat kirjoittaa CSV: hen:

DataFrame.to_csv("kohdekansion_koko_polku/tiedostonimi.csv")

Voit myös laskea DataFramen kunkin sarakkeen keskeiset suuntaukset pandoilla.

Näin saat kunkin sarakkeen keskiarvon:

DataFrame.mean()

Vaihda mediaani- tai tila-arvo tarkoittaa() kanssa mediaani() tai mode().

4. DataFrame.transform

pandat DataFrame.transform() muuttaa DataFramen arvoja. Se hyväksyy funktion argumenttina.

Esimerkiksi alla oleva koodi kertoo jokaisen DataFramen arvon kolmella käyttämällä Pythonin lambda-funktio:

DataFrame = DataFrame.transform (lambda y: y*3)
tulosta (DataFrame)

5. DataFrame.isnull

Tämä funktio palauttaa Boolen arvon ja merkitsee kaikki tyhjät arvot sisältävät rivit muodossa Totta:

DataFrame.isnull()

Yllä olevan koodin tulosta voi olla vaikea lukea suuremmille tietojoukoille. Joten voit käyttää isnull().sum() toiminto sen sijaan. Tämä palauttaa yhteenvedon kaikista puuttuvista arvoista kustakin sarakkeesta:

DataFrame.isnull().sum()

6. Dataframe.info

The tiedot() toiminto on an tärkeä pandan toiminta. Se palauttaa sen sijaan yhteenvedon kunkin sarakkeen puuttumattomista arvoista:

DataFrame.info()

7. DataFrame.describe

The kuvaile () -funktio antaa sinulle yhteenvetotilaston DataFramesta:

DataFrame.describe()

8. DataFrame.replace

Käyttämällä DataFrame.replace() menetelmällä pandassa, voit korvata valitut rivit muilla arvoilla.

Esimerkiksi vaihtaaksesi virheellisiä rivejä Nan:

# Varmista, että pip install numpy, jotta tämä toimii
tuonti numpy
tuonti pandat
# Paikallisen avainsanan lisääminen ja sen arvoksi asettaminen True tekee muutoksista pysyviä:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
tulosta (DataFrame)

9. DataFrame.fillna

Tämän toiminnon avulla voit täyttää tyhjät rivit tietyllä arvolla. Voit täyttää kaikki Nan tietojoukon rivit, joissa on keskiarvo, esimerkiksi:

DataFrame.fillna (df.mean(), paikka = tosi)
tulosta (DataFrame)

Voit myös olla sarakekohtainen:

DataFrame['sarakkeen_nimi'].fillna (df[sarakkeen_nimi].keskiarvo(), paikka = tosi)
tulosta (DataFrame)

10. DataFrame.dropna

The dropna () menetelmä poistaa kaikki rivit, jotka sisältävät nolla-arvoja:

DataFrame.dropna (inplace = tosi)
tulosta (DataFrame)

11. DataFrame.insert

Voit käyttää pandaa insert() toiminto lisätäksesi uuden sarakkeen DataFrame-kehykseen. Se hyväksyy kolme avainsanaa, sarakkeen nimi, luettelo sen tiedoista ja sen sijainti, joka on sarakeindeksi.

Näin se toimii:

DataFrame.insert (sarake = 'C', arvo = [3, 4, 6, 7], loc=0)
tulosta (DataFrame)

Yllä oleva koodi lisää uuden sarakkeen nollasarakeindeksiin (sitä tulee ensimmäinen sarake).

12. DataFrame.loc

Voit käyttää loc löytääksesi tietyn hakemiston elementit. Voit tarkastella kaikkia kolmannen rivin kohteita esimerkiksi seuraavasti:

DataFrame.loc[2]

13. DataFrame.pop

Tämän toiminnon avulla voit poistaa tietyn sarakkeen pandas DataFramesta.

Se hyväksyy an kohde avainsana, palauttaa avatun sarakkeen ja erottaa sen muusta DataFramesta:

DataFrame.pop (item= 'sarakkeen_nimi')
tulosta (DataFrame)

14. DataFrame.max, min

Maksimi- ja vähimmäisarvojen saaminen pandoilla on helppoa:

DataFrame.min()

Yllä oleva koodi palauttaa kunkin sarakkeen vähimmäisarvon. Saadaksesi maksimi, vaihda min kanssa max.

15. DataFrame.join

The liittyä seuraan() Panda-funktion avulla voit yhdistää DataFrame-kehykset eri sarakkeiden nimillä. Voit käyttää vasenta, oikeaa, sisä- tai ulkoliitosta. DataFramen liittäminen vasemmalle kahden muun kanssa:

#Liitä pidemmät sarakkeet vasemmalle lyhyempiin
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left') 
tulosta (newDataFrame)

Jos haluat liittyä DataFrame-kehykseen, jolla on samankaltaiset sarakkeiden nimet, voit erottaa ne lisäämällä jälkiliitteen vasemmalle tai oikealle. Tee tämä sisällyttämällä lsuffix tai rsfiksi avainsana:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
tulosta (newDataFrame)

16. DataFrame.combine

The yhdistää() -toiminto on kätevä kahden DataFrame-kehyksen yhdistämiseen, jotka sisältävät samankaltaisia sarakkeiden nimiä asetettujen kriteerien perusteella. Se hyväksyy a toiminto avainsana.

Jos esimerkiksi haluat yhdistää kaksi DataFrame-kehystä, joilla on samanlaiset sarakkeiden nimet, perustuen vain enimmäisarvoihin:

newDataFrame = df.combine (df2, numpy.minimum)
tulosta (newDataFrame)

Merkintä: Voit myös määrittää mukautetun valintatoiminnon ja lisätä numpy.minimi.

17. DataFrame.astype

The astype() funktio muuttaa tietyn sarakkeen tai DataFramen tietotyyppiä.

Voit muuttaa kaikki DataFramen arvot merkkijonoksi esimerkiksi seuraavasti:

DataFrame.astype (str)

18. DataFrame.sum

The summa() funktio pandassa palauttaa kunkin sarakkeen arvojen summan:

DataFrame.sum()

Löydät myös kaikkien käytettyjen kohteiden kumulatiivisen summan cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandat pudota() toiminto poistaa tietyt rivit tai sarakkeet DataFramesta. Sinun on annettava sarakkeiden nimet tai riviindeksi ja akseli käyttääksesi sitä.

Voit poistaa tiettyjä sarakkeita esimerkiksi seuraavasti:

df.drop (columns=['sarake1', 'sarake2'], akseli=0)

Esimerkiksi hakemistojen 1, 3 ja 4 rivien pudottaminen:

df.drop([1, 3, 4], akseli=0)

20. DataFrame.corr

Haluatko löytää korrelaation kokonaisluku- tai float-sarakkeiden välillä? pandat voivat auttaa sinua saavuttamaan sen käyttämällä oikein() toiminto:

DataFrame.corr()

Yllä oleva koodi palauttaa uuden DataFramen, joka sisältää korrelaatiosekvenssin kaikkien kokonaisluku- tai float-sarakkeiden välillä.

21. DataFrame.add

The lisätä() -funktion avulla voit lisätä tietyn numeron jokaiseen DataFramen arvoon. Se toimii iteroimalla DataFramen läpi ja toimimalla jokaisen kohteen kanssa.

Aiheeseen liittyvä:Kuinka käyttää For Loopsia Pythonissa

Jos haluat lisätä 20 jokaiseen arvoon tietyssä sarakkeessa, joka sisältää kokonaislukuja tai liukulukuja, esimerkiksi:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Kuten summausfunktio, voit myös vähentää luvun jokaisesta DataFrame- tai tietyn sarakkeen arvosta:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Tämä on kertolasku versio pandan summausfunktiosta:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Vastaavasti voit jakaa jokaisen sarakkeen tai DataFrame: n datapisteen tietyllä numerolla:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Käyttämällä std() funktion avulla pandat voit myös laskea keskihajonnan DataFrame-kehyksen jokaiselle sarakkeelle. Se toimii iteroimalla jokaisen tietojoukon sarakkeen läpi ja laskemalla kunkin sarakkeen keskihajonnan:

DataFrame.std()

26. DataFrame.sort_values

Voit myös lajitella arvot nousevasti tai laskevasti tietyn sarakkeen perusteella. Voit lajitella DataFrame-kehyksen laskevaan järjestykseen esimerkiksi seuraavasti:

newDataFrame = DataFrame.sort_values (by = "colmun_name", laskeva = True)

27. DataFrame.melt

The sulaa() Funktio pandassa kääntää DataFramen sarakkeet yksittäisiksi riveiksi. Se on kuin DataFramen anatomian paljastaminen. Sen avulla voit tarkastella kullekin sarakkeelle nimenomaisesti määritettyä arvoa.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Tämä funktio palauttaa kunkin sarakkeen kohteiden kokonaismäärän:

DataFrame.count()

29. DataFrame.query

pandat kysely() voit soittaa kohteita käyttämällä niiden indeksinumeroa. Voit saada kolmannen rivin kohteet esimerkiksi seuraavasti:

DataFrame.query('4') # Soita kyselyyn neljännessä indeksissä

30. DataFrame.where

The missä() -funktio on pandas-kysely, joka hyväksyy ehdon tiettyjen arvojen saamiseksi sarakkeeseen. Esimerkiksi saadaksesi kaikki alle 30-vuotiaat Ikä sarake:

DataFrame.where (DataFrame['Ikä'] < 30)

Yllä oleva koodi tulostaa DataFrame-kehyksen, joka sisältää kaikki alle 30-vuotiaat, mutta määritetyt Nan riveille, jotka eivät täytä ehtoa.

Käsittele tietoja kuin ammattilainen pandojen kanssa

pandas on toimintojen ja menetelmien aarreaitta pienten ja suurten tietojoukkojen käsittelyyn Pythonilla. Kirjasto on hyödyllinen myös tietojen puhdistamiseen, validointiin ja valmisteluun analysointia tai koneoppimista varten.

Kun käytät aikaa sen hallitsemiseen, se helpottaa elämääsi datatieteilijänä, ja se on vaivan arvoista. Joten voit vapaasti poimia kaikki toiminnot, joita voit käsitellä.

20 Python-funktiota, jotka sinun pitäisi tietää

Python Standard Library sisältää monia toimintoja, jotka auttavat ohjelmointitehtävissäsi. Opi hyödyllisimmistä ja luo tehokkaampi koodi.

Lue Seuraava

JaaTweetSähköposti

Liittyvät aiheet

Ohjelmointi
Python
Ohjelmointi
tietokanta

Kirjailijasta

Idowu Omisola (123 artikkelia julkaistu)

Idowu on intohimoinen kaikkeen älykkääseen tekniikkaan ja tuottavuuteen. Vapaa-ajallaan hän leikkii koodaamalla ja vaihtuu shakkilaudalle, kun on kyllästynyt, mutta hän myös pitää välillä irtautumisesta rutiineista. Hänen intohimonsa näyttää ihmisille tietä modernin tekniikan parissa motivoi häntä kirjoittamaan lisää.

Lisää Idowu Omisolalta

tilaa uutiskirjeemme

Liity uutiskirjeemme saadaksesi teknisiä vinkkejä, arvosteluja, ilmaisia e-kirjoja ja eksklusiivisia tarjouksia!

Klikkaa tästä tilataksesi

About Technology - denizatm.com