Hyödynnä PandasAI Python -kirjastoa tekoälyn tehon hyödyntämiseen ja suuria kielimalleja tietojen analysointitehtävien suorittamiseen.

Pandas on hallitsevin kirjasto tietojoukkojen ja tietokehysten käsittelyyn. Tämä on ollut normaalia jo pitkään. Mutta tekoälyn edistyessä kehitetään uusi avoimen lähdekoodin kirjasto nimeltä PandasAI, joka lisää Pandasiin luovia tekoälyominaisuuksia.

PandasAI ei korvaa Pandaa. Sen sijaan se antaa generatiiviset AI-ominaisuudet. Tällä tavalla voit analysoida tietoja keskustelemalla PandasAI: n kanssa. Sitten se tiivistää, mitä taustalla tapahtuu, ja tarjoaa sinulle kyselysi tulosteen.

PandasAI: n asentaminen

PandasAI on saatavilla PyPI: n (Python Package Index) kautta. Luo uusi virtuaaliympäristö jos käytät paikallista IDE: tä. Sitten käytä pip-pakettien hallintaa asentaaksesi sen.

pip asennus pandasai

Saatat kohdata alla olevan kaltaisen riippuvuusristiriidan, jos käytät Google Colabia.

Älä alenna IPython-versiota. Käynnistä vain suoritusaika uudelleen ja suorita koodilohko uudelleen. Tämä ratkaisee ongelman.

Täysi lähdekoodi on saatavilla a GitHub-arkisto.

Esimerkkitietojoukon ymmärtäminen

Esimerkkitietojoukko, jota käsittelet PandasAI: lla, on Kagglen Kalifornian asuntojen hinnat -tietojoukko. Tämä tietojoukko sisältää tietoja asumisesta Kalifornian vuoden 1990 väestönlaskennasta. Siinä on kymmenen saraketta, jotka tarjoavat tilastoja näistä taloista. Tietokortti, jonka avulla saat lisätietoja tästä tietojoukosta, on saatavilla osoitteessa Kaggle. Alla ovat tietojoukon viisi ensimmäistä riviä.

Jokainen sarake edustaa yhtä talon tilastoa.

PandasAI: n yhdistäminen Large Language -malliin

PandasAI: n yhdistäminen a suuri kielimalli (LLM) OpenAI: n tapaan tarvitset pääsyn sen API-avaimeen. Jos haluat hankkia sellaisen, siirry kohtaan OpenAI-alusta. Kirjaudu sitten tilillesi. Valitse API seuraavaksi avautuvan asetussivun alla.

Napsauta sen jälkeen profiiliasi ja valitse Näytä API-avaimet vaihtoehto. Napsauta seuraavaksi näkyviin tulevalla sivulla Luo uusi salainen avain -painiketta. Nimeä lopuksi API-avaimesi.

OpenAI luo API-avaimesi. Kopioi se, kun tarvitset sitä yhdistäessäsi PandasAI: n OpenAI: han. Varmista, että pidät avaimen salassa, sillä kuka tahansa, jolla on pääsy siihen, voi soittaa OpenAI: lle puolestasi. OpenAI veloittaa sitten tililtäsi puhelut.

Nyt kun sinulla on API-avain, luo uusi Python-skripti ja liitä alla oleva koodi. Sinun ei tarvitse muuttaa tätä koodia, koska suurimman osan ajasta rakennat sen pohjalta.

tuonti pandat kuten pd
alkaen pandasai tuonti PandasAI

# Korvaa tietojoukollasi tai tietokehykselläsi
df = pd.read_csv("/content/housing.csv")

# Instantioi LLM
alkaen pandasai.llm.openai tuonti OpenAI
llm = OpenAI(api_tunnus="API-tunnuksesi")

pandas_ai = PandasAI(llm)

Yllä oleva koodi tuo sekä PandasAI: n että Pandat. Sitten se lukee tietojoukon. Lopuksi se instantoi OpenAI LLM: n.

Olet nyt valmis keskustelemaan tietojesi kanssa.

Yksinkertaisten tehtävien suorittaminen PandasAI: lla

Pyydä tietojasi välittämällä tietokehys ja kehote PandasAI-luokan esiintymälle. Aloita tulostamalla tietojoukon viisi ensimmäistä riviä.

pandas_ai (df, kehote="Mitkä ovat tietojoukon viisi ensimmäistä riviä?")

Yllä olevan kehotteen tulos on seuraava:

Tämä tulos on identtinen aikaisemman tietojoukon yleiskatsauksen kanssa. Tämä osoittaa, että PandasAI tuottaa oikeat tulokset ja on luotettava.

Tarkista sitten tietojoukossasi olevien sarakkeiden määrä.

pandas_ai (df, kehote='Kuinka monta saraketta tietojoukossa on? ')

Se palauttaa 10, joka on oikea sarakkeiden lukumäärä Kalifornian asuntojen tietojoukossa.

Tarkistetaan, puuttuuko tietojoukosta arvoja.

pandas_ai (df, kehote="Puuttuuko tietojoukosta arvoja?")

PandasAI palauttaa, että yhteensä_makuuhuoneet sarakkeesta puuttuu 207 arvoa, mikä on jälleen oikein.

PandasAI: n avulla voit saavuttaa monia yksinkertaisia ​​tehtäviä, et rajoitu yllä oleviin.

Monimutkaisten kyselyiden suorittaminen PandasAI: lla

PandasAI ei tue vain yksinkertaisia ​​tehtäviä. Voit käyttää sitä myös monimutkaisten kyselyjen suorittamiseen tietojoukosta. Esimerkiksi asuntotietojoukossa, jos haluat määrittää talojen lukumäärän, jotka sijaitsevat alueella saari, jonka arvo on yli 100 000 dollaria, ja sinulla on yli 10 huonetta, voit käyttää kehotetta alla.

pandas_ai (df, kehote= "Kuinka monen talon arvo on suurempi kuin 100 000"
"oletko saarella ja makuuhuoneita on yli 10?")

Oikea tulos on viisi. Tämä on sama tulos, jonka PandasAI tuottaa.

Monimutkaisten kyselyiden kirjoittaminen ja virheenkorjaus saattavat viedä data-analyytikolta jonkin aikaa. Yllä oleva kehote tarvitsee vain kaksi riviä luonnollista kieltä saman tehtävän suorittamiseksi. Sinun tarvitsee vain pitää mielessä, mitä haluat saavuttaa, ja PandasAI hoitaa loput.

Kaavioiden piirtäminen PandasAI: lla

Kaaviot ovat olennainen osa mitä tahansa data-analyysiprosessia. Se auttaa dataanalyytikoita visualisoimaan tiedot ihmisystävällisellä tavalla. PandasAI: ssa on myös kaavion piirustusominaisuus. Sinun tarvitsee vain välittää datakehys ja ohje.

Aloita luomalla histogrammi jokaiselle tietojoukon sarakkeelle. Tämä auttaa sinua visualisoimaan muuttujien jakautumisen.

pandas_ai (df, kehote= "Piirrä histogrammi jokaiselle tietojoukon sarakkeelle")

Tulos on seuraava:

PandasAI pystyi piirtämään kaikkien sarakkeiden histogrammin ilman, että niiden nimiä oli välitettävä kehotteeseen.

PandasAI voi myös piirtää kaavioita ilman, että kerrot sille suoraan, mitä kaaviota käytetään. Voit esimerkiksi selvittää asuntotietojoukon tietojen korrelaation. Tämän saavuttamiseksi voit välittää kehotteen seuraavasti:

pandas_ai (df, kehote= "Piirrä korrelaatio tietojoukossa")

PandasAI piirtää korrelaatiomatriisin alla olevan kuvan mukaisesti:

Kirjasto valitsee lämpökartan ja piirtää korrelaatiomatriisin.

Useiden tietokehysten välittäminen PandasAI-instanssiin

Työskentely useiden tietokehysten kanssa voi olla hankalaa. Varsinkin henkilölle, jolle data-analyysi on uusi. PandasAI täyttää tämän aukon, sillä sinun tarvitsee vain ohittaa molemmat tietokehykset ja alkaa käyttää kehotteita tietojen käsittelyyn.

Luo kaksi datakehystä Pandasin avulla.

työntekijätiedot = {
'Henkilöstökortti': [1, 2, 3, 4, 5],
'Nimi': ["John", "Emma", 'Liam', "Olivia", "William"],
'osasto': ["HR", 'Myynti', 'SE', 'Markkinointi', 'Rahoittaa']
}

palkkatiedot = {
'Henkilöstökortti': [1, 2, 3, 4, 5],
'palkka': [5000, 6000, 4500, 7000, 5500]
}

työntekijät_df = pd. DataFrame (työntekijätiedot)
palkat_df = pd. DataFrame (palkat_tiedot)

Voit esittää PandasAI: lle kysymyksen, joka kattaa molemmat tietokehykset. Sinun tarvitsee vain välittää molemmat datakehykset PandasAI-esiintymään.

pandas_ai([työntekijät_df, palkat_df], "Millä työntekijällä on suurin palkka?")

Se palaa Olivia mikä on taas oikea vastaus.

Tietojen analysointi ei ole koskaan ollut helpompaa, PandasAI antaa sinun keskustella tietojen kanssa ja analysoida niitä helposti.

PandasAI: n teknologian ymmärtäminen

PandasAI yksinkertaistaa tietojen analysointiprosessia ja säästää näin paljon data-analyytikoiden aikaa. Mutta se abstraktioi sen, mitä taustalla tapahtuu. Sinun on tutustuttava generatiiviseen tekoälyyn, jotta saat yleiskuvan PandasAI: n toiminnasta konepellin alla. Tämä auttaa sinua myös pysymään ajan tasalla generatiivisen AI-alueen uusimpien innovaatioiden kanssa.