Tietojoukon analysoimiseksi sinun on ensin ymmärrettävä tiedot. Joskus sinulla ei ehkä ole ennakkotietoa tietojoukosta, mikä estää sinua saamasta siitä eniten irti. Tietoanalyytikkona voit käyttää Exploratory data-analyysiä (EDA) saadaksesi tietoa tietojoukostasi ennen syvällistä analysointia.
Tutkiva data-analyysi (EDA) tutkii tietojoukkoa saadakseen merkityksellisiä oivalluksia. EDA: n suorittamisprosessiin kuuluu tietojen kysely tietojoukon rakenteesta ja sisällöstä.
Gota-paketin asentaminen
Gota-paketti on suosituin tietojen analysointi in Go; se on kuin Python Pandas paketti vaan Go. Gota-paketti sisältää monia menetelmiä datajoukkojen analysointiin ja JSON-, CSV- ja HTML-muotojen lukemiseen.
Suorita tämä komento päätteelläsi hakemistossa, johon olet alustanut Go-moduulitiedoston:
mennä get -u github.com/mennä-pahan/saa
Komento asentaa Gotan paikalliseen hakemistoon, valmiina tuomaan paketin käyttääksesi sitä.
Aivan kuten Pandas, Gota tukee sarja- ja datakehystoimintoja. Gota-paketissa on kaksi alipakettia: sarja ja datakehyspaketti. Voit tuoda joko toisen tai molemmat tarpeidesi mukaan.
tuonti (
"github.com/mennä-gota/gota/sarja"
"github.com/mennä-gota/gota/dataframe"
)
Tietojoukon lukeminen Gota-paketin avulla
Voit käyttää mitä tahansa haluamaasi CSV-tiedostoa, mutta seuraavat esimerkit näyttävät tulokset Kaggle-tietojoukko, joka sisältää kannettavan tietokoneen hintatiedot.
Gota antaa sinun lukea CSV-, JSON- ja HTML-tiedostomuotoja luodaksesi datakehyksiä käyttämällä Lue CSV, Lue JSON, ja Lue HTML menetelmiä. Näin lataat CSV-tiedoston tietokehysobjektiin:
tiedosto, err := os. Avaa("/polku/csv-tiedostoon.csv")
jos virhe! = nolla {
fmt. Println("tiedoston avaamisvirhe")
}
dataFrame := tietokehys. Lue CSV(tiedosto)
fmt. Println (dataFrame)
Voit käyttää Avata menetelmä os paketti avataksesi CSV-tiedoston. ReadCSV-menetelmä lukee tiedostoobjektin ja palauttaa dataframe-objektin.
Kun tulostat tämän objektin, tulos on taulukkomuodossa. Voit edelleen käsitellä datakehysobjektia käyttämällä erilaisia Gotan tarjoamia menetelmiä.
Objekti tulostaa vain osan sarakkeista, jos tietojoukolla on enemmän kuin asetettu arvo.
Tietojoukon ulottuvuuden hakeminen
Tietokehyksen mitat ovat sen sisältämien rivien ja sarakkeiden lukumäärä. Voit hakea nämä mitat käyttämällä Himmentää dataframe-objektin menetelmä.
var rivit, sarakkeet = dataFrame. Himmeä()
Korvaa yksi muuttujista alaviivalla, jos haluat hakea vain toisen ulottuvuuden. Voit myös kysyä rivien ja sarakkeiden lukumäärää yksitellen käyttämällä Nrow ja Ncol menetelmiä.
var rivit = dataFrame. No()
var sarakkeet = dataFrame. Ncol()
Sarakkeiden tietotyyppien hakeminen
Sinun on tunnettava tietojoukon sarakkeiden yhdistelmätietotyypit, jotta voit analysoida sen. Voit hakea nämä käyttämällä Tyypit dataframe-objektisi menetelmä:
var tyypit = dataFrame. Tyypit()
fmt. Println (tyypit)
Tyypit-metodi palauttaa osion, joka sisältää sarakkeen tietotyypit:
Sarakkeiden nimien hakeminen
Tarvitset sarakkeiden nimet valitaksesi tiettyjä sarakkeita toimintoja varten. Voit käyttää Nimet tapa noutaa ne.
var columnNames := dataFrame. Nimet()
fmt. Println (sarakkeiden nimet)
Names-metodi palauttaa osan sarakkeiden nimistä.
Puuttuvien arvojen tarkistaminen
Sinulla saattaa olla tietojoukko, joka sisältää nolla- tai ei-numeerisia arvoja. Voit tarkistaa tällaiset arvot käyttämällä HasNaN ja IsNaN sarjaobjektin menetelmät:
aCol := dataFrame. Col("näytön_koko")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()
HasNan tarkistaa, sisältääkö sarake nollaelementtejä. IsNaN palauttaa lohkon loogisia arvoja, jotka ilmaisevat, onko jokainen sarakkeen arvo numero.
Kuvaavan tilastollisen analyysin suorittaminen
Kuvaava tilastollinen analyysi auttaa ymmärtämään numeeristen sarakkeiden jakautumista. Käyttämällä Kuvaile -menetelmällä voit luoda kuvaavan tilastollisen analyysin tietojoukostasi:
kuvaus := dataFrame. Kuvaile ()
fmt. Println (kuvaus)
Kuvaile-menetelmä palauttaa mittareita, kuten tietojoukon sarakkeiden keskiarvon, keskihajonnan ja enimmäisarvot. Se tekee niistä yhteenvedon taulukkomuodossa.
Voit myös olla tarkka ja keskittyä sarakkeisiin ja mittareihin valitsemalla tietyn sarakkeen ja hakemalla sitten haluamasi mittarin. Sinun tulee ensin hakea tiettyä saraketta edustava sarja ja käyttää sitten sen menetelmiä, kuten esimerkiksi:
aCol := dataFrame. Col("näytön_koko")
var keskiarvo = aCol. Tarkoittaa()
var mediaani = aCol. Mediaani()
var minimi = aCol. Min()
var standardipoikkeama = aCol. Keskihajonta()
var maksimi = aCol. Max()
var kvantilit25 = aCol. Quantile(25.0)
Nämä menetelmät heijastavat Describen suorittaman kuvaavan tilastollisen analyysin tuloksia.
Elementtien hakeminen sarakkeessa
Yksi viimeisistä tehtävistä, jonka haluat suorittaa, on tarkistaa sarakkeen arvot yleiskatsauksen saamiseksi. Voit käyttää Records tapa tarkastella sarakkeen arvoja.
aCol := dataFrame. Col("brändi")
fmt. Println (aCol. Records())
Tämä menetelmä palauttaa osion merkkijonoista, jotka sisältävät valitsemasi sarakkeen arvot:
Gota-tietokehyksen vieminen tiedostoon
Jos päätät mennä pidemmälle ja käyttää Gota-pakettia täydelliseen tietojen analysointiin, sinun on tallennettava tiedot tiedostoihin. Voit käyttää Kirjoita CSV ja Kirjoita JSON datakehyksen menetelmät tiedostojen viemiseksi. Menetelmät ottavat tiedoston, jonka luot käyttämällä os paketteja Luoda menetelmä.
Näin voit viedä datakehyksen Gota-paketin avulla.
dataFrame := tietokehys. Lue CSV(tiedosto)
outputFile, err := os. Luo ("output.csv")jos virhe! = nolla {
Hirsi. Kohtalokas (err)
}err = dataFrame. KirjoitaCSV(tulostiedosto)
jos virhe! = nolla {
Hirsi. Fatalln("Tietokehyksen sisällön kirjoituksessa tiedostoon tapahtui virhe")
}
The datakehys muuttuja on esitys tietokehyksestä. Kun käytät Luoda menetelmä os paketti, se luo uuden, tyhjän tiedoston määritetyllä nimellä ja palauttaa tiedoston. WriteCSV-metodi ottaa tiedostoinstanssin ja palauttaa virheen tai nolla jos ei ole vikaa.
Tutkiva data-analyysi on tärkeää
Datan ja tietojoukkojen ymmärtäminen on välttämätöntä dataanalyytikoille ja koneoppimisen asiantuntijoille. Se on kriittinen toimenpide heidän työssään, ja tutkiva data-analyysi on yksi tekniikoista, joita he käyttävät tämän saavuttamiseksi.
Gota-paketissa on muutakin. Voit käyttää sitä erilaisiin tiedonkiistelytoimintoihin samalla tavalla kuin käyttäisit Python Pandas -kirjastoa tietojen analysointiin. Gota ei kuitenkaan tue yhtä paljon toimintoja kuin Pandas.