Tiesitkö, että on mahdollista kaapata tietoja verkkosivustolta Google Sheetsin avulla? Näin voit tehdä sen.
Web-kaappaus on tehokas tekniikka tietojen poimimiseen verkkosivustoilta ja analysoimiseksi automaattisesti. Vaikka voit tehdä tämän manuaalisesti, se voi olla työläs ja aikaa vievä tehtävä. Verkkokaappaustyökalut tekevät prosessista nopeamman ja tehokkaamman, mutta maksavat samalla vähemmän.
Mielenkiintoista on, että Google Sheetsillä on potentiaalia olla yhden luukun verkkojen romutustyökalu IMPORTXML-toimintonsa ansiosta. IMPORTXML: n avulla voit helposti kaapata tietoja verkkosivuilta ja käyttää niitä analysointiin, raportointiin tai muihin tietoihin perustuviin tehtäviin.
Google Sheetsin IMPORTXML-funktio
Google Sheets tarjoaa sisäänrakennetun toiminnon nimeltä IMPORTXML, jonka avulla voit tuoda tietoja verkkomuodoista, kuten XML, HTML, RSS ja CSV. Tämä toiminto voi olla pelin muuttaja, jos haluat kerätä tietoja verkkosivustoilta turvautumatta monimutkaiseen koodaukseen.
Tässä on IMPORTXML: n perussyntaksi:
=IMPORTXML(url, xpath_query)
- url: Sen verkkosivun URL-osoite, jolta haluat hakea tietoja.
- xpath_query: XPath-kysely, joka määrittää tiedot, jotka haluat purkaa.
XPath (XML Path Language) on kieli, jota käytetään navigoimaan XML-asiakirjoissa, mukaan lukien HTML, jonka avulla voit määrittää tietojen sijainnin HTML-rakenteessa. XPath-kyselyiden ymmärtäminen on välttämätöntä IMPORTXML: n oikealle käyttämiselle.
XPathin ymmärtäminen
XPath tarjoaa erilaisia toimintoja ja lausekkeita tiedon navigoimiseksi ja suodattamiseksi HTML-dokumentissa. Kattava XML- ja XPath-opas ei kuulu tämän artikkelin soveltamisalaan, joten tyydymme joihinkin keskeisiin XPath-käsitteisiin:
- Elementin valinta: Voit valita elementtejä käyttämällä / ja // osoittamaan polkuja. Esimerkiksi, /html/body/div valitsee kaikki div-elementit asiakirjan rungosta.
- Ominaisuuden valinta: Voit valita määritteitä käyttämällä @. Esimerkiksi, //@href valitsee kaikki href attribuutteja sivulla.
- Predikaattisuodattimet: Voit suodattaa elementtejä käyttämällä predikaatteja, jotka on suljettu hakasulkeissa ([ ]). Esimerkiksi, /div[@class="container"] valitsee kaikki div elementtejä luokan kanssa kontti.
- Toiminnot: XPath tarjoaa erilaisia toimintoja, kuten sisältää(), alkaa kirjaimella (), ja teksti() suorittaaksesi tiettyjä toimintoja, kuten tekstin sisällön tai attribuuttiarvojen tarkistamista.
Kuinka purkaa XPath verkkosivustolta
Toistaiseksi tiedät IMPORTXML-syntaksin, tiedät verkkosivuston URL-osoitteen ja tiedät, minkä elementin haluat purkaa. Mutta miten saat elementin XPath-arvon?
Sinun ei tarvitse tietää verkkosivuston rakennetta ulkoa, jotta voit purkaa sen tiedot IMPORTXML: llä. Itse asiassa jokaisessa selaimessa on näppärä työkalu, jonka avulla voit välittömästi kopioida minkä tahansa elementin XPathin.
Tarkista elementti -työkalu voit purkaa XPathin verkkosivuston elementeistä. Näin:
- Siirry haluamasi web-selaimella verkkosivulle, jonka haluat kaapata.
- Etsi elementti, jonka haluat kaapia.
- Napsauta elementtiä hiiren kakkospainikkeella.
- Valitse Tarkastele elementtiä hiiren kakkospainikkeella valikosta. Selaimesi avaa paneelin, joka näyttää verkkosivun HTML-koodin. Asiaankuuluva HTML-elementti korostetaan koodissa.
- Napsauta Tarkista elementti -paneelissa hiiren kakkospainikkeella korostettua elementtiä HTML-koodissa.
- Klikkaus Kopioi XPath kopioidaksesi elementin XPath-osoitteen leikepöydällesi.
Nyt kun sinulla on kaikki tarvitsemasi, on aika nähdä IMPORTXML toiminnassa ja raaputtaa joitain linkkejä.
IMPORTXML: n avulla voit kaapata kaikenlaisia tietoja verkkosivustoilta. Tämä sisältää linkit, videot, kuvat ja melkein kaikki verkkosivuston elementit. Linkit ovat yksi verkko-analyysin näkyvimmistä elementeistä, ja voit oppia paljon verkkosivustosta pelkästään analysoimalla sivuja, joille se linkittää.
IMPORTXML: n avulla voit nopeasti kaapata linkkejä Google Sheetsiin ja analysoida niitä sitten tarkemmin käyttämällä Google Sheetsin tarjoamia eri toimintoja.
Voit kaapata kaikki linkit verkkosivulta käyttämällä seuraavaa kaavaa:
=IMPORTXML(url, "//a/@href")
Tämä XPath-kysely valitsee kaikki href ominaisuudet a elementtejä poimimalla tehokkaasti kaikki sivun linkit.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")
Yllä oleva kaava kaapii kaikki linkit Wikipedia-artikkeliin.
On hyvä idea syöttää verkkosivun URL-osoite erilliseen soluun ja viitata sitten kyseiseen soluun. Tämä estää kaavasta tulemasta liian pitkäksi ja raskaaksi. Voit tehdä saman XPath-kyselyllä.
2. Kaikkien linkkitekstien kaapiminen
Voit poimia linkkien tekstin ja niiden URL-osoitteet käyttämällä:
=IMPORTXML(url, "//a")
Tämä kysely valitsee kaikki elementit, ja voit poimia linkin tekstin ja URL-osoitteet tuloksista.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")
Yllä oleva kaava saa linkkitekstit samassa Wikipedia-artikkelissa.
Joskus saatat joutua kaavimaan tiettyjä linkkejä kriteerien perusteella. Saatat esimerkiksi olla kiinnostunut poimimaan linkkejä, jotka sisältävät tietyn avainsanan, tai linkit, jotka sijaitsevat tietyssä sivun osassa.
Kun tiedät XPathista oikein, voit paikantaa minkä tahansa etsimäsi elementin.
Voit kaapata linkit, jotka sisältävät tietyn avainsanan, käyttämällä include() XPath-funktiota:
=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href")
Tämä kysely valitsee elementtien href-attribuutit, joissa href sisältää määritetyn avainsanan.
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")
Yllä oleva kaava kaappaa kaikki linkit, joiden tekstissä on sanatietue Wikipedia-esimerkkiartikkelissa.
Jos haluat kaapata linkkejä tietystä sivun osasta, voit määrittää osion XPath-arvon. Esimerkiksi:
=IMPORTXML(url, "//div[@class='section']//a/@href")
Tämä kysely valitsee div-elementtien elementtien href-attribuutit, joiden luokka on "section".
Vastaavasti alla oleva kaava valitsee kaikki linkit div-luokan sisällä, joilla on mw-content-container-luokka:
=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")
On syytä huomata, että voit käyttää IMPORTXML: ää muuhunkin kuin web-kaappaukseen. Voit käyttää IMPORT-toimintoperhettä tuoda tietotaulukot verkkosivustoilta Google Sheetsiin.
Vaikka Google Sheets ja Excel jakavat suurimman osan toiminnoistaan, IMPORT-toimintoperhe on ainutlaatuinen Google Sheetsille. Sinun on harkittava muita tapoja tuoda tietoja verkkosivustoilta Exceliin.
Yksinkertaista Web-kaappausta Google Sheetsin avulla
Web-kaappaus Google Sheetsin ja IMPORTXML-toiminnon avulla on monipuolinen ja helppokäyttöinen tapa kerätä tietoja verkkosivustoilta.
Kun hallitset XPathin ja ymmärrät kuinka luoda tehokkaita kyselyitä, voit vapauttaa IMPORTXML: n täyden potentiaalin ja saada arvokkaita oivalluksia verkkoresursseista. Aloita siis kaapiminen ja vie verkkoanalyysisi uudelle tasolle!