Kaltaisesi lukijat auttavat tukemaan MUO: ta. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion.
HTML: n kaapiminen voi olla hankalaa, joten varmista, että ymmärrät tämän prosessin hieman Python-harjoittelulla.
Twitter on yksi vaikutusvaltaisimmista sosiaalisen median alustoista koskaan. Miljoonat ihmiset, mukaan lukien huippupoliitikot, julkkikset ja toimitusjohtajat, käyttävät alustaa ajatuksensa jakamiseen joka päivä.
Trendit-välilehti on yksi parhaista paikoista reaaliaikaisten uutisten ja sosiaalisen median tunteiden selvittämiseen. Voit analysoida ja käyttää näitä tietoja brändimainosten suunnitteluun, kampanjoiden suorittamiseen ja myynnin lisäämiseen taitoksilla. Mutta kuinka saat kymmenen suosituinta hashtagia Twitterissä?
Algoritmin rakentamisprosessi
Ensimmäinen askel minkä tahansa ohjelman rakentamisessa on huomioida ja ymmärtää Twitter-kaavin rakentamiseen vaadittavat vaiheet. He ovat:
- Avaa Google Chrome.
- Vieraile Twitterin trendisivulla.
- Kerää hashtagit ja niitä vastaavat sivulinkit.
- Tallenna tiedot laskentataulukkoon.
Tämä toimii ongelmalauseen algoritmina.
Twitter-verkkosivun ymmärtäminen
Sinun on tiedettävä, kuinka verkkosivu merkitsee tiedot, ennen kuin voit purkaa ne. Se auttaa paljon, jos sinulla on hyvä käsitys HTML: n perusteet ja CSS.
Seuraa näitä ohjeita selvittääksesi, kuinka Twitter edustaa trendaavaa hashtagia ja sen URL-osoitetta:
- Vierailla Twitterin trendikkäin sivu. Voit myös navigoida kohteeseen Twitter.com → Tutkia → Trendaavat katsoaksesi sitä.
- Tarkista pääpylväs käyttämällä Chrome Dev Toolsia. Mene Valikko (3 pistettä)>Lisää työkaluja >Kehittäjän työkalut ja siirrä elementin valintatyökalu trendialueen päälle.
- Trendikäs aikajana on a div kanssa aria-merkki attribuutti, jonka arvo on "Aikajana: Tutki". Vie hiiri merkinnän päälle Elementit paneeli ymmärtääksesi paremmin sivun rakennetta. Toinen div tallentaa trendaavan hashtagin/aiheen. Käytä tätä div: iä laskurina ja toista kaikkiin diveihin sivulla, joka sisältää trendaavan aiheen/hashtagin. Sisältö on tallennettu a jänneväli tai pari jänneelementtiä. Tarkkaile avointa välilehteä ja pane merkille hierarkia. Voit käyttää tätä XPath-lausekkeen muodostamiseen. Tämän tietyn elementin XPath-lauseke on:
Iteroi ja kohdista div[3], div[4], div[5] ja niin edelleen. Kymmenen parhaan hashtagin laskuri on 3–13. Yleistetystä XPathista tulee:'//div[@aria-label="Aikajana: Tutki"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
//div[@aria-label="Aikajana: Tutki"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
- Napsauta mitä tahansa hashtagia ymmärtääksesi sen sivujen URL-osoitteet. Jos vertaat URL-osoitteita, huomaa, että vain kyselyparametri muuttuu vastaamaan hashtagin nimeä. Voit käyttää tätä tietoa URL-osoitteiden luomiseen purkamatta niitä.
Tämä projekti käyttää seuraavia Python-moduuleja ja työkaluja:
1. Panda-moduuli
Sinä pystyt käytä Pandas DataFrame -luokkaa tallentaaksesi hashtagit ja niitä vastaavat linkit taulukkomuodossa. Tästä on apua, kun haluat lisätä tämän sisällön CSV-tiedostoon, jonka voit jakaa ulkoisesti.
2. Aika moduuli
Käytä Aika-moduulia lisätäksesi Python-ohjelmaan viiveen, jotta sivun sisältö latautuu kokonaan. Tässä esimerkissä käytetään 15 sekunnin viivettä, mutta voit kokeilla ja valita olosuhteisiisi sopivan viiveen.
3. Seleeni moduuli
Seleeni voi automatisoida vuorovaikutuksen verkon kanssa. Voit käyttää sitä ohjaamaan verkkoselaimen esiintymää, avaamaan trendaavan sivun ja vierittämään sitä alaspäin. Asenna Selenium Python-ympäristöösi avaamalla Terminaali ja toteuttaapip asennus seleeni.
4. Web-ajuri
Käytä verkkoajuria yhdessä Seleenin kanssa vuorovaikutuksessa selaimen kanssa. Saatavilla on erilaisia web-ajureita sen mukaan, minkä selaimen haluat automatisoida. Käytä tähän koontiversioon suosittua Google Chrome -selainta. Verkkoohjaimen asentaminen Chromelle:
- Tarkista käyttämäsi selaimen versio käymällä osoitteessa Valikko (3 pistettä) > Apua>Tietoja Google Chromesta.
- Huomaa selaimen versio; tässä tapauksessa se on 106.0.5249.62.
- Mene luoksesi Terminaali ja tyyppi pip install chromedriver-binary==version_numero:
Jos vastaavaa versiota ei ole, pip näyttää luettelon saatavilla olevista; valitse Chrome-versiota lähinnä oleva.pip Asentaa kromiohjain-binääri==106.0.5249.62
Twitterin kaavin rakentaminen
Seuraa näitä ohjeita rakentaaksesi ohjelmasi ja saadaksesi reaaliaikaisia trendaavia hashtageja. Löydät täydellisen lähdekoodin tästä GitHub-arkisto.
- Tuo tarvittavat moduulit Python-ympäristöön.
# tuodaan tarvittavat moduulit
alkaen seleeni tuonti web-ajuri
alkaenseleeni.webdriver.common.bytuontiTekijä:
tuonti chromedriver_binary
tuonti aika
tuonti pandat kuten pd - Luo objekti ChromeDriverin alustamiseksi ja käynnistä Google Chrome -selain käyttämällä web-ajuri. Kromi() toiminto.
# avaa google chrome -selain
selain = verkkoohjain. Kromi() - Avaa Twitterin trendisivu välittämällä sen URL-osoite osoitteeseen saada() toiminto.
# avaa Twitterin trendaava sivu
browser.get('https://twitter.com/explore/tabs/trending') - Käytä viivettä, jotta sivun sisältö latautuu kokonaan.
# viive sivun sisällön lataamisessa
aika.nukkua(15) - Luo tyhjä luettelo hashtagien tallentamista varten ja määritä silmukka, joka kulkee välillä 3–13, jotta se vastaa XPath-lausekkeen muuttujaa aikaisemmasta.
# alusta lista tallentaaksesi trendaavia aiheita ja hashtageja
trending_topic_content=[]# kerää aiheita ja hashtageja Twitterin trendaavalla sivulla
i alueella (3,13): - Käytä etsi_elementti() toiminto ja ohita XPath-valitsin saadaksesi trendaavat aiheet ja hashtagit Twitterissä:
xpath = f'//div[@aria-label="Aikajana: Tutki"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
trending_topic = browser.find_element (XPATH, xpath)
trendaavan_aiheen_sisältö.Liitä(nouseva aihe.teksti) - Luo tyhjä luettelo kaikkien URL-osoitteiden tallentamiseksi ja määritä silmukka, joka kulkee kaikkien hashtagejen läpi.
Käytä slice-operaattoria jättääksesi hashtag pois sen URL-osoitteen luomiseksi ja korvaa välilyönnit URL-koodauksella, %20. Lisää linkit luetteloon.# luo URL-osoitteita käyttämällä kerättyjä hashtageja
urls=[]
minulle trending_topic_contentissa:if i.starts with("#"):
i = i[1:]
url='https://twitter.com/search? q = %23' + minä + '&src=trend_click'
muu:
url = 'https://twitter.com/search? q=' + minä + '&src=trend_click'
url = url.replace("", "%20")
URL-osoitteet.Liitä(url) - Luo avain-arvo-pari Sanakirja, jossa avaimet ovat hashtageja ja arvot niiden URL-osoitteina.
# luo sanakirja, jossa on sekä hashtag että URL-osoitteet
dic={'Hashtag':trending_topic_content,'URL-osoite':urls} - Muunna jäsentämätön sanakirja taulukkomuotoiseksi DataFrame-kehykseksi.
# muuntaa sanakirjan tietokehykseksi pandassa
df=pd. DataFrame (dic)
Tulosta(df) - Tallenna DataFrame CSV-tiedostoon, jota voit tarkastella Microsoft Excelissä tai käsitellä edelleen.
# muuntaa tietokehyksen pilkuilla erotettuun muotoon ilman sarjanumeroita
df.to_csv("Twitter_HashTags.csv",index=False)
Hanki arvokkaita oivalluksia verkkokaappauksen avulla
Web-kaappaus on tehokas tapa saada haluttua tietoa ja analysoida sitä päätösten tekemiseksi. Beautiful Soup on vaikuttava kirjasto, jonka voit asentaa ja käyttää tietojen kaappaamiseen mistä tahansa HTML- tai XML-tiedostosta Pythonilla.
Tämän avulla voit kaapata Internetiä saadaksesi reaaliaikaisia uutisotsikoita, tuotteiden hintoja, urheilutuloksia, osakkeiden arvoa ja paljon muuta.