Kaltaisesi lukijat auttavat tukemaan MUO: ta. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion.

Tekijä: Sai Ashish Konchada
JaaTweetJaaSähköposti

HTML: n kaapiminen voi olla hankalaa, joten varmista, että ymmärrät tämän prosessin hieman Python-harjoittelulla.

Twitter on yksi vaikutusvaltaisimmista sosiaalisen median alustoista koskaan. Miljoonat ihmiset, mukaan lukien huippupoliitikot, julkkikset ja toimitusjohtajat, käyttävät alustaa ajatuksensa jakamiseen joka päivä.

Trendit-välilehti on yksi parhaista paikoista reaaliaikaisten uutisten ja sosiaalisen median tunteiden selvittämiseen. Voit analysoida ja käyttää näitä tietoja brändimainosten suunnitteluun, kampanjoiden suorittamiseen ja myynnin lisäämiseen taitoksilla. Mutta kuinka saat kymmenen suosituinta hashtagia Twitterissä?

Algoritmin rakentamisprosessi

Ensimmäinen askel minkä tahansa ohjelman rakentamisessa on huomioida ja ymmärtää Twitter-kaavin rakentamiseen vaadittavat vaiheet. He ovat:

instagram viewer
  1. Avaa Google Chrome.
  2. Vieraile Twitterin trendisivulla.
  3. Kerää hashtagit ja niitä vastaavat sivulinkit.
  4. Tallenna tiedot laskentataulukkoon.

Tämä toimii ongelmalauseen algoritmina.

Twitter-verkkosivun ymmärtäminen

Sinun on tiedettävä, kuinka verkkosivu merkitsee tiedot, ennen kuin voit purkaa ne. Se auttaa paljon, jos sinulla on hyvä käsitys HTML: n perusteet ja CSS.

Seuraa näitä ohjeita selvittääksesi, kuinka Twitter edustaa trendaavaa hashtagia ja sen URL-osoitetta:

  1. Vierailla Twitterin trendikkäin sivu. Voit myös navigoida kohteeseen Twitter.comTutkiaTrendaavat katsoaksesi sitä.
  2. Tarkista pääpylväs käyttämällä Chrome Dev Toolsia. Mene Valikko (3 pistettä)>Lisää työkaluja >Kehittäjän työkalut ja siirrä elementin valintatyökalu trendialueen päälle.
  3. Trendikäs aikajana on a div kanssa aria-merkki attribuutti, jonka arvo on "Aikajana: Tutki". Vie hiiri merkinnän päälle Elementit paneeli ymmärtääksesi paremmin sivun rakennetta. Toinen div tallentaa trendaavan hashtagin/aiheen. Käytä tätä div: iä laskurina ja toista kaikkiin diveihin sivulla, joka sisältää trendaavan aiheen/hashtagin. Sisältö on tallennettu a jänneväli tai pari jänneelementtiä. Tarkkaile avointa välilehteä ja pane merkille hierarkia. Voit käyttää tätä XPath-lausekkeen muodostamiseen. Tämän tietyn elementin XPath-lauseke on:
    '//div[@aria-label="Aikajana: Tutki"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    Iteroi ja kohdista div[3], div[4], div[5] ja niin edelleen. Kymmenen parhaan hashtagin laskuri on 3–13. Yleistetystä XPathista tulee:
    //div[@aria-label="Aikajana: Tutki"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
  4. Napsauta mitä tahansa hashtagia ymmärtääksesi sen sivujen URL-osoitteet. Jos vertaat URL-osoitteita, huomaa, että vain kyselyparametri muuttuu vastaamaan hashtagin nimeä. Voit käyttää tätä tietoa URL-osoitteiden luomiseen purkamatta niitä.

Tämä projekti käyttää seuraavia Python-moduuleja ja työkaluja:

1. Panda-moduuli

Sinä pystyt käytä Pandas DataFrame -luokkaa tallentaaksesi hashtagit ja niitä vastaavat linkit taulukkomuodossa. Tästä on apua, kun haluat lisätä tämän sisällön CSV-tiedostoon, jonka voit jakaa ulkoisesti.

2. Aika moduuli

Käytä Aika-moduulia lisätäksesi Python-ohjelmaan viiveen, jotta sivun sisältö latautuu kokonaan. Tässä esimerkissä käytetään 15 sekunnin viivettä, mutta voit kokeilla ja valita olosuhteisiisi sopivan viiveen.

3. Seleeni moduuli

Seleeni voi automatisoida vuorovaikutuksen verkon kanssa. Voit käyttää sitä ohjaamaan verkkoselaimen esiintymää, avaamaan trendaavan sivun ja vierittämään sitä alaspäin. Asenna Selenium Python-ympäristöösi avaamalla Terminaali ja toteuttaapip asennus seleeni.

4. Web-ajuri

Käytä verkkoajuria yhdessä Seleenin kanssa vuorovaikutuksessa selaimen kanssa. Saatavilla on erilaisia ​​web-ajureita sen mukaan, minkä selaimen haluat automatisoida. Käytä tähän koontiversioon suosittua Google Chrome -selainta. Verkkoohjaimen asentaminen Chromelle:

  1. Tarkista käyttämäsi selaimen versio käymällä osoitteessa Valikko (3 pistettä) > Apua>Tietoja Google Chromesta.
  2. Huomaa selaimen versio; tässä tapauksessa se on 106.0.5249.62.
  3. Mene luoksesi Terminaali ja tyyppi pip install chromedriver-binary==version_numero:
    pip Asentaa kromiohjain-binääri==106.0.5249.62
    Jos vastaavaa versiota ei ole, pip näyttää luettelon saatavilla olevista; valitse Chrome-versiota lähinnä oleva.

Twitterin kaavin rakentaminen

Seuraa näitä ohjeita rakentaaksesi ohjelmasi ja saadaksesi reaaliaikaisia ​​trendaavia hashtageja. Löydät täydellisen lähdekoodin tästä GitHub-arkisto.

  1. Tuo tarvittavat moduulit Python-ympäristöön.
    # tuodaan tarvittavat moduulit
    alkaen seleeni tuonti web-ajuri
    alkaenseleeni.webdriver.common.bytuontiTekijä:
    tuonti chromedriver_binary
    tuonti aika
    tuonti pandat kuten pd
  2. Luo objekti ChromeDriverin alustamiseksi ja käynnistä Google Chrome -selain käyttämällä web-ajuri. Kromi() toiminto.
    # avaa google chrome -selain
    selain = verkkoohjain. Kromi()
  3. Avaa Twitterin trendisivu välittämällä sen URL-osoite osoitteeseen saada() toiminto.
    # avaa Twitterin trendaava sivu
    browser.get('https://twitter.com/explore/tabs/trending')
  4. Käytä viivettä, jotta sivun sisältö latautuu kokonaan.
    # viive sivun sisällön lataamisessa
    aika.nukkua(15)
  5. Luo tyhjä luettelo hashtagien tallentamista varten ja määritä silmukka, joka kulkee välillä 3–13, jotta se vastaa XPath-lausekkeen muuttujaa aikaisemmasta.
    # alusta lista tallentaaksesi trendaavia aiheita ja hashtageja
    trending_topic_content=[]

    # kerää aiheita ja hashtageja Twitterin trendaavalla sivulla
    i alueella (3,13):

  6. Käytä etsi_elementti() toiminto ja ohita XPath-valitsin saadaksesi trendaavat aiheet ja hashtagit Twitterissä:
    xpath = f'//div[@aria-label="Aikajana: Tutki"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    trending_topic = browser.find_element (XPATH, xpath)
    trendaavan_aiheen_sisältö.Liitä(nouseva aihe.teksti)
  7. Luo tyhjä luettelo kaikkien URL-osoitteiden tallentamiseksi ja määritä silmukka, joka kulkee kaikkien hashtagejen läpi.
    # luo URL-osoitteita käyttämällä kerättyjä hashtageja
    urls=[]
    minulle trending_topic_contentissa:
    Käytä slice-operaattoria jättääksesi hashtag pois sen URL-osoitteen luomiseksi ja korvaa välilyönnit URL-koodauksella, %20. Lisää linkit luetteloon.
    if i.starts with("#"):
    i = i[1:]
    url='https://twitter.com/search? q = %23' + minä + '&src=trend_click'
    muu:
    url = 'https://twitter.com/search? q=' + minä + '&src=trend_click'
    url = url.replace("", "%20")
    URL-osoitteet.Liitä(url)
  8. Luo avain-arvo-pari Sanakirja, jossa avaimet ovat hashtageja ja arvot niiden URL-osoitteina.
    # luo sanakirja, jossa on sekä hashtag että URL-osoitteet
    dic={'Hashtag':trending_topic_content,'URL-osoite':urls}
  9. Muunna jäsentämätön sanakirja taulukkomuotoiseksi DataFrame-kehykseksi.
    # muuntaa sanakirjan tietokehykseksi pandassa
    df=pd. DataFrame (dic)
    Tulosta(df)
  10. Tallenna DataFrame CSV-tiedostoon, jota voit tarkastella Microsoft Excelissä tai käsitellä edelleen.
    # muuntaa tietokehyksen pilkuilla erotettuun muotoon ilman sarjanumeroita
    df.to_csv("Twitter_HashTags.csv",index=False)

Hanki arvokkaita oivalluksia verkkokaappauksen avulla

Web-kaappaus on tehokas tapa saada haluttua tietoa ja analysoida sitä päätösten tekemiseksi. Beautiful Soup on vaikuttava kirjasto, jonka voit asentaa ja käyttää tietojen kaappaamiseen mistä tahansa HTML- tai XML-tiedostosta Pythonilla.

Tämän avulla voit kaapata Internetiä saadaksesi reaaliaikaisia ​​uutisotsikoita, tuotteiden hintoja, urheilutuloksia, osakkeiden arvoa ja paljon muuta.

Raaputa verkkosivusto tällä kauniilla Python-keitto-opetusohjelmalla

Lue Seuraava

JaaTweetJaaSähköposti

Liittyvät aiheet

  • Ohjelmointi
  • Ohjelmointi
  • Python
  • Verkkokehitys
  • Verkkokaappaus
  • Viserrys

Kirjailijasta

Sai Ashish Konchada (3 artikkelia julkaistu)

Sai Ashish on Full Stack -kehittäjä, jolla on alan kokemusta verkkosivustojen ja verkkosovellusten rakentamisesta. Hän rakastaa innovatiivisten tuotteiden rakentamista ja oivaltavien ohjelmoinnin artikkeleiden kirjoittamista.

Lisää Sai Ashish Konchadasta

Kommentti

tilaa uutiskirjeemme

Liity uutiskirjeemme saadaksesi teknisiä vinkkejä, arvosteluja, ilmaisia ​​e-kirjoja ja eksklusiivisia tarjouksia!

Klikkaa tästä tilataksesi

On The Wire

nousussa nyt