Jos haet usein tietoja verkkosivustoilta, sinun kannattaa harkita prosessin automatisointia. Prosessi, jota joskus kutsutaan "verkkokaappaukseksi", on yleinen sivustoilla, jotka eivät tarjoa virallista sovellusliittymää tai syötettä. Et tietenkään pääse minnekään, jos sivusto, jota yrität hakea, ei ole käytettävissä.

Jos käytät omaa sivustoasi, olet todennäköisesti joutunut käsittelemään seisokkeja aiemmin. Se voi olla turhauttavaa, jolloin menetät kävijöitä ja keskeytät kaiken toiminnan, josta sivustosi saattaa olla vastuussa. Tällaisissa olosuhteissa kannattaa helposti tarkistaa verkkosivustosi saatavuus.

Python on loistava kieli komentosarjoille, ja sen ytimekäs mutta luettava syntaksi tekee sivustotarkistuksen toteuttamisesta yksinkertaisen tehtävän.

Henkilökohtaisen verkkosivustotarkistusohjelman luominen

Verkkosivustojen tarkistus on räätälöity useille verkkosivustoille kerralla. Tämän avulla voit helposti poistaa sivustot, joista et enää välitä, tai alkaa tarkistaa sivustoja, jotka julkaiset tulevaisuudessa. Checker on ihanteellinen "luurankosovellus", jonka päälle voit rakentaa edelleen, mutta se esittelee peruslähestymistavan verkkotietojen hakemiseen.

Tuo kirjastot Pythonissa

Projektin käynnistämiseksi sinun on tuotava pyynnöt kirjasto Pythonissa tuonti toiminto.

tuonti pyynnöt

Pyyntökirjasto on hyödyllinen verkkosivustojen kanssa kommunikoinnissa. Voit käyttää sitä HTTP-pyyntöjen lähettämiseen ja vastaustietojen vastaanottamiseen.

Tallenna verkkosivustojen URL-osoitteet luetteloon

Kun olet tuonut kirjaston, sinun tulee määrittää ja tallentaa verkkosivustojen URL-osoitteet luetteloon. Tämän vaiheen avulla voit säilyttää useita URL-osoitteita, jotka voit tarkistaa verkkosivuston tarkistuksella.

tuonti pyynnöt

website_url = [
" https://www.google.co.sisään",
" https://www.yahoo.com",
" https://www.amazon.co.sisään",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]

Muuttuja Nettisivun URL tallentaa URL-osoitteiden luettelon. Määritä luettelossa jokainen tarkistettava URL-osoite yksittäisenä merkkijonona. Voit käyttää koodissa olevia esimerkki-URL-osoitteita testaukseen tai voit vaihtaa ne omien sivustojesi tarkistamisen aloittamiseksi heti.

Tallenna seuraavaksi viestit yhteistä käyttöä varten HTTP-vastauskoodit. Voit säilyttää ne sanakirjassa ja indeksoida jokaisen viestin vastaavalla tilakoodilla. Ohjelmasi voi sitten käyttää näitä viestejä tilakoodien sijasta luettavuuden parantamiseksi.

tilat = {
200: "Verkkosivusto saatavilla",
301: "Pysyvä uudelleenohjaus",
302: "Väliaikainen uudelleenohjaus",
404: "Ei löydetty",
500: "Sisäinen palvelinvirhe",
503: "Palvelu ei saatavilla"
}

Silmukan luominen verkkosivuston tilan tarkistamiseksi

Voit tarkistaa jokaisen URL-osoitteen vuorotellen selata luetteloa verkkosivustoista. Tarkista silmukan sisällä kunkin sivuston tila lähettämällä pyyntö pyyntökirjaston kautta.

varten url sisään Nettisivun URL:
yrittää:
web_response = requests.get (url)
tulosta (url, statuses[web_response.status_code])

paitsi:
tulosta (url, statuses[web_response.status_code])

Missä:

  • URL-osoitteelle...toistuu URL-osoitteiden luettelossa.
  • url on muuttuja, jolle for-silmukka määrittää jokaisen URL-osoitteen.
  • kokeilla/paitsihoitaa kaikki poikkeukset joita saattaa syntyä.
  • web_response on muuttuja, joka tarjoaa ominaisuuden vastauksen tilakoodin kanssa

Koko koodinpätkä

Jos haluat tarkastella koko koodia yhdellä kertaa, tässä on täydellinen koodiluettelo viitteeksi.

tuonti pyynnöt

website_url = [
" https://www.google.co.sisään",
" https://www.yahoo.com",
" https://www.amazon.co.sisään",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]

tilat = {
200: "Verkkosivusto saatavilla",
301: "Pysyvä uudelleenohjaus",
302: "Väliaikainen uudelleenohjaus",
404: "Ei löydetty",
500: "Sisäinen palvelinvirhe",
503: "Palvelu ei saatavilla"
}

varten url sisään Nettisivun URL:
yrittää:
web_response = requests.get (url)
tulosta (url, statuses[web_response.status_code])

paitsi:
tulosta (url, statuses[web_response.status_code])

Ja tässä on esimerkki koodin ajosta:

Pythonin koodausominaisuudet verkkokaappauksessa

Pythonin kolmannen osapuolen kirjastot ovat ihanteellisia tehtäviin, kuten web-kaappaukseen ja tietojen hakemiseen HTTP: n kautta.

Voit lähettää automaattisia pyyntöjä verkkosivustoille erilaisten tehtävien suorittamiseksi. Näitä voivat olla uutisotsikoiden lukeminen, kuvien lataaminen ja sähköpostien automaattinen lähettäminen.