Verkon kaavinta sisältää tietojen keräämisen tietojen muodossa verkkosivustoilta tai sivuilta. Vaikka sinun ei ehkä olekaan tietoinen teko, olet kerännyt verkkoa tavalla tai toisella myös kerätessäsi tietoja. Mutta se on yleensä hienovaraista.

Verkon kaapiminen tai näytön kaapiminen on yleensä tarkoituksenmukaista, ja ammattilaiset automatisoivat suunnittelun saadakseen valtavia tietoja. Olipa sitten kopioimalla tekstejä verkkosivustolla manuaalisesti, käyttämällä erityisiä työkaluja tai kirjoittamalla verkon kaavintaohjelmia, verkkokaavimet osuvat joskus kovasti verkkosivustoon tekemällä useita pyyntöjä kerralla.

Mutta vaikka monet yritykset hyödyntävät nyt verkon kaapimista kilpailuedun saamiseksi, onko se todella laillista?

Mitä verkkosivustoja sinun pitäisi kaapata?

Internet on tietopaketti, joka antaa ihmisille pääsyn vanhaan ja reaaliaikaiseen dataan. Verkon kaapiminen tai näytön kaapiminen on ollut jo jonkin aikaa. Mutta kuinka paljon sinun pitäisi käyttää sitä, ja mitä verkkosivustoja voit kaapata?

Jotkut verkkosivustot ovat tiukkoja web-indeksoijien tai näytön kaapimien kanssa ja estävät ne kokonaan. Joten on ilmeisen ilmeistä, että sinun ei pitäisi kaapata tällaisia ​​sivustoja. Mutta ihmiset tekevät niin.

Valitettavasti tuskin mitään muuta tällaiset sivustot voivat tehdä pysäyttääkseen sen paitsi porsaanreikiensä korjaamisen.

Ennen verkkosivuston raaputtamista kannattaa tarkistaa, jos se sallii indeksoinnin. Yleensä voit selvittää sen tarkistamalla sivuston robots.txt-tiedoston. Voit tehdä tämän kirjoittamalla "[verkkosivuston URL] /robots.txt".

Robots.txt asettaa tyypillisesti säännöt eri indeksoijille tai käyttäjäagenteille. Nämä säännöt vaihtelevat kuitenkin kyseessä olevan verkkosivuston mukaan. Jotkut sivustot sallivat indeksoinnin kaikilla sivuilla, jotkut määrittelevät sivut, jotka botti voi indeksoida, ja jotkut estävät indeksoijat suoraan.

Verkkosivusto, joka estää kaikkia käyttäjäagentteja indeksoimasta kaikkia sivuja, asettaa yleensä seuraavat säännöt:

käyttäjä agentti: *
Estä: /

Robots.txt-tiedosto, joka estää kaikkia robotteja indeksoimasta tiettyjä hakemistoja tai sivuja, näyttää yleensä tältä:

käyttäjä agentti: *
Disallow: / URL sivulle 1
Disallow: / URL sivulle 2

Jos robots.txt ei salli indeksoitavaa sivua, voit todennäköisesti kaapata sen. Muussa tapauksessa sinun tulee peruuttaa tai pyytää järjestelmänvalvojan suostumus. He voivat myöntää sinulle pääsyn.

Lisäksi jotkut verkkosivustot ilmoittavat käyttöehdoissaan nimenomaisesti, sallivatko ne indeksoinnin. Jotkut jopa ilmoittavat tämän myös robots.txt-tiedostonsa yläosassa. Tarkista aina se myös varmistaaksesi, että teet oikein.

Kuinka verkon kaapimista käytetään väärin

Joten jos olet saanut roskapostiviestejä tai tekstiviestejä verkkosivustoilta tai ihmisiltä, ​​joille et ole koskaan toimittanut henkilökohtaisia ​​tietojasi, olet todennäköisesti kaapannut jonnekin jotenkin. Ja enimmäkseen se tapahtuu yhden sosiaalisen median kahvoista.

Web-kaavinta on joskus muutakin kuin pelkkä käyttöliittymään tulevien tietojen kerääminen. Haitallinen käyttö voi johtaa henkilökohtaisten ja luokiteltujen tietojen vuotamiseen.

Vaikka useimmat sosiaalisen median alustat paheksuvat sitä, indeksointirobotit pääsevät silti ihmisten profiileihin, ja heidän yhteystietonsa vuotavat ja raapivat.

Esimerkiksi Facebookissa on raportoitu olevan haavoittuvuuksia, jotka vuotavat käyttäjien yhteystiedot aiemmin, vaikka käyttäjät pitävät heidät yksityisinä.

Samoin LinkedIn koki äskettäin tietoturvaloukkauksen, joka johti henkilötietojen vuotamiseen kuuluvat yli 500 miljoonaan tiliin. Tästä syystä haavoittuvuus johti monien sähköpostiosoitteiden ja puhelinnumeroiden jakamiseen ilman profiilin omistajien suostumusta.

Onko verkkosivuston kaavinta laitonta?

Web-kaavinnan laillisuudesta ei ole koskaan tehty päätelmää. Sen sijaan keskitytään siihen, kuinka indeksointirobotti toimii tapauskohtaisesti ja mihin he käyttävät kerättyä tietoa saavuttaakseen.

Joten sen sijaan, että päätettäisiin sen laillisuudesta, kaavinta, kun se tehdään vahingollisesti, on laitonta. Mutta jos se tehdään järkevästi, se ei ole laitonta.

Mutta kuten odotettiin, näyttää olevan tiukempi käytäntö sosiaalisen median tietojen kaapimisessa ja käytössä, koska käyttäjien yksityisyys on niin tärkeää. Kuitenkin kaikki supistuu edelleen siihen, kuinka ihmiset kaapivat tietoja.

Internet- ja sosiaalisen median lakiblogi analysoi hiQ Labsin tapaa, tiedonkeruulaite, joka voitti oikeudenkäynnin LinkedIniä vastaan ​​vuonna 2019, kun se yritti estää hiQ Labsia kaapamasta julkisesti saatavilla olevia LinkedIn-käyttäjien tietoja.

HiQ Labs väittää, että Computer Fraud and Abuse Act (CFAA) kieltää vain luvattoman pääsyn, joten tuomio vahvisti, että LinkedInin tiedot olivat julkisesti saatavissa, joten kukaan kaavin ne teki niin, koska he olivat saatavilla.

Lisäksi hiQ Labs käytti kaapattua tietoa tarjotakseen analyysiratkaisuja yrityksille - jotta ne voisivat tehdä parempia rekrytointipäätöksiä.

Päinvastoin, Facebook haastoi äskettäin Chrome-laajennuskehittäjät jotka raapivat Facebook-käyttäjien profiileja ilman heidän suostumustaan.

Samoin a kopiointisivusto haastettiin Facebookiin useiden Instagram-käyttäjien profiilitietojen raaputtamiseen ja näiden avulla kloonien luomiseen. Raportin mukaan Facebook meni sitten pidemmälle saadakseen pysyvän oikeuden määräyksen rikoksentekijää vastaan.

Nämä ovat muutamia tapauksia, joissa ihmiset ovat saattaneet käyttää verkon kaapimista laittomasti. Mainitut yritykset keräsivät Facebook-käyttäjien tietoja petollisesti ilman käyttäjien suostumusta. Joten se rikkoi tietosuojakäytäntöjä.

Joten vaikka web-kaavinta voi turhauttaa sivuston, josta se saa tietoja, mikään yleinen sääntö ei tällä hetkellä estä ihmisiä saamasta mitä haluavat, kunhan he eivät riko Internet-lakeja suoraan.

Onko verkon kaavinta synonyymi hakkeroinnille?

Verkon kaapimiseen liittyy muutama myytti. Yksi näistä on usko siihen, että verkkosivuston kaapiminen tarkoittaa, että olet hakkeroinut sen. Vaikka hakkerointi voi lopulta johtaa tietojen kaapimiseen, väite, jonka mukaan termi itsessään tarkoittaa hakkerointia, ei ole totta.

Verkon kaavinta voi liittyä omat indeksointityökalut, Sovellusohjelmointirajapinnat (API) tai web-komentoja skriptejä renderoidun datan saamiseksi verkkosivustolta. Toisin kuin hakkerointi, se ei vaaranna kaavittavaa verkkosivustoa eikä häiritse käyttäjien kokemuksia.

Liittyvät: Mikä on verkon kaavinta? Kuinka kerätä tietoja verkkosivustoilta

Joten vaikka hakkerointiin liittyy luvaton pääsy, yleensä verkkosivuston tietokantaan, web-kaavinta kohdistaa vain sellaisiin tietoihin, jotka ovat jo näkyvissä käyttöliittymässä. Vaikka ihmiset voivat käyttää kaavinta verkosta haitallisesti, se ei silti ole hakkeroinnin synonyymi.

Sen lisäksi, toisin kuin verkon kaavinta, tahallinen ja epäeettinen hakkerointi on laitonta.

Mitkä ovat verkon kaavinnan positiiviset piirteet?

Verkon kaavinta on monia positiivisia, ja jopa jotkut teknologiayritykset tarjoavat nyt tietojaan ilmaiseksi API: n kautta. Nämä tiedot eivät yleensä riitä liiketoiminnan kehityksen arvioimiseksi ja päätösten tekemiseksi.

Joten yritykset saavat nyt enemmän tietoa raaputtamalla verkkoa parantamaan käytäntöjä ja lisäämään myyntiä. Lisäksi datatutkijat syöttävät koneoppimisalgoritmeja näytön kaapimalla kerätyillä tiedoilla.

Tällaiset tiedot voivat olla kuvia, joita käytetään kuvien tunnistamiseen, pelkkää tekstiä mielipiteiden analysointiin tai suoraa tuotetietoa markkinatiedon ja kuluttajien käyttäytymisen analysointiin.

Liittyvät: Ainutlaatuisia tapoja saada tietoaineistoja koneoppimisprojektiisi

Joten verkon kaavinta on vieläkin hyödyllisempää, koska jos sinulla on pääsy kilpailijan tietoihin, voit voittaa heidät.

Jotkut sivustot paheksuvat verkkokaavioita, jotkut, jopa sähköisen kaupankäynnin palvelut, eivät välitä, raaputko heidän tietojaan vai ei. Web-jättiläiset, kuten eBay ja Salesforce, aloittivat API: nsa vuonna 2000, tarjoten ohjelmoijille pääsyn julkisiin tietoihin ensimmäistä kertaa.

Pitäisikö sinun todella kaapata verkko?

Olemme todenneet, että verkon kaapiminen ei ole laitonta, kun se tehdään oikealla tavalla. Mutta huolenaihe on myös se, mitä teet kaapamiesi tietojen kanssa. Joten sen sijaan, että väärinkäyttäisit tätä, käytä sitä saadaksesi lisää oivalluksia, jotka auttavat sinua ja muita tekemään tietoon perustuvia päätöksiä.

Verkon kaavinta taitona antaa kuitenkin sinulle pääsyn suuriin Internet-tietojen paloihin, mikä voi auttaa sinua tai yritystäsi pysymään liiketoiminta-alueen yläpuolella. Datatieteilijänä se jopa laajentaa soveltamisalaa ja parantaa koodausta ja teknisiä taitojasi.

Esimerkiksi Python on yksi ohjelmointikielistä, jonka avulla voit helposti kaapata verkkosivuston sen kauniilla keittokirjastolla tai leikekehyksellä.

Sähköposti
Kaavi verkkosivusto tällä kauniilla keitto Python -oppaalla

Kiinnostaako verkon kaavinta? Näin voit kaapata verkkosivuston sisällön ja muun suhteen Beautiful Soup Python -kirjastolla.

Lue seuraava

Liittyvät aiheet
  • Turvallisuus
  • Ohjelmointi
  • Verkkoturva
  • Verkon kaavinta
Kirjailijasta
Idowu Omisola (71 artikkelia julkaistu)

Idowu on intohimoisesti kaikesta älykkäästä tekniikasta ja tuottavuudesta. Vapaa-aikanaan hän leikkii koodauksella ja vaihtaa shakkilaudalle, kun hän on tylsistynyt, mutta rakastaa myös irtautumista rutiinista silloin tällöin. Hänen intohimonsa osoittaa ihmisille tien ympäri nykytekniikkaa motivoi häntä kirjoittamaan enemmän.

Lisää Idowu Omisolasta

Tilaa uutiskirjeemme

Liity uutiskirjeeseemme, jossa on teknisiä vinkkejä, arvosteluja, ilmaisia ​​e-kirjoja ja erikoistarjouksia!

Vielä yksi askel !!!

Vahvista sähköpostiosoitteesi juuri lähettämässäsi sähköpostiviestissä.

.