Oletko huolissasi AI-chatboteista, jotka etsivät sisältöä verkkosivustoltasi? Onneksi voit estää heitä tekemästä niin. Toimi näin.

Nykytilanteessa AI-chatbotilla on ilmainen lisenssi kaapata verkkosivustoasi ja käyttää sen sisältöä ilman lupaasi. Oletko huolissasi siitä, että tällaiset työkalut raaputtavat sisältöäsi?

Hyvä uutinen on, että voit estää tekoälytyökaluja pääsemästä verkkosivustollesi, mutta on olemassa joitain varoituksia. Tässä näytämme sinulle, kuinka voit estää robotit käyttämällä verkkosivustosi robots.txt-tiedostoa, sekä sen edut ja haitat.

Kuinka AI-chatbotit pääsevät verkkosisältöihisi?

AI chatbotit koulutetaan käyttämällä useita tietojoukkoja, joista osa on avoimen lähdekoodin ja julkisesti saatavilla. Esimerkiksi GPT3 koulutettiin käyttämällä viittä tietojoukkoa, mukaan OpenAI: n julkaisema tutkimuspaperi:

  1. Common Crawl (60 % painoa harjoituksessa)
  2. WebText2 (22 % painoa harjoituksessa)
  3. Kirjat1 (8 % painoa harjoituksissa)
  4. Kirjat2 (8 % painoa harjoituksissa)
  5. Wikipedia (3 % painoa harjoituksissa)
instagram viewer

Yleinen indeksointi sisältää petatavuja (tuhansia TB: itä) dataa verkkosivustoilta, jotka on kerätty vuodesta 2008 lähtien, samoin kuin Googlen hakualgoritmi indeksoi verkkosisältöä. WebText2 on OpenAI: n luoma tietojoukko, joka sisältää noin 45 miljoonaa Web-sivua, joihin on linkitetty Reddit-viesteistä vähintään kolmella plusäänellä.

Joten ChatGPT: n tapauksessa AI-botti ei pääse ja indeksoi verkkosivujasi suoraan – ei kuitenkaan vielä. Kuitenkin, OpenAI ilmoitus ChatGPT-isännöidystä verkkoselaimesta on herättänyt huolta siitä, että tämä saattaa muuttua.

Sillä välin verkkosivustojen omistajien tulisi pitää silmällä muita AI-chatbotteja, koska niitä tulee markkinoille enemmän. Bard on alan toinen suuri nimi, ja siitä tiedetään hyvin vähän sen kouluttamiseen käytetyt tietojoukot. Tietysti tiedämme, että Googlen hakurobotit indeksoivat jatkuvasti verkkosivuja, mutta tämä ei välttämättä tarkoita, että Bardilla on pääsy samoihin tietoihin.

Miksi jotkut verkkosivustojen omistajat ovat huolissaan?

Suurin huolenaihe verkkosivustojen omistajille on, että AI-botit, kuten ChatGPT, Bard ja Bing Chat, alentavat niiden sisältöä. Tekoälybotit käyttävät olemassa olevaa sisältöä vastaustensa luomiseen, mutta ne myös vähentävät käyttäjien tarvetta käyttää alkuperäistä lähdettä. Sen sijaan, että käyttäjät kävisivät verkkosivustoilla saadakseen tietoja, he voivat vain saada Googlen tai Bingin luomaan yhteenvedon tarvitsemistaan ​​tiedoista.

Mitä tulee AI-chatboteihin haussa, verkkosivustojen omistajien suurin huolenaihe on liikenteen menettäminen. Bardin tapauksessa AI-botti sisältää harvoin lainauksia generatiivisissa vastauksissaan, kertoo käyttäjille, miltä sivuilta se saa tietonsa.

Joten sen lisäksi, että Bard korvaa verkkosivustokäynnit tekoälyvastauksilla, se poistaa lähes kaikki mahdolliset lähdesivustolle liikennettä – vaikka käyttäjä haluaisi lisätietoja. Bing Chat puolestaan ​​linkittää useammin tietolähteisiin.

Toisin sanoen nykyinen generatiivisten tekoälytyökalujen laivasto on hyödyntäen sisällöntuottajien työtä järjestelmällisesti korvaamaan sisällöntuottajien tarpeen. Lopulta sinun on kysyttävä minkä kannustimen tämä jättää verkkosivustojen omistajille jatkaaksesi sisällön julkaisemista. Ja lisäksi, mitä tapahtuu tekoälyboteille, kun verkkosivustot lopettavat sisällön julkaisemisen, jonka toiminnassa ne luottavat?

Kuinka estää AI-botteja verkkosivustoltasi

Jos et halua tekoälybottien käyttävän verkkosisältöäsi, voit estää niitä pääsemästä sivustollesi käyttämällä robots.txt tiedosto. Valitettavasti sinun on estettävä jokainen yksittäinen botti ja määritettävä ne nimellä.

Esimerkiksi Common Crawlin bottia kutsutaan CCBotiksi, ja voit estää sen lisäämällä seuraavan koodin robots.txt-tiedostoosi:

Käyttäjäagentti: CCBot
Estä: /

Tämä estää Common Crawlia indeksoimasta verkkosivustoasi jatkossa, mutta se ei poista aiemmista indeksoinneista jo kerättyä dataa.

Jos olet huolissasi ChatGPT: n uusista laajennuksista, jotka pääsevät verkkosisältöösi, OpenAI on jo julkaissut ohjeet sen botin estämiseen. Tässä tapauksessa ChatGPT: n bottia kutsutaan ChatGPT-Useriksi, ja voit estää sen lisäämällä seuraavan koodin robots.txt-tiedostoosi:

User-agent: ChatGPT-User
Estä: /

Hakukoneiden tekoälyrobottien estäminen indeksoimasta sisältöäsi on kuitenkin toinen ongelma. Koska Google on erittäin salainen käyttämistään harjoitustiedoista, on mahdotonta tunnistaa, mitkä robotit sinun on estettävä ja noudattavatko ne edes käskyjäsi. robots.txt tiedosto (monet indeksointirobotit eivät).

Kuinka tehokas tämä menetelmä on?

AI-bottien estäminen robots.txt tiedosto on tehokkain tällä hetkellä käytettävissä oleva menetelmä, mutta se ei ole erityisen luotettava.

Ensimmäinen ongelma on, että sinun on määritettävä jokainen botti, jonka haluat estää, mutta kuka voi seurata jokaista AI-bottia, joka tulee markkinoille? Seuraava ongelma on, että komennot sinun robots.txt tiedostot ovat ei-pakollisia ohjeita. Vaikka Common Crawl, ChatGPT ja monet muut robotit kunnioittavat näitä komentoja, monet robotit eivät.

Toinen suuri varoitus on, että voit vain estää AI-botteja suorittamasta tulevia indeksointeja. Et voi poistaa tietoja aiemmista indeksoinneista tai lähettää pyyntöjä OpenAI: n kaltaisille yrityksille kaikkien tietojesi poistamiseksi.

Valitettavasti ei ole yksinkertaista tapaa estää kaikkia AI-botteja pääsemästä verkkosivustollesi, ja jokaisen yksittäisen botin manuaalinen estäminen on lähes mahdotonta. Vaikka pysyisitkin ajan tasalla verkossa liikkuvien uusimpien AI-bottien kanssa, ei ole takeita siitä, että ne kaikki noudattavat käskyjäsi. robots.txt tiedosto.

Todellinen kysymys tässä on, ovatko tulokset vaivan arvoisia, ja lyhyt vastaus on (melkein varmasti) ei.

Tekoälyrobottien estämisellä verkkosivustollasi on myös mahdollisia haittapuolia. Ennen kaikkea et voi kerätä merkityksellistä tietoa todistaaksesi, hyödyttävätkö tai vahingoittavatko Bardin kaltaiset työkalut hakumarkkinointistrategiaasi.

Kyllä, voit olettaa, että viittausten puute on haitallista, mutta vain arvaat, jos sinulla ei ole tietoja, koska estit tekoälyrobotteja pääsemästä sisältöösi. Se oli samanlainen tarina, kun Google esitteli ensimmäisen kerran esitellyt katkelmat etsiä.

Asiaankuuluville kyselyille Google näyttää tulossivulla katkelman verkkosivujen sisällöstä, joka vastaa käyttäjän kysymykseen. Tämä tarkoittaa, että käyttäjien ei tarvitse napsauttaa verkkosivustoa saadakseen etsimäänsä vastauksen. Tämä aiheutti paniikkia verkkosivustojen omistajien ja SEO-asiantuntijoiden keskuudessa, jotka luottavat liikenteen tuottamiseen hakukyselyistä.

Suositeltuja katkelmia käynnistävät kyselyt ovat kuitenkin yleensä vähäarvoisia hakuja, kuten "mikä on X" tai "mikä on sää New Yorkissa". Jokainen, joka haluaa perusteellista tietoa tai kattavan säätiedotuksen, napsauttaa silti, ja ne, jotka eivät halua, eivät koskaan olleet niin arvokkaita.

Saatat huomata, että se on samanlainen tarina generatiivisten AI-työkalujen kanssa, mutta tarvitset tiedot todistaaksesi sen.

Älä kiirehdi mihinkään

Verkkosivustojen omistajat ja julkaisijat ovat ymmärrettävästi huolissaan tekoälytekniikasta ja turhautuneita ajatuksesta, että robotit käyttävät sisältöään välittömien vastausten tuottamiseen. Tämä ei kuitenkaan ole aika kiirehtiä vastahyökkäykseen. Tekoälyteknologia on nopeasti kehittyvä ala, ja asiat kehittyvät edelleen nopeaa vauhtia. Käytä tilaisuutta hyväksesi nähdäksesi, miten asiat etenevät, ja analysoidaksesi mahdollisia uhkia ja mahdollisuuksia, joita tekoäly tuo pöytään.

Nykyinen järjestelmä, jossa luotetaan sisällöntuottajien työhön niiden korvaamiseksi, ei ole kestävä. Muuttavatpa yritykset, kuten Google ja OpenAI, lähestymistapaansa tai hallitukset ottavat käyttöön uusia säännöksiä, jotain on annettava. Samaan aikaan tekoäly-chatbottien kielteiset vaikutukset sisällön luomiseen käyvät yhä selvemmin ilmi, mitä verkkosivustojen omistajat ja sisällöntuottajat voivat käyttää hyväkseen.