GPTBot ei todennäköisesti ole sitä mitä luulet.

Key Takeaways

  • OpenAI: n GPTBot on indeksointirobotti, joka on suunniteltu keräämään tietoja julkisilta verkkosivustoilta, joita käytetään sitten AI-mallien, kuten GPT-4:n ja ChatGPT: n, kouluttamiseen ja parantamiseen.
  • Jotkut Internetin suurimmista verkkosivustoista estävät GPTBotin, koska se käyttää ja käyttää tekijänoikeudella suojattua sisältöä ilman lupaa tai korvausta tekijöille.
  • Vaikka verkkosivustot voivat käyttää työkaluja, kuten robots.txt, yrittää estää GPTBotin, mutta ei ole takeita siitä, että OpenAI noudattaa vaatimuksia, joten ne voivat hallita tekijänoikeudella suojattujen tietojen käyttöä.

Elokuussa 2023 OpenAI, ChatGPT: n kehittäjä, tekoälyn voimanlähde, julkisti GPTBotin, verkkoindeksointirobotin, joka on suunniteltu kulkemaan verkossa ja keräämään tietoja.

Pian tämän ilmoituksen jälkeen jotkut Internetin suurimmista verkkosivustoista estivät robotin pääsyn verkkosivustoonsa. Mutta miksi? Mikä on OpenAI: n GPTBot? Miksi suuret verkkosivustot pelkäävät sitä ja miksi he yrittävät estää sen?

Mikä on OpenAI: n GPTBot?

GPTBot on OpenAI: n luoma indeksointirobotti, joka etsii Internetistä ja kerää tietoa OpenAI: n tekoälyn kehitystavoitteita varten. Se on ohjelmoitu indeksoimaan julkisia verkkosivustoja ja lähettämään tiedot takaisin OpenAI: n palvelimille. Tämän jälkeen OpenAI käyttää näitä tietoja tekoälymalliensa kouluttamiseen ja parantamiseen tavoitteenaan rakentaa yhä kehittyneempiä tekoälyjärjestelmiä. Kehittyneiden tekoälymallien, kuten GPT-4:n, tai sen lapsituotteiden, kuten ChatGPT: n, rakentamiseen Web-indeksointirobotit ovat melkein välttämättömiä.

Tekoälymallin kouluttaminen vaatii valtavan määrän dataa, ja yksi tehokkaimmista tavoista kerätä näitä tietoja on käyttää työkaluja, kuten indeksointirobotteja. Indeksointirobotit voivat selata verkkoa systemaattisesti, seurata linkkejä suurien verkkosivumäärien indeksointiin ja poimia tärkeitä tietoja, kuten tekstiä, kuvia ja metatietoja, jotka vastaavat ennalta määritettyä mallia.

Nämä tiedot voidaan sitten jäsentää ja syöttää tekoälymalleihin, jotta he voivat kouluttaa heidän luonnollisia kielenkäsittelykykyään tai kuvantuotantokykyään tai kouluttaa heitä muihin tekoälytehtäviin. Sanalla sanoen, indeksointirobotit keräävät tietoja, joiden avulla työkalut, kuten ChatGPT tai DALL-E, voivat tehdä mitä tekevät.

Verkkoindeksointirobotit eivät ole uusi käsite. Luultavasti miljoonat heistä indeksoivat miljardeja Internetissä saatavilla olevia verkkosivustoja nykyään. Ja ne ovat olleet olemassa ainakin 90-luvun alusta lähtien. GPTBot on vain yksi OpenAI: n omistamista indeksointiroboteista. Joten mikä aiheuttaa kiistan tämän tietyn indeksointirobotin ympärillä?

Miksi Big Tech -sivustot estävät GPTBotin?

Mukaan Business Insider, jotkut Internetin suurimmista verkkosivustoista estävät aktiivisesti OpenAI: n indeksointirobotin verkkosivuillaan. Joten jos GPTBotin perimmäinen tavoite on edistää tekoälyn kehitystä, miksi jotkut Internetin suurimmista sivustoista, joista osa on tavalla tai toisella hyötynyt tekoälystä, vastustavat sitä?

No, tässä on asiaa. Vuonna 2022 tapahtuneen generatiivisten tekoälytekniikoiden elpymisen jälkeen on käyty lukuisia keskusteluja tekoälyyritysten oikeudesta käyttää lähes rajoituksetta Internetistä peräisin olevia tietoja, joista merkittävä osa on laillisesti suojattu tekijänoikeus. Selkeät lait eivät säätele sitä, miten nämä yritykset keräävät ja käyttävät tietoja omaksi hyödykseen.

Joten periaatteessa GPTBotin kaltaiset indeksointirobotit indeksoivat verkkoa, tarttuvat ihmisten luoviin töihin tekstin, kuvien tai muun muotoisen mediaa ja käyttää sitä kaupallisiin tarkoituksiin ilman lupaa, lisenssiä tai korvausta alkuperäisestä luojat.

Siellä on villi länsi, ja tekoälyyritykset tarttuvat mihin vain saavat käsiinsä. Suuret verkkosivustot, kuten Quora, CNN, New York Times, Business Insider ja Amazon eivät ole kovin tyytyväisiä siihen, että heidän Nämä indeksointirobotit keräävät tekijänoikeudella suojattua sisältöä, joten OpenAI voi saada siitä taloudellista hyötyä kustannuksella.

Siksi nämä sivustot käyttävät "robots.txt" -tiedostoa, joka on vuosikymmeniä vanha tapa estää indeksointirobotit. Mukaan OpenAI, GPTBot noudattaa ohjeita verkkosivustojen indeksoimiseksi tai niiden indeksoinnin välttämiseksi robots.txt-tiedostoon upotettujen sääntöjen perusteella. Tämä on pieni tekstitiedosto, joka kertoo indeksointiroboteille, kuinka sivustolla tulee toimia. Jos sinulla on oma sivusto ja haluaisit estää GPTBotin nappaamasta tietojasi, näin voit estää OpenAI: n indeksointirobotteja kaappaamasta verkkosivustoasi.

Voivatko verkkosivustot todella pysäyttää GPTBotin?

Vaikka indeksointirobotit, kuten GPTBot, ovat välttämättömiä valtavien tietomäärien keräämiseen, joita tarvitaan kouluttaa kehittyneitä tekoälyjärjestelmiä, tekijänoikeuksiin ja oikeudenmukaiseen käyttöön liittyy perusteltuja huolenaiheita, joita ei voi olla huomiotta.

Toki on olemassa yksinkertaisia ​​työkaluja, kuten robots.txt, joilla voidaan suojautua tätä vastaan, mutta se, noudattaako GPTBot tämän tiedoston ohjeita, on täysin OpenAI: n harkinnassa. Ei ole takeita siitä, että he tekevät niin, eikä ole välitöntä idioottivarmaa tapaa kertoa, ovatko he tehneet niin. Pyrkiessään pitämään GPTBot poissa tekijänoikeudella suojatusta datasta, OpenAI hallitsee ässää ainakin toistaiseksi.