8 keskeistä tekijää, jotka on otettava huomioon testattaessa AI-chatbottien tarkkuutta

Voit testata erilaisia AI-chatbotteja selvittääksesi, mikä toimii parhaiten. Mutta miten tämä pitäisi tehdä? Tässä on joitain tärkeitä tekijöitä.

Tekoäly on edennyt pitkälle epäolennaisen, epäjohdonmukaisen tulosteen tuottamisesta. Nykyaikaiset chatbotit käyttävät kehittyneitä kielimalleja, jotka vastaavat yleistietokysymyksiin, laativat pitkiä esseitä ja kirjoittavat koodia muiden monimutkaisten tehtävien ohella.

Näistä edistysaskelista huolimatta huomaa, että jopa kaikkein kehittyneimmillä järjestelmillä on rajoituksia. AI tekee edelleen virheitä. Testaa niiden tarkkuus näiden tekijöiden perusteella selvittääksesi, mitkä chatbotit ovat vähiten alttiita hallusinaatioille.

1. Laskutaito

Suorita matemaattisia yhtälöitä chatbottien kautta. He testaavat alustan kykyä analysoida tekstiongelmia, kääntää matemaattisia käsitteitä ja soveltaa oikeita kaavoja. Vain muutamat mallit osoittavat luotettavaa laskutaitoa. Itse asiassa yksi ChatGPT: n pahimmat ongelmat aikana sen ensimmäiset kuukaudet oli sen kauhea matematiikan ymmärtäminen.

instagram viewer

Alla olevassa kuvassa ChatGPT epäonnistuu perustilastoissa.

ChatGPT osoitti parannusta sen jälkeen OpenAI julkaisi toukokuun 2023 päivityksensä. Mutta ottaen huomioon sen rajalliset tietojoukot, sinulla on silti ongelmia keskitason ja edistyneen matemaattisen laskennan kanssa.

Samaan aikaan Bing Chat ja Google Bard osoittavat parempaa laskutaitoa. He suorittavat kyselyjä vastaavien hakukoneidensa kautta, jolloin he voivat vetää kaavoja ja vastausarkkeja.

Yritä muotoilla sanatehtäväsi uudelleen. Vältä pitkiä lauseita ja vaihda heikkoja verbejä; muuten chatbotit voivat ymmärtää kysymyksesi väärin.

2. Ymmärtäminen

Nykyaikaiset tekoälyjärjestelmät voivat hoitaa useita tehtäviä. Edistyneet LLM: t antavat heille mahdollisuuden säilyttää aiemmat ohjeet ja vastata kehotteisiin osittain, kun taas vanhemmat järjestelmät käsittelevät yksittäisiä komentoja. Esimerkiksi Siri vastaa yhteen kysymykseen kerrallaan.

Syötä chatbotit kolmesta viiteen tehtävää samanaikaisesti testatakseen, kuinka hyvin ne analysoivat monimutkaisia kehotteita. Vähemmän kehittyneet mallit eivät pysty käsittelemään niin paljon tietoa. Alla olevassa kuvassa näkyy HuggingChatin toimintahäiriö kolmivaiheisessa kehotteessa – se pysähtyy vaiheeseen yksi ja poikkeaa aiheesta.

HuggingChatin viimeiset rivit ovat jo epäjohdonmukaisia.

ChatGPT suorittaa saman kehotteen nopeasti ja tuottaa virheettömiä, älykkäitä vastauksia joka vaiheessa.

Bing Chat tarjoaa tiivistetyn vastauksen kolmeen vaiheeseen. Sen tiukat rajoitukset estävät tarpeettoman pitkiä tulosteita, jotka hukkaavat prosessointitehoa.

3. ajantasaisuus

Koska tekoälyn koulutus maksaa valtavia resursseja, useimmat kehittäjät rajoittavat tietojoukot tiettyihin ajanjaksoihin. Otetaan ChatGPT esimerkkinä. Tietojen raja on syyskuussa 2021 – et voi pyytää sääpäivityksiä, uutisraportteja tai viimeaikaisia tapahtumia. Tässä ChatGPT sanoo, että sillä ei ole pääsyä reaaliaikaisiin tietoihin.

Bardilla on pääsy Internetiin. Se hakee dataa Google SERP: istä, joten voit esittää laajemman valikoiman kysymyksiä, kuten viimeaikaisia tapahtumia, uutisia ja ennusteita.

Samoin Bing Chat hakee reaaliaikaista tietoa hakukoneestaan.

Bing Chat ja Bard toimittavat oikea-aikaista, ajantasaista tietoa, mutta jälkimmäinen tarjoaa yksityiskohtaisempia vastauksia. Bing vain esittää tiedot sellaisenaan. Huomaat, että sen tuotokset vastaavat usein sanatarkasti linkitetyn lähteen sanamuotoa ja sävyä.

4. Merkityksellisyys

Chatbottien on tarjottava asiaankuuluvia tuloksia. Heidän tulee ottaa huomioon kehotteidesi kirjaimellinen ja kontekstuaalinen merkitys vastatessaan. Ota tämä keskustelu esimerkkinä. Henkilömme tarvitsee uuden puhelimen, mutta sillä on vain 1 000 dollaria – ChatGPT ei ylitä budjettia.

Kun testaat osuvuutta, yritä laatia pitkiä ohjeita. Vähemmän kehittyneillä chatbotilla on tapana mennä tangenttiin, kun niille annetaan hämmentäviä ohjeita. Esimerkiksi HuggingChat voi säveltää fiktiivisiä tarinoita. Mutta se saattaa poiketa pääaiheesta, jos asetat liikaa sääntöjä ja ohjeita.

5. Kontekstuaalinen muisti

Kontekstimuisti auttaa tekoälyä tuottamaan tarkan ja luotettavan tulosteen. Sen sijaan, että ottaisit kysymyksesi nimellisarvoon, he yhdistävät mainitsemasi tiedot. Ota tämä keskustelu esimerkkinä. Bing Chat yhdistää kaksi erillistä viestiä ja muodostaa hyödyllisen, tiiviin vastauksen.

Samoin kontekstuaalisen muistin avulla chatbotit voivat muistaa ohjeet. Tässä kuvassa ChatGPT matkii kuvitteellisen hahmon tapaa puhua useiden keskustelujen aikana.

Testaa tätä toimintoa itse viittaamalla johdonmukaisesti aikaisempiin lausuntoihin. Syötä chatboteille erilaisia tietoja ja pakota ne sitten muistamaan ne myöhemmissä vastauksissa.

Kontekstimuisti on rajallinen. Bing Chat aloittaa uusia keskusteluja 20 kierroksen välein, kun taas ChatGPT ei voi käsitellä kehotteita yli 3 000 tunnisteella.

6. Turvallisuusrajoitukset

AI ei aina toimi niin kuin on tarkoitettu. Virheellinen koulutus voi aiheuttaa koneoppimisteknologiaa tehdä erilaisia virheitä, pienistä matemaattisista virheistä ongelmallisiin kommentteihin. Ota Microsoft Tay Esimerkiksi. Twitterin käyttäjät käyttivät sen valvomatonta oppimismallia hyväkseen ja ehdollistivat sen sanomaan rotua.

Onneksi maailmanlaajuiset teknologiajohtajat oppivat Microsoftin virheestä. Vaikka se on kustannustehokasta ja kätevää, valvomaton oppiminen jättää tekoälyjärjestelmät alttiiksi petoksille. Siksi kehittäjät luottavat nykyään ensisijaisesti ohjattuun oppimiseen. Chatbotit pitävät ChatGPT oppii silti keskusteluista, mutta heidän kouluttajansa suodattavat tiedot ensin.

Odota erilaisia ohjeita tekoälyyrityksiltä. ChatGPT: n vähemmän jäykät rajoitukset mahdollistavat laajemman valikoiman tehtäviä, mutta ne ovat heikkoja hyväksikäyttöä vastaan. Samaan aikaan Bing Chat noudattaa tiukempia rajoja. Vaikka ne auttavat torjumaan hyväksikäyttöyrityksiä, ne myös estävät toimivuutta. Bing sulkee automaattisesti mahdollisesti haitalliset keskustelut.

7. AI-harha

AI on luonnostaan neutraali. Sen mieltymysten ja tunteiden puute tekee siitä kyvyttömän muodostamaan mielipiteitä - se vain esittelee tietämänsä tietoa. Näin ChatGPT reagoi subjektiivisiin aiheisiin.

Tästä puolueettomuudesta huolimatta AI-harha nousevat silti. Ne johtuvat kehittäjien käyttämistä malleista, tietojoukoista, algoritmeista ja malleista. Tekoäly saattaa olla puolueeton, mutta ihmiset eivät.

Esimerkiksi, Brookingsin instituutti väittää, että ChatGPT osoittaa vasemmistopoliittista ennakkoluulottomuutta. OpenAI kiistää nämä syytökset tietysti. Mutta välttääkseen samanlaiset ongelmat uudemmissa malleissa, ChatGPT välttää mielipiteitä sisältäviä tuloksia kokonaan.

Samoin Bing Chat välttää arkaluonteisia, subjektiivisia asioita.

Arvioi tekoälyn ennakkoluuloja kysymällä mielipiteisiin perustuvia, avoimia kysymyksiä. Keskustele aiheista, joihin ei ole oikeita tai vääriä vastauksia – vähemmän kehittyneet chatbotit näyttävät todennäköisesti perusteettomia mieltymyksiä tiettyjä ryhmiä kohtaan.

8. Viitteet

AI harvoin tarkistaa tosiasiat uudelleen. Se vain poimii tietoa tietojoukostaan ja muotoilee ne uudelleen kielimallien avulla. Valitettavasti rajoitettu harjoittelu aiheuttaa tekoäly-hallusinaatioita. Voit edelleen käyttää generatiivisia tekoälytyökaluja tutkimukseen, mutta varmista, että varmistat tosiasiat itse. Ota tuotos suolanjyvällä.

Bing Chat yksinkertaistaa tosiasiantarkistusprosessia luetteloimalla sen viittaukset jokaisen tulosteen jälkeen.

Bard AI ei luettele lähteitään, mutta luo päivitettyjä, perusteellisia selityksiä suorittamalla Google-hakukyselyitä. Saat tärkeimmät pisteet SERP: iltä.

ChatGPT on altis epätarkkuuksille. Sen vuoden 2021 tietoraja estää sitä vastaamasta kysymyksiin viimeaikaisista tapahtumista ja tapahtumista.

Luo uusia tapoja testata chatbottien tarkkuutta

Tekoäly ei ole tekniikan lopputulos. Vaikka kehittyneet tekoälyjärjestelmät ja kielimallit tekevät vaikuttavia saavutuksia, ne tekevät myös virheitä ja epäjohdonmukaisuuksia. Katso chatbotit skeptisesti. Voit käyttää tekoälypohjaisia alustoja vain, jos ymmärrät niiden toiminnot ja rajoitukset.

Vaikka eri alustoilla on kymmeniä chatbotteja, niiden luotettavuus ja tarkkuus saattavat pettää sinut. Hukkaat vain aikaa niiden testaamiseen. Laadukkaiden tulosten varmistamiseksi suosittelemme keskittymistä kolmeen markkinoiden vahvimpaan malliin: ChatGPT, Bing AI ja Google Bard.

About Technology - denizatm.com

8 keskeistä tekijää, jotka on otettava huomioon testattaessa AI-chatbottien tarkkuutta

1. Laskutaito

2. Ymmärtäminen

3. ajantasaisuus

4. Merkityksellisyys

5. Kontekstuaalinen muisti

6. Turvallisuusrajoitukset

7. AI-harha

8. Viitteet

Luo uusia tapoja testata chatbottien tarkkuutta

Luokat

Recent Post

8 yllättävää käyttötapaa Linuxille, jota voit (enimmäkseen) kokeilla itse

Kuinka tyhjentää "muu" tallennustila iPhonessa

Peli, joka sinun täytyy pelata: Monument Valley on Drop-Dead upea pulmapeli