Zero-shot-oppiminen ratkaisee useita koneoppimisen ongelmia, mutta miten se toimii ja miten se tekee tekoälystä paremman?

Avaimet takeawayt

  • Yleistäminen on välttämätöntä syvässä oppimisessa, jotta uusilla tiedoilla voidaan varmistaa tarkat ennusteet. Nolla-oppiminen auttaa saavuttamaan tämän sallimalla tekoälyn käyttää olemassa olevaa tietoa tehdäkseen tarkkoja ennusteita uusista tai näkymättömistä luokista ilman merkittyjä tietoja.
  • Zero-shot-oppiminen jäljittelee sitä, miten ihmiset oppivat ja käsittelevät dataa. Tarjoamalla semanttista lisätietoa esikoulutettu malli voi tunnistaa tarkasti uudet luokat, aivan kuten ihminen voi oppia tunnistamaan onttorunkoisen kitaran ymmärtämällä sen ominaisuuksia.
  • Zero-shot-oppiminen parantaa tekoälyä parantamalla yleistämistä, skaalautuvuutta, vähentämällä ylisovitusta ja olemalla kustannustehokasta. Sen avulla malleja voidaan kouluttaa laajempiin tietokokonaisuuksiin, saada lisää tietoa siirtooppimisen kautta, saada parempi kontekstuaalinen ymmärrys ja vähentää laajojen merkittyjen tietojen tarvetta. Tekoälyn kehittyessä nolla-shot-oppimisesta tulee entistä tärkeämpää, kun vastataan monimutkaisiin haasteisiin eri aloilla.

Yksi syväoppimisen suurimmista tavoitteista on kouluttaa malleja, jotka ovat saaneet yleistä tietoa. Yleistäminen on välttämätöntä, koska se varmistaa, että malli on oppinut merkityksellisiä kaavoja ja voi tehdä tarkkoja ennusteita tai päätöksiä kohdatessaan uutta tai näkymätöntä dataa. Tällaisten mallien kouluttaminen vaatii usein huomattavan määrän merkittyjä tietoja. Tällaiset tiedot voivat kuitenkin olla kalliita, työvoimavaltaisia ​​ja joskus mahdottomia.

Nollakuvausoppiminen toteutetaan tämän kuilun kuromiseksi umpeen, jolloin tekoäly voi käyttää olemassa olevaa tietämystään melko tarkkojen ennusteiden tekemiseen merkittyjen tietojen puutteesta huolimatta.

Mitä Zero-Shot-oppiminen on?

Zero-shot-oppiminen on erityinen siirron oppimistekniikka. Siinä keskitytään käyttämään esikoulutettua mallia uusien tai ennennäkemättömien luokkien tunnistamiseen yksinkertaisesti tarjoamalla lisätietoa, joka kuvaa uuden luokan yksityiskohtia.

Käyttämällä mallin yleistä tietämystä tietyistä aiheista ja antamalla sille ylimääräistä semantiikkaa siitä, mitä etsiä, sen pitäisi pystyä paikantamaan melko tarkasti, mikä aihe sen tehtävänä on tunnistaa.

Oletetaan, että meidän on tunnistettava seepra. Meillä ei kuitenkaan ole mallia, jolla tällaisia ​​eläimiä voitaisiin tunnistaa. Joten saamme jo olemassa olevan mallin, joka on koulutettu tunnistamaan hevoset ja kertomaan mallille, että hevoset, joilla on mustavalkoinen raidallinen raita, ovat seeproja. Kun alamme päätellä mallia tarjoamalla kuvia seeproista ja hevosista, on hyvä mahdollisuus, että malli tunnistaa jokaisen eläimen oikein.

Kuten monet syvän oppimisen tekniikat, zero-shot-oppiminen jäljittelee sitä, miten ihmiset oppivat ja käsittelevät tietoja. Ihmisten tiedetään olevan luonnollisia nolla-oppijoita. Jos sait tehtäväksi löytää onttorunkoinen kitara musiikkiliikkeestä, sinulla voi olla ongelmia sellaisen etsimisessä. Mutta kun kerron teille, että ontto runko on pohjimmiltaan kitara, jonka toisella tai molemmilla puolilla on f-muotoinen reikä, luultavasti löydät sellaisen välittömästi.

Käytämme tosielämässä esimerkkinä nolla-luokittelusovellusta avoimen lähdekoodin LLM-isännöintisivusto Hugging Face käyttämällä clip-vit-large -mallia.

Tässä kuvassa on leipä ruokakassissa, joka on kiinnitetty syöttötuoliin. Koska mallia on koulutettu suuren kuvaaineiston avulla, malli voi todennäköisesti tunnistaa jokaisen valokuvan esineen, kuten leivän, päivittäistavarat, tuolit ja turvavyöt.

Nyt haluamme mallin luokittelevan kuvan käyttämällä aiemmin näkymättömiä luokkia. Tässä tapauksessa uudet tai ennennäkemättömät luokat olisivat "Rento leipä", "Turvallinen leipä", "Istuva leipä", "Ajoruokakauppa" ja "Turvallinen ruokakauppa".

Huomaa, että olemme tarkoituksella käyttäneet harvinaisia, ennennäkemättömiä luokkia ja kuvia osoittamaan kuvan nollakuvan luokituksen tehokkuutta.

Mallin päättelyn jälkeen se pystyi luokittelemaan noin 80 prosentin varmuudella, että sopivin luokitus kuva oli "Turvallinen leipä". Tämä johtuu todennäköisesti siitä, että mallin mielestä syöttötuoli on enemmän turvallisuuden kannalta kuin istuminen, rentoutuminen tai ajo.

Mahtava! Olen henkilökohtaisesti samaa mieltä mallin tuotosta. Mutta miten malli oikein sai tällaisen tuloksen? Tässä on yleinen näkemys siitä, miten nolla-shot-oppiminen toimii.

Kuinka Zero-Shot-oppiminen toimii

Nolla-oppiminen voi auttaa esikoulutettua mallia tunnistamaan uudet luokat ilman merkittyjä tietoja. Yksinkertaisimmassa muodossaan zero-shot-oppiminen tapahtuu kolmessa vaiheessa:

1. Valmistautuminen

Nolla-oppiminen alkaa valmistamalla kolmentyyppisiä tietoja

  • Nähty luokka: Esiopetetun mallin koulutuksessa käytetyt tiedot. Malli tarjoaa jo nähtyjä luokkia. Parhaat mallit zero-shot-oppimiseen ovat mallit, jotka on koulutettu luokille, jotka liittyvät läheisesti siihen uuteen luokkaan, jonka haluat mallin tunnistavan.
  • Näkemätön / uusi luokka: Tiedot, joita ei koskaan käytetty mallin koulutuksen aikana. Sinun on kuratoitava nämä tiedot itse, koska et voi saada niitä mallista.
  • Semanttiset/aputiedot: Ylimääräiset databitit, jotka voivat auttaa mallia tunnistamaan uuden luokan. Tämä voi olla sanoja, lauseita, sanojen upotuksia tai luokan nimiä.

2. Semanttinen kartoitus

Seuraava askel on kartoittaa näkymätön luokan piirteet. Tämä tehdään luomalla sanan upotuksia ja tekemällä semanttinen kartta, joka yhdistää näkymätön luokan attribuutit tai ominaisuudet annettuun aputietoon. AI-siirto-oppiminen tekee prosessista paljon nopeamman, koska monet näkymätön luokkaan liittyvät attribuutit on jo kartoitettu.

3. Päätteleminen

Päättäminen on mallin käyttöä ennusteiden tai tulosten luomiseen. Nollakuvan luokittelussa sanan upotukset luodaan annetulle kuvasyötteelle ja piirretään sitten ja niitä verrataan aputietoihin. Varmuuden taso riippuu syötteen ja annettujen aputietojen samankaltaisuudesta.

Kuinka Zero-Shot Learning parantaa tekoälyä

Nollakuvausoppiminen parantaa tekoälymalleja käsittelemällä useita koneoppimisen haasteita, kuten:

  • Paranneltu yleistys: Riippuvuuden vähentäminen merkityistä tiedoista mahdollistaa mallien koulutuksen suurempiin tietokokonaisuuksiin, mikä parantaa yleistystä ja tekee mallista vankemman ja luotettavamman. Kun mallit kokenevat ja yleistyvät, mallien voi jopa olla mahdollista oppia maalaisjärkeä tyypillisen tiedon analysointitavan sijaan.
  • Skaalautuvuus: Malleja voidaan jatkuvasti kouluttaa ja saada lisää tietoa siirtooppimisen kautta. Yritykset ja riippumattomat tutkijat voivat jatkuvasti parantaa mallejaan ollakseen tulevaisuudessa entistä pätevämpiä.
  • Pienempi yliasennusmahdollisuus: Ylisovitus voi tapahtua, koska mallia opetetaan pienelle tietojoukolle, joka ei sisällä tarpeeksi vaihtelua edustamaan kaikkia mahdollisia syötteitä. Mallin kouluttaminen zero-shot-oppimisen kautta vähentää liiallisen istuvuuden mahdollisuuksia kouluttamalla mallia ymmärtämään paremmin aiheita.
  • Kustannustehokas: Merkittyjen tietojen suuren määrän toimittaminen voi viedä aikaa ja resursseja. Nolla-shot-siirto-oppimisen avulla vankan mallin kouluttaminen voidaan tehdä paljon vähemmän aikaa ja merkittyjä tietoja käyttäen.

Tekoälyn kehittyessä nolla-shot-oppimisen kaltaisista tekniikoista tulee entistä tärkeämpiä.

Zero-Shot Learningin tulevaisuus

Nollasta oppimisesta on tullut olennainen osa koneoppimista. Sen avulla mallit voivat tunnistaa ja luokitella uudet luokat ilman erityistä koulutusta. Malliarkkitehtuurien, attribuuttipohjaisten lähestymistapojen ja multimodaalisen integraation jatkuvan kehityksen ansiosta oppiminen voidaan tehdä nollasta. auttaa merkittävästi tekemään malleista paljon mukautuvaisempia robotiikan, terveydenhuollon ja tietokoneiden monimutkaisiin haasteisiin vastaamisessa näkemys.