Tekoäly voi pettää meidät sekoittamaan luotua taidetta oikeiksi valokuville. Joten miksi kädet ovat niin suuri haaste?

Tekoälygeneraattorit kehittyvät silmiemme edessä pelottavaa vauhtia, mutta niissä on silti puutteita. Outojen yksityiskohtien havaitseminen tekoälykuvissa on itse asiassa melko hauskaa. Siksi Midjourney-käsistä tuli kuuma aihe, joka on yleinen ongelma monissa moottoreissa.

Selvitetään, miksi kädet haastavat tekoälykuvageneraattoreita niin paljon. Heidän ohjelmoijansa ovat jo korjaamassa tätä meemiarvoista ongelmaa, mutta on mielenkiintoista pohtia, kuinka tekoäly oppii, puhumattakaan siitä, mikä sen tielle tulee.

Miksi tekoälyn luomat kädet sekoittivat

Jokainen, joka käyttää tekoälymoottoreita kuvien luomiseen, on saattanut huomata, että kädet tulevat harvoin ulos oikein, mutta ongelma kääntyi päähän, kun joukko "valokuvia" ilmestyi Twitteriin.

Tarkemmin tarkasteltuna ihmisten oudot kädet antoivat ne tekoälyn luomina kuvina. Se, että tämä oli Midjourneyn käsiyritys, teki tilanteesta mielenkiintoisemman.

instagram viewer

Yksi parhaista tekoälymoottoreista ei pystynyt selviytymään ihmiskäsien monimutkaisuudesta, joten Midjourneyn ja sen kilpailijoiden kyvyt joutuivat koetukselle. Totta, jopa DALL-E on altis epärealistisille sormille ja kynsille.

Hype oli suhteeton, koska tekoälyn luomat kädet ovat aina olleet ongelma, mutta ylimääräinen huomio sai aikaan Midjourney v5 parantaa v4:ää.

Uudessa versiossa haluttiin parantaa käsien suunnittelua, mikä osoittaa selvästi, että tekoälyinsinöörit kiinnittivät huomiota hauskaan kohuun ja päättivät päivittää ohjelmiston ominaisuuksia.

Muut moottorit ovat hitaita noudattamaan Midjourneyn esimerkkiä tekoälyn korjaaminen Photoshopilla on edelleen korvaamaton taito. Ohjelmoijien suurin este on se, kuinka monimutkaista on kouluttaa tekoälyä piirtämään vakuuttavia käsiä.

Miksi tekoälykuvageneraattorit kamppailevat käsien kanssa?

Tekoälymoottorit käyttävät kuvien tuottamiseen generatiivisia kilpailevia verkkoja (GAN) tai vakaata diffuusiota. Molemmat tekniikat vaativat laajoja lähdemateriaaleja, koulutusta ja prosessointitehoa jopa alkeellisten taideteosten luomiseen.

Koska valmiit kuvat ovat keskeisiä tekoälyn koulutuksessa, ohjelmoijien on syötettävä ohjelmistoonsa tuhansia, ellei miljoonia kuvia. kehotteiden rinnalla – prosessin toistaminen yhä uudelleen ja uudelleen, kunnes moottori ymmärtää, mihin tietty sana viittaa ja miten se esitetään esine.

Mutta lähdekuvat, joista tekoäly oppii, ovat pääasiassa 2D-muotoisia, joissa kädet on kuvattu useissa eri asennoissa. Olipa kyseessä suora tai kihara, viisi tai kolme sormea.

Loppujen lopuksi kone ei itse asiassa ymmärrä käsien käsitettä, ja kuvat, joista se oppii, eivät aina näytä käsiä tarpeeksi selkeästi tai johdonmukaisesti. Siksi Midjourney-kädet voivat olla niin rumia: tekoälyn hämmennys.

Yhtä pätevä kuin Elon Muskin huoli tekoälyn kehityksestä saattaa olla, että joillakin tekniikan osilla on vielä paljon opittavaa. Ja heidän esteensä ylittävät riittämättömät käsiesimerkit.

Muita syitä, miksi tekoälykuvageneraattorit kehittyvät hitaasti

katsomassa Midjourneyn mallit, v5 tarjoaa edistyneen johdonmukaisuuden tekstikehotteiden ja tuotettujen kuvien välillä sekä korkeamman resoluution ja lisätyökaluja. Mutta tällaiset saavutukset eivät ole halpoja.

Tekoälyn kouluttaminen toimimaan paremmin käsillä edellyttää parempien kuvien syöttämistä sille, erityisesti 3D: ssä. Tämä tarkoittaa, että prosesseihin kuluu paljon aikaa ja työvoimaa lähdemateriaalien hankinnasta koodauksen parantamiseen ja koulutuksen toistamiseen, kunnes tekoäly saa sen oikein.

Silloinkin ohjelmisto voi tehdä virheitä muuten upeissa taideteoksissa. Sen lisäksi, että se on valtava ja monimutkainen työ, se on kallista. Joten älä odota ilmaiset AI tekstistä kuvaksi generaattorit nousta Midjourneyn kaliiperiin vielä.

Yksinkertaisesti sanottuna tekoälymoottoreiden ongelma ei johdu pelkästään näiden tietokoneohjelmien kyvyttömyydestä ymmärtää täysin, miltä ihmisen ominaisuudet, kuten kädet ja jalat, näyttävät tai toimivat. Se riippuu myös siitä, mitä se maksaa, ja tekniikan pääsystä 3D-kuviin ja koneoppimistekniikoihin, jotka voivat auttaa generaattoreita saamaan realistisemman käsityksen ympäröivästä maailmasta.

Tekoälykuvageneraattorit eivät taistele ikuisesti

Kädet ovat hankala käsite tekoälylle kääriä binaaripäänsä ympärille, mutta ratkaisuja ongelmaan on jo työstetty. Midjourney, DALL-E 2 ja muut alustat pystyvät lopulta pitämään omituiset sormet minimissä, elleivät hävitä niitä kokonaan.

Edistys muilla tekoälyaloilla varmistaa, että tekniikka kehittyy jatkuvasti, ja sen kehittäjät oppivat aina uusia tapoja soveltaa ja parantaa sitä.