Googlen MusicLM vaikutti lupaavalta kyvyllään luoda musiikkia tekstikehotteista. Mutta kun se oli testattu, se ei aivan toiminut.
Tammikuussa 2023 Google julkisti MusicLM: n, kokeellisen tekoälytyökalun, joka voi luoda musiikkia tekstikuvausten perusteella. Uutisten ohella Google julkaisi MusicLM: lle upean tutkimuspaperin, joka sai monet ihmiset hämmentymään kyvystä loihtia musiikkia tyhjästä.
Tekstikehotteen perusteella malli lupasi tuottaa korkealaatuista musiikkia, joka sisälsi kaikenlaisia kuvauksia genreistä instrumenttiin abstrakteihin kuvateksteihin, jotka kuvaavat kuuluisia taideteoksia. Nyt kun MusicLM on avoinna yleisölle, päätimme testata sen.
Googlen yritys luoda tekoälymusiikkigeneraattori
"Rentouttavan jazzin" kaltaisen tekstikehotteen muuttaminen soittovalmiiksi kappaleeksi on luultavasti tekoälymusiikin kokeilujen pyhä malja. Kuuluisten tekoälykuvageneraattoreiden, kuten Dall-E: n tai Midjourneyn, tapaan sinun ei tarvitse olla musiikkitietoa tuottaaksesi kappaleen, jolla on melodia ja rytmi.
Toukokuussa 2023 Googlen AI Test Kitcheniin rekisteröityneet saivat kokeilla demoa ensimmäistä kertaa. Käyttäjäystävällinen verkkosivu ja muutama ohjesääntö – elektroninen ja klassinen soittimet toimivat parhaiten, äläkä unohda määrittää "tunnelmaa" – musiikin katkelman tuottaminen on käsittämättömän helppoa.
Nopeus on yksi harvoista asioista, joita MusicLM todella tarjoaa suhteellisen korkealaatuisten näytteiden ohella. Todellista testiä ei kuitenkaan haluttu mitata pelkällä sekuntikellolla. Voiko MusicLM tuottaa todellista, kuunneltavaa musiikkia muutaman sanan perusteella? Ei aivan (palaamme tähän pian).
Kuinka käyttää MusicLM: ää Googlen AI Test Kitchenissä
MusicLM: n käyttäminen on helppoa, voit kirjautua jonotuslistalle Googlen AI Test Kitchen jos haluat kokeilla.
Verkkosovelluksessa näet tekstiruudun, jossa voit säveltää muutamasta sanasta muutamaan lauseeseen kehotteen, joka kuvaa, millaista musiikkia haluat kuulla. Parhaan tuloksen saavuttamiseksi Google neuvoo sinua olemaan "erittäin kuvaava" ja lisää, että sinun tulee yrittää sisällyttää musiikkiin tunnelma ja tunteet.
Kun olet valmis, aloita käsittely painamalla Enter. Noin 30 sekunnin sisällä kaksi äänikatkelmaa on käytettävissäsi koe-esiintymiseen. Näistä kahdesta voit palkita palkinnon parhaalle kehotettasi vastaavalle näytteelle, mikä puolestaan auttaa Googlea kouluttamaan mallia ja parantamaan sen tuottoa.
Miltä MusicLM kuulostaa
Ihmiset ovat tehneet musiikkia ainakin 40 000 vuotta sitten ilman varmaa käsitystä siitä, tuliko musiikki ennen kielen kehittymistä, sen jälkeen vai samaan aikaan sen kanssa. Joten jollain tapaa ei ole yllättävää, että MusicLM ei ole aivan murtanut tämän muinaisen universaalin taiteen koodia.
Googlen MusicLM-tutkimuspaperi ehdotti, että MusicLM voisi luoda musiikkia kuuluisien taideteosten kuvateksteistä ja seurata ohjeita, kuten genren tai tunnelman vaihtaminen sujuvasti erilaisten jaksojen jälkeen kehotteita.
Ennen kuin pääsimme näin korkeisiin tilauksiin, huomasimme kuitenkin, että MusicLM: llä oli useita perusongelmia, jotka oli voitettava ensin.
Vaikeus pysyä tempossa
Jokaisen muusikon perustehtävä on yksinkertaisesti soittaa ajoissa. Toisin sanoen, pysy tempossa. Yllättäen MusicLM ei pysty siihen 100 % ajasta.
Itse asiassa käyttämällä samaa kehotetta 10 kertaa, mikä tuottaa 20 musiikkikappaletta, vain kolme oli ajoissa. Loput 17 näytettä olivat nopeampia tai hitaampia kuin määritetty tempo, joka kirjoitettiin "lyöntiä minuutissa", joka on laajalti käytetty termi kuvaamaan musiikkia.
Tässä esimerkissä käytimme kehotetta "sooloklassinen piano soitettuna 80 lyöntiä minuutissa, rauhallinen ja meditatiivinen". Tarkemmin kuunneltuna musiikki usein kiihtyi tai hidastui pienen näytepituuden sisällä.
Musiikista puuttui myös voimakas rytmi ja se kuulosti siltä kuin joku olisi osunut soittoon kappaleen puolivälissä. Olipa tämä tahallista vai ei, on vaikea arvioida, pystyykö MusicLM säveltämään musiikille oikean alun tai lopun sen lisäksi, että se pysyy tahdissa.
Satunnainen instrumentin valinta
Ehkä MusicLM ei ollut vielä oppinut soittamaan tiukasti ajoituksella, joten siirryimme toiseen yleiseen musiikkiparametriin. Halusimme nähdä, hyväksyisikö se pyyntömme tiettyjen välineiden osalta.
Kirjoitimme useita erilaisia kehotteita, jotka sisälsivät kuvaukset, kuten "Solo synthesizer" ja "Solo bass guitar". Toiset olivat suurempia kokoonpanoja, kuten "Jousikvartetti" tai "Jazzbändi". Kaiken kaikkiaan näytti 50:50 todennäköisyydeltä, että saat mitä pyysit.
Yksi teoria on, että malli yhdistää jotkin instrumentit suosittuihin musiikkigenreihin. Otetaan esimerkiksi kehote "Solosyntetisaattori, sointujen kulku. Vilkas ja pirteä". Sen sijaan, että MusicLM olisi saanut syntetisaattoriäänen yksinään, se tuotti elektronisen kappaleen, jossa oli rumpuja ja bassoa.
On mahdollista, että mallilla ei vain ole ollut tarpeeksi tietoa ja tarpeeksi koulutusta, jotta se ymmärtäisi instrumentin erityispyynnön.
Laulu on poissa yhtälöstä
Tuolloisten rajoitusten mukaan malli ei tuottanut laulua sisältävää musiikkia. MusicLM: n vaikeat tekijänoikeusongelmat ja buginen laulu on todennäköinen tekijä, miksi Google päätti pelata varman päälle asettamalla tämän rajoituksen.
Mutta kokeiltuamme MusicLM: ää jonkin aikaa, huomasimme, että Googlen hallinta mallin tuotosta ei ollut aivan rautaista. Kummallista kyllä, kehote, kuten "akustinen kitara", tuottaisi kappaleen, joka sisälsi taustalla haamumaista laulua, joka kuulosti vaimealta ja kaukaiselta.
Vaikka tämä ei ole yleinen ilmiö, se jättää sinut ihmettelemään MusicLM: n kykyä luoda vakuuttavaa laulua.
Ohjelmistoilla, kuten VOCALOID ja Synthesizer V, jotka johtavat eteenpäin AI-avusteinen laulusynteesitekniikka, laulun jättäminen pois nykyisestä mallista saa meidät miettimään, eikö se ole vielä tarpeeksi hyvä kilpailemaan olemassa olevan teknologian kanssa. MusicLM: llä saattaa olla vielä pitkä matka ennen kuin muusikot laulavat sen ylistystä.
AI-musiikkigeneraattoreiden tulevaisuus
Vaikka MusicLM on siirtänyt generatiivista tekoälymusiikkitekniikkaa eteenpäin, sen on palattava kouluun ja opittava vielä muutama asia ennen kuin se voi ryhtyä käytännön työhön musiikkiteollisuudessa.
Tätä ennen paras yritys generatiiviseen tekoälymusiikkiin oli OpenAI: n JukeboxAI-niminen malli. Se ei ollut aivan käyttövalmiina, ja vain yhden minuutin musiikin toisto kesti huimat yhdeksän tuntia.
Pyrkimyksesi ansiosta saat todennäköisesti takaisin aidosti vieraalta kuulostavan kappaleen, joka on täynnä äänen vääristymiä ja esineitä. Toisaalta et kyllästyisi kuunnella Jukeboxin loihtimia outoja luomuksia.
Tämän valossa MusicLM on tehnyt merkittäviä edistysaskeleita kohti käyttäjäystävällistä AI-musiikkigeneraattoria. Voisimme melkein antaa mallille anteeksi sen satunnaiset ulostulot, kun pysähdyt ajattelemaan, kuinka äärimmäisen monimutkaista on tuottaa musiikkia raakaäänen muodossa.
Mallin käyttöönoton jälkeen MusicLM kuitenkin tuntuu puolikypsältä verrattuna siihen, mitä Google julkaisi alkuperäisessä tutkimuspaperissaan. Harvoin tekoälykuvageneraattori saa kuvan Applesta väärin, samoin tekoälymusiikkigeneraattorin pitäisi saada muutama perusasia, kuten tempo ja instrumentit, oikein.
Googlen MusicLM ei ylittänyt odotuksia
Teknologiayritysten kilpaillessa voittaakseen toisiaan tekoälyrintamalla, MusicLM tuntuu siltä kuin se olisi päässyt julkisiin kokeiluihin ennen kuin se oli valmis. Sen sijaan, että perusasiat olisivat kunnossa, malli näyttää ottavan paljon epämääräisempää ja subjektiivisempaa lähestymistapaa musiikin tuottamiseen.
Google saattaa kannustaa sinua olemaan täsmällinen kehotuksissasi, mutta se ei kestä tempoa hyvin, etkä ole taattu, että saat pyytämäsi instrumentit joka kerta. MusicLM voi olla mielenkiintoinen ja hyvä osoitus tehokkaista tekoälykehityksistä, mutta jos musiikki on päämäärä, sillä on vielä pitkä matka kuljettavana.