Deepfake-musiikki jäljittelee tietyn artistin tyyliä, myös hänen ääntään. Miten se voi kuulostaa niin todelliselta?

Pitkään musiikki pystyi välttämään deepfakejen maailmaa, koska se oli yksinkertaisesti liian monimutkaista syntetisoimaan jonkun ääntä. Kaikki muuttui tekoälytekniikan edistymisen myötä. Se on johtanut kuuluisien artistien ääniklooneihin, joita voidaan käyttää uusien lauluraitojen tuottamiseen.

Tekoälytyökalujen tullessa entistä helpommin tavallisten ihmisten ulottuville, syväfake-musiikki on kasvava ongelma. Tässä on mitä se on ja miten se luodaan.

Deepfake Musicin kehitys

Kun kuulet suosikkiartistisi laulavan Spotifyssa tai YouTubessa, tuskin ajattelet, että se voisi olla väärennös, mutta tekoälyn kehitys on tehnyt tästä todellisuutta. Väärennettyjen kuvien ja videoiden lisäksi on olemassa myös syvää fake-musiikkia.

Tekoälytyökalut voivat toistaa uskollisesti ihmisen lauluäänen kouluttamalla tekoälymallin hänen äänensä ääninäytteisiin. Taiteilijan fanien tai tekoälytekniikan fanien luomat ihmiset yrittävät luoda laulun vastaisia ​​ääniä.

Ihmiset ovat yrittäneet syntetisoida ääntä tietokoneella vuosia, aina vuoteen 1961 asti, jolloin IBM 7094 oli ensimmäinen tietokone, joka lauloi. Voit kuulla tietokoneella luotu ääni laulaa Daisy Bell YouTube-leikkeessä ja yritä kuvitella kuinka upea tämä hetki oli.

Nopeasti eteenpäin 2000-luvulle, ja tekoälytekniikka on molemmat parantanut syntetisoidun äänen laatua ja antoi meille mahdollisuuden tehdä asioita, joita useimmat meistä eivät koskaan uskoneet mahdolliseksi tähän mennessä, kuten ihmisten äänten kloonaaminen.

Katso vain tämä leike, jossa Roberto Nickson muuttaa äänensä artistiksi ja räppäriksi Kanye Westiksi. Videon katsominen tuntuu oudolta, se kuulostaa aivan Kanyelta, mutta se on myös epämukavaa katsoa. Ilman liiallista pohdintaa siitä, mitä taiteilija saattaisi ajatella tai tuntea, ja ilman lupaa sen voitaisiin katsoa omaksuvan jonkun äänen.

Toisin kuin Daisy Bellin tietokoneversio, tekoälyn laulukloonaus pystyy toistamaan täsmälleen samankaltaisia jonkun ääni, joka sisältää kaikki hienovaraiset sointierot, jotka auttavat meitä tunnistamaan jonkun ainutlaatuisen laulun profiili. Lisensoimattomalla ja ilman lupaa tehdyllä deepfake-musiikilla on kuitenkin vakavia ongelmia, joihin palataan myöhemmin.

Kuinka Deepfake-kappaleita luodaan

Deepfake-kappaleiden luomiseen käytetään erilaisia ​​menetelmiä, mutta monet niistä käyttävät tekoälytekniikkaa. Avoimen lähdekoodin projektit, kuten SoftVC VITS Singing Voice Conversion -projekti GitHubissaovat esimerkiksi kehittäneet tekoälymallin, joka tekee sen, mitä sen nimessä lukee: muuntaa ääninäytteen lauluääneksi.

Tämä malli ottaa olemassa olevan äänitiedoston jonkun laulamisesta ja muuntaa sen jonkun muun ääneksi. Alkuperäisen äänen sanoitukset ja rytmi säilytetään, mutta sävy, sointi ja henkilökohtaiset lauluominaisuudet muunnetaan harjoitustietojoukon määrittämäksi ääneksi.

Muista, että kappaleen muut osat voidaan silti tuottaa manuaalisesti, kuten luoda biittejä ja melodioita samalla tyylillä ja genrellä kuin alkuperäinen esittäjä.

Kanye Westin äänen syvän väärennöksen luomiseksi SoftVC VITS -malliin oli syötettävä kolmannen osapuolen tietojoukko, joka sisälsi näytteitä Kanyen todellisesta äänestä. Tekijä on sittemmin poistanut tietojoukon sisältävän tiedoston, mikä ei ole yllättävää, kun otetaan huomioon hämärä oikeudellinen alue, joka saattaa sisältää luvattomia tietojoukkoja.

Vaikka sitä ei ole muutettu kaupalliseksi sovellukseksi, voit löytää version siitä SoftVC VITS -malli Google Collabissa se on käyttäjäystävällisempi.

Ennen kuin eettiset ja lailliset rajat on asetettu, on mahdollista, että lisää helppokäyttöisiä äänen kloonaussovelluksia ponnahdusikkuna – ei kovin erilainen kuin Drayk.it-sovellus, joka muutti tekstikuvauksen artistin mukaan tyylitellyiksi kappaleiksi Drake. Se suljettiin myöhemmin.

Jotkut muut työkalut, joita käytetään syvän fake-musiikin luomiseen, sisältävät suuria kielimalleja, kuten ChatGPT, jota voidaan käyttää sanoitusten kirjoittamiseen kuuluisan taiteilijan tyyliin; ja OpenAI: n Jukebox ja Googlen MusicLM, jotka ovat generatiivisia tekoälymalleja, jotka voivat luoda musiikkia raakaäänen muodossa täysin tyhjästä.

Kuuletko eron?

Nimettömän Ghostwriter-nimisen käyttäjän luoma kappale levisi TikTokissa huhtikuussa 2023, koska se sisälsi artistien Draken ja The Weekndin laulamia sanoituksia. Nämä eivät tietenkään olleet taiteilijoiden oikeita ääniä, vaan vääriä ääniä.

Jos laulu ei olisi ollut niin hyvä kopio alkuperäisestä, se ei ehkä olisi ollut hitti. Pienellä kaivamisella saat selville melko nopeasti, oliko se oikea vai ei, mutta pelkällä korvillasi voit vain arvata, oliko se aito.

Jos haluat tunnistaa tekoälyn luoman kuvan voit etsiä ainakin muutamia visuaalisia poikkeamia. Mitä tulee ääneen, merkit, kuten matalan tarkkuuden ääni tai häiriöt raidassa, eivät merkitse paljon, koska ne ovat luovia valintoja, joita käytetään musiikin tuotannossa koko ajan.

Vielä mielenkiintoisempaa on, että monet ihmiset pitävät kappaleesta aidosti, vaikka huomasivatkin, että se ei ollut Draken tai The Weekndin oikeita ääniä. Ihailijat huomauttivat, että kaikkea ei vain luotu tekoälyllä ja että todellinen taito ja työ meni sanoitusten kirjoittamiseen, biittien säveltämiseen ja kokonaisuuden yhdistämiseen.

Kappale pääsi Spotifyhin ja YouTubeen, ennen kuin se poistettiin seuraavina päivinä, mutta ei ennen kuin fanit olivat ladanneet kappaleen mp3-muodossa. Löydät edelleen kappaleita verkosta, jos teet haun "Heart On My Sleeve, Drake ft. Viikko".

Pian tekoälyn luomien laulukloonien ja todellisen ihmisäänen välisen eron havaitseminen tulee lähes mahdottomaksi. Tätä silmällä pitäen ihmiset kyseenalaistavat, onko tämä tekoälytekniikan hyvää käyttöä vai jopa sen laillista käyttöä.

Ongelmia Deepfake Musicin kanssa

Toisaalta ihmiset nauttivat suosikkiartistiensa fanien tekemien sekoitusten kuuntelusta ja kunnioittavat luovuutta, joka tekee siitä totta. Mutta kyky saada vokaalisia klooneja perustuu ensinnäkin tietokokonaisuuksiin, jotka voivat olla valtuutettuja tai eivät.

Ilman lupaa henkilön ääninäytteet kerätään tietojoukkoon, jota käytetään sitten AI-äänenmuunnosmallin kouluttamiseen. Se on samanlainen kuin kohtaama ongelma taiteilijat, jotka haluavat poistaa kuvansa harjoitustietosarjoista joita käytetään AI-kuvageneraattoreiden, kuten Dall-E: n tai Midjourneyn, kouluttamiseen.

Tekijänoikeuslaki ei myöskään ole täysin valmis käsittelemään deepfake-musiikkia. Vuonna 2020 taiteilija Jay-Z epäonnistui yrittäessään pakottaa YouTubea poistamaan tekoälyn luomaa ääntä, jossa hän räppäili William Shakespearen "To Be or Not To Be" -soololauseen linjoja.

Kun deepfake-kappale ladataan Spotifyhin tai YouTubeen, herää myös kysymys siitä, kuka tienaa rahaa. Pitäisikö sinun pystyä ansaitsemaan rahaa kappaleella, joka kopioi jonkun toisen äänen lähes täsmälleen?

Holly Herndon on yksi taiteilija, joka on yrittänyt luoda järjestelmän, jolla ihmiset kompensoivat hänelle vastineeksi äänimallin käyttämisestä alkuperäisen työn luomiseen. Vaikka muut taiteilijat, kuten Nick Cave, ovat puhunut tekoälyä vastaan, kirjoitus:

Laulut syntyvät kärsimyksestä, millä tarkoitan, että ne perustuvat monimutkaiseen, sisäiseen inhimilliseen luomisen taisteluun, ja tietääkseni algoritmit eivät tunne.

Joskus, Tekoälyn luomasta tekstistä voi puuttua luovuutta kaiken kaikkiaan, mutta ne ovat edelleen verkossa. Tekoäly voi aiheuttaa paljon huonoa musiikkia, johon on panostettu hyvin vähän.

Tasapainon löytäminen musiikin ja tekoälyn välillä

Deepfake-musiikki luodaan tekoälytyökaluilla ja tekoälymalleilla, jotka on koulutettu luvattomien tietojoukkojen käyttöön. Jotkut mallit ovat avoimen lähdekoodin ja vapaasti saatavilla, kun taas toiset on yritetty pakata ne käyttäjäystävälliseksi sovellukseksi.

Kun yhä useammat ihmiset saavat käsiinsä deepfake-musiikkimalleja tai -sovelluksia, kannattaa miettiä vaikutusta artistiin. Suostumuksen saaminen harjoitustietosarjoihin ja korvaus artistille ovat vain osa AI-musiikkiteknologian ongelmista.