Lausuntunnistus on vain osa prosessia.

"Ok Google" huutaminen huoneen toiselta puolelta musiikin vaihtamiseksi tai valojen sammuttamiseksi huoneessa tuntuu varmasti uskomatonta, mutta tämän näennäisen yksinkertaisen prosessin taustalla on monimutkainen teknologiaverkko kohtauksia.

Melkein jokaisella markkinoiden suurimmalla virtuaaliassistentilla on kutsulause, jolla voit herättää avustajan ja keskustella. Mutta mistä ääniavustajat tietävät, kun puhut heille?

Miten lauseentunnistus toimii?

Kuten edellä mainittiin, jokaisella ääniavustajalla on "laukaisulause" tai herätyssana, jota käytät avustajan herättämiseen ja lisäkomentojen antamiseen. Tämän lauseen havaitsemisprosessi on suurin piirtein sama jokaisen avustajan kohdalla, lukuun ottamatta pieniä vivahteita. Nämä vivahteet voivat kuitenkin tarkoittaa eroa herätyskomennon rennosti sanomisen ja sen usean huutamisen välillä kertaa vain avustajan nukkumiseen, mikä voi toisinaan olla todella ärsyttävää, varsinkin jos olet käyttämällä ääniavustajaa rauhoittumaan.

Kuvan luotto: graphicstudio/Vecteezy

Yleensä useimmissa "älykkäissä" kaiuttimissa on pieni piiri, jonka ainoa tehtävä on havaita herätyskomento ja saada loput laitteistot toimimaan. Suurin osa käsittelystä tehdään pilvessä, mutta ilmaisun tunnistus tapahtuu laitteessa ilmeisistä tietosuojasyistä. Puhelimen lauseiden tunnistus toimii suunnilleen samalla tavalla.

Yksityiskohdat ovat enimmäkseen piilossa, mutta nämä tunnistusjärjestelmät käyttävät koneoppimista ja syvää hermoverkkoa (DNN) kouluttaakseen tekoälymalleja tunnistamaan äänesi ja muodostamaan avaimen. Tätä avainta käytetään sitten vahvistamaan, milloin olet sanonut tietyn lauseen, ja kaikki muu lähetetään pilveen jatkokäsittelyä varten.

Google Assistant

Puhelimessa, joka tukee "OK Google" -tunnistusta, on yleensä avainsanahakujärjestelmä (KWS), joka havaitsee lauseen ja korjaa loput kyselystäsi pilveen. Koska mobiililaitteilla on rajallinen laskentateho ja akun käyttöiän rajoitukset, nämä järjestelmät eivät yleensä ole yhtä hyviä kuin Google Nest -kaiuttimista löytyvät järjestelmät.

Tämä laitteessa oleva KWS-järjestelmä poimii jatkuvasti ääntä laitteen mikrofoneista ja muodostaa yhteyden palvelimeen, kun se havaitsee laukaisulauseen. Google käyttää myös palvelinpuolen kontekstuaalista automaattista puheentunnistusta (ASR) parantaakseen KWS-järjestelmänsä yleistä tarkkuutta. Voit lukea siitä lisää kohdasta Googlen tutkimuspaperi [PDF].

Siri

Siri toimii samalla tavalla kuin Google Assistant "Hei Siri" -tunnistuksen suhteen. Apple on ollut yllättävän avoin järjestelmän toiminnasta, joka sisältää "erittäin pienen" puheentunnistimen, joka toimii taustalla ja kuuntelee vain näitä kahta sanaa. Tämä ilmaisin käyttää DNN: ää muuntaakseen kussakin tapauksessa äänitetyn äänesi akustisen kuvion puheäänien todennäköisyysjakaumaksi, mikä luo olennaisesti luottamuspisteen.

iPhone tai Apple Watch tekee tämän muuttamalla äänesi aaltomuotonäytteiden virraksi nopeudella 16 000 sekunnissa. Tämä leikataan sitten kehyssarjaksi, joka kattaa noin 0,01 sekunnin äänispektrin. Sitten yhteensä 20 näistä kehyksistä syötetään tunnistusmalliin, joka muuntaa nämä kuviot todennäköisyyksiksi.

Kuvan luotto: Omena

Jos järjestelmä määrittää riittävän varmuudella, että sanoit "Hei Siri", Siri herää ja lähettää loput kyselystä pilveen, jossa tehdään lisäanalyysi ja mitä tahansa pyytämäsi toiminto saadaan suoritettu.

Tietenkin on lisätty lisätoimenpiteitä muistin ja akun tehokkuuden varmistamiseksi. iPhonesi Always On Processor (AOP) voi käyttää laitteen mikrofoneja (iPhone 6S: ssä ja uudemmissa) juuri tästä syystä, ja pieni osa sen prosessointitehosta on varattu DNN: n suorittamiseen. Apple sukeltaa syvälle koko järjestelmään koneoppimissivustollaan, koneoppiminen.apple.

Alexa

Aivan kuten Google Assistant ja Siri, Alexa ei myöskään käytä suurinta osaa prosessointitehostaan ​​mihinkään ostettaviin Echo-kaiuttimiin. Sen sijaan kaiuttimet käyttävät sitä, mitä Amazon kutsuu automaattiseksi puheentunnistukseksi (ASR), joka olennaisesti muuntaa puhutut sanat tekstiksi, jolloin taustalla oleva järjestelmä voi tulkita niitä ja toimia niiden mukaisesti.

ASR muodostaa perustan Alexan toiminnalle. Jälleen kerran, laivalla on järjestelmä, joka kuuntelee herätyssanoja, tässä tapauksessa "Alexa", "Amazon", "Echo" tai "Computer" ja laukaisee muun järjestelmän, kun käyttäjän ennalta määrittämä herätyssana on havaittu. Voit jopa herätä Alexa-laitteesi käyttämällä "Hei Disney" jos haluat.

Kuten Google Assistant, voit kouluttaa Alexan taustalla olevan tekoälymallin tunnistamaan äänesi paremmin. Tämä prosessi sisältää perusviivan "avaimen" luomisen, johon puhuttua herätyssanaa verrataan, ja kun vastaavuus löytyy, laite reagoi vastaavasti.

Kuuntelevatko ääniavustajat aina?

Kuten luultavasti jo arvaatte, kyllä, ne ovat. He eivät muuten pystyisi havaitsemaan herätyssanoja. Sinun ei kuitenkaan vielä tarvitse heittää kaikkia älykaiuttimiasi pois yksityisyyssyistä.

Kuuntelemalla kaiken käyttäjien sanoman, lähettämällä sen takaisin etäpalvelimelle ja analysoimalla (tai tallentamalla) vaatii valtavia laitteistoja ja taloudellisia resursseja siihen pisteeseen, jossa se ei käytännössä ole järkevää näkökulmasta. Kun tähän lisätään Googlen, Applen ja Amazonin kaltaiset yritykset jo käsittelevät valtavat tietosuojaongelmat, idea ei ole järkevä.

Tämä vaikuttaa myös valtavasti puhelinten suorituskykyyn ja akun kestoon herätyssanantunnistusominaisuuksien ansiosta, erityisesti Google Pixels ja iPhones. Jos puhelimesi kuuntelee jatkuvasti sanomaasi ja lähettää äänen takaisin etäpalvelimelle, se tyhjentää akkusi ja heikentää laitteen suorituskykyä.

Kenellä on tehokkain lauseentunnistus ja miksi?

Ei ole helppoa vertailla objektiivisesti, millä virtuaaliassistentilla on paras lauseentunnistus objektiivisesti, koska ne kaikki käyttävät hieman erilaisia ​​toteutuksia samasta kokonaiskonseptista. Googlella näyttää kuitenkin olevan johdonmukaisempi lauseiden tunnistus etumatkan Google Assistantin ansiosta verrattuna Siriin ja Alexaan.

Vaikka suuria kielimalleja (LLM) käyttävät sovellukset, kuten ChatGPT ja Bing Chat ovat yleistymässä, Google Assistant säilyttää asemansa yhtenä alan parhaista suosittuja virtuaalisia avustajia yksinkertaisesti siksi, että se on napautuksen päässä kaikissa Android-laitteissa älytelevisioista autostereojärjestelmiin ja tietysti älypuhelimiin.

Sirillä ja Alexalla on jonkin verran tekemistä tällä osastolla, mutta mitä tulee lauseiden tunnistukseen, he eivät ole niin kaukana. Sinulla on kuitenkin paremmat mahdollisuudet herättää Pixelin Google Assistant huoneen toiselta puolelta kuin Siri iPhonessa, vaikka voit tehosta Sirin ominaisuuksia Super Siri -tilassa. Koska Alexaa käytetään enimmäkseen Amazonin Echo-kaiuttimissa, sillä on tässä pieni etu, kun otetaan huomioon, että nämä kaiuttimet on suunniteltu poimimaan käyttäjän ääntä.

AI on yhtä pelottavaa kuin kätevää

Tekoälyavustajan kutsuminen pelkällä äänellä voi olla kätevää. Ominaisuuden, joka integroituu saumattomasti elämäämme, kulissien takana tapahtuu paljon, mitä useimmat meistä eivät usein ajattele.

Tämä mukavuus tuo mukanaan myös sen levottomuuden, että laitteesi kuuntelee aina sanomaasi. Toistaiseksi laitteen puheentunnistimet ja herätyssanat ovat virtuaaliavustajasi kuuleman ja sanomasi välissä.