Mainos

Voimme puhua melkein kaikkien laitteidemme kanssa nyt, mutta miten se toimii? Kun kysyt ”Mikä kappale tämä on?” tai sano "Soita äidille", tapahtuu modernin tekniikan ihme. Ja vaikka tuntuu olevan kärjessä, tämä ajatus puhua laitteille juontaa juurensa vuosikymmeniin - melkein tieteiskirjallisuuden jetpaketeihin asti!

Nykyään suurin osa ääniohjattuun tietojenkäsittelyyn kiinnitetään älypuhelimiin. Apple, Amazon, Microsoft ja Google ovat ketjun kärjessä, ja ne tarjoavat oman tavansa puhua elektroniikkaan. Tiesit kuka he ovat: Siri, Alexa, Cortana ja nimettömänä Ok, Google. Mikä herättää suuren kysymyksen ...

Kuinka laite ottaa puhutut sanat ja muuttaa ne käsiksi, jotka se ymmärtää? Pohjimmiltaan se liittyy mallien yhteensovittamiseen ja ennusteiden tekemiseen näiden kuvioiden perusteella. Tarkemmin sanottuna äänentunnistus on monimutkainen tehtävä Akustinen mallintaminen ja Kielen mallintaminen.

Akustinen mallintaminen: Aaltomuodot ja puhelimet

aaltomuoto

Akustinen mallintaminen on prosessi, jossa otetaan äänen aaltomuoto ja analysoidaan sitä tilastollisten mallien avulla. Yleisin menetelmä tähän on

instagram viewer
Piilotettu Markovin mallintaminen, jota käytetään ns ääntämisen mallintaminen puhetta jakamalla osiin, joita kutsutaan puhelimiksi (ei pidä sekoittaa todellisiin puhelinlaitteisiin). Microsoft on ollut johtava tutkija tällä alalla monien vuosien ajan.

Piilotettu Markovin mallintaminen: Todennäköisyystilat

Piilotettu Markovin mallintaminen on ennustava matemaattinen malli, jossa nykyinen tila määritetään analysoimalla lähtö. Wikipediassa on loistava esimerkki kahden ystävän avulla.

Kuvittele kahta ystävää - paikallista ystävää ja etäystävää -, jotka asuvat eri kaupungeissa. Paikallinen ystävä haluaa selvittää, millainen sää on kaukoystävän asuessa, mutta etäystävä haluaa vain puhua siitä, mitä hän teki sinä päivänä: kävellä, tehdä ostoksia tai puhdistaa. Jokaisen toiminnan todennäköisyys päivän säästä riippuen.

Piilotettu Markovin mallintaminen

Teeskentele, että tämä on ainoa käytettävissä oleva tieto. Sen avulla paikallinen ystävä voi löytää trendit siitä, kuinka sää muuttui päivästä toiseen, ja käyttää näitä suuntauksia voi alkaa tehdä koulutettuja arvauksia siitä, mikä tämän päivän sää perustuu hänen ystävänsä eilen aktiivisuuteen. (Näet yllä olevan järjestelmän kaavion.)

Jos haluat monimutkaisemman esimerkin, katso tämä esimerkki Matlabissa. Äänentunnistuksessa tämä malli vertaa olennaisesti jokaista aaltomuodon osaa siihen, mikä edeltää ja mikä tulee sen jälkeen, ja aaltomuotojen sanakirjaan, selvittääksesi mitä sanotaan.

Pohjimmiltaan, jos soitat “th” äänen, se tarkistaa sen äänen todennäköisimmiltä ääniltä, ​​jotka yleensä tulevat ennen ja jälkeen sen. Ehkä se tarkoittaa, että tarkastellaan e-ääntä, at-ääntä ja niin edelleen. Kun kuvio vastaa oikein, siinä on koko sana. Tämä on liian yksinkertaistamista, mutta voit nähdä Microsoftin koko selitys täällä.

Kielen mallinnus: enemmän kuin ääni

Akustisella mallinnuksella autetaan tietokonetta ymmärtämään sinua paljon, mutta entä homonyymit ja ääntämisen alueelliset variaatiot? Siellä kielen mallinnus tulee esille. Google on vetänyt paljon tutkimusta tällä alalla, pääasiassa käyttämällä N-grammainen mallintaminen.

Kun Google yrittää ymmärtää puhetta, se tekee sen mallien perusteella, jotka on johdettu sen massiivisesta puhehaun pankista ja YouTube-transkriptioista. Kaikki nämä hilpeästi väärät videotekstit ovat todella auttaneet Googlea kehittämään sanakirjojaan. Lisäksi he käyttivät lähtöisiä GOOG-411 kerätä tietoa siitä, kuinka ihmiset puhuvat.

shutterstock_70757203

Kaikki tämä kielikokoelma loi suuren määrän ääntämisiä ja murteita, jotka tekivät vankasta sanasanakirjasta ja siitä, kuinka ne kuulostavat. Tämä sallii vastaavuudet, joilla on huomattavasti pienempi virheaste kuin raa'an todennäköisyyden perusteella bruttovoiman sovittaminen. Voit lukea lyhyen paperin kuvailevat heidän menetelmiään täällä.

Vaikka Google on johtava ala tällä alalla, kehitetään muita matemaattisia malleja, mukaan lukien jatkuva tila mallit ja paikallinen kieli, jotka ovat edistyneempiä tekniikoita, jotka syntyvät tekoälyn tutkimuksesta. Nämä menetelmät perustuvat sellaisten päättelyjen toistamiseen, joita ihmiset tekevät kuunteleessaan toisiaan. Nämä ovat paljon edistyneempiä sekä niiden takana olevan tekniikan suhteen että myös näiden matematiikan ja ohjelmoinnin tarpeisiin näiden mallien kartoittamiseksi.

N-Gram-mallinnus: Todennäköisyys täyttää muistin

N-grammainen mallinnus toimii todennäköisyyksien perusteella, mutta se käyttää olemassa olevaa sanasanakirjaa luomaan haaroittuneiden mahdollisuuksien puun, joka sitten tasoitetaan tehokkuuden vuoksi. Tavallaan tämä tarkoittaa, että N-grammalointi poistaa suuren määrän epävarmuutta edellä mainitussa piilotetussa Markovin mallinnuksessa.

Kuten edellä todettiin, tämän menetelmän vahvuus johtuu siitä, että hänellä on suuri sanakirja sanat ja käyttö, ei vain primitiivinen äänet. Tämä antaa ohjelmalle kyvyn kertoa ero homofonien välillä, kuten “lyö” ja “sokerijuurikas”. Se on kontekstuaalista, mikä tarkoittaa, että kun puhut viime yön tuloksista, ohjelma ei vedä sanoja borssista.

Mutta nämä mallit eivät oikeastaan ​​ole kielen kannalta parhaita, lähinnä johtuen ongelmista, jotka koskevat sanojen todennäköisyyttä pidempissä lauseissa. Kun lisäät uusia sanoja lauseeseen, tämä malli sammuu vähän, koska varhaisissa sanoissasi ei todennäköisesti ole ladattu kaikkea täydellistä ajatteluasi varten.

Se on kuitenkin yksinkertainen ja helppo toteuttaa, joten se on hieno ottelu Googlen kaltaiselle yritykselle, joka nauttii palvelimien heittämisestä laskennallisiin ongelmiin. Voit lukea lisää N-grammaisen Modeliengin lukemisesta osoitteessa Washingtonin yliopisto, tai voit katsella luento Courserassa.

Huutaminen pilvissä: Sovellukset ja laitteet

Jokainen, joka on käyttänyt Siriä, tietää hitaan verkkoyhteyden turhautumisen. Tämä johtuu siitä, että komennosi Sirille lähetetään verkon kautta Apple: n dekoodaamaan. Windows-puhelimen Cortana vaatii myös verkkoyhteyden toimiakseen oikein. Sitä vastoin Amazonin Echo on kuitenkin vain Bluetooth-kaiutin, jossa ei ole Internetiä.

Miksi ero? Koska Siri ja Cortana tarvitsevat raskaita palvelimia dekoodataksesi puheesi. Voisiko se tehdä puhelimellasi tai tablet-laitteellasi? Toki, mutta tappaisit suorituskyvyn ja akun käyttöiän prosessissa. On vain järkevämpää purkaa prosessointi omistettuihin koneisiin.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Ajattele sitä tällä tavalla: komento on auto, joka on juuttunut mutaan. Voit todennäköisesti työntää sen itse ulos tarpeeksi aikaa ja vaivaa, mutta se vie tunteja ja jättää sinut uupuneeksi. Sen sijaan soitat tiepalveluun ja he vetävät autosi ulos vain muutamassa minuutissa. Haittapuoli on, että sinun on soitettava puhelu ja odotettava heitä, mutta se on silti nopeampaa ja vähemmän verottavaa.

Nuancen kaltaiset työpöytämallit käyttävät yleensä paikallisia resursseja tehokkaampien laitteistojen takia. Loppujen lopuksi Steve Jobsin sanoin sinun työpöytä on kuorma-auto. (Mikä tekee siitä hieman typerä, jota OS X käyttää palvelimet sen käsittelyä varten.) Joten kun joudut käsittelemään kieltä ja ääntä, se on jo varustettu riittävän hyvin käsittelemään sitä yksin.

Toisaalta Android antaa kehittäjille mahdollisuuden sisällyttää offline-puheen tunnistus sovelluksiinsa. Google haluaa edetä tekniikan edessä, ja voit lyö vetoa, että muut alustat saavat tämän kyvyn, kun heidän laitteistonsa tehostuvat. Kukaan ei pidä siitä, kun huono peitto tai huono vastaanotto lobotoi heidän laitteensa.

Aloita äänikomentojen käyttö nyt

Nyt kun tiedät peruskäsitteet, sinun pitäisi leikkiä eri laitteidesi kanssa. Kokeile uutta äänen kirjoittaminen Google-dokumenteissa Kuinka äänen kirjoittaminen on Google-dokumenttien uusi paras ominaisuusÄänentunnistus on parantunut harppauksin viime vuosina. Aiemmin tällä viikolla Google otti lopulta käyttöön äänen kirjoittamisen Google-dokumenteihin. Mutta onko siitä mitään hyvää? Otetaan selvää! Lue lisää . Ikään kuin Web-toimisto-ohjelmisto ei olisi jo riittävän tehokas, ääniohjauksella voit sanella ja muotoilla asiakirjat kokonaan. Tämä laajenee tehokkaaseen tekniikkaan, jonka he ovat jo suunnitelleet Chromelle ja Androidille.

Muita ideoita ovat Mac käyttää äänikomentoja Puhekomentojen käyttäminen Macilla Lue lisää ja perustamalla Amazon Echo automaattisella kassalla Kuinka Amazon Echo voi tehdä kodistasi älykkään kodinÄlykäs kotitekniikka on vielä alkuvaiheessa, mutta Amazonin uusi tuote, nimeltään "Echo", saattaa auttaa tuomaan sen valtavirtaan. Lue lisää . Elä tulevaisuudessa ja omaksua keskusteleminen laitteitasi kanssa - vaikka tilaat vain lisää paperipyyhkeitä. Jos olet älypuhelinten addikti, olemme saaneet myös oppaita Siri 8 asioita, joita et todennäköisesti tiennyt, että Siri voisi tehdäSiristä on tullut yksi iPhonen määrittelevistä ominaisuuksista, mutta monille ihmisille se ei ole aina hyödyllisin. Vaikka osa tästä johtuu äänentunnistuksen rajoituksista, omituisuus käyttää ... Lue lisää , Cortana 6 tyylikkäintä asiaa, jota voit hallita Cortanan avulla Windows 10: ssäCortana voi auttaa sinua kädet vapaana Windows 10: ssä. Voit antaa hänen hakea tiedostoihisi ja verkkoon, tehdä laskelmia tai kerätä sääennusteen. Tässä kerromme joitain hänen tyylikkäimmistä taitoistaan. Lue lisää ja Android OK, Google: 20 hyödyllistä asiaa, jotka voit sanoa Android-puhelimellesiGoogle Assistant voi auttaa sinua saamaan paljon aikaan puhelimellasi. Tässä on koko joukko kokeiltavia OK-peruskäskyjä, mutta hyödyllisiä OK-komentoja. Lue lisää .

Mikä on äänenhallinnan suosikkikäyttösi? Kerro meille kommenteissa.

Kuvapisteet: T-flex Shutterstockin kautta, Terencehonles Wikimedia-säätiön kautta, Arizonan osavaltio, Cienpies Design Shutterstockin kautta

Michael ei käyttänyt Macia, kun he olivat tuomittuja, mutta hän osaa koodata Applescript-ohjelmassa. Hänellä on tutkinnot tietojenkäsittelytieteessä ja englannissa hän on kirjoittanut Macista, iOS: sta ja videopeleistä jo jonkin aikaa; ja hän on ollut päivittäinen IT-apina jo yli vuosikymmenen, erikoistunut komentosarjoihin ja virtualisointiin.