Puheentunnistustekniikalla on rikas kehityshistoria, joka on johtanut sen nykyiseen. Se on nykyaikaisen elämän ytimessä ja antaa meille mahdollisuuden tehdä tehtäviä vain puhumalla laitteen kanssa. Joten miten tämä hämmästyttävä tekniikka on kehittynyt vuosien varrella? Katsotaanpa.

1952: Audrey -järjestelmä

Ensimmäinen askel äänentunnistuksessa tuli 1950 -luvun alussa. Bell Laboratories kehitti ensimmäisen koneen, joka kykeni ymmärtämään ihmisen äänen vuonna 1952, ja sen nimi oli Audrey System. Nimi Audrey oli eräänlainen sanan supistuminen automaattisesta numerotunnistuksesta. Vaikka tämä oli merkittävä innovaatio, sillä oli joitain suuria rajoituksia.

Näkyvimmin Audrey pystyi tunnistamaan vain numeeriset numerot 0-9, ei sanoja. Audrey antaisi palautetta, kun puhuja sanoi numeron sytyttämällä yhden kymmenestä hehkulampusta, joista jokainen vastaa numeroa.

Kuvahaku: metamorworks/Shutterstock.com

Vaikka Audrey pystyi ymmärtämään numerot 90%: n tarkkuudella, Audrey rajoittui tiettyyn äänityyppiin. Siksi ainoa henkilö, joka todella käytti sitä, oli HK Davis, yksi kehittäjistä. Kun numero puhuttiin, puhujan oli odotettava vähintään 300 millisekuntia ennen seuraavan sanomista.

instagram viewer

Sen toiminnallisuus oli rajallinen, mutta myös käyttökelpoinen. Ei ollut paljon hyötyä koneelle, joka pystyi ymmärtämään vain numeroita. Yksi mahdollinen käyttötarkoitus oli puhelinnumeroiden valitseminen, mutta se oli paljon nopeampaa ja helpompaa soittaa käsin. Vaikka Audreylla ei ollut kaunista olemassaoloa, se on silti suuri virstanpylväs ihmisten saavutuksissa.

Aiheeseen liittyviä: Äänikirjoituksen käyttäminen Microsoft Wordissa

1962: IBM: n kenkälaatikko

Kymmenen vuotta Audreyn jälkeen IBM yritti kehittää äänentunnistusjärjestelmää. Vuoden 1962 maailmanmessuilla IBM esitteli Showbox -nimisen äänentunnistusjärjestelmän. Audreyn tavoin sen päätehtävänä oli ymmärtää numerot 0-9, mutta se pystyi myös ymmärtämään kuusi sanaa: plus, miinus, epätosi, yhteensä, välisumma ja pois.

Shoebox oli matemaattinen kone, joka pystyi tekemään yksinkertaisia ​​aritmeettisia tehtäviä. Palautteen osalta Shoebox pystyi tulostamaan tulokset valojen sijasta paperille. Tämä teki siitä hyödyllisen laskimena, vaikka puhujan olisi silti pidettävä tauko jokaisen numeron/sanan välillä.

1971: IBM: n automaattinen puhelutunnistus

Audreyn ja Shoeboxin jälkeen muut laboratoriot ympäri maailmaa kehittivät äänentunnistustekniikkaa. Se lähti kuitenkin liikkeelle vasta 1970-luvulla, jolloin IBM toi markkinoille ensimmäisen laatuaan vuonna 1971. Sitä kutsuttiin automaattiseksi puhelutunnistusjärjestelmäksi. Se oli ensimmäinen puheentunnistusjärjestelmä, jota käytettiin puhelinjärjestelmän kautta.

Insinöörit soittavat ja ovat yhteydessä tietokoneeseen Raleighissa, Pohjois -Carolinassa. Soittaja lausui sitten yhden sanastonsa 5000 sanasta ja sai vastauksena "puhutun" vastauksen.

Aiheeseen liittyviä: Äänisanonnan käyttäminen Macissa

1976: Harpy

1970 -luvun alussa Yhdysvaltain puolustusministeriö kiinnostui äänentunnistuksesta. DARPA (Defence Advanced Research Projects Agency) kehitti Speur Understanding Research (SUR) -ohjelman vuonna 1971. Ohjelma rahoitti useita yrityksiä ja yliopistoja puheentunnistuksen tutkimuksen ja kehittämisen tukemiseksi.

Vuonna 1976 SUR: n vuoksi Carnegie Mellonin yliopisto kehitti Harpy -järjestelmän. Tämä oli suuri harppaus äänentunnistustekniikassa. Siihen asti järjestelmät pystyivät ymmärtämään sanoja ja numeroita, mutta Harpy oli ainutlaatuinen siinä, että se pystyi ymmärtämään täydet lauseet.

Sen sanasto oli vain noin 1011 sanaa, mikä julkaisun mukaan B. Lowerre ja R. Reddy, joka vastaa yli biljoonaa erilaista mahdollista lausetta. Julkaisussa todetaan sitten, että Harpy pystyi ymmärtämään sanoja 93,77%: n tarkkuudella.

1980 -luku oli äänentunnistustekniikan kannalta ratkaiseva aika, koska tämä on vuosikymmen, jolloin ääni tunnistustekniikkaa, koska tämä oli vuosikymmen, jolloin meille esiteltiin Piilotettu Markovin menetelmä (HMM). HMM: n tärkein liikkeellepaneva voima on todennäköisyys.

Aina kun järjestelmä rekisteröi foneemin (pienin puhe -elementti), on olemassa tietty todennäköisyys siitä, mikä on seuraava. HMM käyttää näitä todennäköisyyksiä määrittääkseen, mikä foneemi tulee todennäköisesti seuraavaksi ja muodostaa todennäköisimmät sanat. Useimmat puheentunnistusjärjestelmät käyttävät edelleen HMM: ää puheen ymmärtämiseen.

1990 -luku: Äänentunnistus saavuttaa kuluttajamarkkinat

Puheentunnistustekniikan suunnittelusta lähtien se on ollut matkalla löytääkseen tilaa kuluttajamarkkinoilta. 1980-luvulla IBM esitteli tietokoneen prototyypin, joka pystyi sanomaan puheesta tekstiin. Kuitenkin vasta 1990 -luvun alussa ihmiset alkoivat nähdä tällaisia ​​sovelluksia kodeissaan.

Vuonna 1990 Dragon Systems esitteli ensimmäisen puheesta tekstiksi saneluohjelmiston. Sen nimi oli Dragon Dictate, ja se julkaistiin alun perin Windowsille. Tämä 9 000 dollarin ohjelma oli vallankumouksellinen puheentunnistustekniikan tuomiseksi massoille, mutta siinä oli yksi virhe. Käytetty ohjelmisto diskreetti sanelu, Tämä tarkoittaa, että käyttäjän on pidettävä tauko jokaisen sanan välillä, jotta ohjelma voi noutaa sen.

Vuonna 1996 IBM osallistui jälleen teollisuuteen Medspeakin avulla. Tämä oli myös puhe-teksti-saneluohjelma, mutta se ei kärsinyt erillisestä sanelusta kuten Dragon Dictate. Sen sijaan tämä ohjelma voisi sanella jatkuvaa puhetta, mikä teki siitä houkuttelevamman tuotteen.

Aiheeseen liittyviä: Google Assistantin käyttäminen kuulokkeiden kanssa

2010: Tyttö nimeltä Siri

Puheentunnistustekniikan suosio kasvoi 2000 -luvulla. Se otettiin käyttöön enemmän ohjelmistoja ja laitteistoja kuin koskaan ennen, ja yksi tärkeä askel äänentunnistuksen kehityksessä oli Siri, digitaalinen avustaja. Vuonna 2010 Siri -niminen yritys esitteli virtuaalisen avustajan iOS -sovelluksena.

Tuolloin Siri oli vaikuttava ohjelmisto, joka saattoi sanella puhujan sanoman ja antaa koulutetun ja nokkelan vastauksen. Tämä ohjelma oli niin vaikuttava, että Apple osti yrityksen samana vuonna ja teki Sirille hieman uudistusta ja työnsi sen kohti nykyistä digitaalista avustajaa.

Applen kautta Siri sai ikonisen äänensä (Susan Benettin ääni) ja joukon uusia ominaisuuksia. Se käyttää luonnollisen kielen käsittely hallita useimpia järjestelmän toimintoja.

2010 -luku: Big 4 Digital Assistant

Nykyään neljä suurta digitaalista avustajaa hallitsevat puheentunnistusta ja lisäohjelmistoja.

  • Siri on läsnä lähes kaikissa Applen tuotteissa: iPhonissa, iPodissa, iPadissa ja Mac -tietokoneissa.
  • Google Assistant on läsnä useimmilla markkinoilla olevista yli 3 miljardista Android -laitteesta. Lisäksi käyttäjät voivat käyttää komentoja monissa Googlen palveluissa, kuten Google Home.
  • Amazon Alexa sillä ei ole paljon omaa alustaansa, mutta se on silti merkittävä avustaja. Se on ladattavissa ja käytettäväksi Android- ja Apple -laitteissa. ja jopa valita Lenovon kannettavat tietokoneet
  • Bixby on uusin merkintä digitaalisten avustajien luetteloon. Se on Samsungin kotimainen digitaalinen avustaja, ja se on läsnä yhtiön puhelimissa ja tableteissa.

Puhuttu historia

Äänentunnistus on edennyt pitkälle Audreyn ajoista. Se on tuottanut suuria voittoja useilla aloilla; esimerkiksi mukaan Clear Bridge Mobile, lääketieteen ala hyötyi puhekäyttöisistä chatboteista pandemian aikana vuonna 2020. Puheentunnistus on osoittautunut yhdeksi nykyaikamme hyödyllisimmistä tekniikoista vain numeroiden ymmärtämisestä täydellisten lauseiden eri muunnelmien ymmärtämiseen.

JaaTweetSähköposti
Miten äänentunnistus toimii?

Käytämme puheentunnistusta koko ajan, mutta miten se toimii?

Lue seuraava

Liittyvät aiheet
  • Tekniikka selitetty
  • Siri
  • Google Assistant
  • Alexa
  • Bixby
  • Äänikomennot
Kirjailijasta
Arthur Brown (31 artikkelia julkaistu)

Arthur on tekninen toimittaja ja muusikko, joka asuu Amerikassa. Hän on toiminut alalla lähes vuosikymmenen ajan kirjoittaessaan verkkojulkaisuihin, kuten Android Headlines. Hän tuntee syvästi Androidin ja ChromeOS: n. Tiedottavien artikkeleiden kirjoittamisen lisäksi hän on myös taitava raportoimaan teknisiä uutisia.

Lisää Arthur Brownilta

tilaa uutiskirjeemme

Liity uutiskirjeeseemme saadaksesi teknisiä vinkkejä, arvosteluja, ilmaisia ​​e -kirjoja ja ainutlaatuisia tarjouksia!

Klikkaa tästä tilataksesi