Kaltaisesi lukijat auttavat tukemaan MUO: ta. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion. Lue lisää.

OpenAI: n Whisper on uusi tekoälypohjainen ratkaisu, joka voi muuttaa äänesi tekstiksi. Mikä parasta, se tulee nollahintaan.

Siinä on kuitenkin saalis: sen asentaminen ja käyttö on haastavampaa kuin keskimääräinen Windows-apuohjelma. Varsinkin jos haluat käyttää Nvidia GPU: si Tensor Coresia antamaan sille mukavaa tehoa.

Älä kuitenkaan huolestu. Siksi olemme täällä! Lue eteenpäin saadaksesi lisätietoja sen asentamisesta ja käytöstä, mutta myös saadaksesi Whisperin hyödyntämään Nvidia GPU: ta, jos omistat sellaisen.

Mikä on OpenAI: n Whisper?

ChatGPT on muotia nykyään, ja olemme jo nähneet kuinka voit käyttää OpenAI: n ChatGPT: tä. Ja silti, se ei ole ainoa mielenkiintoinen OpenAI: n projekti.

Whisper on syväoppimisen ja hermoverkkojen tukema luonnollinen kielenkäsittelyjärjestelmä, joka voi "ymmärtää" puheen ja kirjoittaa sen tekstiksi. Mutta se on myös oma asiansa, joka istuu aivan samanlaisten ratkaisujen joukossa:

instagram viewer
  • Whisper on luonnollisella kielellä "koulutettu" tekoälyratkaisu. Joten se ymmärtää paremmin "normaalia" ihmispuhetta kuin vanhemmat ratkaisut.
  • Whisper ei sisällä käyttöliittymää, eikä se voi tallentaa ääntä. Se voi ottaa vain olemassa olevia äänitiedostoja ja tulostaa tekstitiedostoja.
  • Koska Whisper on hyvä "käsittelemään kieltä", sillä on myös automaattisen kääntämisen supervoima yhdessä vaiheessa.
  • Whisper ei ole online-palvelu, ja se voi toimia täysin offline-tilassa.
  • Jos sinulla on suhteellisen moderni Nvidia GPU (GTX970 tai uudempi), Whisper voi toimia "laitteistokiihdytetyssä tilassa" nopeuttaakseen sen nopeutta.
  • Sinun ei tarvitse rekisteröityä, ostaa lisenssiä tai ostaa tilausta.

Miksi AMD GPU: ta ei tueta?

Jotta GPU: t olisivat hyödyllisiä muutakin kuin grafiikkaa varten, niiden on toimittava täysin ohjelmoitavina prosessoreina. Siksi Nvidia loi CUDA: n, jota pidettiin virallisesti "rinnakkaislaskenta-alustana ja ohjelmointimallina". Saat lisätietoja CUDAsta ja siihen liittyvistä laitteistoista ("CUDA-ytimet") lukemalla artikkelimme aiheesta mitä ovat CUDA-ytimet ja miten ne parantavat PC-pelaamista.

CUDA on patentoitu Nvidia-tekniikka, joka on yhteensopiva vain Nvidian GPU: iden kanssa. Lähimmät vaihtoehdot AMD: n laitteistolle ovat OpenCL ja Radeon Compute Platform. Lisätietoja kunkin yrityksen ratkaisujen vertailusta on artikkelissamme AMD Compute Units vs. Nvidia CUDA -ytimet.

Vaihtoehtoihin verrattuna CUDAa pidetään kypsempänä, tehokkaampana ja helpompia käyttää. Useimmat kehittäjät kohdistavat siis vain CUDA: n, mikä puolestaan ​​tarkoittaa, että heidän ohjelmistonsa hyödyntää vain Nvidian GPU: iden laitteisto-ominaisuuksia. Ja se sisältää Whisperin.

Kuinka ladata ja asentaa Whisper

Valitettavasti Whisper ei ole erillinen sovellus, jonka voit ladata, asentaa ja käyttää. Se perustuu muihin ohjelmistoihin, jotka on myös asennettava.

Windowsissa, jotta tämä opas olisi yksinkertainen, käytämme Chocolateyta laajasti useimpien tarvittavien ohjelmistoosien asentamiseen. Tarkista oppaamme nopein tapa asentaa Windows-ohjelmisto lisätietoja Chocolateysta.

Linuxissa ja Macissa asennusprosessin (lukuun ottamatta Windows-polkumuuttujaa ja luomiamme helppokäyttöisiä erätiedostoja) tulisi olla samanlainen.

  1. Whisperin asentaminen ja käyttäminen edellyttää Python ja se on PIP työkalu asennettuna ja lisätty Windowsin "Path"-muuttujaan. Lisätietoja siitä on artikkelissamme kuinka Python PIP asennetaan Windowsiin, Maciin ja Linuxiin.
  2. Asentaa FFMPEG Chocolateyn kautta tällä komennolla:
    suklaa Asentaa ffmpeg
    Asenna myös sen Python-versio:
    pip3 Asentaa python-ffmpeg
  3. Asenna lopuksi Whisper Github-sivulta seuraavasti:
    pip3 asennus git+https://github.com/openai/whisper.git

Hanki Whisperin CUDA-yhteensopiva versio

Vaikka Whisper ei käytä Nvidia-grafiikkasuorittimia, taskulamppu paketti, johon se luottaa, tarjoaa CUDA-kiihdytetyn version. Tämän käyttäminen "tavallisen" version sijaan voi auttaa Whisperiä suorittamaan transkriptiot paljon nopeammin Nvidia GPU: n avulla.

Saadaksesi Whisperin käyttämään Nvidia GPU: n CUDA-ytimiä:

  1. Jos sinulla on jo polttimen "vanilla"-versio asennettuna, poista asennus ja tyhjennä sen jäännökset:
    pip3 poista asennus taskulamppu
    Kun se on valmis, seuraa sitä seuraavasti:
    pip kätköpuhdistaa
  2. Asenna taskulampun CUDA-yhteensopiva versio:
    pip3 Asentaa taskulamppu torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Voit tarkistaa, voiko Whisper käyttää Nvidia GPU: ta, käyttämällä:
    kuiskaus --apua | findstr -i pytorch
    Sinun pitäisi nähdä (oletus: cuda) sijasta (oletus: CPU).

Mitä tehdä, jos taskulamppu ei asennu

Jos kohtaat "versiota ei löydy" -virheen asennattaessa taskulamppua, saatat joutua asentamaan Pythonin vanhemman version rinnakkain nykyisen version kanssa.

Käytä tätä komentoa tehdäksesi sen:

suklaa Asentaa python --versio OLDER_VERSION --vierenkkäin

Korvaa "OLDER_VERSION" versiolla, kuten 3.10.

Käytä sitten toissijaisen version polkua kaikille "yleisille" Whisper-komennoille (esim. "c:\Python310\Scripts\pip.exe" pelkän "pip":n sijaan).

Kuinka äänittää äänesi

Voit muuttaa äänesi WAV- tai MP3-tiedostoksi millä tahansa äänentallennussovelluksella. Windows sisältää tällaisen sovelluksen - lisätietoja siitä on kohdassa kuinka käyttää Windows 10 Voice Recorder -sovellusta.

Kokeile monipuolisempaa vaihtoehtoa Audacity. Opi tekemään se oppaamme avulla kuinka käyttää Audacityä äänen tallentamiseen Windowsissa ja Macissa.

Kuinka aloittaa litterointi Whisperilla

Vaikka Whisperissä ei ole käyttäjäystävällistä käyttöliittymää, sen käyttö on erittäin yksinkertaista.

Oletetaan, että meillä on tiedosto Uusin huomautus.mp3 joka sisältää puheen kreikaksi kansiossa c:\MyAudioFiles, ja haluat kääntää sen englanniksi ja litteroida sen tekstitiedostoksi.

  1. Aloitamme juoksemalla Komentokehote tai PowerShell.
  2. "Vaihdamme hakemistoa", johon äänitiedosto on tallennettu tällä komennolla:
    CD C:\MyAudioFiles
  3. Vapautamme Whisperin tiedostossa:
    kuiskaus--mallipohja--Kieligr--tehtäväKääntääViimeisin huomautus.mp3

Kun tekstitiedosto on käsitelty, se (nimeltään "LatestNote.mp3.txt") ilmestyy samaan kansioon. Avaa se tekstieditorilla, kuten Muistilehtiö nähdäksesi käännetyn tekstin.

Käytimme käännösesimerkkiä, koska englanninkielinen transkriptio on vieläkin yksinkertaisempaa: sinun tarvitsee vain "menettää" "--language"- ja "-task"-liput. Näin ollen, kun kyseessä on yksinkertainen transkriptio, yllä oleva komento olisi:

kuiskaus--mallipohjaViimeisin huomautus.mp3

"Malli"-lippu vaaditaan, koska Whisper käyttää yhtä eri vaihtoehdoista. Laajennamme niitä, jotta voit valita tarpeisiisi parhaiten sopivan.

Mikä malli valita?

Whisper tarjoaa erilaisia ​​kielimalleja. Mitä suurempi malli, sitä enemmän sen tarkkuus parani, mutta myös sen laitteistovaatimukset ovat korkeammat. He ovat:

  1. Pikkuruinen.
  2. Pohja.
  3. Pieni.
  4. Keskikokoinen.
  5. Suuri.

Useimpien englantia äidinkielenään puhuvien pitäisi pärjätä pikkuruinen tai pohja mallit. Englannin äidinkielenään puhujat voivat nähdä parempia tuloksia suuremmilla malleilla, kuten pieni ja keskikokoinen.

Huomaa kuitenkin, että keskikokoiset ja suuret mallit vaativat yli 8 Gt VRAM-muistia (eli "GPU: si muistia").

Valitse yksi niistä määrittämällä malli komennon "--model"-kytkimen jälkeen:

kuiskaus --malli pieni/pieni/keskikokoinen/suuri [tiedosto]

Esimerkiksi:

kuiskaus--mallipieniMy_Voice_Note.mp3

Transkription virtaviivaistaminen

Koko Whisper-komennon kirjoittaminen joka kerta, kun haluat litteroida ääntä, voi tulla nopeasti tylsäksi. Tehdään maailmanlaajuisesti käytettävissä oleva erätiedosto prosessin virtaviivaistamiseksi.

  1. Juosta Windowsin Resurssienhallinta ja käy C:-asemallasi.
  2. Luo kansio skripteillesi ja kopioi sen polku leikepöydälle.
  3. Etsi Windowsin Käynnistä-valikosta "polku" ja valitse Muokkaa järjestelmäympäristömuuttujia.
  4. Etsi Polku muuttuja alla Käyttäjämuuttujat käyttäjälle YOUR_USERNAME. Kaksoisnapsauta sitä muokataksesi sitä. Klikkaa Uusija liitä polku komentosarjakansioosi. Klikkaa OK hyväksymään muutokset.
  5. Palaa komentosarjakansioon Windowsin Resurssienhallinnassa. Luo sinne uusi erätiedosto nimeltä "wht.bat". Aseta sen "sisään" tämä komento:
    kuiskaus --model tiny --language fi %1
  6. Luo vielä kaksi erätiedostoa, "whs" ja "whm".
  7. Aseta tämä ensimmäisen skriptin sisään:
    kuiskaus --model small --language fi %1
  8. Aseta tämä toisen sisään:
    kuiskaus --model medium --language fi %1

Onnittelut, sinulla on nyt kolme skriptiä, joiden avulla voit helposti käyttää Whisperin pieniä, pieniä ja keskikokoisia malleja äänitiedostojesi kanssa! Äänitiedoston litteroiminen tekstiksi:

  1. Etsi tiedosto komennolla Windowsin Resurssienhallinta.
  2. Oikealla painikkeella tyhjälle paikalle ja valitse Avaa terminaalissa.
  3. Kirjoita tämä komento ja korvaa "wht" sanalla "whs" tai "whm" käyttääksesi pieniä tai keskisuuria kielimalleja:
    mitäYOUR_AUDIO_FILE.mp3

Kirjoittaminen äänen nopeudella kuiskauksella

Edes nopeimmat konekirjoittajat eivät pysty vastaamaan puheenopeuteen. Viime aikoihin asti puhuminen kirjoittamisen sijaan ei kuitenkaan ollut optimaalista asiakirjojen luomiseen.

Useimmat ääni-tekstiratkaisut tuottivat keskinkertaisia ​​tuloksia. Saatoit löytää muutamia kokeilemisen arvoisia ratkaisuja, mutta ne olivat monimutkaisia ​​käyttää tai kalliita. Onneksi Whisper muutti kaiken.

Yllä olevien vaiheiden jälkeen sinun pitäisi olla valmis litteroimaan tai kääntämään äänesi erittäin tarkasti käyttämällä vain yhtä komentoa.