Kuidas kõnetuvastust teha. Sõna ei ole varblane! Hääletuvastusprogrammide ülevaade. Teenuste võrdlev test

Arvuti leiutamise hetkest peale on inimkond unistanud sellega suhelda tuttavas keeles – häält kasutades. Tavaline planeedi Maa elanik ei taha teada klaviatuuridest ega hiirtest. Ta vajab arvutit, et teda suurepäraselt mõista – ja seda otseses mõttes. Lihtne, kiire, selge! Kui ulmekirjanikud tulevad välja lugudega, kuidas saja-kahe aasta pärast hakkavad arvutid tellimuste peale poodidesse minema, meie kandasid masseerima ja selga kratsima, siis tarkvaraarendajad liiguvad aeglaselt, kuid kindlalt selle idee realiseerimise poole. Ja kui praegu tuleb abaluu all kratsimata hakkama saada, siis on juba praegu väga võimalik erinevaid rakendusi häälega juhtida ja isegi terveid tekstifaile arvutisse dikteerida. Arvutitega tutvumiseks pole veel väga palju programme, kuid olemasolevad arenevad kiiresti. Veel aasta tagasi olid artiklis kirjeldatud kommunaalteenused – nende varasemad versioonid – väga kurb vaatepilt. Tänaseks on nad suureks kasvanud, küpsed – need pole enam mingid kütitud, läbimärjad ja näljased kutsikad, vaid rõõmsad hundikutsikad, kes aasta-kahe pärast muutuvad arvuti hääljuhtimise huntideks.

Loomulikult kõnelev draakon 8
Omalaadne ainulaadne utiliit. "Kõne" programmide Titanic ja Zeppelin ühes pudelis. Põrgulik segu hääletuvastajast, heliarvuti juhtimisest ja ingliskeelsete sõnade õige häälduse õpetajast. Aga räägime kõigest järjekorras.
Utiliit on ingliskeelne ja seetõttu saab see töötada ainult ingliskeelsete sõnavormidega. Teoreetiliselt saab seda õpetada Loomulikult kõnelev draakon suurepärane ja võimas, kuid paraku saab seda kasutada ainult arvuti hääljuhtimiseks. Utiliit ei saa toimida vene stenograafina – ükskõik, milliseid nippe proovite. Kuid inglise keele kõne saate kiiresti kätte. Arendajate sõnul tunneb programm ära kuni 95% sõnadest. See näitaja on muidugi ülehinnatud, kuid mitte nii palju kui konkurentidel. Treenides DNS-i teie hääletämbrile vastavaks (selleks peate kulutama umbes tund aega erinevate sõnade dikteerimisele), õpetate teda mõistma isegi väga keerulisi aju väänavaid fraase, sealhulgas ingliskeelset sõimu. Seal on ainult üks "aga" ... Peate hääldama iga fraasi väga selgelt. Mis, sa pole artikulatsioonikursustel käinud? Siis peate ise harjutama. Võite olla kindel, et pärast paaripäevast keelelist võitlust DNS-iga hämmastate kõiki inglasi oma häälduse puhtusega. Kas sa arvad, et me teeme nalja? Üldse mitte! DNS on ideaalne tööriist õige häälduse treenimiseks – niipea, kui see on võltsitud, annab see kohe hoiatuse.
Nüüd hääljuhtimise kohta. Siin ei valmistanud ka DNS pettumust. Meil õnnestus programm installida peaaegu kõikidesse utiliitidesse, mis meil toimetuse arvutites on. Algul haaras ta surmahaardega kurgust kinni kõikidest paki komponentidest MS Office. Pärast häälkäsklust avasin Exceli ja Wordi ning kõik muud rakendused. Siis oli aeg võrguprogrammide jaoks. Nahkhiir!, ICQ, järgisid erinevad Interneti-brauserid esimest korda DNS-i. Lõpuks testisime utiliiti sama klassi erinevate utiliitidega töötamisel – see töötas silmagi pilgutamata. See on naljakas, kui üks hääljuhtimisprogramm käivitab teise sarnase utiliidi. Muide, pange tähele: lemmikmängude käitamiseks DNS-i seadistamine ei maksa midagi. Öelge mikrofoni "Warcraft" ja see laaditakse kohe. Peaasi on see, et ärge unustage enne käskude andmist õpetada programmi konkreetset sõna konkreetse utiliidiga seostama (menüüs seadistatav Täpsuskeskus).
Lisaks nimetatule on programmi sisse ehitatud palju erinevaid väikeseid maiustusi, mis tunduvad olevat valikulised, kuid mis avardavad oluliselt utiliidi võimalusi. Kuidas sulle meeldib näiteks wav- või mp3-failist teksti ära tunda? Laadite alla ingliskeelse laulu, millest te ei saa mõnda sõna välja lugeda, ja DNS annab need teile teksti kujul.
Saate laulda DNS-i kiitust peaaegu lõputult. See on ülevaates ainus programm, mis tuli toime peaaegu kõigi tekstidega ja demonstreeris veelgi rohkem võimalusi, kui me sellelt ootasime. Ühemõtteline “must-olla” ja “ekspertiis”.
Plussid: Lihtne, mugav, paljude kellade ja viledega.
Miinused: 30-päevase prooviversiooni registreerimise tasu on peaaegu käes $200 , mis ei ole pehmelt öeldes tagasihoidlik. Utiliit ei mõista vene keelt - kuid see on peaaegu kõigi sarnaste programmide probleem.
Kokkuvõte: Võib-olla parim programm kõnetuvastuseks ja arvuti hääljuhtimiseks. Kui poleks kõrget hinda, oleks see lihtsalt ideaalne.
Realize Voice 4.1
Vaatamata sellele, et loojate positsioon Realiseerige häält nagu omamoodi multikombinaator, mis saab ühtviisi hõlpsalt hakkama kõnetuvastuse, rakenduste haldamise ja retsitatiivse sünteesiga, näitas üksikasjalik testimine, et loojad liialdavad toote võimalustega pehmelt öeldes. Kõnetuvastajana näitas utiliit end väga nõrgana. Sõnade täpse defineerimise ja seejärel tekstivormingusse tõlkimise protsent on väga madal. Isegi koolitusmooduli pikad täitmised ei viinud midagi. Programm keeldub paljudest sõnadest ja väljenditest aru saama. Ja RV oleks kohe lintšitud ja risti löödud, kui mitte... ainulaadsed võimalused erinevate rakenduste hääljuhtimise vallas. Siin surus RV ennast sisse ja andis teistele kommunaalteenustele sellise edumaa, et andsime peaaegu aplausi. Programmi saab hõlpsasti konfigureerida käivitama mis tahes kolmanda osapoole utiliiti (isegi Wordi, isegi ICQ-d, vähemalt mõnda draiverit) ja see toetab isegi makrodega töötamist. Nende abiga saate teha asju, millele isegi mõelda on hirmutav. Ühele häälkäsklusele, mille, muide, saab muuta venekeelseks, saate lisada näiteks järgmise mitmeastmelise funktsiooni: avage meiliklient, laadige rämpspostifilter, minge serverisse, laadige alla kõik päistega tähed vene keeles, kõik ingliskeelsete päistega ja pealkirjadega, mis on pikemad kui 20 tähemärki – kustuta. See on vaid näide. Üldiselt ei ole makrode keerukus kuidagi piiratud. Peaasi, et jääks aega fantaseerimiseks. Ainus, milleks Realize Voice treenida ei saanud, oli arvutimängudes hääljuhtimine. Kuid tavalistes rakendustes pole probleeme.
Boonusena pakub RV pehmelt öeldes lahutamatut funktsiooni tööruumi häälekorralduseks. See on teaduslik ja kui vene keeles, siis oma häälega saate mitte ainult rakendusi käivitada ja nende tööd juhtida, vaid ka igal ajal laadida muid utiliite, vahetada aknaid, sulgeda programme... Ehk siis Bobik käsul "Aport!" mitte ainult ei jookse luu järele, vaid tee peal peatub ta poes piima järele, viskab prügi välja, maksab telefoniarve ja ostab sõbrannale lilli.
Plussid: Unikaalsed hääljuhtimise funktsioonid, keeruliste makrode tugi, kasutusmugavus.
Miinused: Nõrk kõnetuvastusmoodul. Hind 50 dollarit.
Kokkuvõte: Programm on lihtsalt loodud arvuti hääljuhtimiseks. Kahju, et arendajad ohverdasid utiliidi muud olulised funktsioonid.
Diktatsioon 2004 v. 4.4
Keskmine kasulikkus. Seda just siis, kui näib, et millegi üle nuriseda pole, aga konkurentidega võrreldes ei näe see kuigi hea välja. Diktatsioon 2004 tuleb kõnekõne äratundmisega hästi toime, kuigi ei suuda võistelda näiteks Dragon Naturally Speakingiga: viimane tabab Dictation 2004 kõige haavatavamat kohta – õigete sõnaarvamiste protsenti. Programmil sellega hästi ei lähe, täiendav treening ravib haigust, kuid mitte täielikult. Võite anda utiliidile "A" selle võime eest hallata rakendusi, kuid see on hinnang hoolsuse, mitte aine valdamise eest, nagu see teeb. Realiseerige häält. Arendajad nõuavad, et programm oleks Wordiga tihedalt integreeritud, kuid me ei märganud seda - see ei erine teiste utiliitidega töötamisest. Lõpetuseks tahan kriimustada Dictation 2004 kõrvu, sest see tunneb wav-failidest kõne üsna hästi ära, kuid Dragon Naturally Speaking teeb seda palju paremini. Dikteerimise ainus ainulaadne funktsioon on võime ära tunda kõnet otse erinevatest välistest allikatest (helisalvesti, pleier, muusikakeskus - vaevalt kellelgi seda vaja läheb). Nii selgub, et Dictation 2004 on hea kõigile, kuid kahju on selle eest maksta "rohelist viiskümmend dollarit" (50 dollarit).
Plussid: Suudab kõnet otse erinevatelt välisseadmetelt ära tunda.
Miinused: Kõigi funktsioonide keskmine jõudlus.
Kokkuvõte: Odav, aga mitte väga rõõmsameelne. Keskmine utiliit, hall hiir kõnetuvastusprogrammide maailmas.
Gorynych PROF 3.0
“Gorynych” on kodumaine arendus. Oskus töötada üksi suurte ja vägevatega võib programmi pjedestaalile seada. Aga olgem objektiivsed. Utiliit on üles ehitatud kahele moodulile, mis vastutavad mikrofoni dikteeritud kõne tuvastamise ja erinevatele rakendustele käskude andmise eest. Range testimine näitas, et "Gorynych"il on paraku probleeme vene keelega - kui tuua analooge välismaiste programmide ja nende inglise keele oskuse tasemega, siis kodumaine toode töötab kuskil tasemel. Diktatsioon 2004. See tähendab, et kõik on suurepärane, kuid seal on luksumine. Oluline punkt on see, et utiliidil on sisseehitatud iseõppimisplokk: mida rohkem pöörate tähelepanu "Gorynychile", seda paremini mõistab ta teid ja seda vähem on ta nördinud teie vale vene häälduse pärast. Testisime utiliiti vaid paar tundi ja selle aja jooksul, nagu meile tundus, muutus programm tõesti arusaadavamaks. Võib-olla on pikema suhtlemise korral tulemused veelgi paremad.
“Gorynych’s” meeskonnaoskuste testimine sujus probleemideta. Utiliit ei püüa teeselda megaintegreeritud süsteemiks, rakendatakse ainult programmihalduse põhifunktsioone - te ei pea kirjutama keerulisi makrosid, kuid mis seal on, on kindel top viis. Programmide käivitamine, sulgemine, täiendavate akende väljakutsumine - muinasjutumadu sai kõigega hakkama ja hoidus rahutust demonstreerimast.
Looduses on salakavalast Gorynychist kaks versiooni – kerge versioon (Light), mida müüakse juveelpakendis umbes 5 dollariga (ideaalne koduseks kasutamiseks) ja täisväärtuslik karbis versioon 49 dollariga (kodu jaoks on funktsioonid selgelt liiga palju).
Plussid: Vene keel, ergonoomiline liides, iseõppimisfunktsioon, odava kerge versiooni olemasolu.
Miinused: Kõigi funktsioonide keskmine jõudlus, kuid ainult välismaiste konkurentide taustal; kodumaiste kommunaalteenuste hulgas pole analooge.
Kokkuvõte: Suurepärane venekeelne programm. Vääriliste kodumaiste analoogide puudumisel on see peaaegu ainus võimalus neile, kes pole inglise keelega sugugi rahul.
Mida oodata? Mida karta?
Vaatamata “hääle” programmide suhtelisele sarnasusele kasutavad nad kõne tuvastamiseks, dekodeerimiseks ja ekraanil tekstina kuvamiseks erinevaid algoritme. Tavaliselt on ühte utiliidi sisse ehitatud mitu algoritmilist tuuma, mis vastutavad utiliitide erinevate funktsioonide eest. Olenevalt sellest, milline antud programmi komponentidest on hoolikamalt programmeeritud, tuleb utiliit teatud funktsioonidega paremini toime. Enamasti saavad "hääl" rakendused töötada kahes põhisuunas.
1) Vene või inglise keele kõne äratundmine ja hääle konverteerimine tekstifailiks. Kõige keerulisem funktsioon on loomulikult arendajatel. Kahjuks pole veel olemas programme, mis seda oskust suurepäraselt valdaksid.
2) Arvuti hääljuhtimine. Mõni lihtne - või mitte väga lihtne, kuid mitmeastmeline - toiming on "seotud" mingisuguse häälkäsklusega. Pärast seda piisab hinnalise sõna või fraasi ütlemisest ja arvuti teeb kohe vastava toimingu.
Pange tähele, et isegi artiklis kirjeldatud programmide demoversioonid võtavad vähemalt 50 MB. Selle põhjuseks on "sõnavara" suur hulk - räägitava sõna mõistmiseks peab utiliit seda juba "teadma". Ärge oodake, et kõneprogrammid töötavad nõrkades masinates kiiresti. Enamiku nende utiliitidega mugavaks töötamiseks peab teil olema täiesti kaasaegne arvuti ja hea kvaliteediga mikrofon.

* * *
Teoreetiliselt olete tark, see on praktika küsimus. Varuge kommunaalkulud, paigaldage, meisterdage. Kõnetuvastusprogrammide turg on noor, mistõttu kommunaalteenused käituvad nagu väikesed lapsed. Peate nende eest hoolitsema, õigel ajal mähkmeid vahetama, veenduma, et nad õpivad õigel ajal uued sõnad selgeks (kõikides programmides on uute väljendite õpetamise moodul), nende eest hoolitsema ja neid kalliks pidama. See, mis Internetist alla laaditud või ostetud distributsioonist kasvab, sõltub ainult teist. Kui sa ei pühenda piisavalt aega programmi loomisele ja treenimisele, kasvab sinust kangekaelne ja huligaanne poiss. Veetke paar tundi dokumentatsiooni uurides, menüüdes navigeerides, mikrofoniga töötades – kasvatage üles usin noormees, kes järgneb teile kõikjale ja ütleb: “ Mida sa tahad, issi?! Puder? Kergelt soolatud kurgid?”.

Kui sisestate klaviatuuril liiga aeglaselt ja olete liiga laisk, et õppida kümne sõrmega tippimise meetodit, võite proovida kasutada häälteksti sisestamiseks kaasaegseid programme ja teenuseid.

Klaviatuur on kahtlemata üsna mugav arvutijuhtimisvahend. Pika teksti tippimisel saame aga aru kõigist selle (ja ausalt öeldes ka meie :)) puudustest... Samuti tuleb osata kiiresti tippida!

Paar aastat tagasi, soovides oma artiklite kirjutamise tööd lihtsustada, otsustasin leida programmi, mis võimaldaks mul häält tekstiks teisendada. Mõtlesin, kui tore oleks, kui ütleksin kõik vajaliku mikrofoni ja arvuti kirjutaks mulle :)

Kujutage ette minu pettumust, kui mõistsin, et tol ajal polnud sellele asjale tegelikult toimivaid (rääkimata tasuta) lahendusi. Siiski oli kodumaiseid arenguid, nagu "Gorynych" ja "Dictograph". Nad said vene keelest aru, kuid paraku oli kõnetuvastuse kvaliteet üsna madal, nad nõudsid pikka häälestamist teie hääle sõnastiku loomisega ja olid ka üsna kallid...

Siis sündis Android ja olukord liikus surnud punktist veidi. Selles süsteemis ilmus häälsisend sisseehitatud (ja üsna mugava) alternatiivina virtuaalselt ekraaniklaviatuurilt sisestamisele. Ja hiljuti ühes kommentaaris küsiti minult, kas Windowsi jaoks on häälsisendi võimalus? Vastasin, et veel mitte, aga otsustasin vaadata ja selgus, et ehk mitte päris täisväärtuslik, aga selline võimalus on olemas! Tänane artikkel räägib minu uurimistöö tulemustest.

Kõnetuvastuse probleem

Enne kui hakkame analüüsima Windowsi häälsisendi praegusi lahendusi, tahaksin heita valgust arvuti kõnetuvastuse probleemi olemusele. Protsessi täpsemaks mõistmiseks soovitan vaadata järgmist diagrammi:

Nagu näete, toimub kõne teisendamine tekstiks mitmes etapis:

  1. Hääle digitaliseerimine. Selles etapis sõltub kvaliteet diktsiooni selgusest, mikrofoni ja helikaardi kvaliteedist.
  2. Kirje võrdlemine sõnaraamatu kirjetega. Siin toimib põhimõte “rohkem, seda parem”: mida rohkem salvestatud sõnu sõnastik sisaldab, seda suurem on tõenäosus, et su sõnu tuntakse õigesti ära.
  3. Tekstiväljund. Süsteem proovib automaatselt, pauside alusel, tuvastada kõnevoost üksikud lekseemid, mis vastavad sõnaraamatu mallilekseemidele, ja kuvab seejärel leitud vasted tekstina.

Peamine probleem, nagu võite arvata, seisneb kahes peamises nüansis: kõne digiteeritud segmendi kvaliteet ja sõnastiku maht koos mallidega. Esimest probleemi saab tõesti minimeerida isegi odava mikrofoni ja tavalise helikaardiga. Piisab, kui räägite aeglaselt ja selgelt.

Teise probleemiga pole paraku kõik nii lihtne... Arvuti, erinevalt inimesest, ei suuda õigesti ära tunda sama fraasi, mille on öelnud näiteks naine ja mees. Selleks peavad selle andmebaasis olemas olema mõlemad erinevate häältega häälnäitlemise võimalused!

Siin peitubki peamine saak. Sõnastiku loomine ühele inimesele pole põhimõtteliselt nii keeruline, kuid arvestades, et iga sõna tuleb kirjutada mitmes versioonis, osutub see väga pikaks ja töömahukaks. Seetõttu on enamus tänapäeval eksisteerivatest kõnetuvastusprogrammidest kas liiga kallid või puuduvad neil oma sõnastikud, mistõttu jääb kasutajal need ise luua.

Pole asjata, et mainisin Androidi veidi kõrgemal. Tõsiasi on see, et seda arendav Google on loonud ka ainsa tänapäeval avalikult kättesaadava ülemaailmse kõnetuvastussõnastiku (ja mitmekeelse!) nn. Google Voice API. Yandex loob samalaadset sõnaraamatut ka vene keele jaoks, kuid paraku pole see siiani reaalsetes tingimustes kasutamiseks sobilik. Seetõttu töötavad peaaegu kõik tasuta lahendused, mida me allpool kaalume, Google'i sõnaraamatutega. Sellest tulenevalt on neil kõigil sama tuvastuskvaliteet ja nüansid peituvad ainult lisavõimalustes...

Häälsisestusprogrammid

Windowsi häälsisendi jaoks pole nii palju täisväärtuslikke programme. Ja need, kes on olemas ja vene keelest aru saavad, on enamasti tasulised... Näiteks populaarse kohandatud häälest tekstiks teisendussüsteemi RealSpeaker hind algab 2587 rublast ja professionaalne Caesar-R kompleks algab 35 900 rublast!

Kuid kogu selle kalli tarkvara hulgas on üks programm, mis ei maksa sentigi, kuid samas pakub funktsionaalsust, mis on enamikule kasutajatele enam kui piisav. Seda nimetatakse MSpeechiks:

Programmi põhiaknas on võimalikult lihtne liides – helitaseme indikaator ja ainult kolm nuppu: alusta salvestamist, peata salvestamine ja ava seadete aken. MSpeech töötab ka üsna lihtsalt. Peate vajutama salvestusnuppu, viima kursori aknasse, milles peaks teksti kuvama, ja alustama dikteerimist. Suurema mugavuse huvides on parem salvestada ja peatada kiirklahvide abil, mida saab seada seadetes:

Lisaks kiirklahvidele peate võib-olla muutma teksti edastamise tüüpi soovitud programmide akendesse. Vaikimisi on väljundiks seatud aktiivne aken, kuid saate määrata edastamise mitteaktiivsetele väljadele või konkreetse programmi väljadele. Lisafunktsioonide hulgas väärib märkimist seadistuste rühm "Käsud", mis võimaldab teie määratud fraaside abil arvuti hääljuhtimist rakendada.

Üldiselt on MSpeech üsna mugav programm, mis võimaldab teil igasse Windowsi aknasse häälega teksti sisestada. Ainus hoiatus selle kasutamisel on see, et Google'i sõnaraamatutele juurdepääsuks peab arvuti olema Internetiga ühendatud.

Häälsisend võrgus

Kui te ei soovi oma arvutisse ühtegi programmi installida, kuid soovite proovida teksti häälega sisestamist, võite kasutada ühte paljudest võrguteenustest, mis töötavad samades Google'i sõnaraamatutes.

Muidugi, esimene asi, mida tasub mainida, on Google'i "native" teenus nimega Web Speech API:

See teenus võimaldab tõlkida piiramatul hulgal kõnelõike tekstiks rohkem kui 50 keeles! Peate lihtsalt valima keele, mida räägite, klõpsake vormi paremas ülanurgas mikrofoni ikooni, vajadusel kinnitage saidi luba mikrofonile juurdepääsuks ja alustage rääkimist.

Kui te ei kasuta väga spetsiifilist terminoloogiat ja räägite selgelt, võite saada väga hea tulemuse. Lisaks sõnadele "mõistab" teenus ka kirjavahemärke: kui ütlete "punkt" või "koma", ilmub väljundvormile vajalik sümbol.

Kui salvestamine on lõppenud, tõstetakse tuvastatud tekst automaatselt esile ja saate selle lõikepuhvrisse kopeerida või postiga saata.

Puuduste hulgas väärib märkimist, et teenus saab töötada ainult Google Chrome'i brauseris, mis on vanem kui versioon 25, samuti mitmekeelse tuvastusvõimaluse puudumine.

Muide, meie veebisaidi ülaosas leiate sama kõnetuvastuse vormi täiesti venestatud versiooni. Nautige seda oma tervise nimel ;)

Google'i teenusel põhinevaid sarnaseid kõnetuvastusressursse on Internetis üsna palju. Üks saitidest, mis meile huvi pakub, on Dictation.io:

Erinevalt Web Speech API-st on Dictation.io stiilsem märkmiku kujundus. Selle peamine eelis Google'i teenuse ees on see, et see võimaldab salvestamise peatada ja seejärel uuesti alustada ning varem sisestatud tekst salvestatakse seni, kuni vajutate nuppu "Tühjenda".

Nagu Google'i teenus, „teab Dictation.io, kuidas” panna punkte, komasid, samuti hüüu- ja küsimärke, kuid ei alusta uut lauset alati suure algustähega.

Kui otsite maksimaalse funktsionaalsusega teenust, on selles osas tõenäoliselt üks parimaid:

Teenuse peamised eelised:

  • venekeelse liidese kättesaadavus;
  • võimalus vaadata ja valida tuvastusvalikuid;
  • hääljuhiste olemasolu;
  • automaatne salvestamise väljalülitamine pärast pikka pausi;
  • sisseehitatud tekstiredaktor koos funktsioonidega teksti lõikepuhvrisse kopeerimiseks, printeriga printimiseks, posti või Twitteri teel saatmiseks ja teistesse keeltesse tõlkimiseks.

Teenuse ainsaks puuduseks (lisaks juba kirjeldatud Web Speech API üldistele puudustele) on tööalgoritm, mis selliste teenuste puhul pole päris tuttav. Pärast salvestusnupu vajutamist ja teksti dikteerimist peate selle kontrollima, valima suvandi, mis sobib kõige paremini sellega, mida tahtsite öelda, ja seejärel kandma see allolevasse tekstiredaktorisse. Pärast seda saab protseduuri korrata.

Chrome'i pistikprogrammid

Lisaks täisväärtuslikele programmidele ja võrguteenustele on kõne tekstiks tuvastamiseks veel üks viis. Seda meetodit rakendatakse Google Chrome'i brauseri pistikprogrammide abil.

Pistikprogrammide kasutamise peamine eelis on see, et nende abiga saate teksti sisestada häälega mitte ainult teenuse veebisaidi spetsiaalsel kujul, vaid ka mis tahes veebiressursi mis tahes sisestusväljale! Tegelikult hõivavad pistikprogrammid vahepealse niši teenuste ja häälsisendi täisväärtuslike programmide vahel.

Üks parimaid laiendusi kõne tekstiks tõlkimiseks on SpeechPad:

Ma ei valeta, kui ütlen, et SpeechPad on üks parimaid venekeelseid kõnest tekstiks tõlkimise teenuseid. Ametlikult veebisaidilt leiate üsna võimsa (ehkki pisut vana kujundusega) veebipõhise märkmiku, millel on palju täiustatud funktsioone, sealhulgas:

  • häälkäskluste tugi arvuti juhtimiseks;
  • täiustatud kirjavahemärkide tugi;
  • funktsioon arvuti helide vaigistamiseks;
  • integreerimine Windowsiga (ehkki tasulisel alusel);
  • võime ära tunda teksti video- või helisalvestiselt (funktsioon "Transkriptsioon");
  • tunnustatud teksti tõlkimine mis tahes keelde;
  • teksti salvestamine allalaadimiseks saadaval olevasse tekstifaili.

Mis puutub pistikprogrammi, siis see pakub meile teenuse kõige lihtsamat funktsionaalsust. Asetage kursor vajalikule sisestusväljale, helistage kontekstimenüüsse ja klõpsake üksust "SpeechPad". Nüüd kinnitage juurdepääs mikrofonile ja kui sisestusväli muutub roosaks, dikteerige soovitud tekst.

Pärast kõne lõpetamist (üle 2 sekundi pikkune paus) lõpetab pistikprogramm ise salvestamise ja kuvab kõik, mida väljal ütlesite. Soovi korral võite minna pistikprogrammi sätetesse (paremklõps ülaosas asuval pistikprogrammi ikoonil) ja muuta vaikeparameetreid:

Kummalisel kombel ei ole ma terves Google'i laienduste veebipoes kohanud ühtegi väärt pluginat, mis võimaldaks häälsisendit mis tahes tekstiväljale. Ainus sarnane laiendus oli ingliskeelne. See lisab mikrofoni ikooni kõikidele veebilehe sisestusväljadele, kuid see ei aseta seda alati õigesti, nii et see võib ekraanilt välja kukkuda...

“Tahaks kohe öelda, et see on esimene kord, kui tegelen tunnustamisteenustega. Seetõttu räägin teile teenustest võhiku vaatevinklist," märkis meie ekspert, "kasutasin tuvastamise testimiseks kolme juhist: Google, Yandex ja Azure."

Google

Tuntud IT-ettevõte pakub oma Google Cloud Platformi toodet veebis testida. Igaüks saab teenust tasuta proovida. Toode ise on mugav ja lihtne kasutada.

Plussid:

  • enam kui 80 keele tugi;
  • kiire nimetöötlus;
  • kvaliteetne äratundmine kehva suhtluse tingimustes ja kõrvaliste helide juuresolekul.

Miinused:

  • on raskusi aktsendi ja halva hääldusega sõnumite äratundmisega, mis muudab süsteemi kasutamise raskeks kõigile peale emakeelena kõnelejate;
  • teenusele puudub selge tehniline tugi.

Yandex

Yandexi kõnetuvastus on saadaval mitmes valikus:

  • Pilv
  • Teek mobiilirakendustest juurdepääsuks
  • "Karbis" versioon
  • JavaScript API

Aga olgem objektiivsed. Meid ei huvita eelkõige kasutusvõimaluste mitmekesisus, vaid kõnetuvastuse kvaliteet. Seetõttu kasutasime SpeechKiti prooviversiooni.

Plussid:

  • kasutusmugavus ja konfiguratsioon;
  • hea tekstituvastus vene keeles;
  • süsteem pakub mitmeid vastusevariante ja püüab närvivõrkude kaudu leida tõele kõige sarnasema variandi.

Miinused:

  • Voo töötlemise ajal võivad mõned sõnad olla valesti määratud.

Azure

Azure'i on välja töötanud Microsoft. See paistab oma analoogide seast silma tänu oma hinnale. Kuid olge valmis seisma silmitsi teatud raskustega. Ametlikul veebisaidil esitatud juhised on kas puudulikud või aegunud. Me ei saanud teenust piisavalt käivitada, mistõttu pidime kasutama kolmanda osapoole käivitusakent. Kuid isegi siin on teil testimiseks vaja Azure'i teenusevõtit.

Plussid:

  • Võrreldes teiste teenustega töötleb Azure sõnumeid reaalajas väga kiiresti.

Miinused:

  • süsteem on väga tundlik aktsendi suhtes ja tal on raskusi muukeelse kõne äratundmisega;
  • Süsteem töötab ainult inglise keeles.

Tulemuste ülevaatamine:

Pärast kõigi plusside ja miinuste kaalumist otsustasime Yandexi poole. SpeechKit on kallim kui Azure, kuid odavam kui Google Cloud Platform. Google'i programmis on tuvastamise kvaliteet ja täpsus pidevalt paranenud. Teenus täiustab ennast masinõppetehnoloogiate abil. Yandexi venekeelsete sõnade ja fraaside äratundmine on aga taseme võrra kõrgem.

Kuidas kasutada häältuvastust äris?

Tunnustuse kasutamiseks on palju võimalusi, kuid keskendume sellele, mis mõjutab eelkõige teie ettevõtte müüki. Selguse huvides vaatame äratundmisprotsessi reaalse näite abil.

Mitte nii kaua aega tagasi sai meie kliendiks üks tuntud SaaS-teenus (ettevõtte palvel teenuse nime ei avalikustatud). F1Golose abiga salvestasid nad kaks helivideot, millest üks oli suunatud soojade klientide eluea pikendamisele, teine ​​- klientide soovide töötlemisele.

Kuidas pikendada kliendi eluiga häältuvastuse abil?

Sageli töötavad SaaS-i teenused igakuise liitumistasu alusel. Varem või hiljem saab proovikasutuse või tasulise liikluse periood otsa. Siis on vaja teenust pikendada. Ettevõte otsustas kasutajaid liikluse lõppemise eest hoiatada 2 päeva enne kasutustähtaja möödumist. Kasutajaid teavitati kõneposti teel. Video kõlas järgmiselt: „Tere pärastlõunal! Tuletame meelde, et teie tasuline periood teenuse XXX kasutamise eest on lõppemas. Teenuse pikendamiseks öelge jah; pakutavate teenuste tühistamiseks öelge ei.

Kõned kasutajatelt, kes ütlesid koodsõnad: JAH, UUENDA, TAHAN, ROHKEM DETAILI; viidi automaatselt üle ettevõtte operaatoritele. Seega uuendas umbes 18% kasutajatest oma registreerimist tänu ühele kõnele.

Kuidas kõnetuvastust kasutades andmetöötlussüsteemi lihtsustada?

Teine heliklipp, mille käivitas sama firma, oli teist laadi. Nad kasutasid telefoninumbrite kontrollimise kulude vähendamiseks häälsõnumeid. Varem kontrollisid nad kasutajanumbreid robotkõne abil. Robot palus kasutajatel vajutada telefoni teatud klahve. Tunnustustehnoloogiate tulekuga muutis ettevõte aga taktikat. Uue video tekst oli järgmine: „Olete registreerunud portaalis XXX, kui kinnitate registreerumise, öelge jah. Kui te registreerimistaotlust ei esitanud, öelge ei." Kui klient lausus sõnad: JAH, KINNITAN, AHA või LOOMULIKULT, edastati selle kohta käivad andmed koheselt ettevõtte CRM-süsteemi. Ja registreerimissoov kinnitati automaatselt paari minutiga. Tuvastamistehnoloogiate kasutuselevõtt on vähendanud ühe kõne aega 30 sekundilt 17 sekundile. Seega vähendas ettevõte kulusid ligi 2 korda.

Kui olete huvitatud muudest viisidest häältuvastuse kasutamiseks või soovite häälsõnumite kohta lisateavet, järgige linki. F1Golos saate tasuta registreeruda oma esimesele uudiskirjale ja uurida ise, kuidas uued tuvastustehnoloogiad töötavad.

Entsüklopeediline YouTube

  • 1 / 5

    Töö kõnetuvastusega pärineb eelmise sajandi keskpaigast. Esimene süsteem loodi 1950. aastate alguses: selle arendajad seadsid endale ülesandeks numbrid ära tunda. Väljatöötatud süsteem suutis tuvastada numbreid, kuid neid räägitakse ühel häälel, näiteks Bell Laboratories “Audrey” süsteem. See töötas, tuvastades iga kõnelõigu võimsusspektris formandi. Üldiselt koosnes süsteem kolmest põhiosast: analüsaatorid ja kvantisaatorid, võrgu sobitaja mustrid ja lõpuks andurid. See loodi vastavalt erinevate sagedusfiltrite, lülitite ja andurite baasil ka gaasiga täidetud torusid [ ] .

    Kümnendi lõpuks olid välja kujunenud süsteemid, mis tundsid vokaalid ära kõnelejast sõltumatult. 70ndatel hakati kasutama uusi meetodeid, mis võimaldasid saavutada täpsemaid tulemusi - dünaamiline programmeerimismeetod ja lineaarne ennustamismeetod (Linear Predictive Coding - LPC). Eelnimetatud firma Bell Laboratories lõi süsteeme just neid meetodeid kasutades. 80ndatel oli järgmine samm hääletuvastussüsteemide arendamises varjatud Markovi mudelite (HMM) kasutamine. Sel ajal hakkasid ilmuma esimesed suured hääletuvastusprogrammid, näiteks Kurzweili tekst kõneks muutmine. 80ndate lõpus hakati kasutama ka tehisnärvivõrkude (Artificial Neural Network – ANN) meetodeid. 1987. aastal ilmusid turule Worlds of Wonderi Julie nukud, mis suutsid hääli mõista. Ja 10 aastat hiljem andis Dragon Systems välja programmi "NaturallySpeaking 1.0".

    Töökindlus

    Peamised hääletuvastusvigade allikad on:

    Eraldi probleemiliigina võib eristada sootuvastust, mida lahendatakse üsna edukalt - suurte lähteandmetega määratakse sugu peaaegu vigadeta ning lühikestes lõikudes nagu näiteks rõhutatud vokaaliheli, on vea tõenäosus 5,3 meestel % ja naistel 3,1%.

    Kaaluti ka hääle jäljendamise probleemi. France Telecomi uuringud on näidanud, et professionaalne hääle jäljendamine praktiliselt ei suurenda identiteedivea tõenäosust – jäljendajad võltsivad häält ainult väliselt, rõhutades kõne iseärasusi, kuid ei suuda võltsida hääle põhijooni. Isegi lähisugulaste, kaksikute häältes on erinevus, vähemalt kontrolli dünaamikas. Kuid arvutitehnoloogia arenguga on tekkinud uus probleem, mis nõuab uute analüüsimeetodite kasutamist - hääle teisendus, mis suurendab vea tõenäosust 50% -ni.

    Süsteemi usaldusväärsuse kirjeldamiseks kasutatakse kahte kriteeriumi: FRR (False Rejection Rate) - vale juurdepääsukeelu tõenäosus (esimest tüüpi viga) ja FAR (False Acceptance Rate) - vale lubamise tõenäosus. kui süsteem tuvastab ekslikult võõra inimese enda omaks (teise tüübi viga) . Mõnikord iseloomustab tuvastussüsteeme ka selline parameeter nagu EER (võrdne veamäär), mis tähistab FRR-i ja FAR-i tõenäosuste kokkulangemise punkti. Mida usaldusväärsem on süsteem, seda madalam on selle EER.

    Erinevate biomeetriliste meetodite identifitseerimisvea väärtused

    Rakendus

    Tunnustamise võib jagada kaheks põhivaldkonnaks: tuvastamine ja kontrollimine. Esimesel juhul peab süsteem kasutaja iseseisvalt hääle järgi tuvastama; teisel juhul peab süsteem kasutaja esitatud identifikaatori kinnitama või ümber lükkama. Uuritava kõneleja määramine seisneb häälemudelite paaripõhises võrdlemises, mis arvestavad iga kõneleja individuaalseid kõneomadusi. Seega peame kõigepealt koguma üsna suure andmebaasi. Ja selle võrdluse tulemuste põhjal saab koostada loendi fonogrammidest, mis on teatud tõenäosusega meid huvitava kasutaja kõne.

    Kuigi hääletuvastus ei saa garanteerida 100% õiget tulemust, saab seda üsna tõhusalt kasutada sellistes valdkondades nagu kohtuekspertiisi ja kohtuekspertiisi; luureteenistus; terrorismivastane jälgimine; ohutus; pangandus ja nii edasi.

    Analüüs

    Kogu kõnesignaali töötlemise protsessi võib jagada mitmeks põhietapiks:

    • signaali eeltöötlus;
    • esiletõstmise kriteeriumid;
    • kõlarite tuvastamine.

    Iga etapp esindab algoritmi või mõnda algoritmide komplekti, mis lõpuks annab nõutava tulemuse.

    Hääle põhitunnused moodustavad kolm põhiomadust: häälekurdude vibratsiooni mehaanika, hääletrakti anatoomia ja artikulatsiooni juhtimissüsteem. Lisaks on mõnikord võimalik kasutada kõneleja sõnaraamatut, tema kõnekujundeid. Peamised tunnused, mille järgi otsustatakse kõneleja isiksuse kohta, kujunevad, võttes arvesse kõneloome protsessi kõiki tegureid: hääleallikat, hääletrakti resonantssagedusi ja nende sumbumist, samuti artikulatsiooni dünaamikat. kontroll. Kui vaadelda allikaid lähemalt, siis kõneallika omaduste hulka kuuluvad: põhitooni keskmine sagedus, põhisageduse kontuur ja kõikumised ning ergutusimpulsi kuju. Hääletrakti spektraalseid omadusi kirjeldavad spektri mähisjoon ja selle keskmine kalle, formantsagedused, pikaajaline spekter ehk cepstrum. Lisaks võetakse arvesse ka sõnade kestus, rütm (stressi jaotus), signaali tase, sagedus ja pauside kestus. Nende tunnuste määramiseks on vaja kasutada üsna keerulisi algoritme, kuid kuna näiteks formantsageduste viga on üsna suur, siis lineaarse ennustusmeetodiga leitud spektri mähisjoonest arvutatud cepstrumi koefitsiendid või hääletrakti ülekandefunktsioon kasutatakse selle lihtsustamiseks. Lisaks mainitud cepstrumi koefitsientidele kasutatakse ka nende esimest ja teist ajavahet. Seda meetodit pakuti esmakordselt välja Davise ja Mermelsteini töödes.

    Tsepstraalanalüüs

    Hääletuvastuse töödes on kõige populaarsem meetod kõnesignaalide spektri tsestraalne teisendamine. Meetodi skeem on järgmine: ajavahemikul 10–20 ms arvutatakse voolu võimsusspekter, seejärel rakendatakse selle spektri (cepstrum) logaritmi Fourier' pöördteisendus ja leitakse koefitsiendid: c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta ))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi )(\Theta )),\Theta)- kõnesignaali spektri kõrgeim sagedus, ∣ S (j , ω , t) ∣ 2 (\displaystyle (\mid S(j,\omega ,t)\mid )^(2))- võimsusspekter. Tsestraalkoefitsientide arv n sõltub nõutavast spektri silumisest ja jääb vahemikku 20 kuni 40. Kui kasutatakse ribapääsfiltrite kammi, arvutatakse diskreetsed tsestraalteisenduskoefitsiendid järgmiselt. c n = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1) (2)))))), kus Y(m) on m-nda filtri väljundsignaal, c n (\displaystyle c_(n))- n-s cepstrumi koefitsient.

    Kuulmisomadusi võetakse arvesse mittelineaarse sagedusskaala teisenduse kaudu, tavaliselt kriidi skaalal. See skaala on moodustatud nn kriitiliste ribade olemasolu põhjal kuulmises, nii et mis tahes sagedusega signaalid kriitilises ribas on eristamatud. Kriidi skaala arvutatakse järgmiselt M (f) = 1125 ln⁡ (1 + f 700) (\displaystyle M(f) = 1125\ln ((1+(\frac (f)(700))))), kus f on sagedus hertsides, M on sagedus kriidis. Või kasutatakse teist skaalat - koor, nii et kahe sageduse vahe, mis on võrdne kriitilise ribaga, on 1 koor. Sagedus B arvutatakse järgmiselt B = 13 a r c t g (0 . 00076 f) + 3, 5 a r c t g f 7500 (\displaystyle B=13\operaatorinimi (arctg((0,00076f))) +3,5\operaatorinimi (arctg(\frac (f))))(7500 ). Leitud koefitsiente nimetatakse kirjanduses mõnikord MFCC-ks – Mel Frequiency Cepstral Coefficients. Nende arv jääb vahemikku 10 kuni 30. Tsestraalkoefitsientide esimese ja teise ajaerinevuste kasutamine kolmekordistab otsustusruumi mõõtme, kuid parandab kõneleja tuvastamise efektiivsust.

    Cepstrum kirjeldab signaali spektri mähisjoone kuju, mida mõjutavad nii ergastusallika omadused kui ka hääletrakti omadused. Katsed on näidanud, et spektri mähisjoonel on tugev mõju hääletuvastusele. Seetõttu on erinevate meetodite kasutamine spektri mähisjoone analüüsimiseks hääletuvastuse eesmärgil üsna õigustatud.

    meetodid

    GMM-meetod tuleneb teoreemist, et mis tahes tõenäosustiheduse funktsiooni saab esitada normaaljaotuste kaalutud summana:

    P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j) )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda)- kõlari mudel k - mudeli komponentide arv; ω j (\displaystyle (\omega _(j)))- komponentide kaalud on sellised, et ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ , Θ j) (\displaystyle \phi (\chi ,\Theta _(j)))- mitmemõõtmelise argumendi jaotusfunktsioon χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ , Θ j) = p (χ ∣ μ j , R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − μ j) T R j − 1 (χ − μ j) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)(((2\) pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2)))\exp (\frac (-1(\chi -\ mu _(j))^(T)R_(j)^(-1)(\chi -\mu _(j)))(2))), ω j (\displaystyle \omega _(j))- selle kaal, k - komponentide arv segus. Siin on n funktsiooniruumi mõõde, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- segu j-nda komponendi matemaatilise ootuse vektor, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\ korda n))- kovariatsioonimaatriks.

    Väga sageli kasutavad selle mudeliga süsteemid diagonaalset kovariatsioonimaatriksit. Seda saab kasutada kõigi mudeli komponentide või isegi kõigi mudelite jaoks. Kovariatsioonimaatriksi, kaalude, keskmiste vektorite leidmiseks kasutatakse sageli EM-algoritmi. Sisendis on vektorite X = (x 1 , . . . , x T ) treeningjada. Mudeli parameetrid lähtestatakse algväärtustega ja seejärel hinnatakse parameetreid uuesti iga algoritmi iteratsiooni korral. Algparameetrite määramiseks kasutatakse tavaliselt klasterdamisalgoritmi, näiteks K-keskmiste algoritmi. Pärast seda, kui treeningvektorite komplekt on jagatud M-klastriks, saab mudeli parameetrid määrata järgmiselt: algväärtused μ j (\displaystyle \mu _(j)) langevad kokku klastrite keskpunktidega, kovariatsioonimaatriksid arvutatakse antud klastris sisalduvate vektorite põhjal, komponentide kaalud määratakse antud klastri vektorite osakaaluga treeningvektorite koguarvust.

    Parameetrite ümberhindamine toimub järgmiste valemite järgi:

    GMM-i võib nimetada ka vektorkvantimise meetodi (tsentroidmeetodi) jätkuks. See loob koodiraamatu funktsiooniruumi mitteühendatud piirkondade jaoks (kasutades sageli K-keskmiste klasterdamist). Vektori kvantimine on kontekstist sõltumatute tuvastamissüsteemide lihtsaim mudel.

    Tugivektori masin (SVM) ehitab mitmemõõtmelisse ruumi hüpertasandi, mis eraldab kaks klassi - sihtkõlari parameetrid ja kõlarite parameetrid võrdlusalusest. Hüpertasapind arvutatakse spetsiaalsel viisil valitud tugivektorite abil. Mõõdetud parameetrite ruumi mittelineaarne teisendamine kõrgema mõõtmega tunnuste ruumiks viiakse läbi, kuna eralduspind ei pruugi vastata hüpertasandile. Eralduspind hüpertasandil konstrueeritakse tugivektormasina meetodil, kui uue tunnusruumi lineaarse eraldatavuse tingimus on täidetud. Seega sõltub SMM-i kasutamise edu igal konkreetsel juhul valitud mittelineaarsest teisendusest. Tugivektori masinat kasutatakse sageli koos GMM- või HMM-meetodiga. Tavaliselt sobivad mõne sekundi pikkuste lühikeste fraaside puhul foneemist sõltuvad HMM-id paremini kontekstist sõltuva lähenemisviisi jaoks.

    Populaarsus

    New Yorgis asuva konsultatsioonifirma International Biometric Group andmetel on kõige levinum tehnoloogia sõrmejälgede skaneerimine. Märgitakse, et biomeetriliste seadmete müügist saadavast 127 miljoni dollari suurusest tulust 44% pärineb sõrmejäljeskanneritest. Näotuvastussüsteemid on nõudluse poolest teisel kohal (14%), järgnevad peopesakuju tuvastamise seadmed (13%), hääletuvastus (10%) ja vikerkesta tuvastamine (8%). Allkirjade kontrollimise seadmed moodustavad sellest loendist 2%. Mõned tuntumad tootjad hääle biomeetria turul on Nuance Communications, SpeechWorks, VeriVoice.

    2016. aasta veebruaris avaldas The Telegraph artikli, milles teatati, et Briti panga HSBC kliendid saavad häältuvastuse abil kontodele juurde pääseda ja tehinguid teha. Üleminek pidi toimuma suve alguses

    Inimest on alati köitnud idee juhtida masinat loomuliku keele abil. Võib-olla on see osaliselt tingitud inimese soovist olla masinast ÜLAL. Nii-öelda üleolekut tunda. Kuid peamine sõnum on lihtsustada inimeste suhtlemist tehisintellektiga. Hääljuhtimist on Linuxis rakendatud vahelduva eduga peaaegu veerand sajandit. Uurime probleemi ja proovime jõuda oma operatsioonisüsteemile võimalikult lähedale.

    Asja tuum

    Inimhäälega töötamise süsteemid Linuxi jaoks on olemas olnud juba pikka aega ja neid on väga palju. Kuid mitte kõik neist ei töötle vene kõnet õigesti. Mõned neist jätsid arendajad täielikult maha. Ülevaate esimeses osas räägime otse kõnetuvastussüsteemidest ja hääleassistentidest ning teises vaatleme konkreetseid näiteid nende kasutamisest Linuxi töölaual.

    Tuleb teha vahet kõnetuvastussüsteemidel endil (kõne tõlkimine tekstiks või käskudeks), nagu näiteks CMU Sphinx, Julius, aga ka nendel kahel mootoril põhinevad rakendused ja populaarseks saanud hääleabilised nutitelefonide ja tahvelarvutite arendamisega. See on pigem kõnetuvastussüsteemide, nende edasiarendamise ja kõigi edukate hääletuvastuse ideede elluviimise, praktikas rakendamise kõrvalprodukt. Linuxi lauaarvutite jaoks on neid veel vähe.

    Peate mõistma, et kõnetuvastusmootor ja selle liides on kaks erinevat asja. See on Linuxi arhitektuuri põhiprintsiip – keerulise mehhanismi jagamine lihtsamateks komponentideks. Kõige raskem töö langeb mootorite õlgadele. Tavaliselt on see igav konsooliprogramm, mis töötab kasutajale märkamatult. Kasutaja suhtleb peamiselt liideseprogrammiga. Liidese loomine pole keeruline, seetõttu keskenduvad arendajad oma põhilised jõupingutused avatud lähtekoodiga kõnetuvastusmootorite arendamisele.

    Mis juhtus enne

    Ajalooliselt arenesid kõik Linuxi kõnetöötlussüsteemid aeglaselt ja hüppeliselt. Põhjuseks pole arendajate vildakus, vaid arenduskeskkonda sisenemise kõrge tase. Süsteemikoodi kirjutamine häälega töötamiseks nõuab kõrgelt kvalifitseeritud programmeerijat. Seetõttu on enne Linuxi kõnesüsteemide mõistmist vaja teha lühike ekskursioon ajalukku. IBMil oli kunagi selline imeline operatsioonisüsteem – OS/2 Warp (Merlin). See ilmus 1996. aasta septembris. Lisaks asjaolule, et sellel oli ilmselgeid eeliseid kõigi teiste operatsioonisüsteemide ees, oli OS/2 varustatud väga arenenud kõnetuvastussüsteemiga – IBM ViaVoice. Selle aja kohta oli see väga lahe, arvestades, et OS töötas süsteemides 486 protsessoriga ja 8 MB RAM-iga (!).

    Nagu teate, kaotas OS/2 lahingu Windowsile, kuid paljud selle komponendid eksisteerisid jätkuvalt iseseisvalt. Üks neist komponentidest oli seesama IBM ViaVoice, mis muutus iseseisvaks tooteks. Kuna IBM on alati Linuxit armastanud, kanti ViaVoice sellesse operatsioonisüsteemi, mis andis Linus Torvaldsi vaimusünnituse oma aja kõige arenenuma kõnetuvastussüsteemi.

    Kahjuks ei kujunenud ViaVoice’i saatus nii, nagu Linuxi kasutajad oleks soovinud. Mootorit ennast jagati tasuta, kuid selle allikad jäid suletuks. 2003. aastal müüs IBM tehnoloogia õigused Kanada-Ameerika ettevõttele Nuance. Nuance, mis arendas välja võib-olla edukaima kommertskõnetuvastustoote – Dragon Naturally Speeking, on tänaseni elus. See on peaaegu lõppenud Linuxi ViaVoice'i kuulsusetu ajalooga. Lühikese aja jooksul, mil ViaVoice oli tasuta ja Linuxi kasutajatele kättesaadav, töötati selle jaoks välja mitu liidest, näiteks Xvoice. Projekt on aga juba ammu maha jäetud ja nüüdseks on see praktiliselt kasutuskõlbmatu.

    INFO

    Masinkõnetuvastuse kõige keerulisem osa on loomulik inimkeel.

    Mis täna?

    Täna on kõik palju parem. Viimastel aastatel, pärast Google Voice API allikate avastamist, on olukord kõnetuvastussüsteemide arendamisega Linuxis oluliselt paranenud ja äratundmise kvaliteet tõusnud. Näiteks Google Voice API-l põhinev Linux Speech Recognition projekt näitab vene keele jaoks väga häid tulemusi. Kõik mootorid töötavad ligikaudu ühtemoodi: esiteks siseneb kasutaja seadme mikrofoni heli tuvastussüsteemi, misjärel töödeldakse häält kohalikus seadmes või saadetakse salvestus edasiseks töötlemiseks kaugserverisse. Teine võimalus sobib rohkem nutitelefonidele või tahvelarvutitele. Tegelikult töötavad kommertsmootorid täpselt nii – Siri, Google Now ja Cortana.

    Inimhäälega töötamiseks mõeldud mootorite hulgast on mitu praegu aktiivset.

    HOIATUS

    Paljude kirjeldatud kõnetuvastussüsteemide installimine on mittetriviaalne ülesanne!

    CMU sfinks

    Suur osa CMU Sphinxi arendamisest toimub Carnegie Melloni ülikoolis. Erinevatel aegadel töötasid projekti kallal nii Massachusettsi Tehnoloogiainstituut kui ka nüüdseks surnud korporatsioon Sun Microsystems. Mootori allikaid levitatakse BSD litsentsi alusel ja need on saadaval nii äriliseks kui ka mitteäriliseks kasutamiseks. Sphinx ei ole kohandatud rakendus, vaid pigem tööriistade komplekt, mida saab kasutada lõppkasutaja rakenduste arendamiseks. Sphinx on praegu suurim kõnetuvastusprojekt. See koosneb mitmest osast:

    • Pocketsphinx on väike kiire programm, mis töötleb heli, akustilisi mudeleid, grammatikat ja sõnaraamatuid;
    • Sphinxbase'i teek, mis on vajalik Pocketsphinxi töötamiseks;
    • Sphinx4 – tegelik äratundmisteek;
    • Sphinxtrain on programm akustiliste mudelite (inimhääle salvestiste) treenimiseks.

    Projekt areneb aeglaselt, kuid kindlalt. Ja mis kõige tähtsam, seda saab praktikas kasutada. Ja mitte ainult arvutites, vaid ka mobiilseadmetes. Lisaks töötab mootor väga hästi venekeelse kõnega. Kui teil on sirged käed ja selge pea, saate kodumasinate või nutika kodu juhtimiseks seadistada Sfinksi abil vene keele kõnetuvastuse. Tegelikult saab tavalisest korterist teha targa kodu, mida me selle ülevaate teises osas ka teeme. Sphinxi rakendused on saadaval Androidi, iOS-i ja isegi Windows Phone'i jaoks. Erinevalt pilvemeetodist, kui kõnetuvastuse töö langeb Google ASR-i või Yandex SpeechKiti serverite õlule, töötab Sphinx täpsemalt, kiiremini ja odavamalt. Ja täiesti kohalik. Soovi korral saate õpetada Sphinxile vene keele mudelit ja kasutajapäringute grammatikat. Jah, installimise ajal peate natuke tööd tegema. Nii nagu Sphinxi häälemudelite ja teekide seadistamine pole algajatele mõeldud tegevus. Kuna CMU Sphinxi tuum, Sphinx4 teek, on kirjutatud Java keeles, saate selle koodi oma kõnetuvastusrakendustesse lisada. Konkreetseid kasutusnäiteid kirjeldatakse meie ülevaate teises osas.

    VoxForge

    Eraldi tõstkem esile kõnekorpuse mõiste. Kõnekorpus on kõnefragmentide struktureeritud kogum, mis on varustatud korpuse üksikutele elementidele juurdepääsu võimaldava tarkvaraga. Teisisõnu, see on inimhäälte kogum erinevates keeltes. Ilma kõnekorpuseta ei saa toimida ükski kõnetuvastussüsteem. Kvaliteetset avatud kõnekorpust on keeruline luua üksi või isegi väikese meeskonnaga, seetõttu on inimhäälte salvestiste kogumine eriprojekt - VoxForge.

    Igaüks, kellel on juurdepääs Internetile, saab kõnekorpuse loomisele kaasa aidata, lihtsalt salvestades ja esitades kõnefragmendi. Seda saab teha kasvõi telefoni teel, kuid kodulehte on mugavam kasutada. Loomulikult peab kõnekorpus sisaldama lisaks helisalvestisele endale lisateavet, näiteks foneetiline transkriptsioon. Ilma selleta on kõne salvestamine tuvastussüsteemi jaoks mõttetu.


    HTK, Julius ja Simon

    HTK – Hidden Markovi Model Toolkit on varjatud Markovi mudelite abil kõnetuvastustööriistade uurimise ja arendamise tööriistakomplekt, mis töötati välja Cambridge'i ülikoolis Microsofti patrooni all (Microsoft ostis selle koodi kunagi kommertsettevõttelt Entropic Cambridge Research Laboratory Ltd. seejärel tagastas selle Cambridge'i koos piirava litsentsiga). Projekti allikad on kõigile kättesaadavad, kuid HTK koodi kasutamine lõppkasutajatele mõeldud toodetes on litsentsiga keelatud.

    See aga ei tähenda, et HTK oleks Linuxi arendajate jaoks kasutu: seda saab kasutada abivahendina avatud lähtekoodiga (ja kaubanduslike) kõnetuvastustööriistade väljatöötamisel, mida teevad ka avatud lähtekoodiga Juliuse mootori arendajad, mis on arendatakse Jaapanis, tehke. Julius töötab kõige paremini jaapani keelega. Suurest ja võimsast ei jää ka ilma, sest sedasama VoxForge’i kasutatakse hääleandmebaasina.

    Jätkamine on saadaval ainult liikmetele

    Valik 1. Liituge saidi kogukonnaga, et lugeda kõiki saidil olevaid materjale

    Kogukonna liikmelisus määratud perioodi jooksul annab teile juurdepääsu KÕIGILE häkkerite materjalidele, suurendab teie isiklikku kumulatiivset allahindlust ja võimaldab teil koguda professionaalset Xakep Score'i reitingut!