Čtyřiadvacetičlenný tým BUT Speech@FIT na Fakultě informačních technologií VUT se skládá z odborníků jedenácti národností. V jejich kancelářích se stejně často potkáte s angličtinou jako s češtinou. A právě to, co na první pohled může výzkumníky rozdělovat, je všechny spojuje - společná vášeň pro řeč a jazyky ve všech jejich podobách.
Callcentra, psychologové i tajné služby - to všechno jsou "zákazníci" takzvaných řečařů z FIT. "Zabýváme se dolováním dat z řeči. Někdo by o nás řekl, že se věnujeme rozpoznávání řeči, ale to docela zužuje náš záběr. Jednoduše se z ní snažíme získat maximum možných dat," otevírá téma šéf výzkumné skupiny Jan Černocký. V kanceláři světové kapacity leží na stole klarinet, nepřeberné množství dokumentů a u dveří stojí opřená koloběžka. Na té se ještě před chvílí Černocký proháněl po chodbě ústavu, aby k rozhovoru přizval jednoho ze svých kolegů.
"Zpracování řeči se v poslední době hodně přiblížilo zpracování přirozeného jazyka. Tím se zabývá třeba tady Santosh, který je jednou nohou v oblasti řeči a druhou v oblasti textu," plynule předává slovo dalšímu členovi výzkumné skupiny. Santosh Kesiraju přišel na FIT už před osmi lety. Bavíme se spolu všichni anglicky, ale řečařům, jak mě s postupujícím časem stále více přesvědčují, na konkrétním jazyku záleží jen málo.
Kolik jazyků umíš, na tom vůbec nezáleží
"Dám vám příklad. Někde ve světě se stane neštěstí a je to například v oblasti, kde mluví lidé somálsky nebo bengálsky, tedy jazyky, ke kterým nejsou k dispozici jazykové technologie. Potřebujete zjistit, co se tam děje a jestli potřebují pomoc," přibližuje jeden ze svých projektů Kesiraju. Zdrojem dat jsou například místní televizní zprávy, které je potřeba automaticky přeložit třeba do angličtiny. A ideálně velmi rychle. "Teď pracuji na překladu řeči do textu. Tedy že člověk mluví v jednom jazyce, ale text je už v jiném jazyce. Dá se to využít třeba jako automatické titulkování nejen u filmů," pokračuje Santosh Kesiraju.
Soustředí se především na překlady jazyků, které mají pouze málo písemných záznamů, nebo dokonce vůbec žádné. Kesiraju nadšeně vysvětluje: "Jeden z nich je třeba tamašek, kterým mluví v severní Africe asi milion lidí. Lingvistům se podařilo přeložit některé z nahrávek tamních zpráv do francouzštiny. Takže máme mluvený projev v jazyce tamašek a psaný překlad ve francouzštině, a přitom nevíme, jak vypadá zápis v původním jazyce." Nevznikne tím perfektní překlad, ale obecné informace a téma rozhovoru je možné získat bez větších problémů.
Jak jsme si hráli na drogové dealery
Obecně lze říct, že brněnští výzkumníci dokážou z dostupných nahrávek zjistit, co si usmyslí. "Umíme identifikovat jazyk, konkrétního mluvčího a částečně stres. V jednom z našich projektů se spolu s psychoterapeuty snažíme o vývoj technologií, které zlepší kvalitu psychoterapeutických sezení," jmenuje pár příkladů Jan Černocký a o posledním zmíněném se víc rozpovídá: "Dobrý terapeut se chce zlepšovat. Někdy nahrávku sezení analyzuje mentor, který zjišťuje, kdo víc mluví, jestli sezení plyne, jestli se objevují nějaké problémy. Většinou ale tyhle úkoly připadají přímo na terapeuta a je těžké plnit dobře i roli analytika." Projekt DeePsy vzniká ve spolupráci s psychoterapeuty z Masarykovy univerzity.
O práci brněnských řečařů se rozhodně nedá říct, že by končila v šuplíku. Díky spolupráci s univerzitami, zpravodajskými službami nebo dispečery letového provozu se algoritmy z VUT skutečně používají a pomáhají. Když je navíc práce i zábavou, člověk pochopí, na čem stojí mezinárodní úspěch skupiny BUT Speech@FIT. Jan Černocký potvrzuje: "Jsme v projektu Roxanne, což je velký evropský bezpečnostní projekt, který se snaží propojit zpracování řeči a analýzu kriminálních sítí. V něm se snažíme odhalit vzorce chování, na jejichž základě spolu tito lidé komunikují. Spolupracují s námi i reální policisté, ale protože nemáme přístup k "horkým" kauzám a datům, museli jsme si data sami vytvořit. Hráli jsme si na drogové dealery a volali si v různých jazycích."
V současnosti pracují výzkumníci také na zjednodušení přijímání hovorů na tísňové lince 112, které by pomohlo operačním pracovníkům například při hromadných neštěstích a zahlcení telefonáty. Další rozpracovaný projekt má za cíl zjednodušit komunikaci mezi dispečery letového provozu a piloty. Informatici z brněnské techniky za sebou mají i projekt dolování informací z hlasů lidí volajících do callcenter. A pokračovat by se dalo donekonečna.
"Haló, kdo volá? A jste člověk?"
"Nebojím se, že by si nás umělá inteligence zotročila nebo na nás začali roboti střílet, ale deepfakes jsou už teď velmi reálné a bude to čím dál tím horší," zvážní Jan Černocký při dotazu na téma umělé inteligence a syntetických hlasů. Každý si dnes může nejen vytvořit robota mluvícího jeho hlasem, ale díky obrovskému množství nahrávek a dat velmi jednoduše napodobí téměř jakoukoliv veřejně působící osobnost. Řečaři tedy ve spolupráci s odborníky na počítačovou bezpečnost ze sousedního ústavu podali návrh projektu, který by měl pomoci ověřit, kdo skutečně mluví a zda se jedná o člověka, nebo uměle vytvořený hlas.
"Už teď je kvalita deepfakes velmi dobrá a bude lepší. Nástroje bude mít volně dostupné každý, takže se dá očekávat, že vzroste i kriminalita páchaná tímto způsobem. Starší lidé budou velmi zranitelní, a nejen oni. Dnes už víme, jak vypadá spam v e-mailu nebo v poštovní schránce, ale pokud vám někdo zavolá z vám známého čísla - to už se dá udělat dnes - a bude mluvit hlasem vašeho blízkého, bude moci napáchat hodně špatných věcí."
Jaké další oblasti jsou ještě pro vědce ve zpracování řeči výzvou? Podle Santoshe Kesirajua je to určení emocí: "Je velmi těžké je rozpoznat jen na základě hlasu. Když se třeba člověk směje, nemůžeme s jistotou říct, že je šťastný nebo nadšený. Můžeme říct, že se jedná o spíše pozitivní emoci, někdy ale může jít o smích ze stresu." A Jan Černocký přikyvuje: "Jak chcete po počítači, aby podle hlasu poznal, jak se člověk cítí, když se na tom nedokážeme shodnout ani my lidé?"
Zdroj: Události na VUT 04/2022-2023