Nápady a objevy

16. února 2017

Poznají, kdo na nahrávkách mluví. Jejich aplikace pořizují tajné služby i úvěrové společnosti

Podle Černockého se počet členů neustále mění. Na projektu se totiž často přijíždí podílet doktorandi ze světa | Autor: speech.fit.vutbr.cz

Před více než dvaceti lety vznikla na VUT skupina BUT Speech@FIT, která dnes spolupracuje na projektech na rozpoznávání řeči i pro americkou vládu. U jejího zrodu stál Jan Černocký z Fakulty informačních technologií VUT, který skupinu dodnes vede. Přiznává, že začátky byly poměrně náročné a úspěch v oboru si museli tvrdě odpracovat. Ani dnes, kdy pracují na prestižních světových projektech, nemůžou na chvíli polevit. Například Američané totiž týmy průběžně hodnotí a ty nejslabší jednoduše vyřadí.

Jan Černocký začínal svou výzkumnou dráhu původně na Fakultě elektrotechniky a informatiky VUT. Ještě jako doktorand získal práci v nově vzniklé laboratoři zpracování signálů, založené profesorem Šebestou, kde se věnoval především zpracování řeči. „Tehdy jsme ale opravdu začínali a zpětně viděno to bylo občas spíš hraní než seriózní výzkum,“ upozornil Černocký. Díky studiu v Paříži se mu ale po dokončení doktorátu podařilo navázat spolupráci s francouzskými kolegy, kteří český tým následně přizvali do prvního evropského projektu Speechdat East. Po založení Fakulty informačních technologií se se vznikající skupinou připojil k nově vzniklému Ústavu počítačové grafiky a multimédií.

Druhým zlomovým bodem bylo podle Černockého setkání s Hynkem Heřmanským, který platí za jednu ze světových hvězd zpracování řeči a který dlouhodobě působil na amerických univerzitách. Díky Heřmanskému se mladí čeští výzkumníci dostali na stáže do USA a prošli několika významnými projekty. „Ze začátku jsme opravdu často nevěděli, která bije. Neustále jsme ale někam jezdili a učili se, takže jsme se postupně zlepšovali,“ dodal Černocký.

V roce 2005 pak všechny tyto zkušenosti zúročili v mezinárodní evaluaci systémů pro rozpoznávání jazyka, kde jako zcela neznámá skupina překvapili nejlepšími výsledky. „Všichni se tehdy najednou začali zajímat o to, kde je Brno, a co je to BUT,“ popsal Černocký. O rok později tento úspěch zopakovali v rozpoznávání mluvčího, čímž definitivně potvrdili své místo v elitních světových kruzích v oboru. „Dostali jsme se díky tomu i do projektů financovaných americkou vládou. Ty platí za velmi ostré, protože jsou průběžně hodnocené, a týmy s nejslabšími výsledky jsou prostě vyřazeny,“ upozornil Černocký s tím, že jeho týmu se zatím nikdy nestalo, že by projekt nedokončil. Vloni navíc získal Speech@FIT cenu Technologické agentury ČR za užitečnost svých řešení a členka týmu Kateřina Žmolíková obdržela za svůj výzkum ocenění v rámci Brno PhD Talent. 

Skupina dlouhodobě vyvíjí systémy na rozpoznávání řeči | Autor: speech.fit.vutbr.cz

Proto, aby mohli výzkumníci zúročit poznatky svého zkoumání v praktickém životě, založili navíc před více než deseti lety společnost Phonexia. „Potřeba firmy vznikla v momentu, kdy jsme navázali spolupráci s českým ministerstvem obrany. Kolegové z vojska se s námi rádi bavili o výzkumu, ale chtěli produkční technologie, a ty jsme jim z VUT nebyli schopni dodat,“ vysvětlil Černocký.

Produkty, které dodávají, umí podle Černockého doslova dolovat informace z řeči. „Když to mám jednoduše popsat, tak nám přijde nahrávka, která nebyla nachystaná na rozpoznávání počítačem. My se z ní následně snažíme dostat co nejvíc informací. V momentu, kdy máme dva mluvčí, snažíme se určit, kdy mluvil který. Kdy bylo ticho a kdy se mluvilo. Což zní jako snadná věc, ale když nám přijdou nahrávky z vysílaček, kde to šumí a praská, není to banální práce,“ popsal Černocký.

Výzkumníci umí dolovat i obsah řeči. „Znamená to rozhovor doslovně přepsat. Jen data, která dostáváme, jsou o řád horší než třeba ta z médií. Je tam spousta nedokončených vět, vulgarit, vad řeči či dialektů. S tím vším se musíme vypořádat,“ dodal Černocký.

Tajné služby se umí díky řečovým technologiím rychleji prokousat množstvím řeči a najít to, co potřebují. Banky a úvěrové firmy zase mohou zjistit, zda se někdo nesnaží půjčovat si peníze pod několika falešnými jmény. Podle Černockého totiž ani změna hlasu dnes už systémy neošálí.

(zep)

TémataFakulta informačních technologií Speech@FIT Řeč