Před více než dvaceti lety vznikla na VUT skupina BUT Speech@FIT, která dnes spolupracuje na projektech na rozpoznávání řeči i pro americkou vládu. U jejího zrodu stál Jan Černocký z Fakulty informačních technologií VUT, který skupinu dodnes vede. Přiznává, že začátky byly poměrně náročné a úspěch v oboru si museli tvrdě odpracovat. Ani dnes, kdy pracují na prestižních světových projektech, nemůžou na chvíli polevit. Například Američané totiž týmy průběžně hodnotí a ty nejslabší jednoduše vyřadí.
Jan Černocký začínal svou výzkumnou dráhu původně na Fakultě elektrotechniky a informatiky VUT. Ještě jako doktorand získal práci v nově vzniklé laboratoři zpracování signálů, založené profesorem Šebestou, kde se věnoval především zpracování řeči. „Tehdy jsme ale opravdu začínali a zpětně viděno to bylo občas spíš hraní než seriózní výzkum,“ upozornil Černocký. Díky studiu v Paříži se mu ale po dokončení doktorátu podařilo navázat spolupráci s francouzskými kolegy, kteří český tým následně přizvali do prvního evropského projektu Speechdat East. Po založení Fakulty informačních technologií se se vznikající skupinou připojil k nově vzniklému Ústavu počítačové grafiky a multimédií.
Druhým zlomovým bodem bylo podle Černockého setkání s Hynkem Heřmanským, který platí za jednu ze světových hvězd zpracování řeči a který dlouhodobě působil na amerických univerzitách. Díky Heřmanskému se mladí čeští výzkumníci dostali na stáže do USA a prošli několika významnými projekty. „Ze začátku jsme opravdu často nevěděli, která bije. Neustále jsme ale někam jezdili a učili se, takže jsme se postupně zlepšovali,“ dodal Černocký.
V roce 2005 pak všechny tyto zkušenosti zúročili v mezinárodní evaluaci systémů pro rozpoznávání jazyka, kde jako zcela neznámá skupina překvapili nejlepšími výsledky. „Všichni se tehdy najednou začali zajímat o to, kde je Brno, a co je to BUT,“ popsal Černocký. O rok později tento úspěch zopakovali v rozpoznávání mluvčího, čímž definitivně potvrdili své místo v elitních světových kruzích v oboru. „Dostali jsme se díky tomu i do projektů financovaných americkou vládou. Ty platí za velmi ostré, protože jsou průběžně hodnocené, a týmy s nejslabšími výsledky jsou prostě vyřazeny,“ upozornil Černocký s tím, že jeho týmu se zatím nikdy nestalo, že by projekt nedokončil. Vloni navíc získal Speech@FIT cenu Technologické agentury ČR za užitečnost svých řešení a členka týmu Kateřina Žmolíková obdržela za svůj výzkum ocenění v rámci Brno PhD Talent.
Proto, aby mohli výzkumníci zúročit poznatky svého zkoumání v praktickém životě, založili navíc před více než deseti lety společnost Phonexia. „Potřeba firmy vznikla v momentu, kdy jsme navázali spolupráci s českým ministerstvem obrany. Kolegové z vojska se s námi rádi bavili o výzkumu, ale chtěli produkční technologie, a ty jsme jim z VUT nebyli schopni dodat,“ vysvětlil Černocký.
Produkty, které dodávají, umí podle Černockého doslova dolovat informace z řeči. „Když to mám jednoduše popsat, tak nám přijde nahrávka, která nebyla nachystaná na rozpoznávání počítačem. My se z ní následně snažíme dostat co nejvíc informací. V momentu, kdy máme dva mluvčí, snažíme se určit, kdy mluvil který. Kdy bylo ticho a kdy se mluvilo. Což zní jako snadná věc, ale když nám přijdou nahrávky z vysílaček, kde to šumí a praská, není to banální práce,“ popsal Černocký.
Výzkumníci umí dolovat i obsah řeči. „Znamená to rozhovor doslovně přepsat. Jen data, která dostáváme, jsou o řád horší než třeba ta z médií. Je tam spousta nedokončených vět, vulgarit, vad řeči či dialektů. S tím vším se musíme vypořádat,“ dodal Černocký.
Tajné služby se umí díky řečovým technologiím rychleji prokousat množstvím řeči a najít to, co potřebují. Banky a úvěrové firmy zase mohou zjistit, zda se někdo nesnaží půjčovat si peníze pod několika falešnými jmény. Podle Černockého totiž ani změna hlasu dnes už systémy neošálí.
(zep)