Student z FIT zkoumal deepfakes. Syntetický hlas oklamal systémy i lidi
Je možné, aby útočník vytvořil umělý hlas a díky tomu se na linkách například bank či operátorů vydával za zákazníky a sbíral citlivé informace? To zkoumal Anton Firc z Fakulty informačních technologií VUT. Oba dva biometrické systémy, které testoval, se mu podařilo prolomit, takže přijaly umělou řeč bez podezření. Ve své práci navíc zjistil, že ani lidské ucho není schopné příliš spolehlivě rozlišit, kdy mluví s člověkem a kdy s robotem. To podle něj dává prostor rozvoji takzvaných deepfakes a útoků pomocí syntetického hlasu.
Ve své diplomové práci se Anton Firc z FIT VUT rozhodl prozkoumat využitelnost takzvaných deepfakes. „Jsou to syntetická média zobrazující události, které se nikdy nestaly,” dodal Firc. Konkrétně ho pak zajímala oblast hlasových biometrií, která ještě není příliš prozkoumaná. Zajímalo ho také to, jaké dopady může mít použití těchto syntetických médií v rámci kybernetické bezpečnosti. „Původně jsem plánoval oslovit společnosti, které už biometrické systémy používají. Jsou to obvykle call centra, banky, telefonní operátoři. Chtěl jsem vyzkoušet, jak systém funguje přímo u nich. Plánoval jsem tedy otestovat, jaký dopad by mělo, kdyby si někdo „vypůjčil" něčí hlas a snažil se dostat do jeho zákaznické sekce a k jeho informacím,” popsal Anton Firc. Na straně firem se ale nesetkal příliš s pochopením, takže se nakonec musel obejít bez systémů využívaných reálně v organizacích.
Změnil tedy trochu celý postup a práci si rozdělil do tří částí. „Jedna část byla prolomení samotného biometrického systému. Aby byl pokus uskutečnitelný v našich končinách, tak jsem potřeboval, aby syntetický hlas mluvil česky. To byl úkol pro druhou část. A ve třetí části bylo důležité, aby robot dokázal vést smysluplnou konverzaci, která by nevzbudila podezření,” vysvětlil Firc, který svou diplomovou práci představil i v rámci Excel@FIT.
Podařilo se mu dostat ke dvěma biometrickým systémům a u obou došel do fáze, kdy syntetickou řeč přijaly bez podezření. „Systémy využívají dva základní způsoby ověření. Buď na základě textu, nebo pouze ověřením charakteristiky hlasu. Ukázalo se, že systémy s ověřením závislým na textu jsou bezpečnější, protože je těžší přesně reprodukovat styl, kterým člověk mluví, a trefit určité fráze, než pouze zfalšovat hlas,” upozornil Anton Firc.
V druhé části musel vytrénovat model pro syntézu řeči v češtině. Existuje totiž pouze velmi málo českých datasetů. „Výsledek nebyl tak kvalitní, jak bych si představoval, ale stačilo to k tomu, abych obelhal biometrické systémy,” podotkl Firc.
Následně pak ještě Anton Firc testoval, zda je lidské ucho na rozeznání umělého hlasu lépe vybavené než technologie. Ukázalo se však, že nikoliv. „Pustil jsem lidem vzorovou nahrávku člověka a následně měli ze tří dalších nahrávek vybrat, kde mluví daný člověk a kde mluví robot. Výsledky byly velmi smíšené a ukázalo se, že s rostoucím věkem klesala schopnost lidí rozeznat syntetické nahrávky od skutečné lidské řeči,” uvedl.
Celkovým závěrem práce tedy bylo konstatování, že útok pomocí uměle vytvořeného hlasu by byl v českých podmínkách možný. Zatím ale podle Antona Firce nejsou zdokumentované žádné podobné reálné útoky. „Buď jsou dobře utajené, nebo se to ještě nikomu nepodařilo dotáhnout do konce. Ono je hlavně stále mnohem jednodušší poslat na firmu nějaký phishingový e-mail. Zatím tedy asi ještě čas tohoto typu útoků nepřišel,” dodal Firc, podle kterého už je ale ideální doba začít tuto hrozbu zkoumat a více na ni začít upozorňovat.
I proto se tématu plánuje věnovat dál v rámci doktorského studia. „Chtěl bych znovu nakontaktovat společnosti, které systémy používají, a vyzkoušet to u nich. Plánuju se tématu věnovat aktivně jak v oblasti výzkumu, tak při návrhu řešení obrany,” uzavřel Anton Firc.