Je budoucnost hlasových biometrických systémů ohrožena? S nástupem deepfakes se otevírá nová kapitola hrozeb počítačové bezpečnosti a útoků na systémy pro rozpoznávání hlasu. Jak se vypořádat s tímto fenoménem?
deepfake syntetický hlas hlasová biometrie počítačová bezpečnost
Deepfakes jsou mezi námi již několik let, během kterých urazily dlouhou cestu od buzzwordu a nevinné zábavy až po reálnou hrozbu. Deepfakes jsou výstupem systémů umělé inteligence a strojového učení, které spojují, kombinují, nahrazují nebo překrývají multimediální obsah, a vytvářejí tak média, která vypadají autenticky. Týká se to videí, obrázků, řeči, nebo dokonce textu. Zatímco s video deepfakes se již setkáváme poměrně často, v poslední době se začala objevovat nová oblast – hlas. V tomto článku se proto budeme věnovat syntetické (deepfake) řeči a bezpečnostním dopadům, které by tato technologie mohla mít na rozpoznávání řečníků a náš každodenní život.
Syntetická hrozba
Jedním z nejvíce medializovaných útoků využívajících hlasové deepfakes je případ, kdy bylo odcizeno 35 miliónů dolarů. [1] Jedná se pouze o jeden z mnoha příkladů, které ukazují, že škodlivé používání umělých médií má mnoho praktických bezpečnostních dopadů. Mimo jiné i proto, že systémy rozpoznávání řečníků a lidé mají potíže s rozlišováním mezi skutečnou a deepfake řečí. [2]
Automatické systémy rozpoznávání řečníků mohou být syntetickou řečí snadno oklamány, protože jim chybí spolehlivé obranné mechanismy proti stále kvalitnějším deepfakes. Tato skutečnost nakonec není překvapivá, protože v přímém přenosu sledujeme závody umělé inteligence, kdy jsou nástroje pro syntézu řeči vyvíjeny a trénovány tak, aby oklamaly rozpoznávání řečníků a přesvědčily je, že syntetická řeč pochází od stejné osoby. I lidé mají problém se správnou identifikací syntetické řeči, protože zní přirozeně. Aktuální výzkumy navíc nenaznačují žádný rozdíl v tom, jak lidský mozek zpracovává pravou a podvrženou řeč. [3] To znamená, že deepfake řeč ohrožuje stroje i lidi a s pokračujícím pokrokem výzkumu v této oblasti se hrozba bude dále zvyšovat.
Abychom plně porozuměli bezpečnostním dopadům deepfakes, je nutné pochopit celý jejich životní cyklus a parametry ovlivňující jejich kvalitu. Na Obr. 1 je znázorněn životní cyklus deepfake médií od jejich vytvoření až po využití či zneužití.
Nejprve je shromážděn tréninkový materiál ve formě videí, obrázků nebo řeči, tzv. datová sada. Následně jsou použity nástroje pro tvorbu deepfakes, které syntetizují deepfake personu (řeč, obličej nebo kombinace obojího) vybraného jedince. V současné době je k dispozici poměrně velké množství open-source nástrojů i komerčně poskytovaných služeb, což útočníkům umožňuje vytvořit syntetickou řeč i bez hlubších znalostí potřebných technologií.
K naklonování libovolného hlasu si útočník vystačí s pouhými pěti sekundami řeči. [2] Výsledek takového klonování má daleko k dokonalosti, nicméně v mnoha případech by tato kvalita pro škodlivé účely mohla postačovat. Pro vytvoření již opravdu kvalitního deepfake překvapivě stále stačí relativně malé množství dat: cca 20 minut záznamu. [4] To je objem, který není problém získat od digitálně aktivních jedinců třeba na sociálních sítích. Nicméně obecně nadále platí, že čím více nasbíraných médií, tím kvalitnější deepfake lze vytvořit. Vytvořená deepfake persona pak může být použita různými způsoby, škodlivě i prospěšně.
Pokud pomineme etické otázky, tak pro filmový průmysl by bylo jistě lákavé mít možnost dotočit scény s již nedostupným hercem nebo např. využít jeho originální hlas v dabingu do jiných jazyků. Nabízí se i aplikace v lékařství, kdy lidé, kteří nevratně přijdou o hlas, mohou znovu získat možnost promluvit se svými blízkými. Aplikace ve vzdělání zase mohou umožnit žákům si promluvit s historickou osobností.
Mezi škodlivá využití můžeme zařadit oklamání biometrických systémů (hlas, obličej), sociální inženýrství (phishing/ spear phishing, vishing), falešné zprávy, falešný marketing, pomluvy, manipulace s důkazy, boty na sociálních sítích, útoky na proces KnowYourCustomer a další. Přestože existuje řada prospěšných využití deepfakes, obáváme se, že budou převládat právě ta škodlivá.
Představené škodlivé scénáře lze ještě dále rozšířit, a pokrýt tak více vektorů útoku najednou. Ukážeme si to na podvržení autentizace mluvčího. Nedávná studie [4] zkoumala možnost provedení spoofingových útoků na hlasové biometrické systémy poskytující autentizaci. Úspěšný útok musí současně oklamat hlasový biometrický systém i lidského operátora (viz Obr. 2). Jak autoři uvádějí, žádný z testovaných hlasových biometrických systémů nebyl schopen odhalit deepfake řeč. Kvalita syntetické řeči se navíc stále zlepšuje, takže i lidé mají minimální šanci na její rozpoznání, což ještě více rozšiřuje spektrum možných vektorů útoku. Deepfakes představují nový typ hrozby, která ovlivňuje lidi i stroje; je tedy třeba se jí odpovídajícím způsobem věnovat.
Máme nějaké řešení?
Odborná komunita si je těchto hrozeb vědoma již delší dobu. Každoročně je vydávána řada vědeckých publikací o detekci deepfake řeči. Dokonce existují soutěže, které mají za cíl sdružit výzkumné pracovníky vyvíjející nejmodernější metody detekce deepfake řeči. Při čtení těchto řádků si možná myslíte, že je o vše postaráno. To je však pravda jen zčásti. Detektory deepfake řeči v současné době čelí náročným výzvám. Mezi tyto výzvy patří mimo jiné generalizace, nedostatek dat nebo neznámý typ útoku. [2, 5] Zatímco v oblasti rozpoznávání obličejů vidíme, že jsou tyto výzvy řešeny, oblast rozpoznávání mluvčích zůstává pozadu. To je nebezpečná situace, protože vývoj nástrojů pro vytváření deepfake řeči pokračuje rychlým tempem a umožňuje i méně zručným jedincům vytvářet pokročilé deepfakes.
Abychom lépe pochopili současný stav detekce deepfake řeči, musíme se hlouběji zabývat některými uvedenými výzvami. Asi nejzásadnějším problémem u detektorů deepfake řeči je v současné době generalizace. [5] I nepatrná změna vstupní nahrávky může detektor dostatečně zmást. Příkladem může být deepfake řeč vytvořená jinými nástroji, než které byly využity během tréninku detektoru. To je problém, protože trénování detektoru pomocí konkrétní sady dat způsobuje, že je v podstatě nefunkční na jiné sadě dat. Zásadním problémem se tudíž stává neznámý typ útoku, protože nevíme, na co detektory připravit.
Diskutované problémy by mohly být řešeny vhodně připravenými datovými sadami nebo jednotnou a standardizovanou metodikou pro vyhodnocení kvality a výkonnosti detektorů deepfake řeči a systémů hlasové biometrie. Další kroky by tedy měly vést k vytvoření takovéto metodiky, jinak se ocitneme ve slepé uličce, kdy jsou vyvíjena řešení s omezeným použitím v reálném světě, a zároveň nebudeme mít nástroje pro věrohodné posouzení jejich výkonnosti.
Na jednu stranu tím samozřejmě můžeme poskytnout útočníkům návod, na co si dát pozor, na druhou stranu ale získáme nástroj umožňující alespoň nějakou úroveň ochrany. Pro zachování účinnosti bude patrně potřebná také průběžná aktualizace, která bude reflektovat vývoj technologií a postupů. Nicméně i zde se máme kde inspirovat, nabízí se paralela s antivirovým řešením a průběžnou aktualizací virové databáze.
Další změna na obzoru?
Je jen otázkou času, kdy diskutované výzvy vyřešíme. Detekce deepfake řeči jistě pokročí a dostane se do reálných produktů navzdory zkouškám a útrapám, které to může přinést. Tuto oblast však mohou omezit, nebo dokonce zcela pohřbít jiné faktory – audio kodeky.
Audio kodeky se používají ke kompresi zvuku, aby se snížily nároky na úložiště nebo šířku pásma. Dekódovaný zvuk by měl být k nerozeznání od originálu a kódování a dekódování by nemělo vytvářet žádné znatelné zpoždění. Společnost Google nedávno navrhla kodeky SoundStream1 a Lyra2 . Tyto neuronové kodeky pravidelně extrahují a komprimují atributy řeči pro přenos. Přijímající strana pak používá generativní modely a atributy řeči k obnovení původního řečového signálu. [6]
Použití takových kodeků by významně ovlivnilo detekci deepfake. Co se stane, pokud začneme takové kodeky používat v telefonii? Budou všechny naše telefonní hovory označeny jako deepfake, i kdyby nebyly (protože technicky opravdu půjde o umělou rekonstrukci hlasu)? Používání takových kodeků by skutečně převrátilo detekci deepfake řeči naruby.
Hlasové biometrické systémy bohužel nejsou jediné, které jsou ohroženy deepfakes. Ohroženi jsou i lidé a možnosti jejich ohrožení se zdají být ještě propracovanější. S pokrokem v nástrojích pro tvorbu deepfake řeči se blížíme ke stavu, kdy nám deepfake zní a připadá jako pravé médium. To umožňuje provádět vishingové útoky (phishing pomocí podvrženého hlasu) a šířit falešné zprávy nebo podvody. V konečném důsledku je jen otázkou času, kdy se situace vystupňuje do bodu, kdy nebudeme moci věřit ničemu, co vidíme nebo slyšíme online, a budeme muset začít spoléhat na detektory deepfakes upozorňující nás na pravost obsahu, který digitálně konzumujeme.
Pomoc z jiných oblastí
Až dosud jsme se zabývali pouze metodami detekce deepfakes jako řešením vzniklých hrozeb. Co když ale k tomuto problému přistoupíme od samého počátku – od fáze vytváření deepfakes? Zabránění tvorbě deepfakes by tento problém vyřešilo ještě před jeho vznikem. Podobná myšlenka [7] byla nedávno navržena v oblasti rozpoznávání obličejů, a to vložením adverzních perturbací do snímků obličejů. Tato modifikace pak brání procesu extrakce markantů, a tím nakonec i tvorbě deepfakes. Obdobný přístup můžeme zkusit najít i v audio doméně. Za účelem ztížení vytváření deepfakes řeči by se do nahrávek lidské řeči mohl přidávat např. kryptografický šum. Takový šum by byl pro lidské ucho neslyšitelný, ale úspěšně by narušoval algoritmy syntézy řeči. Nakonec by bylo možné tento šum odstranit pouze se znalostí tajného klíče použitého k jeho vytvoření. Takové opatření by pak mohlo výrazně omezit možnosti útočníka a sílu syntetizátorů řeči.
Závěrečná slova
Ačkoli bychom tento příspěvek rádi zakončili optimisticky, zdá se, že nás žádná světlá budoucnost nečeká. Deepfakes jsou stále lepší a lepší a dá se očekávat, že brzy ztratíme veškerou schopnost rozeznat pravá média od těch falešných. Již nyní evidujeme zvýšený počet hlášení o incidentech, při kterých byly použity deepfakes. V roce 2021 hlásilo útoky typu vishing 69 % společností, což je nárůst oproti 54 % zaznamenaným v roce 2020. [8] Podle Quarterly Threat Trends – Intelligence Report od společností Agari a PhishLabs3 byl zaznamenán extrémní nárůst v používání vishingu v tzv. podvodech založených na reakci4 mezi I. čtvrtletím 2021 a I. čtvrtletím 2022 o téměř 550 %. Tato čísla ukazují, že útočníci si již uvědomují dopady technologie deepfake a aktivně ji využívají. Je jen otázkou času, kdy se deepfakes stanou běžnou zbraní v kybernetické válce.
Zdá se, že naší jedinou šancí bude udržet si před útočníky co největší náskok. Vznik metodiky pro vývoj a vyhodnocení odolnosti biometrických systémů specificky zaměřené na oblast deepfakes považujeme za nezbytnost. Kromě toho je zásadní zvýšit povědomí veřejnosti o deepfakes. Informovat lidi o možných formách deepfakes, jejich schopnostech a hrozbách, které představují. Bez těchto kroků hrozí riziko, že brzy ztratíme přehled o tom, co je skutečné a co falešné.
Poznámky pod čarou:
- https://ai.googleblog.com/2021/08/soundstream-end-to-end-neural-audio.html
- https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html
- https://info.phishlabs.com/quarterly-threat-trends-and-intelligence-may-2022
- Podvod spočívá v tom, že uživatel reaguje prostřednictvím komunikačního kanálu zvoleného podvodníkem.
Použité zdroje:
[ 1 ] T. BREWSTER, „Fraudsters cloned company director's voice in $35 million bank heist, police find,“ Forbes Magazine, Říjen 2021. [Online]. Available: https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/. [Přístup získán Květen 2023].
[ 2 ] A. FIRC, K. MALINKA a P. HANÁČEK, „Deepfakes as a threat to a speaker and facial recognition: an overview of tools and attack vectors,“ Heliyon, sv. 9, č. 4, pp. 1-33, April 2023.
[ 3 ] A. NEUPANE, N. SAXENA, L. HIRSHFIELD a S. ELAINE BRATT, „The Crux of Voice (In)Security: A Brain Study of Speaker Legitimacy Detection,“ v Network and Distributed Systems Security (NDSS) Symposium 2019, San Diego, 2019.
[ 4 ] A. FIRC a K. MALINKA, „The dawn of a text-dependent society: deepfakes as a threat to speech verification systems,“ v SAC ’22: Proceedings of the 37th ACM/SIGAPP Symposium on Applied Computing, New York, 2022.
[ 5 ] A. MALIK, M. KURIBAYASHI, S. M. ABDULLAHI a A. N. KHAN, „DeepFake Detection for Human Face Images and Videos: A Survey,“ IEEE Access, sv. 10, pp. 18757-18775, 2022.
[ 6 ] N. ZEGHIDOUR, A. LUEBS, A. OMRAN, J. SKOGLUND a M. TAGLIASACCHI, „SoundStream: An End-to-End Neural Audio Codec,“ 7. Červenec 2021. [Online]. Available: https://doi.org/10.1109/TASLP.2021.3129994.
[ 7 ] L. YUEZUN, S. PU, H. QI a S. LYU, „Toward the Creation and Obstruction of DeepFakes,“ v Hand-book of Digital Face Manipulation and Detection, Springer Cham, 2022, pp. 71-96.
[ 8 ] L. IACONO, J. HICKMAN a C. MUNIZ, „The Rise of Vishing and Smishing Attacks,“ Kroll, 2 Srpen 2022. [Online]. Available: https://www.kroll.com/en/insights/publications/cyber/monitor/vishing-smishing-attacks. [Pří-stup získán 10 Říjen 2022].
[ 9 ] K. RAJA, M. FERRARA, A. FRANCO, L. SPREEUWERS, I. BATSKOS, F. DE WIT, M. GOMEZ-BARRERO, U. SCHER-HAG, D. FISCHER, S. K. VENKATESH, J. M. SINGH, G. LI, L. BERGERON, S. ISADSKIY a RAMACHAN, „Morphing Attack Detection-Database, Evaluation Platform, and Benchmarking,“ IEEE Trans-actions on Information Forensics and Security, sv. 16, pp. 4336-4351, 2021.