Wenn das Gehör sich täuscht

Computer- oder informatik-versierte Personen können heute relativ einfach einen Audio-Klon erzeugen.
(c) Hochschule Offenburg

An der Hochschule Offenburg haben Prof. Dr. Andreas Schaad und einige Studierende jetzt in einem Projekt aufgezeigt, wie leicht sich „echte“ Stimmen mittlerweile künstlich erzeugen lassen.

Dass Bilder oder Videos manipuliert werden können, davon haben die meisten wohl schon einmal gehört. Die Bandbreite dabei reicht von wegretuschierten Fettpölsterchen oder Falten über reinmontierte Menschen oder Motive bis hin zum Austausch von Gesichtern und Mimik bei Personen. Doch was noch nicht so bekannt ist: Mittlerweile lassen sich auch „echte“ Stimmen künstlich erzeugen. Erst Mitte Mai machte ein Werbespot Schlagzeilen in dem ein Angela-Merkel-Double in nahezu perfekter Bundeskanzlerinnen-Tonlage Sätze sagte, die die Regierungschefin so wohl kaum in der Öffentlichkeit sagen würde.

Grundlage dafür ist ein enormer Fortschritt in der Text-zu-Sprache-Synthese. Dieser ermöglicht einerseits die Entwicklung neuer oder die Verbesserung bestehender Produkte wie Sprachassistenten, Navigationssysteme oder Zugangssysteme für sehbehinderte Menschen. Andererseits lässt sich die Stimme einer Person so auch künstlich erzeugen, sofern genügend Sprachmaterial dieser Person vorhanden ist, um ein neuronales Netz zu trainieren. Dies kann dazu führen, dass Kriminelle synthetische Stimmen verwenden, um zu betrügen oder politisch aktiv zu werden. In letzterem Fall könnten diese sogenannten Deepfakes – Medieninhalte, die durch den Einsatz von Künstlicher Intelligenz gezielt und völlig automatisiert manipuliert wurden – Wahlausgänge beeinflussen oder gar Kriege auslösen.

„Die Daten, die es braucht um die KI entsprechend auf die Stimme zu trainieren, lassen sich überall, wo Menschen digital kommunizieren, extrahieren“, erklärt Prof. Dr. Andreas Schaad. Im Master-Studiengang Enterprise and IT Security hat er gemeinsam mit den Studierenden Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto und Felix Schmieder daher in einem Projekt einmal ausprobiert, wie viel oder besser wie wenig eine computer- oder informatik-versierte Person braucht, um mit einem vertretbaren Aufwand, mit begrenzten Rechenressourcen und ohne Vorwissen auf dem Gebiet der Sprachsynthese einen Audio-Klon zu erzeugen.

Das Prepint zu diesem Projekt gibt es unter folgendem Link https://arxiv.org/abs/2108.01469.

Als Testperson stellte sich dabei der Professor selbst zur Verfügung. „Schon weniger als drei Stunden qualitativ hochwertigen Audio-Materials aus meinen Online-Vorlesungen reichten aus, um die KI zu trainieren“, staunte Andreas Schaad selbst, wie ausgereift die Technik inzwischen ist. In einer anschließenden Studie mit 102 Probanden konnten nur knapp 40 Prozent seine echte von der gefakten Stimme unterscheiden.

Das Projektteam besorgte sich zunächst Audioclips mit einer Länge von mindestens einer halben und höchsten 30 bis 40 Sekunden. Diese wandelte es in geschriebene Texte um beziehungsweise nutzte die an die Audioclips bereits angehängten Transkriptionen. Aus diesen entfernten die Beteiligten unerwünschte Zeichen, wandelten alle anderen in Kleinbuchstaben um, schrieben alle Zahlen aus, ersetzten alle Abkürzungen durch das vollständige Wort und fügten wo nötig die phonemische Orthographie ein, bei der ein geschriebenes Symbol dem tatsächlich gesprochenen Laut entspricht. Außerdem fügten sie teilweise Sätze ein, die so nie gesagt wurden zum Beispiel „schicken Sie alle Prüfungsunterlagen an …“ oder „Bitte tragen Sie bei Herrn Müller eine Eins ein“.

Anschließend wurde das neuronale Netz mit den Audioclips auf die Stimmcharakteristika sowie mit den Transkriptionen inklusive der Einfügungen auf den zu sagenden Text trainiert und beides zu neuen Audioclips zusammengeführt. Danach wurden den Probanden sowohl die echten als auch die gefälschten Audioclips vorgespielt – mit dem bereits genannten Ergebnis.

Und so heißt es nun geeignete Mittel zur Erkennung von solchen Deepfakes zu finden. Eine Aufgabe bei der Prof. Dr. Janis Keuper am Institut for Machine Learning and Analytics (IMLA) der Hochschule Offenburg in Sachen Bild- und Videomaterial bereits viel geleistet hat. Prof. Dr. Andreas Schaad möchte es diesem nun für Audiomaterial gleichtun und hat daher gemeinsam unter anderem mit der Deutschen Presse Agentur (dpa) und New Work SE, dem Betreiber des sozialen Netzwerks Xing, einen entsprechenden Projektantrag gestellt.

http://www.hs-offenburg.de

Media Contact

Christina Dosse Marketing und Kommunikation
Hochschule Offenburg, Hochschule für Technik, Wirtschaft und Medien

Alle Nachrichten aus der Kategorie: Kommunikation Medien

Technische und kommunikationswissenschaftliche Neuerungen, aber auch wirtschaftliche Entwicklungen auf dem Gebiet der medienübergreifenden Kommunikation.

Der innovations-report bietet Ihnen hierzu interessante Berichte und Artikel, unter anderem zu den Teilbereichen: Interaktive Medien, Medienwirtschaft, Digitales Fernsehen, E-Business, Online-Werbung, Informations- und Kommunikationstechnik.

Zurück zur Startseite

Kommentare (0)

Schreiben Sie einen Kommentar

Neueste Beiträge

Größte bisher bekannte magnetische Anisotropie eines Moleküls gemessen

An der Berliner Synchrotronstrahlungsquelle BESSY II ist es gelungen, die größte magnetische Anisotropie eines einzelnen Moleküls zu bestimmen, die jemals experimentell gemessen wurde. Je größer diese Anisotropie ist, desto besser…

Tsunami-Frühwarnsystem im Indischen Ozean

20 Jahre nach der Tsunami-Katastrophe… Dank des unter Federführung des GFZ von 2005 bis 2008 entwickelten Frühwarnsystems GITEWS ist heute nicht nur der Indische Ozean besser auf solche Naturgefahren vorbereitet….

Resistente Bakterien in der Ostsee

Greifswalder Publikation in npj Clean Water. Ein Forschungsteam des Helmholtz-Instituts für One Health (HIOH) hat die Verbreitung und Eigenschaften von antibiotikaresistenten Bakterien in der Ostsee untersucht. Die Ergebnisse ihrer Arbeit…