Wenn das Gehör sich täuscht
An der Hochschule Offenburg haben Prof. Dr. Andreas Schaad und einige Studierende jetzt in einem Projekt aufgezeigt, wie leicht sich „echte“ Stimmen mittlerweile künstlich erzeugen lassen.
Dass Bilder oder Videos manipuliert werden können, davon haben die meisten wohl schon einmal gehört. Die Bandbreite dabei reicht von wegretuschierten Fettpölsterchen oder Falten über reinmontierte Menschen oder Motive bis hin zum Austausch von Gesichtern und Mimik bei Personen. Doch was noch nicht so bekannt ist: Mittlerweile lassen sich auch „echte“ Stimmen künstlich erzeugen. Erst Mitte Mai machte ein Werbespot Schlagzeilen in dem ein Angela-Merkel-Double in nahezu perfekter Bundeskanzlerinnen-Tonlage Sätze sagte, die die Regierungschefin so wohl kaum in der Öffentlichkeit sagen würde.
Grundlage dafür ist ein enormer Fortschritt in der Text-zu-Sprache-Synthese. Dieser ermöglicht einerseits die Entwicklung neuer oder die Verbesserung bestehender Produkte wie Sprachassistenten, Navigationssysteme oder Zugangssysteme für sehbehinderte Menschen. Andererseits lässt sich die Stimme einer Person so auch künstlich erzeugen, sofern genügend Sprachmaterial dieser Person vorhanden ist, um ein neuronales Netz zu trainieren. Dies kann dazu führen, dass Kriminelle synthetische Stimmen verwenden, um zu betrügen oder politisch aktiv zu werden. In letzterem Fall könnten diese sogenannten Deepfakes – Medieninhalte, die durch den Einsatz von Künstlicher Intelligenz gezielt und völlig automatisiert manipuliert wurden – Wahlausgänge beeinflussen oder gar Kriege auslösen.
„Die Daten, die es braucht um die KI entsprechend auf die Stimme zu trainieren, lassen sich überall, wo Menschen digital kommunizieren, extrahieren“, erklärt Prof. Dr. Andreas Schaad. Im Master-Studiengang Enterprise and IT Security hat er gemeinsam mit den Studierenden Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto und Felix Schmieder daher in einem Projekt einmal ausprobiert, wie viel oder besser wie wenig eine computer- oder informatik-versierte Person braucht, um mit einem vertretbaren Aufwand, mit begrenzten Rechenressourcen und ohne Vorwissen auf dem Gebiet der Sprachsynthese einen Audio-Klon zu erzeugen.
Das Prepint zu diesem Projekt gibt es unter folgendem Link https://arxiv.org/abs/2108.01469.
Als Testperson stellte sich dabei der Professor selbst zur Verfügung. „Schon weniger als drei Stunden qualitativ hochwertigen Audio-Materials aus meinen Online-Vorlesungen reichten aus, um die KI zu trainieren“, staunte Andreas Schaad selbst, wie ausgereift die Technik inzwischen ist. In einer anschließenden Studie mit 102 Probanden konnten nur knapp 40 Prozent seine echte von der gefakten Stimme unterscheiden.
Das Projektteam besorgte sich zunächst Audioclips mit einer Länge von mindestens einer halben und höchsten 30 bis 40 Sekunden. Diese wandelte es in geschriebene Texte um beziehungsweise nutzte die an die Audioclips bereits angehängten Transkriptionen. Aus diesen entfernten die Beteiligten unerwünschte Zeichen, wandelten alle anderen in Kleinbuchstaben um, schrieben alle Zahlen aus, ersetzten alle Abkürzungen durch das vollständige Wort und fügten wo nötig die phonemische Orthographie ein, bei der ein geschriebenes Symbol dem tatsächlich gesprochenen Laut entspricht. Außerdem fügten sie teilweise Sätze ein, die so nie gesagt wurden zum Beispiel „schicken Sie alle Prüfungsunterlagen an …“ oder „Bitte tragen Sie bei Herrn Müller eine Eins ein“.
Anschließend wurde das neuronale Netz mit den Audioclips auf die Stimmcharakteristika sowie mit den Transkriptionen inklusive der Einfügungen auf den zu sagenden Text trainiert und beides zu neuen Audioclips zusammengeführt. Danach wurden den Probanden sowohl die echten als auch die gefälschten Audioclips vorgespielt – mit dem bereits genannten Ergebnis.
Und so heißt es nun geeignete Mittel zur Erkennung von solchen Deepfakes zu finden. Eine Aufgabe bei der Prof. Dr. Janis Keuper am Institut for Machine Learning and Analytics (IMLA) der Hochschule Offenburg in Sachen Bild- und Videomaterial bereits viel geleistet hat. Prof. Dr. Andreas Schaad möchte es diesem nun für Audiomaterial gleichtun und hat daher gemeinsam unter anderem mit der Deutschen Presse Agentur (dpa) und New Work SE, dem Betreiber des sozialen Netzwerks Xing, einen entsprechenden Projektantrag gestellt.
Media Contact
Alle Nachrichten aus der Kategorie: Kommunikation Medien
Technische und kommunikationswissenschaftliche Neuerungen, aber auch wirtschaftliche Entwicklungen auf dem Gebiet der medienübergreifenden Kommunikation.
Der innovations-report bietet Ihnen hierzu interessante Berichte und Artikel, unter anderem zu den Teilbereichen: Interaktive Medien, Medienwirtschaft, Digitales Fernsehen, E-Business, Online-Werbung, Informations- und Kommunikationstechnik.
Neueste Beiträge
Selen-Proteine …
Neuer Ansatzpunkt für die Krebsforschung. Eine aktuelle Studie der Uni Würzburg zeigt, wie ein wichtiges Enzym in unserem Körper bei der Produktion von Selen-Proteinen unterstützt – für die Behandlung von…
Pendler-Bike der Zukunft
– h_da präsentiert fahrbereiten Prototyp des „Darmstadt Vehicle“. Das „Darmstadt Vehicle“, kurz DaVe, ist ein neuartiges Allwetter-Fahrzeug für Pendelnde. Es ist als schnelle und komfortable Alternative zum Auto gedacht, soll…
Neuartige Methode zur Tumorbekämpfung
Carl-Zeiss-Stiftung fördert Projekt der Hochschule Aalen mit einer Million Euro. Die bisherige Krebstherapie effizienter gestalten bei deutlicher Reduzierung der Nebenwirkungen auf gesundes Gewebe – dies ist das Ziel eines Projekts…