Manuelles Transkribieren schlägt (noch) KI
Eine vergleichende Studie über Transkriptionsservices.
Forschende aus dem Team des Empirical Research Support (ERS) am CISPA Helmholtz-Zentrum für Informationssicherheit haben zum ersten Mal systematisch die bekanntesten Transkriptionsservices auf dem Markt miteinander verglichen. Der Vergleich der elf Anbieter manueller und KI-basierter Transkription zeigt, dass letztere trotz guter Qualität weiterhin Probleme mit der Sprecherzuordnung haben und bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription vorkommen. Die besten Ergebnisse unter den KI-Anbietern lieferte Whisper AI von OpenAI.
Interviews sind eine beliebte Methode zur Erhebung wissenschaftlicher Daten. Ganz grundsätzlich wird dabei zwischen quantitativen und qualitativen Interviews unterschieden. Während erste darauf ausgerichtet sind, mithilfe standardisierter Fragebögen von einer großen Anzahl Befragter statistisch verwertbare Informationen zu bekommen, geht es bei Letzteren um die Gewinnung von Interviewdaten, die den Forschenden Interpretationsmöglichkeiten bieten. Eine besondere Form stellt das Leitfadeninterview dar, beim dem es zwar einen vorbereiteten Fragenkatalog gibt, von dem im Gespräch jedoch abgewichen werden kann. „In der Cybersicherheitsforschung kommen diese Interviews zum Einsatz, wenn es um die Erschließung von Handlungs- und Deutungsmustern von Akteuren geht, die digital vermittelt handeln“, erklärt der Soziologe Dr. Rafael Mrowczynski vom Team des Empirical Research Support (ERS) am CISPA. Das ERS-Team berät die Forschenden des Zentrums bei Methodenfragen.
Die Überführung einer Audiodatei in Text
Ein entscheidender Arbeitsschritt für die qualitative Datenanalyse ist die Transkription. „Die Standardprozedur ist, dass die Audioaufnahmen der Interviews in Text überführt werden. Wichtig für die Qualität der Daten ist, dass die Transkriptionen adäquat sind“, erklärt Mrowczynski. Je nach wissenschaftlicher Disziplin gibt es unterschiedliche Standards für die Transkription. „In der Cybersicherheitsforschung wird meist mit Transkripten gearbeitet, die präzise den Gesprächsinhalt wiedergeben“, so Mrowczynski. Ein adäquates Transkript beinhaltet damit nur die relevanten gesprochenen Wörter. Zur Durchführung der Transkription bieten sich den Forschenden zwei Optionen: Die Transkripte selbst bzw. im Forschungsteam anzufertigen oder sie außer Haus an Drittanbieter zu vergeben.
Unter den Drittanbietern hat neben der manuellen Transkription zuletzt die automatisierte, KI-gestützte Transkription einen regelrechten Hype erfahren. Dies geht auf die exponentiellen Entwicklungs- und Qualitätssprünge zurück, die KI-Anwendungen in den letzten beiden Jahren in vielen Bereichen erfahren haben. Die CISPA-Forschenden aus dem ERS-Team wollten wissen, welcher Anbieter auf dem Markt die besten Ergebnisse erzielt und wie sich automatisierte, KI-gestützte Angebote im Vergleich zur manuellen Transkription schlagen. Ziel war den Forschenden am CISPA sowie der Cybersicherheits-Community eine Empfehlung für die Arbeit mit qualitativen Interviews geben zu können.
Das Vorgehen des ERS-Teams
Für ihr Forschungsvorhaben erstellten Mrowczynski und seine Kolleg:innen Dr. Maria Hellenthal, Dr. Rudolf Siegel und Dr. Michael Schilling ein Test-Datenset. Dieses bestand aus etwa zehnminütigen Einzelinterviews und Gruppengesprächen mit CISPA-Forschenden auf Deutsch und Englisch. Inhaltlich ging es um das Forschungsfeld der Cybersicherheit. „Wichtig war, dass Fachbegriffe aus der Community fallen, um daran die Präzision der Transkription überprüfen zu können“, erläutert Mrowczynski. Einige Interviews wurden zusätzlich mit Hintergrundgeräuschen angereichert, um realen Settings im Forschungsalltag näher zu kommen.
Die Daten wurden im Dezember 2022 zu elf Anbietern geschickt. Darunter waren die Transkriptionsdienste Amberscript, GoTransript, QualTranscribe, Rev und Scribble sowie die KI-basierten Transkriptionsanbieter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI. Zur Auswertung der erhaltenen Transkripte erstellte Mrowczynski mit seinen Kolleg:innen manuell ein Referenz-Transkript, das als Ausgangspunkt für die vergleichende Analyse diente. In der Analyse selbst ging es dann um zwei zentrale Kriterien. Zum einen wurde die Word-Error-Rate untersucht, die anzeigt, wie viele Wörter sich zwischen einer Abschrift und dem Referenz-Transkript unterscheiden. Zum anderen wurde die qualitative Abweichung vom Referenz-Transkript manuell kodiert.
Manuelle Transkriptionsdienste schlagen KI
Mrowczynski und seine Kolleg:innen kommen in ihrem Aufsatz zu dem Schluss, dass im allgemeinen „die meisten der manuellen Transkriptionsdienste ein lobenswertes Leistungsniveau [haben], während KI-basierte Dienste häufig bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription aufwiesen.“ Die Bedeutungsverzerrung lässt sich gut an Fachbegriffen festmachen, erläutert Mrowczynski: „Im Transkript wurde zum Beispiel aus ‚hashes‘ das Wort ‚ashes‘ So kamen wir auch auf den Aufsatztitel.“
Die besten Ergebnisse unter den KI-Anbietern lieferte Whisper AI von OpenAI. Mit Englisch kamen die meisten Anbieter besser klar als mit Deutsch. Drei Anbieter boten gar keine deutsche Transkription an. Hintergrundgeräusche wirkten sich generell negativ auf das Ergebnis aus. Probleme hatten die KI-basierten Anbieter vor allem mit der Sprecherzuordnung. Darüber hinaus war bei den von einer KI erstellten Transkripten eine Neuformatierung nötig, bevor die Weiterverarbeitung in einer Software für die qualitative Datenanalyse möglich war. Einschränkend weisen die Forschenden darauf hin, dass ihre Analyse den Stand der Technik im Dezember 2022 wiedergibt und aktuelle Entwicklungen nicht berücksichtigt werden konnten.
Originalpublikation:
Siegel, Rudolf and Mrowczynski, Rafael and Hellenthal, Maria and Schilling, Michael
(2023) Poster: From Hashes to Ashes – A Comparison of Transcription Services.
In: ACM CCS 2023. Conference: CCS ACM Conference on Computer and Communications Security
Media Contact
Alle Nachrichten aus der Kategorie: Informationstechnologie
Neuerungen und Entwicklungen auf den Gebieten der Informations- und Datenverarbeitung sowie der dafür benötigten Hardware finden Sie hier zusammengefasst.
Unter anderem erhalten Sie Informationen aus den Teilbereichen: IT-Dienstleistungen, IT-Architektur, IT-Management und Telekommunikation.
Neueste Beiträge
Überlebenskünstler im extremen Klima der Atacama-Wüste
Welche Mikroorganismen es schaffen, in den extrem trockenen Böden der Atacama-Wüste zu überleben, und welche wichtigen Funktionen sie in diesem extremen Ökosystem übernehmen – zum Beispiel bei der Bodenbildung –,…
Hoffnung für Behandlung von Menschen mit schweren Verbrennungen
MHH-Forschende entwickeln innovatives Medikament, um die Abstoßung von Spenderhaut-Transplantaten zu verhindern. Wenn Menschen schwere Verbrennungen erleiden, besteht nicht nur die Gefahr, dass sich die Wunde infiziert. Der hohe Flüssigkeitsverlust kann…
Neue Erkenntnisse zur Blütezeit-Regulation
Einfluss von Kohlenstoff- und Stickstoff-Signalwegen auf Blütenrepressoren bei Arabidopsis. In einer aktuellen Publikation in der Fachzeitschrift Plant Physiology hat ein internationales Forschungsteam, dem unter anderem Dr. Justyna Olas als eine…