Menschen vs Maschinen – Wer ist besser in der Spracherkennung?
Sind Menschen oder Maschinen besser in der Spracherkennung? Eine neue Studie zeigt, dass aktuelle automatische Spracherkennungssysteme (ASR) unter lauten Bedingungen eine bemerkenswerte Genauigkeit erreichen und manchmal sogar die menschliche Leistung übertreffen. Allerdings müssen die Systeme mit einer unglaublichen Menge an Daten trainiert werden, während Menschen vergleichbare Fähigkeiten in kürzerer Zeit erwerben.
Die automatische Spracherkennung (ASR) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere für weit verbreitete Sprachen wie Englisch. Vor 2020 wurde typischerweise angenommen, dass die menschlichen Fähigkeiten zur Spracherkennung die automatischen Systeme bei weitem übersteigen. Dennoch haben einige aktuelle Systeme begonnen, die menschliche Leistung zu erreichen. Das Ziel bei der Entwicklung von ASR-Systemen war stets, die Fehlerrate zu senken, unabhängig davon, wie Menschen in derselben Umgebung abschneiden. Schließlich erkennen nicht einmal Menschen Sprache mit 100%iger Genauigkeit in einer lauten Umgebung.
In einer neuen Studie verglichen die Spezialistin für Computerlinguistik der UZH, Eleanor Chodroff, und eine Forscherin der Cambridge University, Chloe Patman, zwei beliebte ASR-Systeme – Meta’s wav2vec 2.0 und OpenAI’s Whisper – mit einheimischen britischen Englischsprechern. Sie testeten, wie gut die Systeme Sprache in sprachgeformtem Rauschen (ein statisches Rauschen) oder Kneipenlärm erkannten, und ob die Sprache mit oder ohne Baumwollgesichtsmaske produziert wurde.
Neuestes OpenAI-System besser – mit einer Ausnahme
Die Forscher stellten fest, dass Menschen gegenüber beiden ASR-Systemen immer noch einen Vorteil hatten. Allerdings übertraf OpenAI’s neuestes großes ASR-System, Whisper large-v3, menschliche Zuhörer in allen getesteten Bedingungen signifikant, außer bei natürlichem Kneipenlärm, wo es lediglich auf Augenhöhe mit Menschen war. Whisper large-v3 hat somit seine Fähigkeit demonstriert, die akustischen Eigenschaften der Sprache zu verarbeiten und erfolgreich auf die beabsichtigte Botschaft (d.h. den Satz) abzubilden. „Das war beeindruckend, da die getesteten Sätze aus dem Kontext präsentiert wurden und es schwierig war, ein einzelnes Wort aus den vorangegangenen Wörtern vorherzusagen“, sagt Eleanor Chodroff.
Umfangreiche Trainingsdaten
Ein genauerer Blick auf die ASR-Systeme und deren Trainingsmethoden zeigt jedoch, dass Menschen dennoch etwas Bemerkenswertes leisten. Beide getesteten Systeme verwenden Deep Learning, aber das wettbewerbsfähigste System, Whisper, benötigt eine unglaubliche Menge an Trainingsdaten. Meta’s wav2vec 2.0 wurde mit 960 Stunden (oder 40 Tagen) englischer Audiodaten trainiert, während das Standard-Whisper-System mit über 75 Jahren Sprachdaten trainiert wurde. Das System, das tatsächlich die menschliche Fähigkeit übertraf, wurde mit über 500 Jahren ununterbrochener Sprache trainiert. „Menschen sind in der Lage, diese Leistung in nur wenigen Jahren zu erreichen“, sagt Chodroff. „Es bleiben auch erhebliche Herausforderungen für die automatische Spracherkennung in fast allen anderen Sprachen.“
Verschiedene Fehlertypen
Das Papier zeigt auch, dass Menschen und ASR-Systeme unterschiedliche Arten von Fehlern machen. Englische Zuhörer produzierten fast immer grammatikalisch korrekte Sätze, neigten jedoch eher dazu, Satzfragmente zu schreiben, anstatt für jeden Teil des gesprochenen Satzes ein geschriebenes Wort bereitzustellen. Im Gegensatz dazu produzierte wav2vec 2.0 in den schwierigsten Bedingungen häufig Unsinn. Whisper neigte ebenfalls dazu, vollständige grammatikalische Sätze zu produzieren, war jedoch eher geneigt, „Lücken zu füllen“ mit völlig falschen Informationen.
Expertenkontakt
Prof. Dr. Eleanor Chodroff
Department of Computational Linguistics
University of Zurich
Telefonnummer: +41 76 426 27 07
E-Mail: eleanor.chodroff@uzh.ch
Originalquelle: https://www.news.uzh.ch/en/articles/media/2025/Spracherkennung.html
Originalveröffentlichung
Chloe Patman, Eleanor Chodroff
Zeitschrift: JASA Express Letters
Artikeltitel: Speech recognition in adverse conditions by humans and machines
Veröffentlichungsdatum des Artikels: 12. November 2024
DOI: https://doi.org/10.1121/10.0032473
Medienkontakt
Melanie Nyfeler
Medienvertreterin
Telefonnummer: +41 634 44 78
E-Mail: melanie.nyfeler@kommunikation.uzh.ch
Quelle: IDW
Medienkontakt
Alle Nachrichten aus der Kategorie: Informationstechnologie
Neuerungen und Entwicklungen auf den Gebieten der Informations- und Datenverarbeitung sowie der dafür benötigten Hardware finden Sie hier zusammengefasst.
Unter anderem erhalten Sie Informationen aus den Teilbereichen: IT-Dienstleistungen, IT-Architektur, IT-Management und Telekommunikation.
Neueste Beiträge
Nicht in der Übersetzung verloren: KI erhöht Genauigkeit der Gebärdenspracherkennung
Zusätzliche Daten können helfen, subtile Gesten, Handpositionen und Gesichtsausdrücke zu unterscheiden Die Komplexität der Gebärdensprachen Gebärdensprachen wurden von Nationen weltweit entwickelt, um dem lokalen Kommunikationsstil zu entsprechen, und jede Sprache…
Brechen des Eises: Gletscherschmelze verändert arktische Fjordökosysteme
Die Regionen der Arktis sind besonders anfällig für den Klimawandel. Es mangelt jedoch an umfassenden wissenschaftlichen Informationen über die dortigen Umweltveränderungen. Forscher des Helmholtz-Zentrums Hereon haben nun an Fjordsystemen anorganische…
Globale Studie identifiziert Gene für Depressionen in verschiedenen Ethnien
Neue genetische Risikofaktoren für Depression wurden erstmals in allen großen Weltbevölkerungen identifiziert und ermöglichen es Wissenschaftler*innen, das Risiko für Depression unabhängig von der ethnischen Zugehörigkeit vorherzusagen. Die bislang größte und…