Sprachliche Vielfalt und ihre Evolution erforschen

Viele Sprachen der Welt verwenden Wörter wie „Mama“ und „Papa“ für “Mutter” und “Vater”. Sprachen, die “Mama” verwenden, sind rot markiert; Sprachen, in denen “Vater” vorkommt, sind blau markiert.
© J.-M. List

Forscher des Leipziger Max-Planck-Instituts für evolutionäre Anthropologie und der University of Auckland in Neuseeland haben ein neues Repositorium linguistischer Datensätze aus aller Welt geschaffen. Ziel des Projekts ist es, neue Erkenntnisse über die Entwicklung von Wörtern und Lauten in möglichst vielen der heute weltweit gesprochenen Sprachen zu gewinnen. Aktuell enthält die Lexibank standardisierte lexikalische Daten zu mehr als 2000 Sprachen und ist somit die umfangreichste öffentlich zugängliche Sammlung, die bisher erstellt wurde.

Stimmt es, dass viele Sprachen der Welt für „Mutter“ und „Vater“ Wörter verwenden, die „Mama“ und „Papa“ ähneln? Wenn eine Sprache für „Arm“ und „Hand“ das gleiche Wort benutzt, verwendet sie dann auch nur ein einziges Wort für „Bein“ und „Fuß“? Und wie gelingt es Sprachen, mit relativ wenigen Wörtern so viele Bedeutungen auszudrücken? Ein interdisziplinäres Team von Linguisten, Informatikern und Psychologen hat eine umfangreiche öffentlich verfügbare Datenbank zusammengestellt, mit deren Hilfe diese und viele weitere Fragen computergestützt untersucht werden können.

„Als unsere Abteilung für Sprach- und Kulturevolution 2014 gegründet wurde, stellte ich mein Kollegium vor eine Herausforderung: Auf der Welt gibt es mehr als 7000 Sprachen. Wie wäre es, Datenbanken zu erstellen, mit deren Hilfe es uns gelingen kann, diese sprachliche Vielfalt so umfassend wie möglich zu dokumentieren“, sagt Max-Planck-Direktor Russell Gray. „Inspiriert hat uns Genbank – eine umfangreiche Datenbank mit genomischen Datensätzen aus aller Welt“, so Gray weiter. „Genbank war ein Wendepunkt. Die große Menge an frei verfügbaren Sequenzdaten hat die Art und Weise, wie wir biologische Vielfalt analysieren können, revolutioniert. Wir hoffen, dass Lexibank, die erste von mehreren linguistischen Datenbanken mit Datensätzen aus aller Welt, die wir derzeit zusammentragen, dazu beitragen wird, unser Wissen über die sprachliche Vielfalt auf eine ähnliche Weise zu revolutionieren.“

Neue Standards und neue Software

Lexibank enthält Daten in Form von standardisierten Wortlisten für mehr als 2000 Sprachvarietäten. „Die Arbeit an Lexibank ging mit dem Bestreben nach einheitlicheren Datenformaten in linguistischen Datenbanken einher. Somit dient Lexibank einerseits als groß angelegtes Beispiel für die Vorteile der Standardisierung und andererseits als Katalysator, um die Standardisierung linguistischer Datensätze weiter voranzutreiben“, erklärt Robert Forkel, der den computergestützten Teil der Datenerhebung leitete. „Wir haben uns dazu entschlossen, unsere eigenen Standards, die so genannten Cross-Linguistic Data Formats, zu schaffen, die wir inzwischen schon in einer Vielzahl von Projekten, an denen unsere Abteilung beteiligt ist, erfolgreich eingesetzt haben.“

Dabei werden die von dem Forschungsteam vorgeschlagenen neuen Standards von neuen Software-Tools begleitet, die die Arbeitsabläufe in der Linguistik erheblich erleichtern. „Wir haben neue computergestützte Arbeitsabläufe entwickelt, die es ermöglichen, bestehende Sprachdatensätze vergleichbar zu machen“, sagt Johann-Mattis List, der den praktischen Teil der Datenkuration leitete. „Mit diesen Arbeitsabläufen haben wir die Effizienz der Datenstandardisierung und -kuratierung drastisch erhöht.“

Identifizierung von Sprachevolutionsmustern

Neben der Erfassung und Bereitstellung von standardisierten Sprachdaten hat das Team neue computergestützte Methoden entwickelt, um Fragen zur Evolution sprachlicher Vielfalt zu beantworten. Wie diese Methoden in der Praxis eingesetzt werden können, veranschaulicht die aktuelle Publikation, in der Unterschiede und Gemeinsamkeiten von Sprachen in Bezug auf sechzig verschiedene Merkmale berechnet werden.

„Dank unserer standardisierten Darstellung von Sprachdaten ist es jetzt ganz einfach zu überprüfen, in wie vielen Sprachen Wörter wie ‚Mama‘ und ‚Papa‘ für ‚Mutter‘ und ‚Vater‘ stehen“, berichtet List. „Es stellt sich heraus, dass dieses Muster tatsächlich in vielen Sprachen der Welt und in sehr unterschiedlichen Regionen zu finden ist“, ergänzt Simon J. Greenhill, einer der Gründer des Lexibank-Projekts. „Nicht alle Sprachen, die diesem Muster folgen, sind eng miteinander verwandt. Das könnte auf eine unabhängige, parallele Evolution von Sprache hindeuten, so wie es der große Linguist Roman Jakobson bereits 1968 zur Diskussion stellte.“

Datenzuwachs und Entwicklung neuer Methoden

Mithilfe der neuen Datensammlung und der automatischen Berechnung von Sprachmerkmalen können nun viele weitere Fragen zur Vielfalt und Evolution von Sprache im Detail erforscht werden. „Natürlich endet die Analyse nicht mit den Beispielen, die wir in unserer Arbeit vorstellen“, sagt List. „Ganz im Gegenteil möchten wir Menschen aus der Linguistik, der Psychologie und den Evolutionswissenschaften dazu ermutigen, anknüpfend an unsere Beispiele, die Datenbank mit neuen Datensätzen zu ‚füttern‘ und neue Methoden zu entwickeln“, ergänzt Forkel.

Schon in ihrer aktuellen Publikation präsentieren die Autoren interessante Ergebnisse, die weiter erforscht werden sollten. „Als wir untersuchten, welche Sprachen mit einem einzigen Wort für ‚Arm‘ und ‚Hand‘ auskamen, stellten wir fest, dass diese Sprachen oft auch das gleiche Wort für ‚Bein‘ und ‚Fuß‘ verwenden“, berichtet List. „Was wie ein dummer Zufall erscheint, zeigt doch, dass menschliche Sprache in ihrer Gesamtheit oft viel strukturierter ist als man denken könnte, wenn man eine Sprache isoliert betrachtet.“

Wissenschaftliche Ansprechpartner:

PD Dr. Johann-Mattis List
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
+49 341 3550-283
mattis_list@eva.mpg.de

Prof. Dr. Russell Gray
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
+49 341 3550-259
russell_gray@eva.mpg.de

Originalpublikation:

List, Johann-Mattis; Forkel, Robert; Greenhill, Simon J.; Rzymski, Christoph; Englisch, Johannes; Gray, Russell D.
Lexibank, A public repository of standardized wordlists with computed phonological and lexical features
Scientific Data, 16. Juni 2022, https://doi.org/10.1038/s41597-022-01432-0

Alle Nachrichten aus der Kategorie: Informationstechnologie

Neuerungen und Entwicklungen auf den Gebieten der Informations- und Datenverarbeitung sowie der dafür benötigten Hardware finden Sie hier zusammengefasst.

Unter anderem erhalten Sie Informationen aus den Teilbereichen: IT-Dienstleistungen, IT-Architektur, IT-Management und Telekommunikation.

Zurück zur Startseite

Kommentare (0)

Schreiben Sie einen Kommentar

Neueste Beiträge

Sensoren für „Ladezustand“ biologischer Zellen

Ein Team um den Pflanzenbiotechnologen Prof. Dr. Markus Schwarzländer von der Universität Münster und den Biochemiker Prof. Dr. Bruce Morgan von der Universität des Saarlandes hat Biosensoren entwickelt, mit denen…

3D-Tumormodelle für Bauchspeicheldrüsenkrebsforschung an der Universität Halle

Organoide, Innovation und Hoffnung

Transformation der Therapie von Bauchspeicheldrüsenkrebs. Bauchspeicheldrüsenkrebs (Pankreaskarzinom) bleibt eine der schwierigsten Krebsarten, die es zu behandeln gilt, was weltweite Bemühungen zur Erforschung neuer therapeutischer Ansätze anspornt. Eine solche bahnbrechende Initiative…

Leuchtende Zellkerne geben Schlüsselgene preis

Bonner Forscher zeigen, wie Gene, die für Krankheiten relevant sind, leichter identifiziert werden können. Die Identifizierung von Genen, die an der Entstehung von Krankheiten beteiligt sind, ist eine der großen…