Die Sprache als Werkzeug verstehen
Ist Linguistik in der technischen Kommunikation wichtig? Nicht jeder, der ein Auto fährt, muss wissen, wie ein Motor funktioniert, aus welchen Komponenten er besteht und wie diese zusammenwirken. Aber für einen Mechaniker gehört es zum Beruf. Die meisten Leser unserer Blog-Artikel haben eines gemeinsam: Sie benutzen die Sprache als Werkzeug. Dieses Werkzeug ist wie eine komplexe Maschine mit vielen Einzelteilen. Generationen von Sprachwissenschaftlern arbeiten daran, die Funktionsweise dieser „Maschine“ zu dokumentieren und zu beschreiben. Phonetik, Morphologie, Semantik oder Lexikologie sind nur einige dieser zum Teil geheimnisvollen Wissenschaftszweige, die allgemein zur Linguistik gehören.
Die Linguistik kann allen, die in der technischen Kommunikation tätig sind, sei es als Redakteur, Übersetzer oder Terminologe, durchaus helfen, ihre Ziele in der täglichen Arbeit schneller und präziser zu erreichen. So entstehen Modelle und Methoden zur Terminologieextraktion und -gestaltung, zur maschinellen Übersetzung von Dokumenten oder zur Textproduktion (neuerdings mit Unterstützung von KI).
Linguistik: Ein Feld voller Geheimnisse
Wir wollen uns hier zunächst mit einigen Begriffen beschäftigen, die technischen Autoren oder Übersetzern in ihrem Berufsalltag gelegentlich begegnen.
Als erstes nehmen wir die Erstellung technischer Glossare und Fachterminologie in Unternehmen. Wie werden die Wörter extrahiert, was wird erfasst, in welcher Beziehung stehen die Begriffe zueinander?
Lemma und Lexeme: Grundbausteine des Wortschatzes
Ein Lemma ist ein Stichwort im Wörterbuch. Es ist das Wort oder die Gruppe von Wörtern, die man in seinem Hauswörterbuch nachschlägt. Das Lexem bezeichnet ein lexikalisches Wort, eine abstrakte Einheit des Wortschatzes. Dieses Lexem schließt alle grammatikalischen Varianten ein (z.B.: Ventil, Ventile, Ventils, Ventilen). Deshalb besteht ein wichtiger Schritt der Terminologiearbeit darin, die Lexeme auf ihre Grundform zu reduzieren, bevor sie in das Firmenglossar aufgenommen werden. Dieser Schritt wird von Linguisten Lemmatisierung genannt.
Lexemklassen oder Wortarten.
Dies sind die Kategorien von Lexemen, in die Wörter auf der Grundlage ihrer syntaktischen Funktionen und morphologischen Merkmale eingeteilt werden. Es handelt sich beispielsweise um Klassen wie Substantive (Nomen), Verben, Konjunktionen, etc. Sie sind wichtig für eine bestimmte Form der Terminologieextraktion, nämlich die linguistische Extraktion. Wenn Sie beispielsweise in einem Text nach technischen Begriffen suchen, werden Sie feststellen, dass diese je nach Sprache und Fachgebiet bestimmte Wortarten oder Kombinationen von Wortarten haben. Ein technischer Begriff wie „induktives Bauelement“ besteht aus einem Adjektiv und einem Substantiv. Bei der Terminologieextraktion wird nach typischen Mustern dieser Art gesucht.
Für dieses Verfahren ist es jedoch notwendig, die Wortkategorien automatisch zu markieren. Dies wird durch das Part-of-Speech Tagging, ein Verfahren der Computerlinguistik, unterstützt. Es gibt Tools, die dieses Verfahren ermöglichen. Wir haben in unserem Blogartikel über Terminologieextraktion mit AntConc beschrieben, wie das geht.
Morpheme: Die kleinsten bedeutungstragenden Einheiten
Die Linguistik bezeichnet die kleinste bedeutungstragende Einheit als Morphem. So besteht der Begriff „Sechskantschlüssel“ aus drei Morphemen „Sechs“ + „Kant“ + „Schlüssel“. Ein Morphem ist aber nicht automatisch ein Wort. Das Wort „Arbeiter“ besteht aus 2 Morphemen „Arbeit“ und „-er“, wobei letzteres die Bedeutung hat, dass es um eine handelnde Person geht. Die Linguistik unterscheidet daher zwischen mehreren Morphemtypen, je nachdem welche Funktion sie erfüllen: freie Morpheme, Flexionsmorpheme, Derivationsmorpheme… Eng verbunden mit dem Morphem ist das Sem. Das Sem ist ein Bedeutungsmerkmal. Das Semem bezeichnet ein Bündel von Merkmalen einer lexikalischen Einheit. So könnte man „Computer“ die semantischen Merkmale [Gerät, zum Verarbeiten von Daten] zuweisen.
In vielen Sprachen sind Morpheme von zentraler Bedeutung. Ein tiefgehendes Verständnis ihrer Funktionsprinzipien ist besonders für Fachübersetzer, Lektoren oder Terminologieexperten essenziell. Zum Beispiel weist die türkische Sprache eine agglutinierende Morphologie auf, was impliziert, dass grammatische Formen durch das Anfügen von Suffixen an die Wortwurzel kenntlich gemacht werden.
Das semiotische Dreieck: Wort, Begriff und Objekt
Die Beziehung zwischen Wort, Begriff und Objekt kann man als Dreieck darstellen: Das Wort, das Objekt und der Begriff, also die Vorstellung, die man sich vom Objekt aufgrund dessen Bezeichnung macht. Wenn jemand „Haus“ sagt, stellt sich jeder ein anderes Haus vor. Dieses Konzept wird in der Linguistik als „semiotisches Dreieck“ bezeichnet. Es stellt die Basis für die heutige Organisation von Terminologien in der technischen Kommunikationsbranche. Man sammelt alle Benennungen, die für einen bestimmten Begriff stehen, etwa Tempomat, Geschwindigkeitsregelanlage, Cruise Control oder Geschwindigkeitsregler und legt die Vorzugsbenennung fest.
Wortbeziehungen: Von Antonymen bis zu Homonymen
Ein Antonym ist beispielsweise das Gegenteil eines Synonyms. Es ist manchmal nützlich, in einem Wörterbuch zu erwähnen, welches Wort eine gegensätzliche Bedeutung hat. Das Hyperonym ist als Oberbegriff zu verstehen („Möbel“ ist Hyperonym zu „Schrank“), während das Hyponym den untergeordneten Begriff bezeichnet.
Hat ein Wort mehrere verwandte Bedeutungen, spricht man von Polysemie. Die Homonymie beschreibt dagegen eine Situation, bei der mehrere Wörter gleich klingen aber unterschiedliche Bedeutungen haben (Beispiel „Schloss“ als Verriegelungsmöglichkeit oder Bauwerk).
Linguistische Herausforderungen im Übersetzungsprozess
Wir haben uns bisher mit Wortbeziehungen innerhalb einer Sprache befasst. Interessant wird es, wenn Sprachen miteinander verglichen werden. Der Übersetzer muss zwischen zwei Sprachen vermitteln. Das Beziehungsgeflecht in einer Sprache lässt sich kaum eins zu eins in eine andere Sprache übertragen. Beispiele dafür gibt es viele: die deutsche Sprache kennt für das englische Wort „valve“ mehrere Bezeichnungen „Ventil“, „Klappe“, „Armatur“, „Röhre“, um nur einige zu nennen. In umgekehrter Sprachrichtung gibt es dies ebenfalls. Man denke an die möglichen Übersetzungen des Begriffs „Scheibe“. Mit Hilfe der Semantik kann der Übersetzer die Bedeutungsmerkmale eines Wortes auflisten, sie mit seinem Wortschatz vergleichen, um eine gleichwertige Übersetzung zu finden (er kann dann z. B. ein wichtiges Merkmal in der Ausgangssprache durch ein zusätzliches Wort übertragen).
Linguistik aus der Sicht der KI: Eine neue Dimension der Sprachverarbeitung.
Mit dem Aufkommen der Künstlichen Intelligenz (KI) ist das Feld der Linguistik größer geworden. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) durch KI-Systeme bringt neue Begriffe und Werkzeuge mit sich, die unsere Sicht auf Sprache und ihre Analyse verändern. Zwei dieser für Redakteure oder Übersetzer Begriffe sind Token und Worteinbettungen oder engl. Word Embeddings, die in der angewandten Computerlinguistik eine wichtige Rolle spielen.
Tokenisierung: die Unterteilung eines Textes in überschaubare Einheiten
Tokenisierung ist der Prozess, bei dem der Text in kleinere Einheiten, sogenannte Tokens, aufgeteilt wird. In den klassischen NLP-Prozessen kann ein Token ein Wort, ein Satzzeichen oder sogar ein einzelnes Zeichen sein. Diese Zerlegung ist ein entscheidender Schritt bei der Vorverarbeitung von Daten für NLP-Aufgaben, da sie es ermöglicht, die Struktur eines Textes auf eine für Computer verständliche Weise zu analysieren.
Im Zusammenhang mit neuronalen Netzen und Deep Learning erfährt der Begriff „Token“ eine Erweiterung. Hier werden Token nicht nur als Texteinheit verstanden, sondern auch als Muster von Zeichen, die in den Daten erkannt werden, z. B. Sequenzen von vier Buchstaben, die sich häufig wiederholen.
Durch die Tokenisierung kann eine KI die Beziehungen zwischen Wörtern in einem Text besser verstehen und auf dieser Grundlage komplexe Aufgaben wie Textübersetzung, Sentimentanalyse oder automatische Textzusammenfassung durchführen.
Word Embeddings: Die Quantifizierung der Bedeutung von Wörtern.
Eine weitere bedeutende Entwicklung im Bereich der KI-gestützten Linguistik sind die Word Embeddings (Worteinbettungen). Dabei handelt es sich um vektorbasierte Darstellungen von Wörtern, die es Maschinen ermöglichen, die Bedeutung von Wörtern und ihre Beziehungen untereinander zu „verstehen“, d.h. sie zu berechnen. Diese Vektoren werden in einem hochdimensionalen Raum dargestellt, in dem ähnliche Wörter nahe beieinander liegen. Worteinbettungen werden durch das Trainieren von KI-Modellen auf großen Textmengen gewonnen und können semantische Unterschiede zwischen Wörtern erfassen. Dadurch können KI-Systeme Aufgaben wie die semantische Suche, die Klassifizierung von Texten und sogar die Erstellung natürlich aussehender Texte mit einer Genauigkeit durchführen, die zuvor unvorstellbar war.
Die Brücke zwischen Linguistik und KI.
Die Integration von Begriffen wie Tokenisierung und Einbettung von Wörtern in die Linguistik zeigt, wie die KI die Grenzen der traditionellen Linguistik verschiebt. Durch die Anwendung von Techniken des maschinellen Lernens auf linguistische Daten entstehen neue Einblicke in die Struktur und Bedeutung der Sprache. Diese Entwicklungen eröffnen nicht nur neue Wege für die Forschung in der theoretischen Linguistik, sondern verbessern auch die praktischen Anwendungen in der Übersetzung, der Erstellung von Texten und der Mensch-Computer-Interaktion. Die Linguistik aus der Sicht der KI ist daher ein faszinierendes Gebiet, das sich schnell weiterentwickelt und das Potenzial moderner Technologien nutzt, um die Geheimnisse der Sprache zu entschlüsseln.
Sprache verstehen: Die Bausteine der Kommunikation
Als Sprachprofis ist es entscheidend, die Grundbausteine der Sprache und wie sie zusammenarbeiten zu verstehen. Die Kognitionswissenschaft hat uns gezeigt, dass wir nur verstehen können, was wir benennen können. Für die Sprachproduktion kommen Begriffen wie Token, Morphem und Lexem ins Spiel. Sie helfen uns, die Sprache in ihre kleinsten Einheiten zu zerlegen und zu verstehen, wie sie zusammenkommen, um Wörter und Sätze zu bilden. Indem wir die Bausteine der Sprache verstehen und benennen, können wir die Effizienz und Qualität unserer Arbeit als Sprachprofis verbessern.
Kleines Glossar linguistischer Fachbegriffe
Fachbegriff | Kurzdefinition |
---|---|
Lemma | Ein Stichwort im Wörterbuch, das Wort oder die Gruppe von Wörtern, die man nachschlägt. |
Lexem | Ein lexikalisches Wort, eine abstrakte Einheit des Wortschatzes, die alle grammatikalischen Varianten eines Wortes einschließt. |
Lexemklassen/Wortarten | Kategorien von Lexemen, basierend auf ihren syntaktischen Funktionen und morphologischen Merkmalen, wie Substantive, Verben und Konjunktionen. |
Morphem | Die kleinste bedeutungstragende Einheit in der Linguistik, die nicht weiter in kleinere bedeutungstragende Einheiten zerlegt werden kann. |
Sem | Ein Bedeutungsmerkmal, das einem Morphem oder einer Gruppe von Morphemen zugeordnet wird. |
Semem | Ein Bündel von semantischen Merkmalen, die einer lexikalischen Einheit zugeordnet werden. |
Antonym | Ein Wort mit einer gegensätzlichen Bedeutung zu einem anderen Wort. |
Hyperonym | Ein Oberbegriff, der eine Kategorie oder eine Klasse von Objekten umfasst. |
Hyponym | Ein untergeordneter Begriff, der eine spezifischere Instanz innerhalb einer breiteren Kategorie darstellt. |
Polysemie | Die Eigenschaft eines Wortes, mehrere verwandte Bedeutungen zu haben. |
Homonymie | Eine Situation, in der Wörter gleich klingen, aber unterschiedliche Bedeutungen haben. |
Part-of-Speech Tagging | Ein Verfahren der Computerlinguistik, das Wortkategorien automatisch markiert, um syntaktische Strukturen in Texten zu identifizieren. |
Tokenisierung | Der Prozess der Unterteilung eines Textes in kleinere Einheiten (Tokens) für die Analyse. Kann in der klassischen NLP als Aufteilung in Wörter, Satzzeichen oder Zeichen und in der Anwendung mit neuronalen Netzen als Erkennung wiederkehrender Zeichenmuster verstanden werden. |
Word Embeddings | Vektorbasierte Darstellungen von Wörtern, die es KI-Systeme ermöglichen, die Bedeutung von Wörtern und ihre Beziehungen untereinander darzustellen und zu berechnen. |