Heute ist es in den meisten Redaktionsabteilungen Stand der Technik, modular zu arbeiten. Über die Jahre sammeln sich in Content Management Systemen Informationselemente, die teilweise redundant, uneinheitlich geschrieben oder nicht mehr aktuell sind.
Zeitgleich zeichnet sich eine neue Entwicklung ab. Auch maschinelle Systeme müssen Sprachinhalte verstehen und verarbeiten. Man denke beispielsweise an die automatische Auswahl relevanter Informationen zu einer Kundenfrage oder an die maschinelle Übersetzung technischer Texte. Dafür brauchen Maschinen einen hohen Grad an Standardisierung und Eindeutigkeit der Texte.
Veraltete Informationsinhalte pflegen
Dass Datenbankinhalte langsam in die Jahre gekommen sind, ist für viele Redaktionsverantwortliche ein offenes Geheimnis. Wie lassen sie sich mit möglichst geringem Aufwand optimieren?
Ein etwas unkonventioneller Ansatz besteht darin, veraltete Inhalte mithilfe eines Übersetzungsprogramms zu aktualisieren, sozusagen als deutsch-deutsche Übersetzung. Warum sollten Redakteure nicht wie Übersetzer arbeiten und ältere Inhalte in neue „übersetzen“? Das Grundprinzip ist einfach: Mit einem Übersetzungsprogramm wird der alte Inhalt mithilfe optimierter Formulierungen und Terminologie aktualisiert. Wie das funktioniert, möchten wir in diesem Artikel beschreiben.
Translation-Memory-System für die Textoptimierung
Die Arbeit besteht aus vier Schritten.
-
- Sätze sammeln, die in der Dokumentation vorkommen.
- Vorgaben zur Vereinheitlichung ausarbeiten.
- Eine saubere Sammlung an Standardsätzen erstellen sowie ein Optimierungswörterbuch generieren, das sowohl Termini als auch Wortgruppen sammelt, die standardisiert werden sollen.
- Die bestehende Dokumentation mithilfe des Translation-Memory-Systems und des Wörterbuchs korrigieren.
Die Basis für die Optimierungsarbeit sind Sätze. Die einfachste Methode, Sätze zu generieren, ist, Informationsmodule oder komplette Dokumentationen in ein Translation-Memory-System zu importieren. Translation-Memory-Systeme zerlegen Texte in Segmente (meistens einzelne Sätze).
Umformulierungsregeln erstellen
Die schwierigste Aufgabe ist Schritt Nummer 2: „Vorgaben zur Vereinheitlichung ausarbeiten“. Hier muss man in den Inhalten systematisch nach Mustern suchen, die man für die Festlegung von Umformulierungsregeln verwenden kann. Wenn bspw. zwei Varianten wie „(…) falls notwendig auswechseln“ und „(…) falls erforderlich austauschen“ regelmäßig vorkommen, kann man sich für eine entscheiden.
Eine unterschiedliche Syntax kann Ursache für Inkonsistenzen sein. Die Reihenfolge der Teilsätze (Hauptsatz + Nebensatz oder Nebensatz + Hauptsatz) und die Aktiv-/Passivform sind Aspekte, die man bei der Bereinigung berücksichtigen kann. Längere Sätze kann man aufsplitten, was deren Wiederverwendungschance erhöht. Viele Unternehmen haben bereits einen Redaktionsleitfaden, der derartige Regeln enthält. Der deutsche Fachverband für Technische Kommunikation, die Tekom, hat im Jahr 2013 eine gute Übersicht sinnvoller Regeln für den Einsatz kontrollierter Sprache veröffentlicht[1].
Wir möchten außerdem einige Aspekte erwähnen, die für die Verwendung von Informationsinhalten durch KI-Systeme wichtig sind.
Schreibweise und Interpunktion: Dadurch, dass mehrere Redakteure an den Inhalten arbeiten, kommt es zu Schreib- und Interpunktionsvarianten. Klassiker sind Wörter mit oder ohne Bindestrich wie „Handshake-Merker/Handshakemerker“. Ebenfalls häufig sieht man Inkonsistenzen bei der Groß-/Kleinschreibung oder bei der Verwendung von Schrägstrichen.
Wer größere Bestände untersuchen möchte, kann einige Hilfsmittel dazu verwenden. Rechtschreibprogramme sind eine gute Hilfe. Uneinheitliche Schreibweisen kann man relativ leicht erkennen, wenn man seine Inhalte in einen Texteditor wie Notepad++ oder UltraEdit kopiert und daraus eine Wortliste erstellt (Leerzeichen durch Absatzmarken ersetzen). Wenn diese Liste alphabetisch sortiert ist, werden ähnliche Schreibweisen untereinander angezeigt.
Vorhandene Übersetzungen heranziehen
Sind es aber alle ähnlichen Sätze oder Aussagen? Eine rein alphabetische Sortierung funktioniert nur für die Fälle, bei denen der Satzanfang identisch ist. Wer über mehrsprachige Translation-Memorys verfügt, kann zusätzlich die Hebelwirkung der Fremdsprache nutzen. Nicht selten kommt es vor, dass die Übersetzung konsistenter ist als der Ausgangstext. Der Übersetzer erkennt, dass die Sätze „Ermitteln Sie die Position der Spindel“ und „Position der Spindel ermitteln“ die gleiche Bedeutung haben und übersetzt sie gleich. Als weitere Möglichkeit kommen Verfahren der künstlichen Intelligenz mit der Berechnung der Ähnlichkeit von Satzvektoren in Frage. Satzvektoren sagen rechnerisch aus, was ein Satz semantisch bedeutet, auch wenn die Satzkonstruktion und die Wörter nicht immer gleich sind. Dafür sind allerdings entsprechende Kenntnisse und Tools erforderlich.
Terminologie aufbauen
Ein Hauptpunkt der Textbereinigung betrifft die Terminologie. Wenn viele Synonyme verwendet wurden, kann man sich auf eine Variante festlegen und in der Terminologie mit Verwendungsattributen wie „erlaubt“ und „verboten“ arbeiten.
In vielen Fällen verwenden Redakteure für dieselbe Aussage unterschiedliche Formulierungen wie „die Meldung erscheint im Display“ und „die Meldung wird auf dem Bildschirm angezeigt“. Im Normalfall würde man solche Einträge in keine Terminologiedatenbank aufnehmen. Aber zum Zweck der Standardisierung kann man diese Formulierungen wie Termini behandeln und u. U. in einem getrennten Wörterbuch speichern. Auch hier kann man mit Attributen wie „erlaubt“ und „verboten“ arbeiten.
Für den Einsatz maschineller Übersetzungssysteme optimieren
Ein Problem, auf das besonders maschinelle Systeme empfindlich reagieren, ist die Mehrdeutigkeit von Sätzen oder Benennungen. In Bezug auf Terminologie streben wir i. d. R. nur eine einzige Bedeutung pro Benennung an. In diesem Sinne sind Oberbegriffe wie „Lager“ oder „Anhang“ zu vermeiden, denn sie sind per Definition mehrdeutig und abhängig vom Kontext zu verstehen. Zum Thema Mehrdeutigkeit gehört auch die Vermeidung von Verweisen („dieses“), vor allem von Pronomen oder Artikeln, die sich auf Aussagen im vorherigen Satz beziehen. Besonders für Maschinen sind diese Verweise schwierig zu verstehen. Darüber hinaus sind auch gewisse Konstruktionen mit Präpositionen zu vermeiden, bei denen man nicht eindeutig erkennen kann, worauf sich eine Aussage bezieht: „Für den Einsatz muss die Maschine mit der SK40 konfiguriert sein“. Bezieht sich „SK40“ auf das Konfigurieren oder auf die Maschine?
Im nächsten Schritt geht es um die Umsetzung der Bereinigung. Man erstellt ein Übersetzungsprojekt, importiert die Texte, die man optimieren möchte und aktiviert Translation-Memory und Wörterbücher. Je nach Übersetzungssystem muss man u. a. als Zielsprache eine Variante der deutschen Sprache nehmen (z. B. Deutsch für Österreich). Was danach kommt, ist eine Übersetzung, wie Fachübersetzer sie täglich praktizieren. Der einzige Unterschied ist, dass Ausgangssprache und Zielsprache Deutsch sind. Sätze, die unverändert bleiben sollen, werden per Tastenkombination in die Zielsprache übernommen. Sätze, die vereinheitlicht werden sollen, werden scheinübersetzt und landen im Translation-Memory. Sobald ein weiterer Satz erscheint, der ähnlich formuliert ist, kommt der bereits korrigierte Satz als Vorschlag aus dem Translation-Memory.
Nutzen der Aktualisierung bei Übersetzungen in vielen Sprachen
Natürlich ist ein solches Verfahren mit Arbeit verbunden. Ein Teil dieser Arbeit ist einmalig: die Definition von Wörterbüchern und Standardformulierungen. Diese Standardisierung bringt aber deutliche Vorteile mit sich. Zuerst einmal kann dadurch die Menge an Sätzen um den Faktor 2-10 % reduziert werden, je nachdem, wie inkonsistent die Inhalte sind. Ferner wirkt sich die Standardisierung positiv auf die Übersetzungskosten aus. Es gibt weniger Übersetzungsvarianten und bestehende Übersetzungen können in größerem Maße wiederverwendet werden. Das ist vor allem für Unternehmen, die in viele Sprachen übersetzen, ein deutlicher Vorteil. Zu guter Letzt sind durch die Standardisierung die Inhalte für die Bearbeitung durch KI-Systeme optimiert. Da es weniger Formulierungsvarianten gibt, können diese Systeme Inhalte besser verstehen und verarbeiten. Das betrifft zum Beispiel die automatische Bereitstellung von Ad-hoc-Informationen für den Endnutzer.
Mit dem hier beschriebenen Verfahren erzielt man eine deutliche Vereinheitlichung und hat gleichzeitig ein Instrument in der Hand, mit dem künftige Dokumente schneller an die Vorgaben angepasst werden können. Wer keine Zeit oder Ressourcen hat, eine Generalüberholung seiner Inhalte durchzuführen, kann dies in Zusammenarbeit mit einem externen Dienstleister tun, der wie D.O.G. über entsprechende Verfahren und Tools verfügt.
[1] Regelbasiertes Schreiben – Deutsch für die Technische Kommunikation. 2., erweiterte Auflage 2013. Tekom e. V.