Lesbarkeitsindex berechnen

Kann man Lesbarkeit oder Übersetzbarkeit messen?

Was wäre, wenn Technische Redakteure und Übersetzer die Lesbarkeit oder Übersetzbarkeit eines technischen Textes zuverlässig messen könnten? Die potenziellen Vorteile einer solchen Kennzahl liegen auf der Hand. Man würde Problemquellen mit Textinhalten frühzeitig erkennen und Gegenmaßnahmen ergreifen können. Man könnte die benötigte Zeit für die Übersetzung und die Qualitätskontrolle besser planen.

Wenn Dokumentationen in größerem Umfang produziert werden, würden solche Kennzahlen helfen, Prozesse besser zu steuern, z.B. um automatisch zu entscheiden, ob eine Übersetzung intern oder extern bzw. mit oder ohne Einsatz von maschinellen Übersetzungssystemen durchgeführt werden soll. Zudem würden solche Kennzahlen bedeuten, dass technische Texte wie Bedienungsanleitungen, Reparaturhandbücher, Software-Dokumentation oder Schulungsmaterial bereits auf Lesbarkeit und Übersetzbarkeit optimiert wurden, bevor sie in Umlauf gebracht werden. Dies führt zu einer höheren Dokumentationsqualität und tendenziell niedrigeren Kosten für Dokumentation und Übersetzung, da gut geschriebene Inhalte einfacher wiederverwendbar und übersetzbar sind.

Formeln zur Berechnung der Lesbarkeit

Wie lässt sich eine geeignete Formel zur Messung der Lesbarkeit und Übersetzbarkeit entwickeln? Gibt es bereits fertige Lösungen, die wir einfach nutzen können? Formeln gibt es bereits viele. Bekannte Verfahren wie der Flesch-Reading-Ease-Score oder der Gunning-Fog-Index wurden ursprünglich für die englische Sprache entwickelt. Sie bewerten die Lesbarkeit auf einer Skala und geben Hinweise auf den Schwierigkeitsgrad. Diese Formeln haben jedoch ihre Grenzen. Zum einen berücksichtigen sie nicht die spezifischen Merkmale deutscher Texte. Zum anderen konzentrieren sie sich eher auf allgemeine Textsorten und weniger auf die Herausforderungen der technischen Kommunikation.

Daher wurden in Deutschland eigene Indizes entwickelt, die besser auf die Eigenheiten der deutschen Sprache und die Anforderungen technischer Dokumente abgestimmt sind. Der älteste Versuch liefert das Hamburger Verständlichkeitskonzept, das Anfang der 1970er Jahre an der Universität Hamburg von den Psychologen Reinhard Tausch, Inghard Langer und Friedemann Schulz von Thun entwickelt wurde. Es basiert auf vier Merkmalen: Einfachheit, Gliederung/Ordnung, Kürze/Prägnanz und anregende Zusätze. Ein prominentes späteres Index ist der Hohenheimer Verständlichkeits-Index (HIX). Er wurde an der Universität Hohenheim in Zusammenarbeit mit der H+H CommunicationLab GmbH entwickelt und erfolgreich in der Automobilindustrie eingesetzt. Er benutzt aber mehrere Parameter wie die Wahl von Anglizismen, die mit den einfachen Mitteln eines technischen Redaktion schwer zu erfassen sind.

Darauf aufbauend entstand das Karlsruher Verständlichkeitskonzept von Prof. Susanne Göpferich. Dieses Modell geht einen Schritt weiter und fokussiert auf die Kommunikationssituation und die mentalen Modelle des Lesers. Es berücksichtigt also nicht nur die rein sprachlichen Aspekte, sondern auch die kontextuellen Faktoren, die die Verständlichkeit beeinflussen. Es ist allerdings komplexer und datenintensiver.

Ganzheitliche Bewertung

Daher ist es sinnvoll, einen eigenen Index speziell für den Bereich der technischen Kommunikation zu entwickeln. Diese Kennzahl kann als Frühwarnsystem in Bereichen eingesetzt werden, in denen große Mengen an Dokumenten regelmäßig erstellt und übersetzt werden müssen. Bei der Beurteilung der Lesbarkeit eines Textes kommen einem sofort verschiedene Elemente in den Sinn. Um die Verständlichkeit eines Textes umfassend und gründlich zu bewerten, ist ein ganzheitlicher Ansatz erforderlich. Denn diese Bewertung berücksichtigt sowohl objektive Merkmale des Textes und Dokuments als auch subjektive Faktoren wie die Erfahrung des Lesers und die Kommunikationssituation. Neben der einfachen Analyse formaler Merkmale wie Satzlänge, Wortzahl oder Anzahl der Überschriften können auch andere Faktoren berücksichtigt oder gemessen werden. Zum Beispiel die Zeit, die zum Lesen des Textes benötigt wird, oder die Anzahl der Rückfragen von Lesern oder Übersetzern.

Lesbarkeit messen ja, aber schnell bitte

Leider ist es im Redaktionsalltag kaum möglich, solche gründlichen Analysen regelmäßig durchzuführen. Hier braucht man einen heuristischen und pragmatischen Ansatz, der zwar nicht perfekt ist, aber dennoch eine brauchbare Orientierung bietet und mit geringem Aufwand realisierbar ist. Am besten sollte diese Lösung automatisiert sein, um eine einfache und effiziente Anwendung zu ermöglichen.

Messbare Faktoren für die Verständlichkeit eines Textes

Wir müssen uns daher auf Faktoren konzentrieren, die leicht zu erfassen und zu messen sind. Welche Faktoren sind dies? Bei Dokumenten, die in Schriftsprachen geschrieben sind, sind die wichtigsten Maßeinheiten Buchstaben, Wörter, Sätze und Absätze. Anhand dieser Merkmale lassen sich die relevanten Parameter schnell bestimmen. Das Formelergebnis ist kein Ersatz für das Urteil eines Übersetzers oder Redakteurs, liefert aber dennoch wertvolle Aufschlüsse über die Verständlichkeit des Textes.

Zusätzliche Faktoren wie typografische Gestaltung, Überschriften, Definitionen, Erläuterungen, Navigationsmöglichkeiten und Grafiken beeinflussen die Verständlichkeit von Inhalten ebenfalls. Manche dieser Parameter kann man mit den gängigen Programmen aus einer technischen Redaktion oder Übersetzungsabteilung ermitteln. Redakteure oder Übersetzer verwenden MS-Word, Desktop-Publishing-Systemen, Texteditoren, Redaktionssysteme oder Translation-Memory-Systeme. Andere Faktoren, die eine linguistische Analyse erfordern (z. B. Syntax, Passiverkennung, Wortreduktion/Lemmatisierung), lassen sich nur mit spezieller Software erfassen und werden aus pragmatischen Gründen hier nicht weiter berücksichtigt.

Grundgedanken für den Entwurf einer Lesbarkeits- und Übersetzbarkeitsformel

Was macht eigentlich einen Text verständlich und übersetzbar? Wenn die Sätze nicht zu lang sind, in der Aktivform stehen und der Text auf Synonyme und lange Komposita verzichtet, ist der Text leichter zu übersetzen oder zu verstehen als ein Dokument, das aus langen verschachtelten Sätzen mit vielen unterschiedlichen Fachbegriffen und Synonymen besteht. Vieles davon findet man übrigens in Texten, die in “kontrollierter Sprache” geschrieben sind. Siehe dazu unseren Blog-Artikel Schreiben für Maschinen.

Die Formel soll also diesen Ansatz widerspiegeln. Wir haben bei den Parametern grundsätzlich zwei Einflussgrößen, die wir getrennt betrachten: Parameter, die sich auf Wörter beziehen und welche, die satzbasiert sind un den ganzen Text betreffen.

Da wortbasierte und satzbasierte Parameter die Lesbarkeit eines Textes unterschiedlich beeinflussen, werden sie in der Formel im Zähler (wortbasiert oben) und im Nenner (satzbasiert unten) getrennt dargestellt. Dies ist besonders sinnvoll, wenn bestimmte Texte sehr komplex in Bezug auf das Vokabular, aber relativ einfach in Bezug auf die Syntax sind, oder umgekehrt.

Ferner benutzt die nachfolgende Lesbarkeits- und Übersetzbarkeitsformel neben messbaren Faktoren auch Gewichtungen. Die Gewichtungen sollen helfen, die Formel für die Art von Texten, die eine Technische Redaktion produziert, feinzutunen. Die Gewichtungen werden im Folgenden näher erläutert. Sobald diese Gewichtungsfaktoren festgelegt sind, sollte der resultierende Indexwert der Formel in etwa angeben, wie schwer die Texte tatsächlich zu verstehen/übersetzen sind. Autoren oder Übersetzer können mithilfe dieser Faktoren neue Texte auf einheitlicher Weise bewerten. Auch lassen sich die Parameter bei Bedarf anpassen, d.h. wenn bei einem bestimmten Dokumentationstyp weitere Merkmale vorkommen, die leicht zu erfassen sind (z.B. gewisse Tags in XML-Dateien für Überschriften oder Metadaten). Sie können dann ebenfalls in die Formel aufgenommen werden.

Parameterauswahl

Die nachfolgende Formel lässt sich im Bereich der technischen Redaktion und der Fachübersetzungen gut verwenden. Bei der Anpassung der Gewichtungsfaktoren ist zu beachten, dass diese im Zähler und Nenner der Formel entgegengesetzte Auswirkungen haben. Eine höhere Gewichtung im Nenner führt dazu, dass das Formelergebnis höher wird. Die Basisformel, die wir als Startpunkt nehmen, verwendet folgende Parameter und Gewichtungsfaktoren:

Formel

Wortbasierte Parameter

  • WGWZ (einmalige Wörter / Gesamtwortzahl) × 2: Dieser Faktor erhält eine relativ starke Gewichtung, da wir Texte mit möglichst wenigen Synonymen anstreben. Eine hohe Wortvielfalt (d.h. viele Synonyme) verschlechtert die Lesbarkeit und Übersetzbarkeit.
  • WL (durchschnittliche Wortlänge) × 0.25: Dieser Faktor hat eine geringe Gewichtung. Zu lange Wörter können den Text schwerer verständlich machen, auch in technischen oder spezialisierten Kontexten. Man denke an Wortungetüme wie “Grundstücksverkehrsgenehmigungszuständigkeitsübertragungsverordnung”“. Die geringe Gewichtung zeigt aber, dass die Wortlänge bei technischen Texten weniger Einfluss auf die Übersetzbarkeit hat, da technische Texte im Vergleich zu allgemeinen Texten viele deutsche Komposita haben.

Satzbasierte Parameter

  • WS (Wörter pro Satz): Dies ist der Basiswert im Nenner, der die durchschnittliche Länge der Sätze misst. Längere Sätze neigen dazu, die Übersetzbarkeit zu erschweren, da sie syntaktisch komplexer sind. Eine höhere Zahl im Nenner “bestraft” das Endergebnis und verringert den Wert des Lesbarkeitsindexes.
  • IS (Interpunktionszeichen pro Satz einschl. Klammern) × 0.5: Diese Gewichtung bedeutet, dass Interpunktionszeichen die Lesbarkeit und damit die Übersetzbarkeit positiv beeinflussen können. Auf der anderen Seite kann viel Interpunktion auf komplexe Satzstrukturen hinweisen.
  • SP (Sätze pro Paragraph) × 0.25: Das wir hier im Nennerteil der Division sind, sagt eine geringere Gewichtung aus, dass die Anzahl der Sätze pro Absatz mehr Einfluss auf die Übersetzbarkeit hat als die Satzlänge oder die Interpunktion.

Die Gewichtung lässt sich je nach Textart und Schwerpunkt anders festlegen.

$$Les- und Übersetzbarkeit = \frac{(WGWZ \times 2) + (WL \times 0.25)}{WS + (IS \times 0.5) + (SP \times 0.25)}$$

Berechnungsbeispiel

Nehmen wir an, wie haben diese beiden Dokumente:

Dok 1:Ich benutze ein Tool zum Schreiben von Texten, und diese Software ist ein Programm der Firma Microsoft.
Dok 2: “Ich benutze ein Programm zum Schreiben von Texten. Dieses Programm ist ein Programm der Firma Microsoft.

Aus diesen Dokumenten können wir folgende Parameter gewinnen:

Parametername Dok 1 Dok 2
Wortanzahl 17 16
Einmalige Wörter 16 13
Ratio Einmalige Wörter $$\frac{16}{17} \approx 0.94$$ $$\frac{13}{16} \approx 0.81$$
Durchschnittliche Wortlänge 5,12 Buchstaben 5,56 Buchstaben
Wörter pro Satz 17 8
Sätze 1 2
Interpunktionszeichen pro Satz 2 (Komma, Punkt) 2 (Punkt, Punkt)
Sätze pro Paragraph 1 2

Berechnung der Lesbarkeit und Übersetzbarkeit

$$\text{Les- und Übersetzbarkeit}_{\text{Dok1}} = \frac{(0.9412 \times 2) + (5.12 \times 0.25)}{17 + (2 \times 0.5) + (1 \times 0.25)} = \frac{(1.8824) + (1.28)}{17 + 1 + 0.25} = \frac{3.1624}{18.25} = 0.1733$$

$$\text{Les- und Übersetzbarkeit}_{\text{Dok2}} = \frac{(0.8125 \times 2) + (5.56 \times 0.25)}{8 + (2 \times 0.5) + (2 \times 0.25)} = \frac{(1.625) + (1.39)}{8 + 1 + 0.5} = \frac{3.015}{9.5} = 0.3174$$

Die Berechnung zeigt, dass Dokument 1 mit einem Wert von 0,1733 weniger gut übersetzbar ist als Dokument 2 mit einem Wert von 0,3174. Diese Werte spiegeln die Unterschiede in der Textstruktur und im Wortschatz der beiden Dokumente wider. Die Gewichtungsfaktoren spielen eine entscheidende Rolle bei der Messung der Lesbarkeit bzw. Übersetzbarkeit eines Textes. Sie lenken die Aufmerksamkeit darauf, welche Aspekte des Textes aus linguistischer Sicht wichtiger für die Übersetzbarkeit sind. Je höher das Ergebnis der Formel, desto leichter ist der Text im Allgemeinen zu übersetzen. Wenn ein Faktor im Nenner (unten) stärker gewichtet wird, verringert dies den Index der Übersetzbarkeit. Im Zähler (oben) bedeutet ein höher gewichteter Faktor zu einem höheren Wert des Index.

Kann KI helfen?

Große Sprachmodelle (LLMs) haben die Fähigkeit der KI im Umgang mit Texten in den letzten Jahren deutlich verbessert. Sie können die Bedeutung von Texten mittlerweile deutlich besser verstehen und so Aufgaben wie Textgenerierung, Übersetzung und Textzusammenfassung unterstützen.

Im Bereich der Lesbarkeits- und Übersetzbarkeitsbewertung kann KI jedoch noch nicht alle Herausforderungen meistern. Die Ergebnisse der automatisierten Analyse sind nicht immer reproduzierbar und lassen sich nicht immer zuverlässig steuern.

Dennoch kann KI unter Aufsicht wertvolle Dienste leisten. Durch die Verwendung von präzise formulierten Prompts (Anweisungen), die die relevanten Verständlichkeits- oder Übersetzbarkeitskriterien für eine bestimmte Redaktionssituation definieren, kann KI dazu beitragen, Trainingsdaten für die Optimierung der Lesbarkeits- und Übersetzbarkeitsformeln zu generieren. Eine Beschreibung der großen Sprachmodelle und ihrer Grenzen finden Sie in diesem Blog-Artikel Große Sprachmodelle: Machen sie Übersetzer und Redakteure überflüssig?

Kritische Betrachtung des Index

Diese Zahlen muss man natürlich kritisch betrachten und interpretieren. Sie beziehen sich lediglich auf formale Aspekte und berücksichtigen nicht den inhaltlichen Gehalt des Textes (d.h. die Semantik). Ein sehr niedriger Wert für die durchschnittliche Wortanzahl pro Satz kann auf Wortlisten (z. B. in Software oder Katalogen) hinweisen, die ohne Kontextinformationen schwer verständlich sein können.

Die Ergebnisse der Messung sollten immer in Kombination mit einer inhaltlichen Analyse des Textes betrachtet werden.

Technische Umsetzung

Die Gretchenfrage lautet, wie man diese Zahlen schnell ermitteln kann. Standardmäßig liefern Textverarbeitungsprogramme wie Microsoft Word folgende Informationen: Anzahl der Absätze, Buchstaben (mit und ohne Leerzeichen), Seiten, Wörter, Zeichen und Zeilen. Diese Angaben decken bereits einen Großteil der benötigten Parameter ab, entweder direkt oder durch einfache Umrechnung.

Es fehlen noch die einmaligen Wörter und die Interpunktionszeichen. Hier kann ein reines Textverarbeitungsprogramm wie UltraEdit oder das kostenlose Notepad++ helfen. Der zu analysierende Text wird in reinem Textformat in ein solches Programm kopiert. Für die Zählung der Interpunktionszeichen wie Punkt, Fragezeichen, Ausrufezeichen, Komma, Doppelpunkt, Semikolon, Klammern, Anführungszeichen, Bindestriche und Schrägstriche hilft ein Suchen und Ersetzen mit einem regulären Ausdruck wie [.,?!:;()\[\]/].

Wenn man diesen regulären Ausdruck im Suchfeld von Notepad++ eingibt und die Option Reguläre Ausdrücke aktiviert, erhält man die Anzahl der Vorkommnisse dieser Zeichen im Dokument. Um die Anzahl der einmaligen Wörter zu berechnen, ersetzt man zunächst alle Leerzeichen durch Absatzmarken. So werden alle Wörter in separaten Zeilen dargestellt und die Anzahl der Zeilen entspricht der Anzahl der Wörter. Zuerst wird die Liste alphabetisch sortiert (Bearbeiten > Zeilenoperationen > Alphabetisch sortieren). Anschließend wählt man die Option (Bearbeiten > Zeilenoperationen > Doppelte Zeilen entfernen). So erhält man die Liste der einmaligen Wörter und man kan sie zählen. Voraussetzung ist allerdings, dass alle Satzzeichen zuvor gelöscht wurden.

Automatisierung der Lesbarkeitsanalyse

Die manuelle Ermittlung der benötigten Werte für die Lesbarkeitsformel kann zeitaufwändig sein, insbesondere bei längeren Texten. Glücklicherweise lässt sich dieser Prozess mithilfe von Skripten oder kleinen Programmen automatisieren. Diese können eine Textdatei als Eingabe nehmen und den berechneten Lesbarkeitsindex als Ausgabe liefern.

Auf diese Weise lassen sich große Mengen an Texten effizient analysieren, ohne dass jede einzelne Datei manuell analysiert werden muss. Dies ist besonders nützlich für Unternehmen oder andere Organisationen, die regelmäßig die Lesbarkeit von Texten überprüfen müssen. Falls Sie Interesse an einem Beispiel für ein solches Skript in der Programmiersprache Python haben, stellen wir Ihnen gerne ein solches zur Verfügung. Senden Sie uns einfach eine E-Mail an info@dog-gmbh.de, und wir lassen Ihnen den Code zukommen.

Fazit

Mit dieser Methode können Übersetzer ihre Arbeit besser planen und Redakteure können Rückschlüsse auf die Verständlichkeit ihrer Texte ziehen.

In diesem Blogbeitrag haben wir eine Methode zur Messung der Lesbarkeit und Übersetzbarkeit von technischen Texten und Fachtexten im Bereich der technischen Kommunikation vorgestellt. Diese Methode bietet Flexibilität und ermöglicht die Berücksichtigung weiterer unternehmensspezifischer Merkmale, sofern diese einfach zu erfassen sind. Das Ergebnis ist ein wertvolles Werkzeug für Redakteure und Übersetzer, das sie bei der Produktion und Übersetzung von Texten unterstützt. Dennoch darf man nicht vergessen, dass diese Kennzahlen immer kritisch überprüft und regelmäßig mit den Ergebnissen einer Analyse durch Experten verglichen werden sollten.

Nach oben scrollen