Translation Memory Bereinigung

Translation-Memory-Bereinigung

Bereinigung von Translation-Memorys in mehreren Sprachen

Wartung Ihrer Übersetzungsdatenbanken

Die Pflege von Translation-Memorys senkt Übersetzungskosten

Translation-Memory-Bereinigung ist eine wichtige und kritische Aufgabe für Übersetzungsdienstleister, denn in vielen Unternehmen sind Translation-Memorys das Herzstück der Produktion von Übersetzungen. Sie gehören zu dem, was man im Englischen als linguistic assets (sprachliche Vermögenswerte) bezeichnet. Translation-Memorys enthalten bereits übersetzte Sätze (sogenannte Segmente), die menschliche Übersetzer oder maschinelle Übersetzungssysteme erstellt haben. Einmal übersetzte Inhalte können wiederverwendet werden, was Arbeit und Kosten spart. Gleichzeitig sorgt diese Wiederverwendung für eine einheitliche Übersetzung der Texte und damit für eine höhere Qualität.

Wenn ein Translation-Memory jedoch Fehler enthält oder veraltet ist, kann dies zu großen Problemen bei Ihren Übersetzungen führen. Fehlerhafte Translation-Memorys entstehen z. B., wenn sich die Fachterminologie geändert hat oder wenn im Laufe der Zeit mehrere Übersetzer unterschiedliche Übersetzungen geliefert haben, ohne dass ihr Stil oder ihre Terminologie standardisiert wurden. Übersetzungsfehler, die auf mangelndes Wissen über die Produkte eines Unternehmens oder auf kontextabhängige Bedeutungen zurückzuführen sind, verbreiten sich wie ein Virus, sobald sie unbemerkt in ein Translation-Memory gelangen.

Um fehlerhafte Translation-Memorys zu vermeiden, ist es wichtig, dass Sie Ihre Translation-Memorys regelmäßig aktualisieren und pflegen. Diese Aufgabe ist mit Kosten verbunden und sie erfordert außerdem sprachliche und technische Kenntnisse in mehreren Sprachen. Genau dafür sind wir da, denn wir wissen, wie man die Kosten für diese Art von Aufgabe niedrig hält. Wir können Sie mit Werkzeugen und Methoden unterstützen, mit denen Sie Ihre Translation-Memorys auf einem hohen Qualitätsniveau halten können.

Wenn Sie Ihre Translation-Memorys regelmäßig pflegen, können Sie sicher sein, dass Sie Zeit und Geld sparen und korrekte Übersetzungen in der bestmöglichen Qualität wiederverwenden.

certified
Translation-Memory-Pflege in allen Sprachen
Wir übersetzen in alle Sprachen

Benötigen Sie eine Übersetzung? Wir schicken Ihnen innerhalb kürzester Zeit ein Angebot. Senden Sie uns Ihre Anfrage mit diesem Angebotsformular.

Klicken oder ziehen Sie Dateien in diesen Bereich zum Hochladen. Sie können bis zu 10 Dateien hochladen.
Für größere Volumina: unser Transferlaufwerk nutzen

Translation-Memory Bereinigung: Datenformate

Welche Translation-Memory-Formate bearbeiten wir?

Insgesamt gibt es viele verschiedene Dateiformate für Translation-Memorys oder übersetzte Segmente, die wir alle verarbeiten können. Wir verwenden verschiedene Translation-Memory-Systeme.

Translation-Memory-System
Translation-Memorys (TMs)

werden in der Regel in einer Datenbank gespeichert, wie es bei einem der gängigen Translation-Memory-Systeme wie Across, Trados, memoQ und einigen anderen der Fall ist. Diese TMs können in verschiedenen Formaten ausgetauscht werden, in erster Linie in TMX oder einer seiner tool-spezifischen Ausprägungen.

TMX Datei Format
TMX (Translation-Memorys eXchange)

Dies ist ein weit verbreitetes Dateiformat für Translation-Memorys, das auf XML (eXtensible Markup Language) basiert. TMX-Dateien lassen sich leicht austauschen und können mit einer Vielzahl von Übersetzungstools und Softwareprogrammen verwendet werden.

XLIFF Datei Format
XLIFF (XML Localization Interchange File Format)

Dies ist ein weiteres XML-basiertes Dateiformat für übersetzte Segmente, das in der Lokalisierungsbranche weit verbreitet ist. Es gibt einige Varianten von XLIFF wie SDLXLIFF, das Trados generiert.

Trados Translation Memory
SDLTM (proprietäres Format für Trados-Datenbanken)

SDLTM ist das interne Format von Trados Studio für Translation-Memories. Dieses Dateiformat basiert auf XML und kann nach TMX exportiert werden.

CSV Datei Format
CSV (Comma-Separated Values)

Dies ist ein einfaches Dateiformat, das üblicherweise für die Speicherung von Daten in tabellarischer Form verwendet wird, wobei die Datenspalten und -zeilen durch Kommas getrennt sind. CSV-Dateien sind relativ einfach zu handhaben und können mit einer Vielzahl von Softwareprogrammen und Tools verwendet werden.

PHP Datei Format bei Webseite Übersetzung
PHP

ist eine weit verbreitete Open Source Allzweck-Skriptsprache, die sich besonders für die Webentwicklung eignet und in HTML eingebettet werden kann.

JSON Datei Format
JSON

JSON ist ein Datenformat, das zum strukturierten Speichern von Daten verwendet wird. Es wird häufig verwendet, um Daten in einer Datenbank zu speichern oder um Daten zwischen verschiedenen Teilen einer Webanwendung zu übertragen.

Herausforderungen der Translation-Memory-Bereinigung

Wir verfügen über notwendige Kenntnisse

Fehlertypen in der Translation-Memory Bereinigung

Die sechs wichtigsten Herausforderungen bei der Bereinigung von Translation-Memorys sind:

  1. Identifizierung falscher Daten: Die Bereinigung eines TMs erfordert das Erkennen, Auffinden und Korrigieren ungenauer oder unvollständiger Daten. Dies kann ein zeitaufwändiger Prozess sein und erfordert Kenntnisse über verschiedene Fehlermuster in TMs.

  2. Duplikate oder Dubletten: Bei doppelten Einträgen handelt es sich nicht nur um 100 % identische Zeichenfolgen. Unterschiedliche Formulierungen für denselben Inhalt müssen identifiziert und entweder eliminiert oder zusammengeführt werden.

  3. Unvollständige Segmente: Abgeschnittene Segmente treten auf, wenn die Segmentierung eines Textes vor Beginn der Übersetzung nicht korrekt war. Dies kann zu fehlerhaften Übersetzungen führen und erfordert eine manuelle Korrektur.

  4. Kontextbedingte Fehler: Kontextuelle Fehler treten auf, wenn die Übersetzung des Ausgangssegments korrekt ist, aber nicht dem Kontext der Zielsprache entspricht. In diesem Fall muss ein fachkundiger Übersetzer die Übersetzung überprüfen und auf ihre Richtigkeit hin kontrollieren.

  5. Falsche Terminologie: Falsche Terminologie kann zu Fehlern in den Translation Memorys führen, die man dann mit viel Aufwand manuell im Translation-Memory korrigieren muss.

  6. Übersetzungsfehler: Fehlerhafte Übersetzungen können aus verschiedenen Gründen entstehen. Man braucht Übersetzungskompetenz, um Sinnfehler zu erkennen.

Translation-Memory-Bereinigung in 6 Schritten

Der Prozess der Translation-Memory Bereinigung erklärt

So läuft die Bereinigung Ihrer Translation-Memorys ab:

Anfrage

Sie geben uns Ihre Translation-Memorys
Wir analysieren die Daten, die Fehlertypen und erörtern mit Ihnen Bereinigungsalternativen.

Angebot und Projektstart

Sie prüfen das Angebot und erteilen den Auftrag
Im Angebot wird festgelegt, was bereinigt werden muss und welche Leistungen erforderlich sind (z. B. Terminologieerfassung).

Bereinigung nach Vorgabe

Wir bereinigen Ihre Daten Schritt für Schritt
Wir bereinigen die verschiedenen Fehler im TM und wenden uns ggf. an Sie, wenn es spezielle Fragen gibt.

Qualitätssicherung

Wir prüfen die Qualität des Ergebnisses
Wir überprüfen das bereinigte Translation-Memory auf verbleibende Fehler.

Hinzufügen von Attributen

Die bereinigten Segmente erhalten Attribute
Die bereinigten Segmente werden mit einem Attribut versehen, welches belegt, dass sie überprüft worden sind. Weitere Attribute können hinzugefügt werden. Der Name des Attributs wird im Voraus vereinbart.

Lieferung und Wartung

Wir liefern das bereinigte Memory und die Terminologie
Sie erhalten das bereinigte TM. In der Regel auch die extrahierte Terminologie. Eine regelmäßige Pflege wird empfohlen.

Translation Memorys mit folgenden Sprachkombinationen

Translation Memory Management für folgende Sprachen

Wir bereinigen Übersetzungsdatenbanken in einer großen Zahl von Sprachkombinationen, wie in diesen sehr gefragten Sprachpaaren:

Translation-Memory Bereinigung: Best Practices und Tipps

Die Bereinigung von Übersetzungsdatenbanken im Detail

Translation-Memory Bereinigung

Die Analyse der Translation-Memorys

Bevor wir mit der Analyse beginnen, besprechen wir mit unseren Kunden das Ziel, das sie erreichen wollen. Einige der Aspekte, die wir bei einem Translation-Memory untersuchen, sind:

Die Analyse zielt darauf ab, die Stärken und Schwächen des Memorys zu verstehen und Bereiche zu identifizieren, in denen es verbessert werden kann.

Viele der beschriebenen Methoden können übrigens auch für die Bereinigung von Inhalten aus Redaktionssystemen oder Content-Management-Systemen verwendet werden, wie wir es in diesem Blog-Artikel erklären.

Datenbereinigung: Die Fehlertypen

Hier sind einige der typischen Fehler, die in einem TM vorkommen können:

  1. Dubletten: Ein Satz mit mehreren Übersetzungen. Wir suchen auch nach Sätzen in der Ausgangssprache, die im Grunde die gleiche Bedeutung haben und zu unnötigen Übersetzungsvarianten führen.

  2. Falsche Übersetzungen: Diese treten auf, wenn die Übersetzung die Bedeutung der Ausgangssprache nicht genau wiedergibt. Manchmal stammen die Übersetzungen von neuronalen maschinellen Übersetzungsmaschinen und enthalten sogenannte “Halluzinationen”, d. h. Wörter, die im Ausgangstext nicht existieren.

  3. Terminologiefehler: Diese treten auf, wenn die im Translation-Memory verwendete Terminologie nicht konsistent oder sogar fehlerhaft ist.

  4. Rechtschreibfehler: Diese treten auf, wenn niemand die Übersetzung oder den Ausgangstext auf Rechtschreibung geprüft hat.

  5. Formale Fehler: Diese treten auf, wenn formale Aspekte falsch sind, wie das Schließen von Klammern, das Einfügen falscher Zahlen, die Verwendung einer falschen Kodierung für Sonderzeichen usw…

  6. Unvollständige Sätze: Diese treten auf, wenn die Segmentierung des zu übersetzenden Textes nicht richtig ist. Dies führt zu unvollständigen Segmenten, die aufgrund der unterschiedlichen syntaktischen und morphologischen Struktur der Sprachen sogar zu größeren Fehlern führen können.

  7. Zeichensetzungsfehler: Diese treten auf, wenn die Übersetzung eine falsche Zeichensetzung enthält bzw. wenn Satzzeichen fehlen.

  8. Veraltete Übersetzungen. Sie können z. B. falsche Verweise, Links, Benennungen oder Produktnamen enthalten.

Datenbereinigung Translation Memory
Bedeutung von Metadaten

Von der Bedeutung von Metadaten

Metadaten und Attribute sind in Translation-Memorys wichtig, weil sie Informationen über jedes übersetzte Segment liefern, dem sie zugeordnet sind. TM-Attribute können eine Vielzahl von Informationen enthalten, wie z. B. den Namen des übersetzten Dokuments, die Projektnummer, das Erfassungs- oder Änderungsdatum, die Häufigkeit der Wiederverwendung der Übersetzung, die Segmentherkunft (z.B. Alignment oder MÜ) oder den Bearbeitungsstatus des Segments. Diese Informationen können in verschiedenen Kontexten sehr nützlich sein, z. B.  bei der Verwendung von TMs für das Training einer MÜ-Engine.

Zu den spezifischen Vorteilen von Metadaten gehören:

Translation-Memory Bereinigung: Eingesetzte Technologien

Es gibt verschiedene Tools und Methoden zur Reinigung von Translation-Memorys, die je nach Aufgabe eingesetzt werden können.

Das wichtigste Tool, das wir verwenden, ist ErrorSpy, unsere Software zur Qualitätssicherung von Übersetzungen. Wir haben vor etwa 20 Jahren mit der Entwicklung von ErrorSpy begonnen, und es hat sich zu einem Schweizer Taschenmesser der Qualitätskontrolle entwickelt. Innerhalb von Sekunden liefert ErrorSpy eine Liste möglicher Fehler, z. B. Terminologie-, Zahlen- oder Konsistenzfehler, die unsere Revisoren durchgehen.

Wir arbeiten auch mit regulären Ausdrücken, die es uns ermöglichen, bestimmte Muster in Translation-Memorys zu erkennen und einige von ihnen automatisch zu korrigieren. So können wir beispielsweise die Schreibweise von Produktnamen, Datumsformaten, überflüssige Leerzeichen, Überbleibsel alter Rechtschreibung oder bestimmten Wortfolgen erkennen und ändern.

Wenn Sie z. B. unterschiedliche Maße in Ihrer TM haben, wie in „Dieses Produkt hat die Maße 5 cm x 10,0 cm x 2cm.“, können Sie diese Stellen mit einer Regex wie (\d+,\d*|\d+)\s*cm finden und korrigieren.

Um die Qualität unserer Daten zu gewährleisten, setzen wir die neuesten KI-Technologien ein, insbesondere Large Language Models (LLMs). Mithilfe gezielter Prompts und ggfs. Trainingsbeispielen können wir LLMs für semantische Analysen nutzen und beispielsweise Segmente identifizieren, die trotz unterschiedlicher Formulierung die gleiche Bedeutung tragen. So erkennen wir beispielsweise, dass „Kein Aufenthalt unter schwebenden Lasten“ und „Nicht unter schwebenden Lasten stehen“ semantisch identisch sind (= haben dieselbe Bedeutung) und nur eine Übersetzung benötigen. Diese Fähigkeit der LLMs hilft uns, Redundanzen zu vermeiden und die Konsistenz der Übersetzungen zu gewährleisten.

Ergänzend dazu nutzen wir eine Reihe weiterer linguistischer Tools und selbstentwickelter Programme, um typische Fehler wie unvollständige Sätze, Mehrdeutigkeiten oder Rechtschreibfehler aufzudecken und zu korrigieren. Durch die Kombination von KI-gestützten Verfahren und bewährten linguistischen Werkzeugen stellen wir die höchstmögliche Qualität unserer Daten sicher.

Technologien bei der Datenbereinigung einsetzen
Zusammenarbeit mit der D.O.G. GmbH
Bereinigungsservice für Ihre Sprachdaten
Sieben Gründe für eine Zusammenarbeit mit uns

Warum sollten Sie unsere Dienste zur Bereinigung von Translation-Memorys nutzen?

  1. Wir garantieren Ihnen Zeit- und Kosteneinsparungen durch bereinigte TMs.
  2. Wir haben die richtigen Werkzeuge und Technologien für diese Aufgabe.
  3. Wir haben mehr als 25 Jahre Erfahrung mit der Bereinigung von Translation-Memorys
  4. Unsere Qualitätssicherung erfüllt und übertrifft die DIN EN ISO 17100.
  5. Wir kennen uns mit KI-gestützten Qualitätssicherungsmethoden aus.
  6. Wir garantieren verlässliche Dienstleistungen und Qualität.
  7. Sie haben keine Fixkosten und Kosten entstehen bei Ihnen nur, für das, was Sie benötigen.

Kuratierung von Translation-Memorys

Unsere Dienstleistungen im Überblick

Wir bieten umfangreiche Leistungen zur Bereinigung und Kuratierung (engl. curation) von Translation-Memorys an, z. B:

Kundenstimmen
Das sagen unsere Kunden
FAQ
Häufig gestellte Fragen zur Bereinigung von Translation-Memorys
Wie oft sollten Translation-Memorys gereinigt werden?

Zunächst einmal ist es wichtig, dass es einen Prozess gibt, um Translation-Memorys “sauber” zu halten. Dazu gehören die Auswahl des richtigen Übersetzungspartners, die Pflege und Verwendung einer Firmenterminologie und die Verwendung von Attributen zur optimalen Nutzung der übersetzten Segmente. Es wird empfohlen, Translation-Memorys regelmäßig alle 3 bis 6 Monate zu bereinigen und dazwischen gelegentlich weitere Überprüfungen vorzunehmen.

Welche Risiken entstehen, wenn Translation-Memorys nicht gereinigt werden?
  1. Qualitätsmängel: Wenn ein Translation-Memory nicht bereinigt wird, sinkt die Qualität der Übersetzungen. Im Laufe der Zeit können Translation-Memorys mit falschen, inkonsistenten, schlecht übersetzten oder ungenauen Übersetzungen gefüllt werden, was zu einem qualitativ minderwertigen Ergebnis führt.
  2. Unnötige Kosten: Wenn ein Translation-Memory nicht bereinigt wird, können die Übersetzungskosten steigen. Es können weniger Segmente wiederverwendet werden, und die Kosten für die Qualitätssicherung sind aufgrund von Fehlern oder Unstimmigkeiten in übersetzten Segmenten höher.
  3. Sicherheitsrisiko: Mit der Zeit können Translation-Memorys mit schwerwiegenden Fehlern gefüllt werden, die zu falschen Handlungen des Benutzers eines Geräts oder einer Software führen und Sach- oder Personenschäden verursachen können.
  4. Kompatibilitätsprobleme: Wird ein Translation-Memorys nicht bereinigt, kann es bei der Verwendung mit anderen Systemen zu Kompatibilitätsproblemen kommen.
Kann ein Translation-Memory automatisch gereinigt werden, oder ist ein manueller Eingriff erforderlich?

Translation-Memorys können sowohl manuell als auch automatisch bereinigt werden. Eine automatische Bereinigung kann doppelte Segmente erkennen und entfernen oder Segmente löschen, die zu kurz sind, um sinnvoll zu sein. Die Automatismen können auch formale Korrekturen am Inhalt der TMs vornehmen, z.B. mit Hilfe von regulären Ausdrücken, oder Metadaten zu den Segmenten hinzufügen.

Manuelle Verfahren sind immer dann erforderlich, wenn menschliches Urteilsvermögen gefragt ist. Dies ist z. B. der Fall, wenn es darum geht, zu entscheiden, ob eine Übersetzung falsch ist oder ob ein Fachbegriff geändert werden muss.

Verschiedene Optionen für unterschiedliche Budgets

Strategien zur Bereinigung und Kuratierung von Translation-Memorys

Die Bereinigung von Translation-Memorys ist ein komplexer und manchmal kostspieliger und langwieriger Prozess. Je nach dem Schweregrad der Fehler in den Translation-Memorys, dem Zeit- und dem Kostenbudget lassen sich verschiedene Strategien entwickeln.

Option Nr. 1:

Vollständige Bereinigung aller Fehler: Dies bietet die größte Sicherheit in Bezug auf die Qualität der abschließend geprüften TMs, aber nicht immer das beste Kosten-Nutzen-Verhältnis. So gibt es beispielsweise Segmente, die niemand mehr verwendet, oder solche, die sehr alt sind und Produkte betreffen, an deren Entwicklung niemand mehr arbeitet.

Option Nr. 2:

Bereinigung nur eines Teils der Translation-Memorys. Einige TMs entstanden vor 10 oder mehr Jahren und enthalten viele Segmente, die nicht mehr aktuell sind. Die Bereinigungsaktion lässt sich dann z. B. auf die letzten drei oder fünf Jahre beschränken, was den Aufwand reduziert.

Option Nr. 3:

Einschränkung der Qualitätskriterien und Überprüfung nur auf bestimmte Aspekte. So könnten Sie z. B. festlegen, dass die Vereinheitlichung der Terminologie auf 50 oder 100 Schlüsselbenennungen beschränkt ist.

Option Nr. 4:

Mit Attributen und Abzügen bei der Verwendung von Segmenten aus einem Translation-Memory arbeiten. So können ungeprüfte Segmente ein Attribut und einen Abzug von 2-3 % für Matches (Treffer aus dem Translation-Memory, wenn derselbe Satz im Text vorkommt) erhalten. Nicht überprüfte Übersetzungen werden somit zu Fuzzy-Matches, die der Übersetzer oder die Übersetzerin überprüfen muss, bevor er oder sie sie in die Übersetzung aufnimmt. Sobald die Übersetzung abgeschlossen und überprüft ist, erhalten alle verwendeten Segmente das Attribut „checked“ (oder ähnlich).

Diese Optionen können Sie miteinander kombinieren.

Datenpflege-Service - Überblick

Diese Aspekte prüfen wir bei Translation-Memorys

Sprachliche Aspekte:

Fachliche und inhaltliche Aspekte:

Technische Aspekte:

Datenanonymisierung (optional):

Michael Gipperich - Kontaktperson

Möchten Sie Ihre Translation-Memorys bereinigen lassen?

Dann sollten Sie mit uns sprechen, denn es gibt viele Möglichkeiten und Wege, Kosten zu sparen. Sie können von unserer Erfahrung mit zahlreichen Bereinigungsprojekten profitieren. Kontaktieren Sie uns unverbindlich.

Ähnliche Themen
Das könnte Sie auch interessieren
Nach oben scrollen