Übersetzungstools im Test

Kleinere Auflagen benötigen dringend ein maschinelles Übersetzungstool – aber es ist nicht gut genug, um es allein zu nutzen. Wikipedia wurde mit dem Ziel gegründet, Wissen weltweit frei verfügbar zu machen – aber im Moment ist es vor allem die Bereitstellung auf Englisch. Die englische Wikipedia ist mit 5,5 Millionen Artikeln die mit Abstand größte Ausgabe, und nur 15 der 301 Ausgaben haben mehr als eine Million. Die Qualität dieser Artikel kann drastisch variieren, wobei wichtige Inhalte oft völlig fehlen. Zweihundertsechs Ausgaben fehlen ein Artikel über den emotionalen Glückszustand und knapp die Hälfte ein Artikel über den Homo sapiens. Es scheint das perfekte Problem für maschinelle Übersetzungstools zu sein, und im Januar hat Google eine Partnerschaft mit der Wikimedia Foundation geschlossen, um es zu lösen und Google Translate in das eigene Content-Übersetzungstool der Foundation zu integrieren, das Open-Source-Übersetzungssoftware verwendet.  Wie gut die Qualität des portugiesisch deutsch Google Übersetzer ist, ist immer unterschiedlich. Aber für die Redakteure, die an nicht-englischen Wikipedia-Ausgaben arbeiten, war das Content-Übersetzungstool eher ein Fluch als ein Segen und erneuert die Debatte darüber, ob Wikipedia überhaupt im Geschäft der maschinellen Übersetzung sein sollte.

Content-Übersetzungstool

Wörterbücher von Langenscheidt

Das als Beta-Funktion verfügbare Content-Übersetzungstool ermöglicht es Redakteuren, eine Vorschau auf einen neuen Artikel zu erstellen, basierend auf einer automatisierten Übersetzung aus einer anderen Ausgabe. Richtig eingesetzt, kann das Tool den Redakteuren wertvolle Zeit sparen, um unterbesetzte Ausgaben zu erstellen – aber wenn es schief geht, können die Ergebnisse verheerend sein. Ein globaler Administrator wies auf eine besonders grausame Übersetzung aus dem Englischen ins Portugiesische hin. Was in der englischen Version „Dorfpumpe“ ist, wurde zu „Bombe das Dorf“, wenn man die maschinelle Übersetzung ins Portugiesische durchführt. „Die Leute nehmen Google Translate als einwandfrei“, sagte der Administrator, der darum bat, von seinem Wikipedia-Nutzernamen Vermont angesprochen zu werden. „Offensichtlich ist es das nicht. Es ist nicht als Ersatz für das Wissen um die Sprache gedacht.“

Diese minderwertigen maschinellen Übersetzungen sind zu einem solchen Problem geworden, dass einige Ausgaben spezielle Verwaltungsregeln erstellt haben, nur um sie auszurotten. Die englische Wikipedia-Community entschied sich für ein temporäres „schnelles Löschen“, nur um es Administratoren zu ermöglichen, „jede Seite zu löschen, die mit dem Content-Übersetzungstool vor dem 27. Juli 2016 erstellt wurde“, solange keine Version in der Seitenhistorie existiert, die nicht maschinell übersetzt wird. Der Name dieses „Ausnahmesituation“ Schnelllöschkriteriums lautet „X2. Seiten, die mit dem Inhaltsübersetzungstool erstellt wurden.“

Das sagt die Wikimedia Foundation dazu

Die Wikimedia Foundation, die Wikipedia verwaltet, verteidigte das Tool, als sie nach einem Kommentar gefragt wurde, und betonte, dass es nur ein Werkzeug unter vielen ist. „Das Tool zur Übersetzung von Inhalten bietet unseren Redakteuren entscheidende Unterstützung“, sagte ein Vertreter, „und seine Wirkung reicht sogar über Wikipedia hinaus, um der breiteren, internetweiten Herausforderung des Mangels an lokalsprachigen Inhalten im Internet zu begegnen“. Das mag überraschend sein, wenn Sie in den letzten Jahren Schlagzeilen darüber gesehen haben, dass die KI „Parität“ mit menschlichen Übersetzern erreicht. Aber diese Geschichten beziehen sich in der Regel auf enge, spezialisierte Tests der Fähigkeiten der maschinellen Übersetzung, und wenn die Software tatsächlich in der Wildnis eingesetzt wird, werden die Grenzen der künstlichen Intelligenz deutlich. Wie Douglas Hofstadter, Professor für Kognition an der Indiana University Bloomington, in einem einflussreichen Artikel zu diesem Thema aussprach, ist die KI-Übersetzung flach. Es produziert Text, der auf Oberflächenniveau flüssig ist, aber in der Regel die tiefere Bedeutung von Wörtern und Sätzen vermisst. KI-Systeme lernen zu übersetzen, indem sie statistische Muster in großen Teilen von Trainingsdaten studieren, aber das bedeutet, dass sie blind für die Nuancen der Sprache sind, die seltener verwendet werden, und nicht den gesunden Menschenverstand haben.

Das Ergebnis für die Wikipedia-Redakteure ist eine große Kompetenzlücke. Ihre maschinelle Übersetzung erfordert in der Regel eine enge Betreuung durch die Übersetzer, die selbst über ein gutes Verständnis der beiden Sprachen verfügen müssen, die sie übersetzen. Es ist ein echtes Problem für kleinere Wikipedia-Ausgaben, die bereits für Freiwillige umgerüstet sind.

Qualität der Übersetzung

Guilherme Morandini, ein Administrator auf der portugiesischen Wikipedia, sieht oft, wie Benutzer Artikel im Content-Übersetzungstool öffnen und sofort ohne Überprüfung in einer anderen Sprachversion veröffentlichen. Seiner Erfahrung nach ist das Ergebnis eine schlampige Übersetzung oder völliger Unsinn, eine Katastrophe für die Glaubwürdigkeit der Ausgabe als Informationsquelle. Erreicht von The Verge, verwies Morandini auf diesen Artikel über Jusuf Nurkić als Beispiel, Maschine ins Portugiesische übersetzt aus dem Englischen. Die erste Zeile, „…. é um Bósnio profissional que atualmente joga ….“ übersetzt direkt zu „…. ist ein professioneller Bosnier, der derzeit spielt…“, im Gegensatz zur englischen Version „…. ist ein bosnischer professioneller Basketballspieler…“.

Die indonesische Wikipedia-Gemeinschaft ist sogar so weit gegangen, dass sie die Wikimedia Foundation formell auffordert, das Tool aus der Ausgabe zu entfernen. Die Wikimedia Foundation scheint zögerlich zu sein, dies auf der Grundlage des Threads zu tun, und hat den Konsens der Gemeinschaft in der Vergangenheit aufgehoben. Privat wurden gegenüber The Verge Bedenken geäußert, dass es Befürchtungen gibt, dass dies zu einer Wiederholung des Kampfes 2014 gegen den Media Viewer führen könnte, was zu erheblichem Misstrauen zwischen der Foundation und den von ihr beaufsichtigten, von der Gemeinde geführten Ausgaben führt. Wikimedia beschrieb diese Antwort in positiveren Worten. „Als Reaktion auf das Feedback der Community haben wir Anpassungen vorgenommen und positives Feedback erhalten, dass die von uns vorgenommenen Anpassungen effektiv waren“, sagte ein Vertreter.

Übersetzungswerkzeuge sind entscheidend

João Alexandre Peschanski, Professor für Journalismus an der Fassade Cásper Líbero in Brasilien, der einen Kurs über Wikiversity unterrichtet, ist ein weiterer Kritiker des aktuellen maschinellen Übersetzungssystems. Peschanski sagt: „Eine gemeindeweite Strategie zur Verbesserung des maschinellen Lernens sollte diskutiert werden, da wir durch das, was ich sagen würde, ein ziemlich mühsames Übersetzungsprojekt verlieren könnten“. Übersetzungswerkzeuge „sind entscheidend“, und nach Peschanskis Erfahrung funktionieren sie „ziemlich gut“. Die Hauptprobleme, mit denen man konfrontiert ist, sind, sagt er, das Ergebnis inkonsistenter Vorlagen, die in Artikeln verwendet werden. Im Idealfall enthalten diese Vorlagen sich wiederholendes Material, das über viele Artikel oder Seiten hinweg benötigt werden kann, oft zwischen verschiedenen Sprachausgaben, was die automatische Analyse der Sprache erleichtert. Peschanski betrachtet Übersetzung als eine Aktivität der Wiederverwendung und Anpassung, bei der die Wiederverwendung zwischen Sprachausgaben davon abhängt, ob Inhalte auf einer anderen Website vorhanden sind. Anpassung bedeutet aber, einen „anderen kulturellen, sprachspezifischen Hintergrund“ in die Übersetzung einzubringen, bevor es weitergeht. Eine breitere mögliche Lösung wäre die Einführung einer Art projektweiter Richtlinie, die maschinelle Übersetzungen ohne menschliche Aufsicht verbietet.

Die meisten der Benutzer, die The Verge für diesen Artikel befragte, zogen es vor, die manuelle Übersetzung mit der maschinellen Übersetzung zu kombinieren und diese nur zum Nachschlagen bestimmter Wörter zu verwenden. Alle Befragten stimmten Vermonts Aussage zu, dass „maschinelle Übersetzung nie ein gangbarer Weg sein wird, um Artikel auf Wikipedia zu verfassen, einfach weil sie komplexe menschliche Phrasen nicht verstehen kann, die nicht zwischen Sprachen übersetzen“, aber die meisten stimmen zu, dass sie ihren Nutzen hat.

Angesichts dieser Hindernisse können kleinere Projekte im Vergleich zur englischen Wikipedia immer einen geringeren Qualitätsstandard aufweisen. Die Qualität ist relativ, und unfertige oder schlecht geschriebene Artikel lassen sich nicht vollständig ausrotten. Aber diese Diskrepanz ist mit echten Kosten verbunden. „Hier in Brasilien,“