Maschinenübersetzung

Maschinenübersetzung, manchmal auf die Abkürzung bezeichnet Mt[1] (nicht zu verwechseln mit computergestützte Übersetzung, maschinenunterstützte menschliche Übersetzung oder Interaktive Übersetzung), ist ein Unterfeld von Computerlinguistik das untersucht die Verwendung von Software zu Übersetzen Text oder Sprache von einem Sprache zum anderen.

Grundsätzlich führt MT in einer Sprache in einer Sprache eine mechanische Substitution von Wörtern durch, aber das allein erzeugt selten eine gute Übersetzung, da die Erkennung von ganzen Phrasen und ihre engsten Gegenstücke in der Zielsprache erforderlich sind. Nicht alle Wörter in einer Sprache haben äquivalente Wörter in einer anderen Sprache, und viele Wörter haben mehr als eine Bedeutung.

Lösung dieses Problems mit Korpus statistisch und neuronal Techniken sind ein schnell wachsendes Feld, das zu besseren Übersetzungen führt, die Unterschiede in den Umgang mit Verhältnissen führen Sprachtypologie, Übersetzung von Redewendungenund die Isolation von Anomalien.[2][Fehlgeschlagene Überprüfung]

Aktuelle maschinelle Übersetzungssoftware ermöglicht häufig die Anpassung nach Domäne oder Beruf (wie zum Beispiel Wetterberichte), Verbesserung der Ausgabe durch Begrenzung des Umfangs zulässiger Substitutionen. Diese Technik ist besonders effektiv in Bereichen, in denen formale oder formelhafte Sprache verwendet wird. Daraus folgt, dass die maschinelle Übersetzung von Regierungs- und Rechtsdokumenten leichter eine nutzbare Ausgabe erzeugt als Konversation oder weniger standardisierter Text.

Eine verbesserte Ausgangsqualität kann auch durch menschliche Intervention erreicht werden: Zum Beispiel können einige Systeme genauer übersetzen, wenn der Benutzer hat eindeutig identifiziert Welche Wörter im Text sind Eigennamen. Mit Hilfe dieser Techniken hat sich MT als Instrument als nützlich erwiesen, um menschliche Übersetzer zu unterstützen, und kann in einer sehr begrenzten Anzahl von Fällen sogar eine Ausgabe erzeugen, die wie folgt verwendet werden kann (z. B. Wetterberichte).

Der Fortschritt und das Potenzial der maschinellen Übersetzung wurden durch seine Geschichte stark diskutiert. Seit den 1950er Jahren eine Reihe von Gelehrten zuerst und vor allem Yehoshua Bar-Hillel,[3] haben die Möglichkeit in Frage gestellt, eine vollautomatische maschinelle Übersetzung von hoher Qualität zu erreichen.[4]

Geschichte

Ursprünge

Die Ursprünge der maschinellen Übersetzung können auf die Arbeit von zurückgeführt werden Al-kindiein Arabisch des 19. Jahrhunderts Kryptograph Wer entwickelte Techniken für systemische Sprachübersetzung, einschließlich Kryptanalyse, Frequenzanalyse, und Wahrscheinlichkeit und Statistiken, die in der modernen maschinellen Übersetzung verwendet werden.[5] Die Idee der maschinellen Übersetzung trat später im 17. Jahrhundert auf. 1629, René Descartes schlug eine universelle Sprache mit äquivalenten Ideen in verschiedenen Zungen vor, die ein Symbol teilen.[6]

Die Idee, digitale Computer zur Übersetzung natürlicher Sprachen zu verwenden, wurde bereits 1946 von Englands vorgeschlagen A. D. Booth und Warren Weaver bei Rockefeller Foundation zur selben Zeit. "Das Memorandum geschrieben von Warren Weaver 1949 ist vielleicht die einflussreichste Veröffentlichung in den frühesten Tagen der maschinellen Übersetzung. "[7][8] Andere folgten. Eine Demonstration wurde 1954 auf der Apexc Maschine bei Birkbeck College (Universität von London) einer rudimentären Übersetzung von Englisch in Französisch. Zu dieser Zeit wurden mehrere Artikel zu diesem Thema veröffentlicht, und sogar Artikel in beliebten Zeitschriften (zum Beispiel ein Artikel von Cleave und Zacharov in der September 1955 -Ausgabe von Drahtlose Welt). Eine ähnliche Anwendung, die zu dieser Zeit am Birkbeck College ebenfalls Pionier war, war das Lesen und Komponieren Blindenschrift Texte nach Computer.

1950er Jahre

Der erste Forscher vor Ort, Yehoshua Bar-Hillelbegann seine Forschung am MIT (1951). EIN Georgetown Universität MT -Forschungsteam unter der Leitung von Professor Michael Zarechnak (1951) mit einer öffentlichen Demonstration seiner Georgetown-Ibm Experiment System im Jahr 1954. MT -Forschungsprogramme tauchten in Japan auf[9][10] und Russland (1955) und die erste MT -Konferenz fand in London (1956) statt.[11][12]

David G. Hays "Schreiben Sie bereits 1957 über computergestützte Sprachverarbeitung" und "war Projektleiter in der Computerlinguistik bei Rand von 1955 bis 1968. "[13]

1960–1975

In den USA (1962) wurde die Forscher weiterhin als Association for Machine Translation and Computational Linguistics beitragen, und die National Academy of Sciences bildete das automatische Sprachberatungsausschuss (ALPAC), um MT (1964) zu untersuchen. Der echte Fortschritt war jedoch viel langsamer und nach dem ALPAC -Bericht (1966), die feststellten, dass die zehnjährige Forschung die Erwartungen nicht erfüllt hatte, wurde die Finanzierung stark reduziert.[14] Laut einem Bericht von 1972 des Direktors für Verteidigungsforschung und -technik (DDR & E) wurde die Machbarkeit des großen MT durch den Erfolg des Logos-MT-Systems bei der Übersetzung von Militärhandbüchern in Vietnamesen während dieses Konflikts wiederhergestellt.

Das französische Textilinstitut verwendete auch MT, um Abstracts aus und in Französisch, Englisch, Deutsch und Spanisch (1970) zu übersetzen; Die Brigham Young University startete ein Projekt zur Übersetzung von mormonischen Texten nach automatischer Übersetzung (1971).

1975 und darüber hinaus

Systran, was "Pionier des Feldes unter Verträgen der US -Regierung leistete"[1] In den 1960er Jahren wurde Xerox zur Übersetzung technischer Handbücher verwendet (1978). Ab Ende der 1980er Jahre als Computer Die Macht nahm zu und wurde günstiger, mehr Interesse wurde in gezeigt Statistische Modelle für die maschinelle Übersetzung. MT wurde nach dem Aufkommen von Computern beliebter.[15] Das erste Implementierungssystem von Systran wurde 1988 durch den Online -Service des Französischer Postdienst Minitel genannt.[16] Es wurden auch verschiedene computerbasierte Übersetzungsunternehmen eingeführt, darunter Trados (1984), die als erste Technologie für Übersetzungsspeicher (1989) (1989) entwickelt wurden, obwohl dies nicht dasselbe ist wie MT. Das erste kommerzielle MT-System für russisch / englisch / deutsch-ukrainisch wurde an der Kharkov State University (1991) entwickelt.

Bis 1998 könnte "für nur 29,95 US -Dollar" ein Programm zum Übersetzen in eine Richtung zwischen Englisch und einer großen europäischen Sprache Ihrer Wahl kaufen ", um auf einem PC zu laufen.[1]

MT im Internet begann mit Systran, die eine kostenlose Übersetzung von Small Texts (1996) anbot und dies dann über Altavista Babelfish bereitstellt.[1] die 500.000 Anfragen pro Tag (1997) stellten.[17] Der zweite kostenlose Übersetzungsdienst im Web war Lernout & Hauspie's Globalink.[1] Atlantic Magazine schrieb 1998, dass "Systrans Babelfish und Globalink's Comprende" mit einer "kompetenten Leistung" behandelt wurde.[18]

Franz Josef Och (Der zukünftige Leiter der Übersetzungsentwicklung bei Google) gewann den Speed ​​MT -Wettbewerb von DARPA (2003).[19] Weitere Innovationen in dieser Zeit umfassten Moses, der Open-Source Statistical MT Engine (2007), ein Text-/SMS-Übersetzungsdienst für Mobiltelefone in Japan (2008) und ein Mobiltelefon mit integrierten Übersetzungsfunktionen für Englisch für Englisch für Englisch. , Japanisch und Chinesisch (2009). 2012 kündigte Google das an Google Übersetzer Übersetzt ungefähr genug Text, um an einem Tag 1 Million Bücher zu füllen.

Übersetzungsprozess

Der Mensch Übersetzungsprozess kann beschrieben werden als:

  1. Dekodierung das Bedeutung des Quellentext; und
  2. Betreff-Codierung Dies Bedeutung in der Zielsprache.

Hinter diesem angeblich einfachen Verfahren liegt ein Komplex kognitiv Betrieb. Um die Bedeutung der zu dekodieren Quellentext In seiner Gesamtheit muss der Übersetzer alle Merkmale des Textes interpretieren und analysieren, einen Prozess, der eingehendes Wissen über das erfordert Grammatik, Semantik, Syntax, Redewendungenusw. der Quellsprache sowie der Kultur ihrer Sprecher. Der Übersetzer benötigt das gleiche detaillierte Wissen, um die Bedeutung in der Zielsprache neu zu ermitteln.[20]

Darin liegt die Herausforderung in der maschinellen Übersetzung: Wie man einen Computer programmiert, der einen Text als Person "versteht" wird, und der einen neuen Text in der Zielsprache "erstellt", das " Klingt so, als ob es von einer Person geschrieben worden wäre. Sofern nicht von einem "Wissensbasis" mt unterstützt wird, liefert nur eine allgemeine, wenn auch unvollkommene Annäherung an den Originaltext, und erhält den "Gist" davon (ein Prozess namens "Gisting"). Dies reicht für viele Zwecke aus, einschließlich der endlichen und teuren Zeit eines menschlichen Übersetzers, der für Fälle, in denen die Gesamtgenauigkeit unverzichtbar ist, am besten nutzt.

Ansätze

Bernard Vauquois 'Pyramide zeigt vergleichende Tiefen der Vermittlungsrepräsentation, Interlinguale maschinelle Übersetzung am Peak, gefolgt von Transferbasis, dann direkte Übersetzung.

Maschinelle Übersetzung kann eine Methode basierend auf verwenden SprachregelnDies bedeutet, dass Wörter auf sprachliche Weise übersetzt werden - die am besten geeigneten (oral sprechenden) Wörter der Zielsprache ersetzen die in der Quellsprache.

Es wird oft argumentiert, dass der Erfolg der maschinellen Übersetzung das Problem von erfordert natürliches Sprachverständnis zuerst gelöst werden.[21]

Im Allgemeinen analysieren regelbasierte Methoden einen Text und erzeugen normalerweise eine Vermittlerin, symbolische Darstellung, aus der der Text in der Zielsprache generiert wird. Gemäß der Art der Vermittlungsrepräsentation wird ein Ansatz beschrieben als Interlinguale maschinelle Übersetzung oder Transfer-basierte maschinelle Übersetzung. Diese Methoden erfordern umfangreich Lexikone mit morphologisch, syntaktisch, und semantisch Informationen und große Regelnsätze.

Angesichts genügend Daten funktionieren maschinelle Übersetzungsprogramme oft gut genug für a Muttersprachler von einer Sprache, um die ungefähre Bedeutung dessen zu erhalten, was vom anderen Muttersprachler geschrieben wurde. Die Schwierigkeit besteht darin, genügend Daten der richtigen Art zu erhalten, um die jeweilige Methode zu unterstützen. Zum Beispiel die große Mehrsprachige Korpus Von Daten, die für statistische Methoden zur Arbeit erforderlich sind, sind für die grammatikbasierten Methoden nicht erforderlich. Aber dann benötigen die Grammatikmethoden einen erfahrenen Sprachwissenschaftler, um die von ihnen verwendete Grammatik sorgfältig zu entwerfen.

Um zwischen eng verwandten Sprachen zu übersetzen, wird die Technik als bezeichnet Regelbasierte maschinelle Übersetzung könnte genutzt werden.

Regelbasiert

Das regelbasierte maschinelle Übersetzungsparadigma umfasst Transfer-basierte maschinelle Übersetzungen, interlinguale maschinelle Übersetzungen und wörterbuchbasierte maschinelle Übersetzungsparadigmen. Diese Art von Übersetzung wird hauptsächlich in der Erstellung von verwendet Wörterbücher und Grammatikprogramme. Im Gegensatz zu anderen Methoden beinhaltet RBMT mehr Informationen über die Sprachwissenschaft der Quellen- und Zielsprachen unter Verwendung der morphologischen und syntaktischen Regeln und Semantische Analyse von beiden Sprachen. Der grundlegende Ansatz beinhaltet die Verknüpfung der Struktur des Eingangssatzes mit der Struktur des Ausgangssatzes unter Verwendung eines Parsers und eines Analysators für die Quellsprache, eines Generators für die Zielsprache und ein Transferlexikon für die tatsächliche Übersetzung. Der größte Sturz von RBMT ist, dass alles explizit gemacht werden muss: orthographische Variationen und fehlerhafte Eingaben müssen Teil des Quellsprachanalysators erfolgen, um damit fertig zu werden, und die Regeln für die lexikalischen Auswahl müssen für alle Fälle von Unklarheiten geschrieben werden. Die Anpassung an neue Domänen an sich ist nicht so schwierig, da die Kerngrammatik über die Domänen gleich ist und die domänenspezifische Anpassung auf die Anpassung der lexikalischen Auswahl beschränkt ist.

Transfer-based machine translation

Übertragungsbasierte maschinelle Übersetzung ist ähnlich wie Interlinguale maschinelle Übersetzung Da es eine Übersetzung aus einer Zwischendarstellung erzeugt, die die Bedeutung des ursprünglichen Satzes simuliert. Im Gegensatz zu interlingualem MT hängt dies teilweise von dem Sprachpaar ab, das an der Übersetzung beteiligt ist.

Interlingsual

Interlinguale maschinelle Übersetzung ist eine Instanz regelbasierter maschineller Übersetzungsansätze. In diesem Ansatz wird die Quellsprache, d. H. Der zu übersetzende Text, in eine interlinguale Sprache verwandelt, d. H. Eine "Sprachneutrale" Darstellung, die unabhängig von jeder Sprache ist. Die Zielsprache wird dann aus dem generiert Interlingua. Einer der Hauptvorteile dieses Systems besteht darin, dass das Interlingua mit der Anzahl der Zielsprachen, die sie zu erhöhen kann, wertvoller wird. Das einzige interlinguale maschinelle Übersetzungssystem, das auf kommerzieller Ebene in Betrieb genommen wurde, ist jedoch das Kant -System (Nyberg und Mitamura, 1992), das die Übersetzung von Caterpillar Technical English (CTE) in andere Sprachen übersetzen soll.

Wörterbuchbasiert

Maschinelle Übersetzung kann eine Methode basierend auf verwenden Wörterbuch Einträge, was bedeutet, dass die Wörter wie durch ein Wörterbuch übersetzt werden.

Statistisch

Statistische maschinelle Übersetzung versucht, Übersetzungen mithilfe von Übersetzungen zu generieren statistische Methoden basierend auf zweisprachigen Textkorpora, wie dem Kanadischer Hansard Corpus, die englisch-französische Aufzeichnung des kanadischen Parlaments und Europarldie Aufzeichnung der Europäisches Parlament. Wenn solche Korpora verfügbar sind, können gute Ergebnisse erzielt werden, um ähnliche Texte zu übersetzen, aber solche Korpora sind für viele Sprachpaare immer noch selten. Die erste statistische maschinelle Übersetzungssoftware stammte Candide von IBM. Google verwendet Systran mehrere Jahre, wechselte aber im Oktober 2007 auf eine statistische Übersetzungsmethode.[22] Im Jahr 2005 verbesserte Google seine internen Übersetzungsfähigkeiten, indem er ungefähr 200 Milliarden Wörter aus Materialien der Vereinten Nationen einsetzte, um ihr System zu schulen. Übersetzungsgenauigkeit verbessert sich.[23] Google Translate und ähnliche statistische Übersetzungsprogramme funktionieren, indem sie Muster in Hunderten von Millionen von Dokumenten erkennen, die zuvor vom Menschen übersetzt wurden und intelligente Vermutungen auf der Grundlage der Ergebnisse vorgenommen wurden. Im Allgemeinen ist die Wahrscheinlichkeit, je mehr Menschen in einer bestimmten Sprache in einer bestimmten Sprache verfügbar sind, desto wahrscheinlicher ist die Übersetzung von guter Qualität.[24] Neuere Ansätze in statistische maschinelle Übersetzungen wie Metis II und Presemt verwenden minimale Korpusgröße und konzentrieren sich stattdessen auf die Ableitung der syntaktischen Struktur durch Mustererkennung. Bei der Weiterentwicklung kann eine statistische maschinelle Übersetzung von einem einsprachigen Textkorpus ermöglichen.[25] Der größte Untergang von SMT umfasst, dass er von großen Mengen an parallelen Texten abhängig ist, seine Probleme mit morphologischen Sprachen (insbesondere bei Übersetzung hinein Solche Sprachen) und ihre Unfähigkeit, Singleton -Fehler zu korrigieren.

Beispielbasiert

Beispielbasierter maschineller Übersetzungsansatz (EBMT) wurde von vorgeschlagen von Makoto Nagao 1984.[26][27] Beispielbasierte maschinelle Übersetzung basiert auf der Idee der Analogie. In diesem Ansatz enthält der verwendete Korpus, das bereits übersetztes Texte enthält. Bei einem Satz, der übersetzt werden soll, werden Sätze aus diesem Korpus ausgewählt, die ähnliche Subsentialkomponenten enthalten.[28] Die ähnlichen Sätze werden dann verwendet, um die Sub-Sential-Komponenten des ursprünglichen Satzes in die Zielsprache zu übersetzen, und diese Phrasen werden zusammengestellt, um eine vollständige Übersetzung zu bilden.

Hybrid MT

Hybridmaschinenübersetzung (HMT) nutzt die Stärken statistischer und regelbasierter Übersetzungsmethoden.[29] Mehrere MT -Organisationen behaupten einen hybriden Ansatz, der sowohl Regeln als auch Statistiken verwendet. Die Ansätze unterscheiden sich in vielerlei Hinsicht:

  • Regeln, die durch Statistiken nachgearbeitet wurden: Übersetzungen werden unter Verwendung einer Regelnbasis -Engine durchgeführt. Statistiken werden dann verwendet, um die Ausgabe aus der Regeln -Engine anzupassen/zu korrigieren.
  • Statistiken geleitet von Regeln: Regeln werden verwendet, um Daten vorzuarbeiten, um die statistische Engine besser zu steuern. Regeln werden auch verwendet, um die statistische Ausgabe nachzuarbeiten, um Funktionen wie die Normalisierung auszuführen. Dieser Ansatz hat bei der Übersetzung viel mehr Leistung, Flexibilität und Kontrolle. Es bietet auch eine umfassende Kontrolle über die Art und Weise, wie der Inhalt sowohl während der Vorübertragung (z. B. Erkennung von Inhalten als auch nicht translatierbare Begriffe) als auch nach der Translation (z. B. Korrekturen und Anpassungen nach der Übersetzung) verarbeitet wird.

In jüngerer Zeit entsteht mit dem Aufkommen des neuronalen MT eine neue Version der Hybridmaschinenübersetzung, die die Vorteile von Regeln, statistischen und neuronalen Maschinenübersetzungen kombiniert. Der Ansatz ermöglicht es, von der Vor- und Nachbearbeitung in einem regelführenden Workflow sowie von NMT und SMT zu profitieren. Der Nachteil ist die inhärente Komplexität, die den Ansatz nur für bestimmte Anwendungsfälle geeignet macht.

Neuronaler mt

A tiefes Lernen-basierten Ansatz für MT, Neuralmaschinenübersetzung hat in den letzten Jahren schnelle Fortschritte gemacht, und Google hat angekündigt, dass seine Übersetzungsdienste diese Technologie nun für seine früheren statistischen Methoden bevorzugen.[30] Ein Microsoft-Team behauptete, im Jahr 2018 eine menschliche Parität bei WMT-2017 ("EMNLP 2017 Second Conference on Machine Translation") zu erreichen, mit einem historischen Meilenstein.[31][32] Viele Forscher haben diese Behauptung jedoch kritisiert, ihre Experimente neu erfasst und diskutiert. Der aktuelle Konsens besteht darin, dass die sogenannte menschliche Parität nicht real ist und ganz auf begrenzte Domänen, Sprachpaare und bestimmte Testsuiten basiert[33] d.h.[34] Es gibt immer noch eine lange Reise, bevor NMT echte menschliche Paritätsleistungen erreicht.

Um die idiomatische Phrase-Translation, Multi-Word-Ausdrücke zu adressieren,[35] und niederfrequente Wörter (auch OOV genannt oder übertriebene Wortübersetzung), sprachorientierte sprachliche Merkmale wurden in hochmodernen Art untersucht Neuralmaschinenübersetzung (NMT) Modelle. Zum Beispiel zersetzt sich der chinesische Charakter in Radikale und Striche[36][37] haben sich als hilfreich für die Übersetzung von Multi-Word-Ausdrücken in NMT erwiesen.

Große Probleme

Maschinelle Übersetzung könnte einige nicht verständliche Phrasen erzeugen, wie z. "鸡枞"(Macrolepiota Albuminosa) als "Wikipedia" gerendert werden.
Gebrochenes Chinesisch "沒有進入"Aus maschineller Übersetzung in Bali, Indonesien. Der zerbrochene chinesische Satz klingt wie "Es gibt keinen Eintrag" oder "sind noch nicht eingegeben".

Disambiguierung

Die Krankheitserklärung betrifft die Suche nach einer geeigneten Übersetzung, wenn ein Wort mehr als eine Bedeutung haben kann. Das Problem wurde erstmals in den 1950er Jahren von aufgeworfen Yehoshua Bar-Hillel.[38] Er wies darauf hin, dass eine Maschine ohne eine "universelle Enzyklopädie" niemals zwischen den beiden Bedeutungen eines Wortes unterscheiden könnte.[39] Heute gibt es zahlreiche Ansätze, die dieses Problem überwinden sollen. Sie können ungefähr in "flache" Ansätze und "tiefe" Ansätze unterteilt werden.

Flache Ansätze nehmen keine Kenntnis des Textes an. Sie wenden einfach statistische Methoden auf die Wörter an, die das mehrdeutige Wort umgeben. Tiefe Ansätze nehmen ein umfassendes Wissen über das Wort voraus. Bisher waren flache Ansätze erfolgreicher.[40]

Claude Piron, ein langjähriger Übersetzer für die Vereinten Nationen und die Weltgesundheitsorganisationschrieb diese maschinelle Übersetzung von ihrer besten Seite automatisiert den leichteren Teil des Jobs eines Übersetzers. Der schwierigere und zeitaufwändigere Teil beinhaltet normalerweise umfangreiche Forschungsergebnisse zur Lösung Mehrdeutigkeiten in dem Quellentextwas die grammatikalisch und lexikalisch Erziehungsbedingungen der Zielsprache müssen gelöst werden:

Warum braucht ein Übersetzer einen ganzen Arbeitstag, um fünf Seiten zu übersetzen, und nicht ein oder zwei Stunden? ..... etwa 90% eines durchschnittlichen Textes entsprechen diesen einfachen Bedingungen. Aber leider gibt es die anderen 10%. Es ist dieser Teil, der sechs [mehr] Arbeitsstunden erfordert. Es gibt Unklarheiten, die man lösen muss. Zum Beispiel zitierte der Autor des Quelltextes, ein australischer Arzt, das Beispiel einer Epidemie, die während des Zweiten Weltkriegs in einem "japanischen Kriegslager" erklärt wurde. Hat er über ein amerikanisches Lager mit japanischen Gefangenen oder einem japanischen Lager mit amerikanischen Gefangenen gesprochen? Das Englische hat zwei Sinne. Es ist daher notwendig, recherchiert zu werden, möglicherweise in dem Ausmaß eines Anrufs nach Australien.[41]

Der ideale tiefe Ansatz würde erfordern, dass die Übersetzungssoftware alle Forschungsarbeiten durchführt, die für diese Art der Disambiguierung für sich genommen erforderlich sind. Dies würde jedoch einen höheren Grad an erfordern Ai als bisher erreicht wurde. Ein flacher Ansatz, der einfach im Sinne des mehrdeutigen englischen Satzes vermutet hat, dass Piron erwähnt (vielleicht basierend auf der Art des Kriegsgefangenenlagers in einem bestimmten Korpus), würde eine vernünftige Chance haben, falsch falsch zu erraten häufig. Ein flacher Ansatz, der "den Benutzer nach jeder Mehrdeutigkeit fragen" beinhaltet, würde nach Pirons Schätzung nur etwa 25% der Arbeit eines professionellen Übersetzers automatisieren, sodass die härteren 75% noch von einem Menschen zu tun haben.

Nicht standardmäßige Rede

Eine der Hauptverfahren von MT ist die Unfähigkeit, eine nicht standardmäßige Sprache mit der gleichen Genauigkeit wie Standardsprache zu übersetzen. Heuristische oder statistisch basierte MT nimmt Eingaben aus verschiedenen Quellen in Standardform einer Sprache ein. Regelbasierte Übersetzung enthält von Natur aus keine gemeinsamen nicht standardmäßigen Verwendungen. Dies führt zu Fehlern in der Übersetzung von einer einheimischen Quelle oder in umgangssprachliche Sprache. Einschränkungen für die Übersetzung von Casual Speech gibt Probleme bei der Verwendung von maschinellen Übersetzungen auf mobilen Geräten.

Genannte Entitäten

Im Informationsextraktion, genannte Entitäten, beziehen sich im engen Sinne auf konkrete oder abstrakte Einheiten in der realen Welt wie Menschen, Organisationen, Unternehmen und Orte, die einen Eigentum haben: George Washington, Chicago, Microsoft. Es bezieht sich auch auf Ausdruck von Zeit, Raum und Menge wie dem 1. Juli 2011, 500 US -Dollar.

In dem Satz "Smith ist der Präsident von Fabrionix" beides Schmied und Fabrionix werden als Entitäten bezeichnet und können über den Vornamen oder andere Informationen weiter qualifiziert werden; "Präsident" ist nicht, da Smith früher eine andere Position bei Fabrionix hätte innehaben können, z. Vizepräsident. Der Begriff Starrer Bezeichner ist das, was diese Verwendungen für die Analyse in der statistischen maschinellen Übersetzung definiert.

Benannte Entitäten müssen zunächst im Text identifiziert werden; Wenn nicht, können sie fälschlicherweise als allgemeine Substantive übersetzt werden, was höchstwahrscheinlich nicht beeinflussen würde Bleu Bewertung der Übersetzung, würde aber die menschliche Lesbarkeit des Textes ändern.[42] Sie können in der Ausgabeübersetzung weggelassen werden, was auch Auswirkungen auf die Lesbarkeit und Nachricht des Textes haben würde.

Transliteration Beinhaltet das Finden der Buchstaben in der Zielsprache, die dem Namen in der Quellsprache am besten entsprechen. Dies wurde jedoch als manchmal die Qualität der Übersetzung verschlechtert.[43] Für "Südkalifornien" sollte das erste Wort direkt übersetzt werden, während das zweite Wort transliteriert werden sollte. Maschinen transportieren oft beide, weil sie sie als eine Einheit behandelten. Wörter wie diese sind für maschinelle Übersetzer, auch für diejenigen mit einer Transliterationskomponente, schwer zu verarbeiten.

Verwendung einer "Do-nicht-translate" -Liste, die das gleiche Endziel hat-Transliteration im Gegensatz zur Übersetzung.[44] stützt sich immer noch auf die korrekte Identifizierung benannter Entitäten.

Ein dritter Ansatz ist ein klassenbasiertes Modell. Benannte Unternehmen werden durch ein Token ersetzt, um ihre "Klasse" darzustellen; "Ted" und "Erica" ​​würden beide durch "Person" -Klass -Token ersetzt. Dann kann die statistische Verteilung und Verwendung von Personennamen im Allgemeinen analysiert werden, anstatt die Verteilungen von "Ted" und "Erica" ​​einzeln zu betrachten, sodass die Wahrscheinlichkeit eines bestimmten Namens in einer bestimmten Sprache die zugewiesene Wahrscheinlichkeit nicht beeinflusst einer Übersetzung. Eine Studie von Stanford zur Verbesserung dieses Übersetzungsbereichs gibt die Beispiele an, dass "David macht einen Spaziergang" und "Ankit macht einen Spaziergang" für Englisch als Zielsprache aufgrund der unterschiedlichen Anzahl von Vorkommen Für jeden Namen in den Trainingsdaten. Ein frustrierendes Ergebnis derselben Studie von Stanford (und anderen Versuchen, benannte Erkennungsübersetzung zu verbessern) ist, dass oft eine Abnahme der Abnahme der Bleu Die Bewertungen für die Übersetzung resultieren aus der Einbeziehung von Methoden für die übergenannte Entitätsübersetzung.[44]

Etwas verwandt sind die Sätze "Tee mit Milch trinken" gegen "Tee mit Molly".

Übersetzung aus multiparallelen Quellen

Einige Arbeiten wurden bei der Verwendung von Multiparallel durchgeführt KorporaDas ist ein Text, der in 3 oder mehr Sprachen übersetzt wurde. Mit diesen Methoden kann ein Text, der in zwei oder mehr Sprachen übersetzt wurde, in Kombination verwendet werden, um eine genauere Übersetzung in eine dritte Sprache zu bieten, wenn nur eine dieser Quellsprachen allein verwendet wurde.[45][46][47]

Ontologien in Mt

Ein Ontologie ist eine formale Darstellung von Wissen, die die Konzepte (wie Objekte, Prozesse usw.) in einer Domäne und einige Beziehungen zwischen ihnen enthält. Wenn die gespeicherten Informationen sprachlich sind, kann man von einem Lexikon sprechen.[48]Im NLPOntologien können als Wissensquelle für maschinelle Übersetzungssysteme verwendet werden. Mit dem Zugang zu einer großen Wissensbasis können Systeme aktiviert werden, um viele (insbesondere lexikalische) Mehrdeutigkeiten selbst zu beheben. In den folgenden klassischen Beispielen als Menschen können wir das interpretieren Präpositionalphrase Nach dem Kontext, weil wir unser Weltwissen nutzen, gespeichert in unseren Lexonen:

Ich sah ein Mann/Stern/Molekül mit einem Mikroskop/Teleskop/Fernglas.[48]

Ein maschinelles Übersetzungssystem wäre zunächst nicht in der Lage, zwischen den Bedeutungen zu unterscheiden, da sich die Syntax nicht ändert. Mit einer ausreichend großen Ontologie als Wissensquelle können die möglichen Interpretationen mehrdeutiger Wörter in einem bestimmten Kontext reduziert werden. Andere Nutzungsbereiche für Ontologien innerhalb von NLP umfassen Informationsrückgewinnung, Informationsextraktion und Textübersicht.[48]

Aufbau von Ontologien

Die Ontologie, die 1993 für das pangloss wissenbasierte maschinelle Übersetzungssystem erzeugt wurde, kann als Beispiel dafür dienen, wie eine Ontologie für NLP Zwecke können kompiliert werden:[49][50]

  • Eine groß angelegte Ontologie ist erforderlich, um die Analyse in den aktiven Modulen des maschinellen Übersetzungssystems zu unterstützen.
  • Im Pangloss-Beispiel sollten etwa 50.000 Knoten unter dem kleineren, manuell gebauten Subsum subsumiert werden Oberer, höher (abstrakt) Region der Ontologie. Aufgrund seiner Größe musste es automatisch erstellt werden.
  • Das Ziel war es, die beiden Ressourcen zusammenzuführen Ldoce online und Wordnet Um die Vorteile von beiden zu kombinieren: präzise Definitionen von Longman und semantische Beziehungen, die eine semiautomatische Taxonomisierung zur Ontologie von WordNet ermöglichen.
    • A Definitionsübereinstimmung Algorithmus wurde erstellt, um automatisch die korrekten Bedeutungen mehrdeutiger Wörter zwischen den beiden Online -Ressourcen zu verschmelzen, basierend auf den Wörtern, die die Definitionen dieser Bedeutungen in LDOCE und WordNet gemeinsam haben. Verwendung einer ÄhnlichkeitsmatrixDer Algorithmus lieferte Übereinstimmungen zwischen Bedeutungen einschließlich eines Konfidenzfaktors. Dieser Algorithmus allein stimmte jedoch nicht alle Bedeutungen selbst überein.
    • Eine Sekunde Hierarchie -Match Algorithmus wurde daher erstellt, der die taxonomischen Hierarchien verwendet, die in WordNet (Deep -Hierarchies) und teilweise in LDOCE (Flathierarchien) gefunden wurden. Dies funktioniert, indem er zuerst eindeutige Bedeutungen entspricht und dann den Suchraum nur auf die jeweiligen Vorfahren und Nachkommen dieser übereinstimmenden Bedeutungen beschränkt. Somit stimmte der Algorithmus lokal eindeutige Bedeutungen ab (zum Beispiel, während das Wort Siegel als solches ist mehrdeutig, es gibt nur eine Bedeutung von Siegel in dem Tier Subhierarchie).
  • Beide Algorithmen ergänzten sich gegenseitig und halfen beim Bau einer groß angelegten Ontologie für das maschinelle Übersetzungssystem. Die WordNet -Hierarchien, gepaart mit den passenden Definitionen von LDOCE, wurden der Ontologie untergeordnet obere Region. Infolgedessen konnte das Pangloss MT -System diese Wissensbasis nutzen, hauptsächlich in seinem Generationselement.

Anwendungen

Während kein System den heiligen Gral der vollautomatischen qualitativ hochwertigen maschinellen Übersetzung von uneingeschränktem Text liefert, erzeugen viele vollständig automatisierte Systeme eine angemessene Ausgabe.[51][52][53] Die Qualität der maschinellen Übersetzung wird wesentlich verbessert, wenn die Domäne eingeschränkt und kontrolliert wird.[54]

Trotz ihrer inhärenten Einschränkungen werden MT -Programme weltweit verwendet. Wahrscheinlich ist der größte institutionelle Benutzer der Europäische Kommission. Das Molto Projekt zum Beispiel von der koordiniert von der Universität Göteborg, erhielt von der EU mehr als 2,375 Millionen Euro -Projektunterstützung, um ein zuverlässiges Übersetzungstool zu erstellen, das die Mehrheit der EU -Sprachen abdeckt.[55] Die Weiterentwicklung von MT -Systemen erfolgt zu einer Zeit, in der Budgetkürzungen bei der Übersetzung der menschlichen Übersetzung die Abhängigkeit der EU von zuverlässigen MT -Programmen erhöhen können.[56] Die Europäische Kommission trug 3,072 Millionen Euro (über ihr ISA-Programm) zur Erstellung von MT@EC, einem statistischen maschinellen Übersetzungsprogramm bei, das auf die administrativen Anforderungen der EU zugeschnitten ist, um ein früheres regelbasiertes maschinelles Übersetzungssystem zu ersetzen.[57]

Im Jahr 2005, Google behauptete, dass vielversprechende Ergebnisse unter Verwendung einer proprietären statistischen maschinellen Übersetzungsmotorin erzielt wurden.[58] Die in der verwendete statistische Übersetzungsmotor Google -Sprach -Tools Für arabisch <--> Englisch und Chinesisch <--> Englisch hatte eine Gesamtpunktzahl von 0,4281 gegenüber dem Zweitplatzierten IBMs Bleu-4 Punktzahl von 0,3954 (Sommer 2006) in Tests, die vom National Institute for Standards and Technology durchgeführt werden.[59][60][61]

Mit dem jüngsten Fokus auf den Terrorismus haben die militärischen Quellen in den USA erhebliche Geldbeträge in die natürliche Sprachtechnik investiert. In-Q-Tel[62] (a Risikokapital Fonds, das größtenteils von der US -Geheimdienstgemeinschaft finanziert wird, um neue Technologien durch Unternehmer des privaten Sektors zu fördern), die Unternehmen wie Sprache Weber. Derzeit interessiert sich die Militärgemeinschaft für die Übersetzung und Verarbeitung von Sprachen wie Arabisch, PaShto, und Dari. Innerhalb dieser Sprachen liegt der Fokus auf wichtigen Phrasen und einer schnellen Kommunikation zwischen Militärmitgliedern und Zivilisten durch die Verwendung von Mobiltelefon -Apps.[63] Das Informationsverarbeitungstechnologiebüro in DARPA Hosts Programme wie GEZEITEN und Babylon -Übersetzer. US Air Force hat einen Vertrag über 1 Million US -Dollar für die Entwicklung einer Sprachübersetzungstechnologie vergeben.[64]

Der bemerkenswerte Aufstieg von soziales Netzwerk Im Web in den letzten Jahren hat in den letzten Jahren eine weitere Nische für die Anwendung von Maschinenübersetzungssoftware erstellt - in Dienstprogrammen wie Facebook oder Instant Messaging Kunden wie Skype, GoogleTalk, MSN Messenger usw. - so dass Benutzer verschiedene Sprachen sprechen können, um miteinander zu kommunizieren. Maschinenübersetzungsanwendungen wurden auch für die meisten Mobilgeräte veröffentlicht, einschließlich Mobiltelefone, Pocket -PCs, PDAs usw. Aufgrund ihrer Portabilität wurden solche Instrumente als als ausgewiesen Mobile Übersetzung Tools, die es ermöglichen, mobiles Geschäftsnetzwerk zwischen Partnern, die verschiedene Sprachen sprechen, oder das Lernen von Fremdsprachen und unbegleitete Reisen in das Ausland erleichtern, ohne dass ein menschlicher Übersetzer vorhanden ist.

Obwohl er 1966 als unwürdiger Konkurrent der menschlichen Übersetzung von dem von der Regierung der Vereinigten Staaten zusammengestellten Beratungsausschuss für Sprachverarbeitung bezeichnet wurde,[65] Die Qualität der maschinellen Übersetzung wurde nun auf solche Ebenen verbessert, dass ihre Anwendung in der Online -Zusammenarbeit und im medizinischen Bereich untersucht wird. Die Anwendung dieser Technologie in medizinischen Umgebungen, in denen menschliche Übersetzer nicht vorhanden sind, ist ein weiteres Thema der Forschung, es treten jedoch Schwierigkeiten auf, da genaue Übersetzungen in medizinischen Diagnosen wichtig sind.[66]

Fehler in der maschinellen Übersetzung wurden auch für festgestellt ihr Unterhaltungswert. Zwei Videos hochgeladen werden auf Youtube Im April 2017 betreffen zwei Japaner Hiragana Charaktere えぐ (e und Gu) wiederholt in Google übersetzt werden, wobei sich die daraus resultierenden Übersetzungen schnell in unsinnige Phrasen wie "Befragung von Eier" und "Tiefsee-Squeeze-Bäume" verschlechtern, die dann in zunehmend absurden Stimmen gelesen werden;[67][68] Die Version des Videos in voller Länge hat derzeit im März 2022 6,9 Millionen Aufrufe.[69]

Auswertung

Es gibt viele Faktoren, die sich auf die Bewertung von maschinellen Übersetzungssystemen auswirken. Diese Faktoren umfassen die beabsichtigte Verwendung der Übersetzung, die Art der maschinellen Übersetzungssoftware und die Art des Übersetzungsprozesses.

Verschiedene Programme können für unterschiedliche Zwecke gut funktionieren. Zum Beispiel, Statistische maschinelle Übersetzung (SMT) übertrifft normalerweise Beispielbasierte maschinelle Übersetzung (EBMT), aber die Forscher fanden heraus, dass EBMT bei der Bewertung von Englisch bis französischer Übersetzung besser abschneidet.[70] Das gleiche Konzept gilt für technische Dokumente, die aufgrund ihrer formalen Sprache leichter von SMT übersetzt werden können.

In bestimmten Anwendungen jedoch, z. B. Produktbeschreibungen in a kontrollierte Sprache, a Wörterbuchbasierte Maschinenübertragung Das System hat zufriedenstellende Übersetzungen erstellt, bei denen keine menschliche Intervention für die Qualitätsprüfung erforderlich ist.[71]

Es gibt verschiedene Mittel zur Bewertung der Ausgangsqualität von maschinellen Übersetzungssystemen. Der älteste ist der Einsatz menschlicher Richter[72] Bewertung der Qualität einer Übersetzung. Obwohl die menschliche Bewertung zeitaufwändig ist, ist es immer noch die zuverlässigste Methode, verschiedene Systeme wie regelbasierte und statistische Systeme zu vergleichen.[73] Automatisiert Bewertungsmittel umfassen umfassen Bleu, NIST, METEOR, und Lepor.[74]

Wenn Sie sich ausschließlich auf eine unbearbeitete maschinelle Übersetzung verlassen, ignoriert die Tatsache, dass die Kommunikation in menschliche Sprache ist kontextbezogen und es braucht eine Person, um das zu verstehen Kontext des ursprünglichen Textes mit einem angemessenen Grad an Wahrscheinlichkeit. Es ist sicherlich wahr, dass selbst rein von Menschen erzeugte Übersetzungen anfällig für Fehler sind. Um sicherzustellen, dass eine maschinengenerierte Übersetzung für ein menschliches Wesen nützlich sein wird und dass die Übersetzung von Publishable Quality erreicht wird, müssen solche Übersetzungen von einem Menschen überprüft und bearbeitet werden.[75] Der späte Claude Piron schrieb diese maschinelle Übersetzung von ihrer besten Seite automatisiert den leichteren Teil des Jobs eines Übersetzers. Der schwierigere und zeitaufwändigere Teil beinhaltet normalerweise umfangreiche Forschungsergebnisse zur Lösung Mehrdeutigkeiten in dem Quellentextwas die grammatikalisch und lexikalisch Erfordernisse der Zielsprache müssen gelöst werden. Solche Forschungen sind ein notwendiger Auftakt für die Vorbearbeitung erforderlich, um Eingaben für die Maschinenübertragungssoftware bereitzustellen, sodass die Ausgabe nicht erfolgt bedeutungslos.[76]

Zusätzlich zu Disambiguierungsproblemen kann eine verminderte Genauigkeit aufgrund unterschiedlicher Trainingsdaten für maschinelle Übersetzungsprogramme auftreten. Sowohl beispielhafte als auch statistische maschinelle Übersetzungen stützen sich auf eine Vielzahl von echten Beispielsätzen als Basis für die Übersetzung, und wenn zu viele oder zu wenige Sätze analysiert werden, werden die Genauigkeit gefährdet. Die Forscher fanden heraus, dass bei der Ausbildung eines Programms auf 203.529 Satzpaarungen die Genauigkeit tatsächlich abnimmt.[70] Das optimale Grad der Trainingsdaten scheint etwas mehr als 100.000 Sätze zu betragen, möglicherweise weil die Anzahl der möglichen Sätze mit zunehmender Trainingsdaten zunimmt, was es schwieriger macht, eine genaue Übersetzungsübereinstimmung zu finden.

Verwenden von maschineller Übersetzung als Lehrwerkzeug

Obwohl es Bedenken hinsichtlich der Genauigkeit der maschinellen Übersetzung gab, hat Dr. Ana Nino von der Universität von Manchester einige der Vorteile bei der Verwendung von maschinellen Übersetzungen im Klassenzimmer untersucht. Eine solche pädagogische Methode wird mit "MT als schlechtem Modell" bezeichnet.[77] MT als schlechtes Modell zwingt den Sprachlerner, Inkonsistenzen oder falsche Aspekte einer Übersetzung zu identifizieren. Der Einzelne wird wiederum (hoffentlich) ein besseres Verständnis der Sprache haben. Dr. Nino zitiert, dass dieses Lehrwerkzeug Ende der 1980er Jahre implementiert wurde. Am Ende verschiedener Semester konnte Dr. Nino Umfrageergebnisse von Studenten erhalten, die MT als schlechtes Modell (sowie andere Modelle) verwendet hatten Vertrauen in ihre Zielsprache.[77]

Maschinelle Übersetzung und signierte Sprachen

In den frühen 2000er Jahren waren die Optionen zur maschinellen Übersetzung zwischen gesprochenen und signierten Sprachen stark eingeschränkt. Es war eine häufige Überzeugung, dass gehörlose Personen traditionelle Übersetzer verwenden konnten. Stress, Intonation, Tonhöhe und Timing werden jedoch in gesprochenen Sprachen im Vergleich zu signierten Sprachen viel unterschiedlich vermittelt. Daher kann eine gehörlose Person die Bedeutung eines schriftlichen Textes falsch interpretieren oder verwirrt werden, der auf einer gesprochenen Sprache basiert.[78]

Forscher Zhao et al. (2000) entwickelte einen Prototyp namens Team (Übersetzung von Englisch nach ASL von Maschine), das Englisch nach abgeschlossen hat Amerikanische Zeichensprache (ASL) Übersetzungen. Das Programm würde zuerst die syntaktischen, grammatikalischen und morphologischen Aspekte des englischen Textes analysieren. Nach diesem Schritt zugab auf das Programm auf einen Sign -Synthesizer, der als Wörterbuch für ASL fungierte. Dieser Synthesizer beherbergte den Prozess, den man befolgen muss, um ASL -Zeichen sowie die Bedeutungen dieser Zeichen zu vervollständigen. Sobald der gesamte Text analysiert ist und die für die Abschluss der Übersetzung erforderlichen Zeichen im Synthesizer, ein computergenerierter Mensch, erschien und ASL zum Signieren des englischen Textes an den Benutzer unterschreiben.[78]

Urheberrechte ©

Nur Arbeiten das sind Original sind Gegenstand von Urheberrechte © Schutz, so dass einige Wissenschaftler behaupten, dass maschinelle Übersetzungsergebnisse keinen Anspruch auf den Urheberrechtsschutz haben, da der MT es nicht beinhaltet Kreativität.[79] Das vorliegende Urheberrecht ist für a Ableitungsarbeit; der Autor der Originalarbeit in der Originalsprache verliert seine nicht Rechte Wenn eine Arbeit übersetzt wird: Ein Übersetzer muss die Erlaubnis haben veröffentlichen eine Übersetzung.

Siehe auch

Anmerkungen

  1. ^ a b c d e Budiansky, Stephen (Dezember 1998). "Verloren in der Übersetzung". Atlantic Magazine. S. 81–84.
  2. ^ Albat, Thomas Fritz. "Systeme und Methoden zur automatischen Schätzung einer Übersetzungszeit." US -Patent 0185235, 19. Juli 2012.
  3. ^ Bar-Hillel, Yehoshua (1964). Sprache und Informationen: Ausgewählte Essays zu ihrer Theorie und Anwendung. Lesen, Massachusetts: Addison-Wesley. S. 174–179.
  4. ^ Madsen, Mathias Winther (2009). Die Grenzen der maschinellen Übersetzung (MA thesis). Universität Kopenhagen. p. 5. Archiviert Aus dem Original am 17. Oktober 2021.
  5. ^ Dupont, Quinn (Januar 2018). "Die kryptologischen Ursprünge der maschinellen Übersetzung: von al-kindi bis weaver". Amodern. Archiviert von das Original am 14. August 2019. Abgerufen 2. September 2019.
  6. ^ Knowlson, James (1975). Universelle Sprachprogramme in England und Frankreich, 1600-1800. Toronto: Universität von Toronto Press. ISBN 0-8020-5296-7.
  7. ^ J. Hutchins (2000). "Warren Weaver und der Start von MT". Frühe Jahre in der maschinellen Übersetzung (PDF). Semantischer Gelehrter. Studien in der Geschichte der Sprachwissenschaften. Vol. 97. p. 17. doi:10.1075/Siols.97.05Hut. ISBN 978-90-272-4586-1. S2CID 163460375. Archiviert von das Original (PDF) am 28. Februar 2020.
  8. ^ "Warren Weaver, amerikanischer Mathematiker". 13. Juli 2020. Archiviert vom Original am 6. März 2021. Abgerufen 7. August 2020.
  9. ^ 上野, 俊夫 (13. August 1986). パーソナル コンピュータ による 機械 翻訳 プログラム の 制作 制作 (auf Japanisch). Tokio: (株) ラッセル 社. p. 16. ISBN 494762700x. わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。 (Übersetzung (unterstützt von Google Übersetzer): 1959 testete Japan das National Institute of Advanced Industrial Science and Technology (AIST) die richtige Übersetzungsmaschine für Englisch-Japaner Yamato, was 1964 berichtete, als dies das Leistungsniveau über die Punktzahl von 90 Punkten im Lehrbuch der ersten Klasse der Junior Hi-School erreichte.)
  10. ^ "機械 翻訳 専用機「 やまと 」-コンピュータ 博物館 博物館". Archiviert Aus dem Original am 19. Oktober 2016. Abgerufen 4. April 2017.
  11. ^ Nye, Mary Jo (2016). "Sprechen in Zungen: Die jahrhunderteschaftliche Jagd der Wissenschaft nach einer gemeinsamen Sprache". Destillationen. 2 (1): 40–43. Archiviert Aus dem Original am 3. August 2020. Abgerufen 20. März 2018.
  12. ^ Gordin, Michael D. (2015). Scientific Babel: Wie Wissenschaft vor und nach dem globalen Englisch gemacht wurde. Chicago, Illinois: University of Chicago Press. ISBN 9780226000299.
  13. ^ Wolfgang Saxon (28. Juli 1995). "David G. Hays, 66, ein Entwickler von Sprachstudien nach Computer". Die New York Times. Archiviert vom Original am 7. Februar 2020. Abgerufen 7. August 2020. schrieb bereits 1957 über computergestützte Sprachverarbeitung. War von 1955 bis 1968 ein Projektleiter für die Computational-Linguistik bei Rand.
  14. ^ 上野, 俊夫 (13. August 1986). パーソナル コンピュータ による 機械 翻訳 プログラム の 制作 制作 (auf Japanisch). Tokio: (株) ラッセル 社. p. 16. ISBN 494762700x.
  15. ^ Schank, Roger C. (2014). Konzeptionsinformationsverarbeitung. New York: Elsevier. p. 5. ISBN 9781483258799.
  16. ^ Farwell, David; Gerber, Laurie; Hovy, Eduard (29. Juni 2003). Maschinenübersetzung und Informationen. Berlin: Springer. p. 276. ISBN 3540652590.
  17. ^ Barron, Brenda (18. November 2019). "Babel Fish: Was ist mit der ursprünglichen Übersetzungsanwendung passiert ?: Wir untersuchen". Digital.com. Archiviert Aus dem Original am 20. November 2019. Abgerufen 22. November 2019.
  18. ^ und gab auch andere Beispiele
  19. ^ Chan, Sin-Wai (2015). Routledge -Enzyklopädie der Übersetzungstechnologie. Oxon: Routledge. p. 385. ISBN 9780415524841.
  20. ^ Bai Liping, "Ähnlichkeit und Unterschied in der Übersetzung". Genommen von Ähnlichkeit und Unterschied in der Übersetzung: Verfahren der Internationalen Konferenz über Ähnlichkeit und Übersetzung Archiviert 5. August 2020 bei der Wayback -Maschine, pg. 339. eds. Stefano Arduini und Robert Hodgson. 2. Aufl. Rom: Edizioni di storia e landatura, 2007. ISBN9788884983749
  21. ^ John Lehrberger (1988). Maschinelle Übersetzung: Sprachmerkmal von MT -Systemen und allgemeine Bewertungsmethode. John Benjamins Publishing. ISBN 90-272-3124-9. Archiviert from the original on 17 October 2021. Abgerufen 18. Oktober 2020.
  22. ^ Chitu, Alex (22. Oktober 2007). "Google wechselt zu seinem eigenen Übersetzungssystem". GoogleSystem.blogspot.com. Archiviert vom Original am 29. April 2017. Abgerufen 13. August 2012.
  23. ^ "Google Übersetzer: Die universelle Sprache". Blog.outer-court.com. 25. Januar 2007. Archiviert Aus dem Original am 20. November 2008. Abgerufen 12. Juni 2012.
  24. ^ "Inside Google Translate - Google Translate". Archiviert Aus dem Original am 16. April 2014. Abgerufen 14. April 2014.
  25. ^ Tambouratzis, George; Sofianopoulos, Sokratis; Vassiliou, Marina (2013). "Sprachunabhängiger Hybrid-MT mit Präsident". Verfahren des zweiten Workshops über hybride Übersetzungsansätze (PDF). Sofia: Assoziation für Computer -Linguistik. S. 123–130. ISBN 978-1-937284-63-3. Archiviert von das Original (PDF) am 13. April 2014.
  26. ^ Nagao, M. 1981. Ein Rahmen einer mechanischen Übersetzung zwischen Japanisch und Englisch nach Analogie -Prinzip, in künstlicher und menschlicher Intelligenz, A. Elithorn und R. Banerji (Hrsg.) Northholland, S. 173–180, 1984.
  27. ^ "Der Association for Computational Linguistics - ACL Lifetime Achievement Award 2003". Assoziation für Computer -Linguistik. Archiviert von das Original am 12. Juni 2010. Abgerufen 10. März 2010.
  28. ^ "Kitt.cl.Uzh.ch [Cl Wiki]" (PDF). Archiviert (PDF) Aus dem Original am 7. Januar 2014. Abgerufen 18. November 2013.
  29. ^ Adam Boretz (2. März 2009). "Boretz, Adam," Apptek startet Hybridmaschinenübersetzungssoftware "realtechmag.com (veröffentlicht 2. März 2009)". Realtechmag.com. Archiviert Aus dem Original am 9. Juni 2009. Abgerufen 12. Juni 2012.
  30. ^ "Googles neuronales Netzwerk lernt, Sprachen zu übersetzen, auf denen es nicht geschult wurde". Archiviert Aus dem Original am 1. September 2017. Abgerufen 4. September 2017.
  31. ^ Linn, Allison (14. März 2018). "Microsoft erreicht einen historischen Meilenstein und verwendet KI, um die menschlichen Leistung zu entsprechen, um Nachrichten vom Chinesisch ins Englische zu übersetzen.". Archiviert Aus dem Original am 2. März 2019. Abgerufen 21. April 2021.
  32. ^ Hassan, Hany; Auue, Anthony; Chen, Chang; Chowdhary, Vishal; Clark, Jonathan; Federmann, Christian; Huang, Xuedong; Junczys-Dowmunt, Marcin; Lewis, William (2018). "Erreichen der menschlichen Parität auf automatischem Chinesisch -zu englischer Nachrichtenübersetzung". Arxiv:1803.05567 [cs.cl].
  33. ^ Antonio Toral, Sheila Castilho, Ke Hu und Andy Way. 2018. Erreichen des Unerdierbaren? Überprüfung von Behauptungen der menschlichen Parität in der neuronalen maschinellen Übersetzung. Corr, ABS/1808.10432.
  34. ^ Yvette, Graham; Barry, Haddow; Koehn, Philipp (2019). "Translationse in maschineller Übersetzungsbewertung". Arxiv:1906.09833 [cs.cl].
  35. ^ "Multiword -Ausdrücke - ACL Wiki". Archiviert vom Original am 8. Mai 2021. Abgerufen 8. Mai 2021.
  36. ^ Han, Lifeng, Jones, Gareth J. F., Smeaton, Alan F. und Bolzoni, Paolo (2021) Chinesische Charakter-Zersetzung für neuronale MT mit Multi-Word-Ausdrücken. In: 23. Nordische Konferenz über Computerlinguistik (Nodalida 2021) | URL =https://arxiv.org/abs/2104.04497 Archiviert 9. Mai 2021 am Wayback -Maschine
  37. ^ Lifeng Han, Shaohui Kuang. (2018) Einbeziehung chinesischer Radikale in die neuronale maschinelle Übersetzung: tiefer als Charakterebene | URL = https://arxiv.org/pdf/1805.01565.pdf Archiviert 9. Mai 2021 am Wayback -Maschine
  38. ^ Meilensteine ​​in maschineller Übersetzung-Nr. 6: Bar-Hillel und die Nichtmöglichkeit von FAHQT Archiviert 12. März 2007 bei der Wayback -Maschine von John Hutchins
  39. ^ Bar-Hillel (1960), "Automatische Übersetzung von Sprachen". Online erhältlich unter http://www.mt-archive.info/bar-hillel-1960.pdf Archiviert 28. September 2011 bei der Wayback -Maschine
  40. ^ Hybridansätze zur maschinellen Übersetzung. Costa-Jussà, Marta R., Rapp, Reinhard, Lambert, Patrik, Eberle, Kurt, Banchs, Rafael E., Babych, Bogdan. Schweiz. 21. Juli 2016. ISBN 9783319213101. OCLC 953581497.{{}}: CS1 Wartung: Andere (Link)
  41. ^ Claude Piron, Le Défi des Langues (The Language Challenge), Paris, L'harmattan, 1994.
  42. ^ Babych, Bogdan; Hartley, Anthony (2003). Verbesserung der Qualität der maschinellen Übersetzungsqualität mit automatisch benannter Entitätserkennung (PDF). Papier, das auf dem 7. International EAMT -Workshop zu MT- und anderen Sprachtechnologie -Tools vorgestellt wurde ... archiviert aus das Original (PDF) am 14. Mai 2006. Abgerufen 4. November 2013.
  43. ^ Hermajakob, U., K. Knight & D. Hal (2008). Nennen Sie die Übersetzung in statistischer maschineller Übersetzungslernen, wenn Sie transformieren müssen Archiviert 4. Januar 2018 bei der Wayback -Maschine. Assoziation für Computer -Linguistik. 389–397.
  44. ^ a b Neeraj Agrawal; Ankush Singla. Verwenden der genannten Entitätserkennung zur Verbesserung der maschinellen Übersetzung (PDF). Archiviert (PDF) vom Original am 21. Mai 2013. Abgerufen 4. November 2013.
  45. ^ Schwartz, Lane (2008). Multi-Source-Übersetzungsmethoden (PDF). Auf der 8. Biennalekonferenz des Vereins für maschinelle Übersetzungen in Amerika präsentiert. Archiviert (PDF) vom Original am 29. Juni 2016. Abgerufen 3. November 2017.
  46. ^ Cohn, Trevor; Lapata, Mirella (2007). Maschinelle Übersetzung durch Triangulation: Effektive Verwendung von mehrparallelen Korpora nutzen (PDF). Auf der 45. Jahrestagung der Vereinigung für Computerlinguistik vom 23. bis 30. Juni 2007, Prag, Tschechische Republik, präsentiert. Archiviert (PDF) Aus dem Original am 10. Oktober 2015. Abgerufen 3. Februar 2015.
  47. ^ Nakov, Preslav; NG, Hwee Tou (2012). "Verbesserung der statistischen maschinellen Übersetzung für eine ressourcenarme Sprache mit verwandten ressourcenreichen Sprachen". Journal of Artificial Intelligence Research. 44: 179–222. doi:10.1613/jair.3540.
  48. ^ a b c Vossen, Piek: Ontologien. In: Mitkov, Ruslan (Hrsg.) (2003): Handbuch der Computerlinguistik, Kapitel 25. Oxford: Oxford University Press.
  49. ^ Knight, Kevin (1993). "Aufbau einer großen Ontologie zur maschinellen Übersetzung". Human Language Technology: Verfahren eines Workshops in Plainsboro, New Jersey, 21. bis 24. März 1993. Princeton, New Jersey: Association for Computational Linguistics. S. 185–190. doi:10.3115/1075671.1075713. ISBN 978-1-55860-324-0.
  50. ^ Ritter, Kevin; Luk, Steve K. (1994). Aufbau einer groß angelegten Wissensbasis für die maschinelle Übersetzung. Papier auf der zwölften Nationalen Konferenz über künstliche Intelligenz. Arxiv:CMP-LG/9407029.
  51. ^ Melby, Alan. Die Möglichkeit der Sprache (Amsterdam: Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN 9789027216144. Archiviert vom Original am 25. Mai 2011. Abgerufen 12. Juni 2012.
  52. ^ Wooten, Adam (14. Februar 2006). "Ein einfaches Modell, das Übersetzungstechnologie umrissen". T & I Business. Archiviert von das Original am 16. Juli 2012. Abgerufen 12. Juni 2012.
  53. ^ "Anhang III von 'Der gegenwärtige Status der automatischen Übersetzung von Sprachen', Advances in Computern, Band 1 (1960), S.158-163. Nachgedruckt in Y.Bar-Hillel: Sprache und Informationen (Lesen, Mass.: Addison -Wesley, 1964), S. 174-179 " (PDF). Archiviert von das Original (PDF) am 28. September 2018. Abgerufen 12. Juni 2012.
  54. ^ "Menschliche Qualitätsübersetzungslösung von TA mit Ihnen" (in Spanisch). Tauyou.com. 15. April 2009. Archiviert Aus dem Original am 22. September 2009. Abgerufen 12. Juni 2012.
  55. ^ "molto-project.eu". molto-project.eu. Archiviert Aus dem Original am 4. Mai 2010. Abgerufen 12. Juni 2012.
  56. ^ Spiegel Online, Hamburg, Deutschland (13. September 2013). "Google Translate hat ehrgeizige Ziele für die maschinelle Übersetzung". Spiegel online. Archiviert Aus dem Original am 14. September 2013. Abgerufen 13. September 2013.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  57. ^ "Maschinenübersetzungsdienst". 5. August 2011. Archiviert Aus dem Original am 8. September 2013. Abgerufen 13. September 2013.
  58. ^ Google -Blog: Die Maschinen machen das Übersetzen Archiviert 23. März 2006 bei der Wayback -Maschine (durch Franz Och)
  59. ^ "Geer, David", statistische Übersetzung gewinnt Respekt ", S. 18 - 21, IEEE Computer, Oktober 2005". Ieeexplore.ieee.org. 27. September 2011. doi:10.1109/mc.2005.353. S2CID 7088166. {{}}: Journal zitieren erfordert |journal= (Hilfe)
  60. ^ Ratliff, Evan (4. Januar 2009). "Ratcliff, Evan" Ich übersetzt einen Tag ", verkabelt Dezember 2006". Verdrahtet. Archiviert vom Original am 14. Mai 2013. Abgerufen 12. Juni 2012.
  61. ^ ""NIST 2006 Maschinenübersetzungsbewertung offizielle Ergebnisse", 1. November 2006 ". Itl.nist.gov. Archiviert from the original on 17 October 2021. Abgerufen 12. Juni 2012.
  62. ^ "In-Q-Tel". In-Q-Tel. Archiviert von das Original am 20. Mai 2016. Abgerufen 12. Juni 2012.
  63. ^ Gallafent, Alex (26. April 2011). "Maschinenübersetzung für das Militär". Pri ist die Welt. Archiviert vom Original am 9. Mai 2013. Abgerufen 17. September 2013.
  64. ^ Jackson, William (9. September 2003). "GCN - Air Force will einen universellen Übersetzer bauen". Gcn.com. Archiviert Aus dem Original am 16. Juni 2011. Abgerufen 12. Juni 2012.
  65. ^ Beratungskomitee für automatische Sprachverarbeitung, Abteilung für Verhaltenswissenschaften, National Academy of Sciences, National Research Council (1966). Sprache und Maschinen: Computer in Übersetzung und Linguistik (PDF) (Bericht). Washington, D. C.: Nationaler Forschungsrat, Nationale Akademie der Wissenschaften. Archiviert (PDF) Aus dem Original am 21. Oktober 2013. Abgerufen 21. Oktober 2013.{{}}: Cs1 montiert: Mehrfachnamen: Autorenliste (Link)
  66. ^ Randhawa, Gurdeeshpal; Ferreyra, Mariella; Ahmed, Rukhsana; Ezzat, Omar; Pottie, Kevin (April 2013). "Verwendung maschineller Übersetzung in der klinischen Praxis". Canadian Family Physician. 59 (4): 382–383. PMC 3625087. PMID 23585608. Archiviert Aus dem Original am 4. Mai 2013. Abgerufen 21. Oktober 2013.
  67. ^ Abadi, Mark. "4 Mal Google übersetzt den Ball total fallen gelassen". Geschäftseingeweihter.
  68. ^ "". ねとらぼ.
  69. ^ "えぐ" - via www.youtube.com.
  70. ^ a b Way, Andy; Nano Gough (20. September 2005). "Vergleiche beispielhafter und statistischer maschineller Übersetzung". Natural Language Engineering. 11 (3): 295–309. doi:10.1017/s1351324905003888. S2CID 3242163.
  71. ^ Muegge (2006), "Vollautomatische hochwertige maschinelle Übersetzung des eingeschränkten Textes: Eine Fallstudie Archiviert 17. Oktober 2011 bei der Wayback -Maschine," in Übersetzung und Computer 28. Verfahren der achtundzwanzigsten Internationalen Konferenz über Übersetzung und Computer, 16.-17. November 2006, London, London: Aslib. ISBN978-0-85142-483-5.
  72. ^ "Vergleich von MT -Systemen durch menschliche Bewertung, Mai 2008". Morphologisch.hu. Archiviert von das Original am 19. April 2012. Abgerufen 12. Juni 2012.
  73. ^ Anderson, D.D. (1995). Maschinelle Übersetzung als Werkzeug im Zweitsprachenlernen Archiviert 4. Januar 2018 bei der Wayback -Maschine. Calico Journal. 13 (1). 68–96.
  74. ^ Han et al. (2012), ","Lepor: Eine robuste Bewertungsmetrik für maschinelle Übersetzung mit erweiterten Faktoren Archiviert 4. Januar 2018 bei der Wayback -Maschine," in Proceedings der 24. Internationalen Konferenz über Computerlinguistik (Coling 2012): Poster, Seiten 441–450, Mumbai, Indien.
  75. ^ J.M. Cohen bemerkt (S.14): "Wissenschaftliche Übersetzung ist das Ziel eines Zeitalters, das alle Aktivitäten auf Techniken. Es ist jedoch unmöglich, sich eine literarische Übertragungsmaschine vorzustellen, die weniger komplex ist als das menschliche Gehirn selbst, mit all seinen Wissen, Lesen und Diskriminierung. "
  76. ^ Siehe das Jährlich führten NIST -Tests seit 2001 durch Archiviert 22. März 2009 bei der Wayback -Maschine und Zweisprachige Bewertungsbesetzung
  77. ^ a b Nino, Ana. "Maschinelle Übersetzung im Fremdsprachenlernen: Wahrnehmung der Sprachlernende und Tutoren der Vor- und Nachteile[Dead Link]"Rückruf: Das Journal of Eurocall 21,2 (Mai 2009) 241–258.
  78. ^ a b Zhao, L., Kipper, K., Schuler, W., Vogler, C. & Palmer, M. (2000). Ein maschinelles Übersetzungssystem von Englisch bis amerikanischer Gebärdensprache Archiviert 20. Juli 2018 bei der Wayback -Maschine. Vorlesungen in Informatik, 1934: 54–67.
  79. ^ "Maschinelle Übersetzung: Kein Urheberrecht zum Ergebnis?". SEO -Übersetzer zitiert Simbabwe unabhängig. Archiviert Aus dem Original am 29. November 2012. Abgerufen 24. November 2012.

Weitere Lektüre

Externe Links