2 Historio de maŝina tradukado (MT)2.1 La komencoj meze de la 20a jarcento |
2 Geschichte der Maschinellen Übersetzung (MÜ)2.1 Die Anfänge Mitte des 20. Jahrhunderts |
Por maŝine traduki naturan lingvon unue necesas maŝino, kiu entute kapablas prilabori datenojn en natura lingvo. Historie la unuaj tiaj maŝinoj estis la tru-kartaj maŝinoj laŭ Hollerith, kiuj ekestis fine de la 19a jarcento. Ili povus servi kiel "maŝina vortaro", en la senco, ke oni enmetas karton kun vorto en lingvo A kaj ricevas karton kun la traduko de la vorto en lingvo B. Sed tradiciaj vortaroj en libra formo estas multe pli facile kaj rapide manipuleblaj, tial ŝajne neniam estis tia uzo de tru-kartaj maŝinoj. |
Um eine natürliche Sprache maschinell zu übersetzen, braucht man zunächst eine Maschine, die überhaupt Daten in natürlicher Sprache verarbeiten kann. Geschichtlich waren die ersten solchen Maschinen die Lochkarten-Maschinen nach Hollerith, die Ende des 19. Jahrhunderts entstanden. Sie hätten als "maschinelles Wörterbuch" dienen können, in der Weise, dass man eine Karte mit einem Wort in Sprache A eingibt und eine Karte mit der Übersetzung in Sprache B zurückbekommt. Herkömmliche Wörterbücher sind jedoch in der Bedienung einfacher und schneller, so dass offenbar Lochkartenmaschinen nie zu diesem Zweck eingesetzt wurden. |
Hutchins raportas en siaj artikoloj "Machine translation: a brief history" kaj "The history of machine translation in a nutshell", ke en la jaro 1933 du patentoj pri maŝina tradukado estis donitaj en Francio kaj Rusio: En Francio, George Artsrouni ricevis patenton pri speco de mekanika vortaro surbaze de paperaj rubandoj. En Rusio, Petr Smirnov-Trojanskij ricevis patenton pri vera traduk-sistemo, kiu analizu la logikan strukturon de frazoj. La sistemo estis bazita sur la planlingvo Esperanto. Sed evidente tiu verko ne havis influon al la posta evoluo, kvankam Hutchins koncedas al la inventinto, ke li estis pli progresinta ol lia tempo. |
Hutchins berichtet in seinen Artikeln "Machine translation: a brief history" und "The history of machine translation in a nutshell", dass im Jahr 1933 in Frankreich und Russland zwei Patente zur maschinellen Übersetzung erteilt wurden: In Frankreich erhielt George Artsrouni ein Patent über eine Art mechanisches Wörterbuch auf Basis von Papierstreifen. In Russland erhielt Petr Smirnov-Trojanskij ein Patent für ein echtes Übersetzungssystem, das die logische Struktur von Sätzen analysieren sollte. Das System basierte auf der Plansprache Esperanto. Offenkundig hatte das Werk jedoch keinen Einfluss auf die spätere Entwicklung, auch wenn Hutchins dem Erfinder zugesteht, er sei seiner Zeit voraus gewesen. |
Kiel unuan paŝon al MT oni ofte konsideras leteron de Warren Weaver, direktoro de la naturscienca fako de fondaĵo Rockefeller, al Norbert Wiener, en marto 1947. En tiu letero Weaver atentigis, ke tradukado estas grava tasko, kaj sugestis, ĉu ne komputilo povus servi por traduki. Komputiloj tiam ekzistis nur de kelkaj jaroj kaj estis tre limigitaj en siaj kapabloj. |
Als ersten Schritt zur MÜ betrachtet man häufig einen Brief von Warren Weaver, Direktor der naturwissenschaftlichen Abteilung der Rockefeller-Stiftung, an Norbert Wiener, vom März 1947. In diesem Brief betont Weaver die hohe Bedeutung der Sprachübersetzung und regt an, ob nicht Computer zur Übersetzung eingesetzt werden könnten. Computer gab es damals erst seit wenigen Jahren, und sie waren in ihrer Leistung sehr beschränkt. |
Wiener respondis tiun leteron en aprilo en iom sen-entuziasmiga tono: |
Wiener beantwortete diesen Brief im April in etwas ernüchterndem Ton:
|
"...I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasi mechanical translation scheme very hopeful." (citita laŭ John Hutchins, From first conception to first demonstration: the nascent Years of machine translation, 1947-1954, A chronology) | |
("... mi sincere timas, ke la limoj de vortoj en diversaj lingvoj estas tro svagaj kaj la emociaj kaj diversnaciaj konotacioj tro vastaj por tre esperigi pri iu kvazaŭ mekanika traduk-skemo.") |
("...ich fürchte, ehrlich gesagt, die Grenzen der Wortbedeutungen in verschiedenen Sprachen sind zu vage und die emotionalen und internationalen Konnotationen zu weit, als dass ein quasi-mechanisches Übersetzungsschema sehr aussichtsreich erschiene.") |
Interese, Weaver sugestis, ke oni uzu kiel tradukan fonto-lingvon, almenaŭ unue, ne "vere naturan" lingvon, sed la simpligitan Anglan lingvon de Charles Ogden, nomitan "BASIC". Gxi havas limigitan vorto-trezoron (850 vortoj), kaj Weaver esperis, ke la "malgrandaj" komputiloj de tiu tempo pli facile traktu tiun lingvon ol alian. Wiener atentigis, ke BASIC ja malmultigas la vortojn, sed multigas iliajn signifojn. Ekzemple la "frazecaj verboj" (phrasal verbs, kombinoj el verboj kaj prepozicioj, estas fortege uzataj en BASIC, kaj neniel eblas dedukti ekzemple la signifon de la esprimo "put up with" el la signifoj de "put", "up" kaj "with". |
Interessanterweise schlug Weaver vor, als Ausgangssprache der Übersetzung, zumindest zunächst, keine "wirklich" natürliche Sprache, sondern das vereinfachte Englisch von Charles Ogden, genannt "BASIC", zu benutzen. Es besitzt einen beschränkten Wortschatz (850 Wörter), und Weaver hoffte, die "kleinen" Computer der damaligen Zeit könnten diese Sprache leichter behandeln als eine andere. Wiener machte darauf aufmerksam, dass BASIC zwar die Zahl der Wörter verringert, ihre Bedeutungen aber vermehrt. So wird zum Beispiel von den phrasal verbs (Kombinationen aus Verben und Präpositionen) in BASIC reicher Gebrauch gemacht, und es ist unmöglich, etwa die Bedeutung von "put up with" aus den Bedeutungen von "put", "up" kaj "with" zu erschließen. |
Weaver kaj Wiener do jam ekdiskutis la kompleksecon de la traduka tasko, unue sur vortara nivelo. Weaver kalkulis, ke eĉ la du-vortaj kombinoj de baza vortaro de 2000 vortoj estas nur kvar milionoj, kvanto traktebla de tiutempa komputilo (laŭ pure memora vidpunkto). |
Weaver und Wiener diskutierten also bereits die Komplexität der Übersetzungsaufgabe, zunächst auf der lexikalischen Ebene (Ebene des Wortschatzes). Weaver berechnete, dass selbst die Zahl der Zwei-Wort-Kombinationen aus einem Grundwortschatz von 2000 Wörtern nur vier Millionen beträgt, was für die damaligen Computer handhabbar war (von der reinen Speicherung her!). |
En sia letero Weaver esprimis ideon, kiu unue povas ŝajni iom stranga: Ke oni konsideru la tradukan problemon kiel specon de mal-ĉifrado: |
In seinem Brief spricht Weaver eine Idee aus, die zunächst seltsam anmutet: Man könne das Übersetzungsproblem als eine Art Dechiffrierung auffassen: |
"When I look at an article in Russian, I say 'This is really written in English but it has been coded in some strange symbols. I will now proceed to decode.'" | |
"Rigardante artikolon en Rusa lingvo mi diras 'Tio estas vere verkita en Angla lingvo sed ĉifrita en iuj strangaj simboloj. Mi nun malĉifros.'" |
"Wenn ich einen Artikel auf Russisch betrachte, sage ich mir 'Das ist in Wirklichkeit auf Englisch geschrieben, aber in seltsamen Symbolen verschlüsselt. Ich werde es jetzt entschlüsseln.'" |
La propono do estis, ignori ĉian scion pri la Rusa lingvo kaj procedi, kvazaŭ temas pri tute nekonata lingvo. Tiu ideo estas facile komprenebla per la fakto, ke tiutempe komputiloj havis grandajn sukcesojn en la malĉifrado de ĉifritaj natur-lingvaj tekstoj. Vere, komputiloj faris tiun taskon multe pli bone kaj rapide ol homoj. Ĉar, aliflanke, homoj kapablas sufiĉe bone traduki inter naturaj lingvoj, la espero, ke komputiloj povus ilin superi per la bone esploritaj teknikoj de malĉifrado, estis komprenebla. Tiu aliro tamen pruviĝis netaŭga; en malĉifrado ja normale temas pri la trovo de "ŝlosilo", kiu estas nur kelkajn literojn longa. Sed por "malĉifri" la Rusan lingvon necesus trovi ties vorto-trezoron kaj gramatikon, kiuj okupas dikajn librojn. |
Der Vorschlag lautete also, alles Wissen über die russische Sprache außer Acht zu lassen und vorzugehen, als handele es sich um eine ganz unbekannte Sprache. Diese Idee ist leicht verständlich vor dem Hintergrund, dass zu dieser Zeit Computer große Erfolge bei der Dechiffrierung chiffrierter natürlich-sprachiger Texte feierten. Tatsächlich meisterten Computer diese Aufgabe viel besser und schneller als Menschen. Da nun Menschen ziemlich gut zwischen natürlichen Sprachen übersetzen können, war die Hoffnung, Computer könnten sie durch die gut erforschten Techniken der Dechiffrierung übertreffen, verständlich. Dennoch erwies sich dieser Ansatz als ungeeignet; bei der üblichen Dechiffrierung geht es ja nur darum, einen "Schlüssel" zu finden, der wenige Zeichen lang ist. Um aber die russische Sprache zu "dechiffrieren", müsste man ihren Wortschatz und ihre Grammatik herausfinden, die dicke Bücher füllen. |
En la lingvo de la kriptografio Weaver do proponis aliron nomatan "atako laŭ nura ĉifro-teksto" (kontraŭe al "atako laŭ konata klara teksto", t. e. konata teksto kune kun ĝia ĉifraĵo. Ĉi-lasta modelo respondus al la utiligo de scioj pri ambaŭ lingvoj, ekzemple en la formo de vortaro. |
In der Sprache der Kryptographie ausgedrückt schlug Weaver also einen "Angriff mit bekanntem Schlüsseltext" (engl. known-ciphertext attack) vor, im Gegensatz zu einem "Angriff mit bekanntem Klartext" (known plain-text attack), bei dem ein Stück Text zusammen mit seiner Verschlüsselung bekannt ist. Letzteres Modell entspräche der Nutzung von Wissen über beide Sprachen, etwa in der Form eines Wörterbuchs. |
Specimenaj demandoj:
|
Beispielfragen:
|