3 Principoj de maŝina tradukado |
3 Grundlagen der maschinellen Übersetzung | ||||||||||||||||||||||||
3.4 Sintaksa analizo |
3.4 Syntaktische Analyse | ||||||||||||||||||||||||
La sintakso priskribas la strukturon de frazoj de naturaj lingvoj. Ĝia analizo en la 1950aj jaroj promesis signifajn progresojn en MT. La aliro de la sintaksa analizo estas produkti reprezentaĵon de la strukturo de la rilatoj inter la elementoj de frazo. Teorie tiu strukturo povus esti ĝenerala "grafo", t. e. ĉiu frazero povus rilati al ĉiu alia; sed la sintakso limigas tiun grafon al "arbo", t. e. grafo sen cikloj, en kiu unu elemento, la "radiko", havas elstaran pozicion. |
Die Syntax beschreibt die Struktur von Sätzen in natürlichen Sprachen. Die Analyse der Syntax versprach in den 50er Jahren des 20. Jahrhunderts bedeutende Fortschritte in der MÜ. Der Ansatz der Syntaxanalyse ist es, eine Darstellung der Struktur der Beziehungen zwischen den Elementen eines Satzes zu erzeugen. Theoretisch könnte diese Struktur ein allgemeiner "Graph" sein, d. h. jedes Satzelement könnte mir jedem anderen in Beziehung stehen; die Syntax schränkt diesen Graphen jedoch auf einen "Baum" ein, d. h. auf einen Baum ohne Zyklen, in dem ein bestimmtes Element, die "Wurzel", eine besondere Stellung hat. | ||||||||||||||||||||||||
Simpla ekzemplo ilustras tiun aliron. La frazo "Ŝi manĝas panon" konsistas el tri elementoj: "Ŝi", "manĝ" kaj "pano". Principe ĉiu el la tri elementoj povus esti la radiko: "Ŝi" rilatas al "manĝado" kaj al "pano", la "pano" rilatas al "ŝi" kaj al "manĝado". Sed la sintakso preskribas, ke la radiko estu la verbo (predikato), kiu rilatas al siaj subjekto kaj objekto. |
Ein einfaches Beispiel veranschaulicht diesen Ansatz. Der Satz "Sie isst Brot" besteht aus drei Elementen: "Sie", "essen" und "Brot". Grundsätzlich könnte jedes dieser drei Elemente die Wurzel sein: "Sie" hat Beziehung zu "essen" und "Brot", das "Brot" hat Beziehung zu "sie" und "essen". Die Syntax schreibt nun vor, dass das Verbum (Prädikat) die Wurzel ist und Beziehungen zu seinem Subjekt und seinem Objekt hat. | ||||||||||||||||||||||||
| |||||||||||||||||||||||||
Ni povas meti pli da strukturo el la elementoj en la grafon, se ni donas nomojn al la rilatoj ("subjekto de", "objekto de"). Per tio ne plu necesas la distingo inter nominativo kaj akuzativo: |
Wir können mehr Struktur aus den Satzelementen in den Graphen legen, wenn wir den Beziehungen Namen geben ("Subjekt von", "Objekt von"). Dadurch wird der Unterschied in der Stellung von Subjekt und Objekt (vor/nach dem Prädikat) überflüssig: | ||||||||||||||||||||||||
| |||||||||||||||||||||||||
Per la redukto de "manĝas" al "manĝi" ni perdas la tenson, do necesas indiki, ke la predikato estas en la prezenco (pr): |
Wenn "isst" durch "essen" ersetzt wird, geht die Information über die Zeit (tempus) verloren; daher müssen wir vermerken, dass das Prädikat im Präsens (pr) steht: | ||||||||||||||||||||||||
| |||||||||||||||||||||||||
En UNL tiu simpla frazo aspektus eble kiel en la sekvaj priskribo ("tim" indikas la tempon de la ago, "agt" la aganton (subjekton), "obj" la objekton): |
In der Schreibweise von UNL würde dieser einfache Satz etwa folgendermaßen aussehen ("tim" gibt die Zeit der Handlung, "agt" den Handelnden (Subjekt), "obj" das Objekt an): | ||||||||||||||||||||||||
{unl} tim(eat(icl>do).@progress.@present) agt(eat(icl>do), she.@def) obj(eat(icl>do), bread(icl>eating).@indef) {/unl} | |||||||||||||||||||||||||
Generado de la cel-lingvo (sintezo)Por produkti cel-lingvan tekston el sintaksa arbo necesas reguloj; tiaj reguloj formas gramatikon de la cel-lingvo. Tiuj reguloj estas bone esploritaj por multaj lingvoj. Tial la paŝo de sintaksa arbo al la cel-lingvaĵo ne estas tro malfacila. |
Erzeugung der Zielsprache (Synthese)Um aus einem Syntaxbaum einen zielsprachlichen Text zu erzeugen, sind Regeln notwendig; solche Regeln bilden eine Grammatik der Zielsprache. Diese Regeln sind für eine Reihe von Sprachen gut erforscht. Daher stellt der Schritt vom Syntaxbaum zur Zielsprache kein allzu großes Problem dar. | ||||||||||||||||||||||||
Reguloj por la sintezo povas diri, kiel traduki la vorton en konsiderata nodo kaj kiel trakti ties sub-nodojn. Por la ekzemplo "manĝi" tia regulo povus esti:
|
Regeln für die Synthese können angeben, wie das Wort im betrachteten Knoten übersetzt wird und wie dessen Unterknoten behandelt werden. Eine Regel für das Beispiel "essen" könnte so aussehen:
| ||||||||||||||||||||||||
La TransigoLa sintaksaj arboj situas pli profunde en la transiga diagramo ol la laŭvorta traduko. Sed transigo restas necesa, ĉar diversaj lingvoj havas malsamajn gramatikajn kategoriojn, kaj eĉ se du lingvoj havas identajn kategoriojn, povas esti, ke la sama frazo havas malsaman strukturon en tiuj lingvoj. Ekzemple en la Itala frazo "Giovanni mi piace" ("Johano plaĉas al mi") "Giovanni" estas la subjekto, sed en la Angla traduko "I like John" ("mi ŝatas Johanon") "John" estas objekto. |
Der TransferDie Syntaxbäume liegen im Transfer-Graphen tiefer als die wörtliche Übersetzung. Transfer bleibt jedoch erforderlich, da verschiedene Sprachen unterschiedliche grammatikalische Kategorien haben, und selbst wenn zwei Sprachen gleiche Kategorien haben, kann es sein, dass derselbe Satz in diesen Sprachen unterschiedliche Struktur hat. Zum Beispiel ist in dem italienischen Satz "Giovanni mi piace" ("Johann gefällt mir") das Wort "Giovanni" das Subjekt; in der englischen Übersetzung "I like John" ("ich mag Johann") ist dagegen "John" ein Objekt. | ||||||||||||||||||||||||
La transigo estas realigebla laŭ du manieroj: Unue eblas eksplicite rekonstrui la sintaksan arbon kaj el la nova arbo produkti la cel-lingvan tekston. Due eblas meti la transigan informon en la regulojn, laŭ kiuj oni produktas la cel-lingvaĵon. En tia procedo la reguloj por traduki la verbon "plaĉi" al "ŝati" povus esti jenaj: |
Der Transfer lässt sich auf zwei Arten vollziehen: Erstens kann man den Syntaxbaum explizit umbauen und den Text in der Zielsprache aus dem umgebauten Baum erzeugen. Zweitens lässt sich die Transfer-Information in die Regeln einbetten, nach denen der Text in der Zielsprache erzeugt wird. Bei diesem Vorgehen könnten die Regeln um das Verb "gefallen" in "mögen" zu übersetzen, so aussehen: | ||||||||||||||||||||||||
|
| ||||||||||||||||||||||||
La analizoPor produkti sintaksan arbon el fonto-lingva teksto necesas gramatike analizi la tekston sur la nivelo de frazoj. Por tio oni ekzamenas, kiuj el la permesataj frazo-skemoj de la lingvo kongruas kun donita frazo. Ekzemple la skemo "subjekto – predikato – objekto" (SPO) kongruas kun la supre analizita frazo "ŝi manĝas panon". Por konstati tion kompreneble necesas ekkoni, ke la pronomo "ŝi" estas ebla subjekto, la verbo "manĝas" estas ebla predikato kaj la akuzativa substantivo "panon" estas ebla objekto. |
Die AnalyseUm aus einem Ausgangstext einen Syntaxbaum zu erzeugen, muss der Text auf der Ebene der Sätze grammatikalisch analysiert werden. Dazu wird geprüft, welche(s) der erlaubten Satz-Schemata der Sprache zu einem gegebenen Satz passt. Zum Beispiel passt das Schema "Subjekt – Prädikat – Objekt" (SPO) zu dem obigen Beispielsatz "Sie isst Brot". Um das festzustellen, muss natürlich erkannt werden, dass das Pronomen "sie" ein mögliches Subjekt, das Verbum "isst" ein mögliches Prädikat und das Substantiv "Brot" ein mögliches Objekt ist. | ||||||||||||||||||||||||
|
| ||||||||||||||||||||||||
Ekzistas teknikoj por la trovado de arbo-strukturo kongrua al donita frazo; ili traktado estus tro speciala por la kadro de tiu ĉi kurso. Grava fakto estas, ke tiuj algoritmoj ne povas ĉiam trovi unikan strukturon, ĉar, same kiel vortoj, ankaŭ frazo-strukturoj povas esti ambiguaj; oni nomas tion struktura ambigueco. |
Es gibt Techniken, um zu einem gegebenen Satz eine passende Baumstruktur zu finden; ihre Behandlung würde den Rahmen dieses Kurses sprengen. Wichtig ist die Tatsache, dass diese Algorithmen nicht immer eine eindeutige Struktur finden können; denn auch Satz-Strukturen können, ebenso wie Wörter, mehdeutig sein; man spricht hier von struktureller Mehrdeutigkeit. | ||||||||||||||||||||||||
Eble plej konata estas la ambigueco de prepoziciaj propozicioj; en multaj lingvoj estas gramatike nedecideble, de kiu antaŭa esprimo dependas prepozicia esprimo, kiel en jena ekzemplo: |
Vielleicht am bekanntesten ist die Mehrdeutigkeit von Präpositionalausdrücken; in vielen Sprachen ist es grammatikalisch nicht entscheidbar, von welchem vorangegangenen Ausdruck ein Präpositionalausdruck abhängt, so wie in folgendem Beispiel: | ||||||||||||||||||||||||
| |||||||||||||||||||||||||
La loko-indiko "sur la monto" gramatike povas rilati egale al la objekto ("la dometon" / "la suneklipson") aŭ al la agado (predikato/subjekto; "mi vidis"). Nur nia scio pri la mondo diras al ni, ke suneklipsoj okazas ne sur montoj kaj dometoj ja povas stari sur montoj. |
Die Ortsangabe "auf dem Berg" kann sich grammatikalisch ebenso auf das Objekt ("die Hütte" / "die Sonnenfinsternis") wie auf die Handlung (Prädikat/Subjekt; "ich sah") beziehen. Nur unser Weltwissen sagt uns, dass Sonnenfinsternisse nicht auf Bergen stattfinden, während Hütten sehr wohl auf Bergen stehen können. | ||||||||||||||||||||||||
En multaj lingvoj tiu ambigueco de prepoziciaj propozicioj ekzistas en tre simila formo. Por traduki inter tiaj similaj lingvoj ne necesas solvi la ambiguecon; ĝi estas simple "kuntradukita". Sed ekzemple en ponto-lingvaj sistemoj, kie analiza sistemo ne konas la cellingvon de la traduko, necesas solvi tiaj ambiguecojn (se ili ne estas veraj ambiguecoj). |
In vielen Sprachen ist diese Mehrdeutigkeit von Präpositionalausdrücken in sehr ähnlicher Form vorhanden. Bei der Übersetzung zwischen solchen ähnlichen Sprachen muss die Mehrdeutigkeit nicht aufgelöst werden; sie wird einfach "mitübersetzt". Aber zum Beispiel in Systemen mit Brückensprache, wo ein Analysesystem die Zielsprache der Übersetzung nicht kennt, müssen solche Mehrdeutigkeiten aufgelöst werden (wenn es sich nicht um echte Mehrdeutigkeiten handelt). | ||||||||||||||||||||||||