2 Historio de maŝina tradukado (MT)2.7 Statistikaj aliroj |
2 Geschichte der Maschinellen Übersetzung (MÜ)2.7 Statistische Ansätze |
Ĉirkaŭ 1990 kelkaj projektoj serioze koncentriĝis al tekniko, kiu forte diferencis de la tradiciaj aliroj: Anstataĝ pli kaj pli precize analizi linguaĵon ili traktis ĝin statistike, elirante de la fakto, ke por ĉiu fontolingva frazo f kaj ĉiu cellingva frazo c ekzistas probablo, ke c estas uzata kiel traduko de f. Por la plej multaj frazo-paroj tiu probablo estas preskaŭ nula, sed por preskaŭ ĉiu f ekzistas unu aŭ pluraj c kun ne-nulaj probabloj. Inter tiuj oni elektu tiun kun la plej granda probablo. |
Um 1990 konzentrierten sich einige Projekte ernsthaft auf eine Technik, die sich von den traditionellen Ansätzen stark unterschied: Statt Sprache immer genauer zu analysieren, behandelten sie sie statistisch, ausgehend von der Tatsache, dass es für jeden Satz f der Ausgangssprache und jeden Satz c der Zielsprache eine gewisse Wahrscheinlichkeit gibt, dass c als Übersetzung von f verwendet wird. Für die meisten Satzpaare ist diese Wahrscheinlichkeit fast null, aber zu fast jedem f gibt es ein oder mehrere f mit einer nicht verschwindenden Wahrscheinlichkeit. Unter diesen wählt man den mit der größten Wahrscheinlichkeit. |
La Usona firmao IBM uzis tiun aliron en sia sistemo CANDIDE, kaj ĝi montriĝis surprize efika. La Usona registaro inter 1992 kaj 1994 financis plurajn komparojn inter diversaj MT-sistemoj, kaj CANDIDE montriĝis egala kontraŭulo al la plej bonaj tradiciaj sistemoj. |
Die US-Firma IBM benutzte diesen Ansatz in ihrem System CANDIDE, und er erwies sich als überraschend wirkungsvoll. Zwischen 1992 und 1994 finanzierte die US-Regierung mehrere Vergleiche zwischen verschiedenen MÜ-Systemen, und CANDIDE erwies sich als ebenbürtiger Gegner für die besten herkömmlichen Systeme. |