<<< [=]

2 Historio de maŝina tradukado (MT)

2.7 Statistikaj aliroj

2 Geschichte der Maschinellen Übersetzung (MÜ)

2.7 Statistische Ansätze

Ĉirkaŭ 1990 kelkaj projektoj serioze koncentriĝis al tekniko, kiu forte diferencis de la tradiciaj aliroj: Anstataĝ pli kaj pli precize analizi linguaĵon ili traktis ĝin statistike, elirante de la fakto, ke por ĉiu fontolingva frazo f kaj ĉiu cellingva frazo c ekzistas probablo, ke c estas uzata kiel traduko de f. Por la plej multaj frazo-paroj tiu probablo estas preskaŭ nula, sed por preskaŭ ĉiu f ekzistas unu aŭ pluraj c kun ne-nulaj probabloj. Inter tiuj oni elektu tiun kun la plej granda probablo.

Um 1990 konzentrierten sich einige Projekte ernsthaft auf eine Technik, die sich von den traditionellen Ansätzen stark unterschied: Statt Sprache immer genauer zu analysieren, behandelten sie sie statistisch, ausgehend von der Tatsache, dass es für jeden Satz f der Ausgangssprache und jeden Satz c der Zielsprache eine gewisse Wahrscheinlichkeit gibt, dass c als Übersetzung von f verwendet wird. Für die meisten Satzpaare ist diese Wahrscheinlichkeit fast null, aber zu fast jedem f gibt es ein oder mehrere f mit einer nicht verschwindenden Wahrscheinlichkeit. Unter diesen wählt man den mit der größten Wahrscheinlichkeit.

La Usona firmao IBM uzis tiun aliron en sia sistemo CANDIDE, kaj ĝi montriĝis surprize efika. La Usona registaro inter 1992 kaj 1994 financis plurajn komparojn inter diversaj MT-sistemoj, kaj CANDIDE montriĝis egala kontraŭulo al la plej bonaj tradiciaj sistemoj.

Die US-Firma IBM benutzte diesen Ansatz in ihrem System CANDIDE, und er erwies sich als überraschend wirkungsvoll. Zwischen 1992 und 1994 finanzierte die US-Regierung mehrere Vergleiche zwischen verschiedenen MÜ-Systemen, und CANDIDE erwies sich als ebenbürtiger Gegner für die besten herkömmlichen Systeme.

>>>