Navigation auf uzh.ch

Suche

Institut für Computerlinguistik Texttechnologie

Domänenspezifische Statistische Maschinelle Übersetzung

Das Institut für Computerlinguistik erforscht die Nutzung domänenspezifischer Korpora für die Statistische Maschinelle Übersetzung (SMT). Anstoss dafür sind Erfahrungen mit Industriepartnern, welche Übersetzungssysteme für spezifische Anwendungsszenarios wünschen, aber nur wenig eigenes Trainingsmaterial zur Verfügung haben. Wir verfügen über ein kleines paralleles Korpus (5 Millionen Tokens) von alpinen Texten: Die Publikationsreihen des Schweizer Alpen-Clubs (SAC) wurden im Projekt Text+Berg digital erfasst, Teile davon sind mehrsprachig (DE-FR). Im Projekt wurde die Kombination des Text+Berg Korpus mit verschiedenen anderen Übersetzungsressourcen untersucht, zum Beispiel zusätzliche monolinguale, parallele oder vergleichbare Korpora, oder andere Übersetzungssysteme.

Schwerpunkte des Forschungsprojekts

  • Nutzung domänenspezifischer paralleler Korpora für SMT: Korpusaufbau, Satzalignierung und Nutzenanalyse.
  • Extraktion domänenspezifischer Übersetzungen aus vergleichbaren Korpora.
  • Kombination von domänenspezifischen parallelen Korpora und parallelen Korpora aus anderen Domänen.
  • Kombination von domänenspezifischen und allgemeinen Übersetzungssystemen.
  • Einsatz und Verbesserung von NLP-Ressourcen (Name Classifiers, PoS-Tagger, Parser) in Englisch, Französisch und Deutsch zur Verbesserung von SMT-Systemen.
  • Aufbau von Werkzeugen zur multilingualen Terminologievisualisierung.
  • Aufbau einer parallelen Baumbank Französisch-Deutsch für Evaluationszwecke.

Projektleiter:

Forschende:

Das Projekt wurde vom Schweizerischen Nationalfonds finanziert und lief 2010-2013.

Projektergebnisse

Publikationen

ZORA Publication List

Download Options

Publications

Weiterführende Informationen

Title

Teaser text