Navigation auf


Institut für Computerlinguistik Texttechnologie

Maschinelle Übersetzung von Filmuntertiteln

Das Institut für Computerlinguistik entwickelt und evaluiert Maschinelle Übersetzungssysteme für die Medienindustrie. In Kooperation mit einer grossen skandinavischen Firma für Film- und TV-Untertitel haben wir Statistische Maschinelle Übersetzungssysteme für Englisch --> Schwedisch und Schwedisch --> Dänisch und Norwegisch erstellt. Die Entwicklung profitierte von der engen Verwandschaft der Sprachen, von den Zeitmarken für das automatische Alignieren, sowie von der Verfügbarkeit einer sehr grossen Anzahl humanübersetzter Untertitel (mehr als 50 Millionen Wörter pro Sprache). Die Übersetzungssysteme sind im praktischen Einsatz und übersetzen jeden Tag eine grosse Menge von Untertiteln.

Gegenwärtig arbeiten wir an Untertitel-Übersetzungssystemen für weitere Sprachpaare. Dabei untersuchen wir, wie eine hohe Übersetzungsqualität gewährleistet werden kann, auch wenn die Sprachen typologisch weiter entfernt sind und wenn weniger Trainingsmaterial vorliegt.




  1. Mark Fishel, Yota Georgakopoulou, Sergio Penkale, Volha Petukhova, Matej Rojc, Martin Volk and Andy Way (2012): From Subtitles to Parallel Corpora. In: Proceedings of the 16th Annual Conference of the European Association for Machine Translation (EAMT 2012). Trento.
  2. Volha Petukhova, Rodrigo Agerri, Mark Fishel, Sergio Penkale, Arantza del Pozo, Mirjam Sepesy Maucec, Andy Way, Panayota Georgakopoulou and Martin Volk (2012): SUMAT: Data Collection and Parallel Corpus Compilation for Machine Translation of Subtitles. In: Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbul.
  3. Martin Volk and Rico Sennrich (2011): Disambiguation of English Contractions for Machine Translation of TV Subtitles. In: Proceedings of the 18th Nordic Conference of Computational Linguistics (Nodalida 2011). Riga.
  4. Martin Volk, Rico Sennrich, Christian Hardmeier and Frida Tidström (2010): Machine Translation of TV Subtitles for Large Scale Production. In: Second Joint EM+/CNGL Workshop. Denver.
  5. Christian Hardmeier and Martin Volk (2009): Using Linguistic Annotations in Statistical Machine Translation of Film Subtitles. In: Proceedings of Nodalida. Odense.
  6. Martin Volk (2008): The Automatic Translation of Film Subtitles. A Machine Translation Success Story? In: Festschrift for Anna Sågvall Hein. Uppsala.
  7. Martin Volk and Søren Harder (2007): Evaluating MT with Translations or Translators. What is the Difference? In: Proc. of MT-Summit XI. Copenhagen.

Weiterführende Informationen


Teaser text