Navigation auf uzh.ch
Dieses Projekt wird unterstützt vom Institut für Computerlinguistik, an welchem es im Rahmen eines Seminars im Frühlingssemester 2012 entstanden ist.
Schweizerdeutsch ist ein Dialektkontinuum von Dialekten, die sich stark von Standarddeutsch (die offizielle Sprache der Deutschschweiz) unterscheiden. Wenn in Sprachverarbeitungssystemen mit mit Dialekten gearbeitet wird wird jedoch bis anhin ein Umweg über Standarddeutsch gewählt, unter anderem weil Ressourcen fehlen. In den letzten Jahren hat Schweizerdeutsch deutlich an Popularität gewonnen, vor allem auch was die schriftliche Sprache angeht. Deshalb möchten wir Ressourcen bereitstellen, welche als Grundlage für die automatische Sprachverarbeitung von Dialekten dienen.
Wir haben NOAH's Corpus of Swiss German Dialects zusammengestellt, welches aus verschiedenen Text-Genres besteht und manuell mit Part-of-Speech tags annotiert wurde. Das erste Release vom September 2014 enthält 70'000 Tokens, das aktuelle von Mai 2015 enthält 115'000 Tokens.
Des weiteren haben wir dieses Korpus als Trainingsset für einen statistischen Part-of-Speech tagger (BTagger) verwendet und eine Genauigkeit von 90% erreicht.
Darüber hinaus sind wir im Prozess des Aufbaus eines Dialektidentifikationssystems via Buchstaben n-Gramm Ansatz. Das entwickelte Baseline System für fünf grosse Dialekte erreicht einen F-Score von 0.66.
Besuchen Sie die offizielle Webseite Swiss German Language Processing für mehr Informationen, Updates sowie Downloads.
Publikationen:
NOAH's Korpus dient als Grundlage für ein weiteres NLP für Schweizerdeutsch Projekt: Universal Dependency Parsing für Schweizerdeutsch.