Volltext-Downloads (blau) und Frontdoor-Views (grau)

Informationslinguistische Ressourcen für das Information Retrieval in der tschechischen Sprache im Rahmen des Cross Language Evaluation Forums (CLEF)

  • Durch die Globalisierung und den wachsenden Gebrauch von netzwerkbasierten Systemen hat sich die Situation für die Informationssuche geändert. Die englische Sprache verliert in diesem Kontext an Gewicht, sodass andere Sprachen in den Vordergrund rücken. In dieser Arbeit werden für die tschechische Sprache mächtige informationslinguistische Ressourcen bestimmt, analysiert und erstellt. Die Ergebnisse dieser Arbeit stellen eine allgemeine tschechische Stoppwortliste und einen intellektuell erstellten Text-Katalog für die tschechische Toplevel-Domain von WebCLEF dar. Weiterhin umfasst diese Arbeit die Evaluierung des polnischen Stemmers STEMPEL. Seine Anwendung für tschechische Texte wird kritisch betrachtet.
  • Due to the effect of globalization and the increasing use of network-based systems, the situation of the search for information changed. The focus of interest switches to languages other than English. This work determines, analyzes and generates powerful information-linguistic resources for the information retrieval of the Czech language. As a result of this work a general stoplist for the Czech language and an intellectually built text-catalogue for the Czech toplevel-domain from WebCLEF are presented. Furthermore, this work includes the evaluation of the Polish stemmer STEMPEL. Its application for Czech texts is discussed.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Laura Hofman Miquel
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus-1159
Document Type:Master's Thesis
Language:German
Date of Publication (online):2011/05/23
Publishing Institution:Stiftung Universität Hildesheim
Release Date:2011/05/23
GND Keyword:Informationssysteme
PPN:Link zum Katalog
Institutes:Fachbereich III / Informationswissenschaft und Sprachtechnologie
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik
Licence (German):License LogoDeutsches Urheberrecht