Volltext-Downloads (blau) und Frontdoor-Views (grau)

Feld-Spezifische Indexierung von Internet-Dokumenten im Rahmen von WebCLEF 2006

  • Im Rahmen von WebCLEF 2006 wurde an der Universität Hildesheim mit dem sehr umfangreichen, multilingualen EuroGOV-Korpus experimentiert. Im Vordergrund stand die feldspezifische Indexierung anhand von HTML Strukturelementen. Zusätzlich wurde der Einsatz von Blind Relevance Feedback evaluiert. Wie 2005 wurde ein sprachunabhängiger Indexierungsansatz verwendet. Experimentiert wurde mit dem HTML-Title Element, dem H1 Element und anderen Auszeichnungen, die Text hervorheben. Blind Relevance Feedback wurde für alle Felder außer für das Volltextfeld ?content? implementiert. Die besten Resultate wurden mit einer starken Gewichtung der HTML-Title und H1 Elemente erreicht und stellten eine geringfügige Verbesserung gegenüber den Ergebnissen aus den letztjährigen Postexperimenten dar. Der Einsatz von Blind Relevance Feedback führte nicht zu Verbesserungen. Für WebCLEF 2006 wurden verbesserte Ergebnisse mit den manuell erstellten Anfragen erreicht, während von den Veranstaltern automatisch erstellte Anfragen zu Ergebnissen führten, die wesentlich unter denen der manuell erstellten lagen. Dies war bei allen teilnehmenden Gruppen der Fall.
  • For WebCLEF 2006 we experimented with the large, multilingual EuroGOV-Collection. Fieldspecific Indexing using the HTML structure of the web documents was evaluated. In addition, blind relevance feedback was applied in the search process. As in 2005, the experiments were carried out with a language independent indexing strategy. We experimented with HTML title, H1 element and other elements emphasizing text. Blind relevance feedback was implemented for all index fields except for the full content. The best results with the WebCLEF 2005 topics were achieved with a strong weight on the title-element accomplishing a marginal improvement over the best post submission runs for the mixed-monolingual task at WebCLEF 2005. Blind relevance feedback could not yet improve results. For the WebCLEF 2006 topics, improved results were achieved with the manually generated topics, while those automatically generated led to results far below average for all groups participating.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Ben Heuwing, Robert Strötgen
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus-886
Document Type:Conference Proceeding
Language:German
Date of Publication (online):2011/05/16
Release Date:2011/05/16
GND Keyword:Informationssysteme
Source:Proceedings des Fünften Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2006)
PPN:Link zum Katalog
Contributor:Womser-Hacker, Christa
Institutes:Fachbereich III / Informationswissenschaft und Sprachtechnologie
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik
Licence (German):License LogoDeutsches Urheberrecht