Refine
Document Type
- Conference Proceeding (4)
- Doctoral Thesis (1)
- Habilitation (1)
Language
- German (6)
Has Fulltext
- yes (6)
Is part of the Bibliography
- no (6)
Keywords
- Informationssysteme (3)
- Information Extraction (1)
- Information Retrieval (1)
- Maschinelles Lernen (1)
- PageRank (1)
- Quality (1)
- Qualität (1)
- Search (1)
- Suche (1)
Institute
Entwicklung eines dynamischen Entry Vocabulary Moduls für die Stiftung Wissenschaft und Politik
(2006)
Nicht übereinstimmendes Vokabular zwischen Anfrage und Dokumenten stellt ein Hauptproblem im Information Retrieval dar. Das Entry Vocabulary Modul hat sich in den letzten Jahren als Lösung hierfür etabliert. In diesem Beitrag wird ein dynamisches Entry Vocabulary Modul vorgestellt, das für einen Datenbestand mit mehreren inhaltsbezogenen Feldern in einem mehrstufigen Verfahren abhängig von Zwischenergebnissen die Anfrage erweitert. Das entwickelte System wurde anhand eines mehrsprachigen Datenbestands von rund 600.000 Fachtexten evaluiert und führte zu positiven Ergebnissen.
Der speziellen Behandlung geographischer Suchanfragen wird im Information Retrieval zunehmend mehr Beachtung geschenkt. So gibt der vorliegende Artikel einen Überblick über aktuelle Forschungsaktivitäten und zentrale Problemstellungen im Bereich des geographischen Information Retrieval, wobei speziell auf das Projekt GeoCLEF im Rahmen der crosslingualen Evaluierungsinitiative CLEF eingegangen wird. Die Informationswissenschaft der Universität Hildesheim hat in diesem Projekt sowohl organisatorische Aufgaben wahrgenommen als auch eigene Experimente durchgeführt. Dabei wurden die Aspekte der Verknüpfung von Gewichtungsansätzen mit Booleschem Retrieval sowie die Gewichtung von geographischen Eigennamen fokussiert. Anhand erster Interpretationen der Ergebnisse und Erfahrungen werden weiterer Forschungsbedarf und zukünftige, eigene Vorhaben wie die Überprüfung von Heuristiken zur Query-Expansion aufgezeigt.
Die stark anwachsende Menge von Wissen, welche weltweit zur Verfügung steht, erfordert eine teilweise Übertragung der Qualitätsbewertung auf Maschinen. Zugleich erlaubt die weltweite Vernetzung die Analyse, den Vergleich und die Verknüpfung sehr vieler Wissensangebote. Die Automatisierung von Qualitätsbewertung ist teilweise bereits Realität und erfordert eine stärkere wissenschaftliche Fundierung. Derzeit eingesetzte Systeme basieren auf der Linkanalyse und nutzen somit nur eine sehr eingeschränkte Wissensquelle. Aktuelle Forschungstendenzen aus unterschiedlichen Fachrichtungen verweisen auf komplexere Systeme zur automatischen Qualitätsbewertung. Im Rahmen des Projekts AQUAINT (Automatische Qualitätsabschätzung für Internet Ressourcen) wurde ein innovatives System zur Qualitätsbewertung entwickelt. Das Projekt behandelt die Grundlagen, die Entwicklung des Systems und dessen Evaluierung. Aus den Ergebnissen werden Konsequenzen für die Methodik der Evaluierung im Information Retrieval abgeleitet. Eine wichtige Anwendung liegt in Suchmaschinen der nächsten Generation.
Dieser Band fasst die Vorträge des Fünften Hildesheimer Evaluierungs- und Retrieval- Workshops (HIER) zusammen, der am 11. Oktober 2006 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüssen. Alle Beiträge stehen dieses Jahr in enger Beziehung zu den Kernthemen Information Retrieval und Evaluierung. Traditionell bietet der HIER auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge.
Die Qualität von Antworten im Information Retrieval schwankt zwischen einzelnen Anfragen sehr stark. Die Evaluierung im Information Retrieval zielt in der Regel auf eine Optimierung der durschnittlichen Retrieval-Qualität über mehrere Testanfragen (Topics). Sehr schlecht beantwortete Anfragen wirken sich besonders negativ auf die Zufriedenheit des Benutzers aus. Neue Ansätze zur Evaluierung der Robustheit von Systemen werten daher die schwierigen Anfragen stärker. Im Rahmen des Cross Language Evaluation Forum (CLEF) wurde 2006 ein Robust Task durchgeführt. Der Artikel zeigt die Gründe für Entwicklung dieser Aufgabenstellung nach, referiert die Ergebnisse und verweist auf zukünftige Planungen.
Information Retrieval befasst sich mit vagen Anfragen und der vagen Modellierung von Benutzerverhalten. Neuronale Netze sind eine Methode zur vagen Informationsverarbeitung und zur Implementierung kognitiver Fähigkeiten. Diese Arbeit gibt einen umfassenden Überblick über den state-of-the-art zu neuronalen Netzen im Information Retrieval und analysiert, gruppiert und bewertet zahlreiche Systeme. Als Konsequenz von Schwächen bestehender Modelle wird das COSIMIRModell entwickelt, das auf dem neuronalen Backpropagation-Algorithmus aufbaut. Es erlernt den im Information Retrieval zentralen Vergleich zwischen Dokument und Anfrage anhand von Beispielen. Die kognitive Modellierung ersetzt so ein formales Modell und führt zu höherer Adaptivität und damit zu verbesserter Toleranz gegenüber Benutzereigenschaften. Das Transformations- Netzwerk ist ein weiteres System, das auf dem Backpropagation- Algorithmus basiert und Retrieval bei heterogenen Daten ermöglicht. In mehreren Experimenten werden das COSIMIR-Modell und das Transformations- Netzwerk mit realen Daten getestet. Das COSIMIR-Modell hat sich dabei für Fakten-Retrieval bewährt. Die Experimente mit dem Transformations-Netzwerk und alternativen Verfahren ergaben je nach Datengrundlage unterschiedliche Ergebnisse. Das optimale Verfahren hängt also vom Anwendungsfall ab. Bei gleicher Qualität ist die Überschneidung der Ergebnisse verschiedener Verfahren relativ gering, so dass Fusionsverfahren erprobt werden sollten.