Volltext-Downloads (blau) und Frontdoor-Views (grau)

Web Content Mining nach Informationen zu wissenschaftlich tätigen Personen im Umfeld der Informationswissenschaft

  • In der vorliegenden Arbeit wird ein Verfahren zur Suche nach Informationen zu Wissenschaftlern prototypisch für den Bereich der Informationswissenschaft entwickelt, in welchem Ansätze des Web Content Mining eingesetzt werden. Zunächst werden Möglichkeiten und Probleme der Informationssuche im Web aufgezeigt, sowie verschiedene Verfahren des Web Content Mining beschrieben. Das entwickelte Verfahren verwendet online Publikationsdienste und persönliche Homepages der Wissenschaftler als Quellen. Zur Suche in den Publikationsdiensten und der Informationsextraktion aus ihren Ergebnisseiten werden Wrapper konstruiert. Des Weiteren werden Methoden zur Informationsextraktion aus den Homepages implementiert, die auf Heuristiken zu Struktur und Aufbau der Seiten beruhen. Für die Suche nach persönlichen Homepages von Informationswissenschaftlern wird ein spezialisiertes Suchverfahren entwickelt. Das Verfahren wird in einer Java-Applikation implementiert und anschließend evaluiert, um das Potenzial des gewählten Ansatzes zu untersuchen.
  • This thesis deals with the development of a search system for information on scientists which is implemented prototypically for the area of information science, employing Web Content Mining techniques. Initially the field of web information search and its problems are characterized and Web Content Mining techniques are presented. The sources that are used in the implemented approach are online publication services and personal homepages of scientists. Wrappers for querying the publication services and information extraction from their result pages are constructed, as well as methods for information extraction from the homepages, that are based on heuristics concerning structure and composition of the pages. Moreover a specialized search technique for searching for personal homepages of information scientists is developed. The approach is implemented in a java application and finally evaluated to investigate its overall potential.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Sarah Risse
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus-985
Document Type:Master's Thesis
Language:German
Date of Publication (online):2011/05/19
Publishing Institution:Stiftung Universität Hildesheim
Release Date:2011/05/19
Tag:Spezialisierte Suchverfahren; Web Content Mining Informationsextraktion; Web Informationssuche; Wrapper
specialized search technique; web content mining; web information extraction; web information search; wrapper
GND Keyword:Informationssysteme
PPN:Link zum Katalog
Institutes:Fachbereich III / Informationswissenschaft und Sprachtechnologie
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik
Licence (German):License LogoDeutsches Urheberrecht