Volltext-Downloads (blau) und Frontdoor-Views (grau)
The search result changed since you submitted your search request. Documents might be displayed in a different sort order.
  • search hit 7 of 655
Back to Result List

Die Erschließung heterogener Textquellen für die Digital Humanities

  • Sammlungen von Textdaten können oft als semi-strukturierte Daten beschrieben werden, die sich in strukturelle Einheiten segmentieren lassen, in denen Elemente eines impliziten Schemas erkannt und in ein strukturiertes Format überführt werden können. Für diese Erschließung wird eine Software vorgestellt, die Funktionen für indikatorbasierte Regeln sowie zur Konsistenzprüfung und Bereinigung (z. B. von Textdubletten) der entstehenden Korpusdaten anbietet. Die Ergebnisse können in acht Formate exportiert werden, womit die Software als Bindeglied zwischen verfügbaren Textdaten und dem Einsatz aktueller Verfahren der Digital Humanities fungiert. Für die Erschließung schwächer strukturierter Daten, die über keine eindeutigen und einheitlichen Indikatoren für die Felder des impliziten Schemas verfügen, wird eine Methode auf Grundlage von Conditional Random Fields (CRF) in Verbindung mit einem Active Learning-Ansatz vorgeschlagen. Die Elemente der verarbeiteten Daten werden anhand der vom CRF erkannten Wahrscheinlichkeiten für die zugeordneten Bezeichner in acht Cluster eingeteilt, woraus den Anwendern Instanzen für eine iterative Erweiterung der Trainingsdaten dargeboten werden. Gleichzeitig können Elemente, deren Bezeichner mit einer hohen Wahrscheinlichkeit vergeben werden, als "richtig" markiert werden, womit sie in den darauffolgenden Iterationen übersprungen werden. Eine Fallstudie zeigt, dass sich die Ergebnisse mit den ersten Iterationen verbessern, während sich die Werte der als »richtig« markierten Elemente nach einigen Iterationen verschlechtern, woraus sich Empfehlungen für die Anwendung von CRFs mit wenigen Trainingsdaten ergeben.
  • Collections of text data can often be described as semi-structured data which can be segmented into structural units containing elements of an implicit schema which can be converted into a structured format. For this processing pipeline a software is presented which includes functions for indicator-based rules as well as consistency checks and data cleansing methods (e.g., removal of duplicate entries) for the generated corpus data. The results can be exported into eight data formats. Thus, the software is a link between available text data and the application of current tools and methods in the field of the Digital Humanities. For processing text data with less explicit and consistent indicators for the fields of the implicit schema a method based on Conditional Random Fields (CRF) including an Active Learning approach is proposed. Based on the probabilities for the labels assigned by the CRF, the processed elements are clustered into eight sets from which instances are displayed to the users for iteratively augmenting the set of training data. Additionally, elements with a high probability for the attributions of their labels can be marked as "correct", in order to skip them in the next iterations. A case study shows that the results improve with the first iterations, while the results of the elements marked as »correct« decrease after a number of iterations, resulting in recommendations for the application of CRFs with few training data.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Fritz Kliche
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus4-11384
DOI:https://doi.org/10.18442/152
Publisher:Universitätsverlag Hildesheim
Place of publication:Hildesheim
Referee:Ulrich Heid, Gerhard Lauer
Document Type:Doctoral Thesis
Language:German
Year of Completion:2020
Publishing Institution:Universitätsverlag Hildesheim
Granting Institution:Stiftung Universität Hildesheim
Date of final exam:2020/06/25
Release Date:2020/10/20
Pagenumber:337
Institutes:Fachbereich III
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 020 Bibliotheks- und Informationswissenschaft
Licence (German):License LogoCreative Commons - Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0