Refine
Sammlungen von Textdaten können oft als semi-strukturierte Daten beschrieben werden, die sich in strukturelle Einheiten segmentieren lassen, in denen Elemente eines impliziten Schemas erkannt und in ein strukturiertes Format überführt werden können. Für diese Erschließung wird eine Software vorgestellt, die Funktionen für indikatorbasierte Regeln sowie zur Konsistenzprüfung und Bereinigung (z. B. von Textdubletten) der entstehenden Korpusdaten anbietet. Die Ergebnisse können in acht Formate exportiert werden, womit die Software als Bindeglied zwischen verfügbaren Textdaten und dem Einsatz aktueller Verfahren der Digital Humanities fungiert.
Für die Erschließung schwächer strukturierter Daten, die über keine eindeutigen und einheitlichen Indikatoren für die Felder des impliziten Schemas verfügen, wird eine Methode auf Grundlage von Conditional Random Fields (CRF) in Verbindung mit einem Active Learning-Ansatz vorgeschlagen. Die Elemente der verarbeiteten Daten werden anhand der vom CRF erkannten Wahrscheinlichkeiten für die zugeordneten Bezeichner in acht Cluster eingeteilt, woraus den Anwendern Instanzen für eine iterative Erweiterung der Trainingsdaten dargeboten werden. Gleichzeitig können Elemente, deren Bezeichner mit einer hohen Wahrscheinlichkeit vergeben werden, als "richtig" markiert werden, womit sie in den darauffolgenden Iterationen übersprungen werden. Eine Fallstudie zeigt, dass sich die Ergebnisse mit den ersten Iterationen verbessern, während sich die Werte der als »richtig« markierten Elemente nach einigen Iterationen verschlechtern, woraus sich Empfehlungen für die Anwendung von CRFs mit wenigen Trainingsdaten ergeben.