Refine
Year of publication
Document Type
- Conference Proceeding (73)
- Master's Thesis (33)
- Doctoral Thesis (9)
- Article (1)
- Book (1)
- Habilitation (1)
Has Fulltext
- yes (118)
Is part of the Bibliography
- no (118)
Keywords
- Computerlinguistik (29)
- Informationssysteme (29)
- Korpus <Linguistik> (14)
- NER (13)
- Named entity recognition (13)
- corpus linguistics (13)
- Computerunterstützte Kommunikation (9)
- Information Retrieval (8)
- Opinion Mining (7)
- Sentiment Analyse (7)
Institute
- Informationswissenschaft und Sprachtechnologie (118) (remove)
We report on the two systems we built for Task 1 of the German Sentiment Analysis Shared Task, the task on Source, Subjective Expression and Target Extraction from Political Speeches (STEPS). The first system is a rule-based system relying on a predicate lexicon specifying extraction rules for verbs, nouns and adjectives, while the second is a translation-based system that has been obtained with the help of the (English) MPQA corpus.
Opinion holder extraction is one of the most important tasks in sentiment analysis. We will briefly outline the importance of predicates for this task and categorize them according to part of speech and according to which semantic role they select for the opinion holder. For many languages there do not exist semantic resources from which such predicates can be easily extracted. Therefore, we present alternative corpus-based methods to gain such predicates automatically, including the usage of prototypical opinion holders, i.e. common nouns, denoting for example experts or analysts, which describe particular groups of people whose profession or occupation is to form and express opinions towards specific items.
Der Vortrag „Erfolgsfaktoren mobiler Anwendungen für klein- und mittelständische Unternehmen“ befasst sich mit der quantitativen Untersuchung von Erfolgsfaktoren für die Entwicklung von Apps oder mobiler Websites. In zuvor durchgeführten Experteninterviews wurden 45 Erfolgsfaktoren analysiert. Diese wurden unter Zuhilfenahme einer Online-Umfrage von Experten bewertet. Mit den Ergebnissen konnten nach Relevanz sortierte Rangfolgen der Erfolgsfaktoren erstellt werden.
Wie nutzen Vereine der 1. Fußball-Bundesliga das Potential von Twitter für die Marken- und Fan-Kommunikation? Während der Fußballsaison 2011/12 wurden für die Untersuchung einerseits Follower-Zahlen erhoben und andererseits Tweets von Bundesligaclubs gesammelt. Das so entstandene Tweet-Korpus ermöglicht bereits mit der Hilfe von Standard-Metriken einen Überblick über die Nutzungsstrategien. Einzelne Vereine werden als Fallstudien detaillierter betrachtet.
Im Rahmen der vorliegenden Magisterarbeit wird ein Bewertungsbogen zur Ermittlung der Handlungskompetenz von Piloten in Zusammenarbeit mit Flugtrainingsexperten der Deutschen Lufthansa AG entwickelt. Die Bewertungen erfolgen in Simulatortests, die vom Luftfahrtbundesamt vorgeschrieben sind und dem Erhalt der Flugzeugmusterberechtigung der Piloten dienen. Zunächst erfolgt die Analyse von Konstrukten und Methoden, die als Kriterien einer Messung zugänglich gemacht werden sollen. Das Ziel der Studie ist es, anhand dieser Konstrukte und Methoden in einer statistischen Analyse der erhobenen Daten Aussagen über das Ausmaß Konstruktvalidität des entwickelten Bewertungsbogens zu formulieren. In diesem Zusammenhang ist zu prüfen, ob die Bewertungen der Fähigkeiten in den klassifizierten Situationen im Flugsimulator generalisierbar sind, oder, ob diese von der spezifischen Situation abhängen.
Im Rahmen des vorligenden Artikels wird ein Bewertungsbogen zur Ermittlung der Handlungskompetenz von Piloten in Zusammenarbeit mit Flugtrainingsexperten der Deutschen Lufthansa AG entwickelt. Die Bewertungen erfolgen in Simulatortests, die vom Luftfahrtbundesamt vorgeschrieben sind und dem Erhalt der Flugzeugmusterberechtigung der Piloten dienen. Zunächst erfolgt die Analyse von Konstrukten und Methoden, die als Kriterien einer Messung zugänglich gemacht werden sollen. Das Ziel der Studie ist es, anhand dieser Konstrukte und Methoden in einer statistischen Analyse der erhobenen Daten Aussagen über das Ausmaß Konstruktvalidität des entwickelten Bewertungsbogens zu formulieren. In diesem Zusammenhang ist zu prüfen, ob die Bewertungen der Fähigkeiten in den klassifizierten Situationen im Flugsimulator generalisierbar sind, oder, ob diese von der spezifischen Situation abhängen.
Gegenstand der vorliegenden Magisterarbeit ist der Knowledge Engineering Prozess bei der Entwicklung eines Wissensbasierten Systems. Es werden dazu zunächst grundlegende Begriffe definiert und Ablaufmodelle vorgestellt. Einen Schwerpunkt der Arbeit bildet die Wissensakquisition als Hauptteil des Knowledge Engineering. Der konkrete Ablauf des Prozesses wird am Beispiel der Entwicklung eines Konfigurationssystems für die Blaupunkt GmbH dargestellt. Eingesetzte Methoden zur Wissenserhebung, Wissensanalyse-Ergebnisse sowie Formalismen zur Wissensrepräsentation im Konfigurationssystem werden detailliert am Projekt aufgezeigt. Besonders wird dabei auf Schwierigkeiten im Umgang mit Wissensquellen, den hohen Stellenwert der Wissensanalyse sowie Einsatzmöglichkeiten von deklarativen und prozeduralen Repräsentationsmethoden eingegangen.
In this paper, we present our Named Entity Recognition (NER) system for German – NERU (Named Entity Rules), which heavily relies on handcrafted rules as well as information gained from a cascade of existing external NER tools. The system combines large gazetteer lists, information obtained by comparison of different automatic translations and POS taggers. With NERU, we were able to achieve a score of 73.26% on the development set provided by the GermEval 2014 Named Entity Recognition Shared Task for German.
This paper presents a Named Entity Recognition system for German based on Conditional Random Fields. The model also includes language-independant features and features computed form large coverage lexical resources. Along side the results themselves, we show that by adding linguistic resources to a probabilistic model, the results improve significantly.
The dependency of word similarity in vector space models on the frequency of words has been noted in a few studies, but has received very little attention. We study the influence of word frequency in a set of 10 000 randomly selected word pairs for a number of different combinations of feature weighting schemes and similarity measures. We find that the similarity of word pairs for all methods, except for the one using singular value decomposition to reduce the dimensionality of the feature space, is determined to a large extent by the frequency of the words. In a binary classification task of pairs of synonyms and unrelated words we find that for all similarity measures the results can be improved when we correct for the frequency bias.
Die Arbeit stellt eine Studie mit ägyptischen und deutschen Interviewpartnern vor, deren Durchführung auf der Annahme basiert, dass Klischees und Vorurteile zwischen den beiden Kulturen den interkulturellen Dialog gefährden. Die Darstellung der klischeebehafteten kulturellen Aspekte soll das Verständnis für den jeweils anderen Kulturkreis erleichtern.
Die vorliegende Magisterarbeit befasst sich mit der Evaluation des multimedialen Lernsystems SELiM, das am Institut für Angewandte Sprachwissenschaft der Universität Hildesheim entwickelt wurde und einen Bestandteil seiner informationswissenschaftlichen Lehre darstellt. Der Schwerpunkt der Evaluation liegt auf der Benutzbarkeit des Systems. Diese kann nur bestimmt werden, wenn sie auf die Zielgruppe, deren Arbeit mit SELiM und die Nutzungsumstände bezogen wird. Deshalb erfolgt vor der Evaluation eine umfassende Analyse dieser Aspekte. Anhand der gewonnenen Erkenntnisse wird die Evaluation geplant und durchgeführt. Aus ihren Ergebnissen werden Maßnahmen für eine umfassende Optimierung SELiMs hergeleitet. Schließlich werden erste von ihnen umgesetzt. Zur Bildung der theoretischen Grundlagen werden im Vorfeld die Arbeitsfelder E-Learning, Softwareergonomie und Usability-Testing untersucht und es wird ein Qualitätsbegriff definiert. Bei der Entwicklung SELiMs wird iterativ nach dem Prinzip des Rapid Prototypings vorgegangen. Diese Arbeit gliedert sich in diesen Prozess ein.
This paper presents a hybrid pronoun resolution system for German. It uses a simple rule-driven entity-mention formalism to incrementally process discourse entities. Antecedent selection is performed based on Markov Logic Networks (MLNs). The hybrid architecture yields a cheap problem formulation in the MLNs w.r.t. inference complexity but pertains their expressiveness. We compare the system to a rule-driven baseline and an extension which uses a memory-based learner. We find that the MLN hybrid outperforms its competitors by large margins.
Ironic speech act detection is indispensable for automatic opinion mining. This paper presents a pattern-based approach for the detection of ironic speech acts in German Web comments. The approach is based on a multilevel annotation model. Based on a gold standard corpus with labeled ironic sentences, multilevel patterns are deter- mined according to statistical and linguis- tic analysis. The extracted patterns serve to detect ironic speech acts in a Web com- ment test corpus. Automatic detection and inter-annotator results achieved by human annotators show that the detection of ironic sentences is a challenging task. However, we show that it is possible to automatically detect ironic sentences with relatively high precision up to 63%.
Durch das Internet ist es möglich, Daten und Wissen über große Distanzen zu tauschen. Seit mehreren Jahren existieren Datenbanken und Diskussionsforen für den Wissenstausch. Ein neuer Ansatz sind Wissensmarktplätze, auf denen Wissen über das Internet gehandelt wird. In dieser Magisterarbeit werden eine Definition und die Besonderheiten von Wissen als Handelsgut erarbeitet und die wichtigsten Faktoren eines Internetmarktplatzes dargestellt. Anhand dieser theoretischen Vorüberlegungen, werden Erfolgsfaktoren für einen Wissensmarktplatz erstellt. In einem Benchmark werden sieben bestehende Wissensmarktplätze auf die Implementierung dieser Erfolgsfaktoren hin untersucht. Im Rahmen des Benchmark werden die Stärken und Schwächen der Marktplätze aufgezeigt und Rückschlüsse auf die zukünftige Entwicklung von Wissensmarktplätzen gezogen.
Gegenstand der vorliegenden Magisterarbeit ist die Entwicklung eines Lernmoduls zur Vermittlung von Grundlagen multimedialer Systeme, wobei der im Zusammenhang mit multimedialem Lernen wichtige Aspekt der Interaktivität bei der Konzeption besondere Beachtung findet. Dazu werden die grundlegenden Aspekte multimedialen Lernen betrachtet, wobei eine ausführlichere Charakterisierung des Merkmal Interaktivität inklusive verschiedene Abstufungsmodelle erfolgt. Nach einer Analyse des Nutzungskontexts und der inhaltlichen Konzipierung werden zwei prototypische Varianten des Lernmoduls erstellt, die sich im Grad ihrer Interaktivität unterscheiden. Eine vergleichende Evaluation liefert die Entscheidungsgrundlage für eine der beiden Varianten, die durch ein abschließendes Re-Design zum finalen Lernmodul optimiert und somit für den Einsatz in einer Einführungsveranstaltung der Universität Hildesheim vorbereitet wird.
MoSTNER is a German NER system based on machine learning with log-linear models and morphology-aware features. We use morphological analysis with Morphisto for generating features, moreover we use German Wikipedia as a gazetteer and perform punctuation-aware and morphology-aware page title matching. We use four types of factor graphs where NER labels are single variables or split into prefix (BILOU) and type (PER, LOC, etc.) variables. Our system supports nested NER (two levels), for training we use SampleRank, for prediction Iterated Conditional Modes, the implementation is based on Python and Factorie.
Die vorliegende Magisterarbeit behandelt den Einfluss der Kultur der Internetnutzer bei der Benutzung und Bewertung von Websites. Insbesondere werden Unterschiede zwischen deutschen und taiwanesischen Nutzern untersucht. Auf Basis der relevanten Grundlagen zur interkulturellen Wirkung von Informationssystemen wurde ein Benutzertest entwickelt. Die Ergebnisse der Tests in Deutschland und Taiwan werden ausführlich vorgestellt und diskutiert.
The objective of this M.A. thesis is the development and evaluation of a system that enables the effective and efficient access to relevant knowledge objects and provides process transparency. In the beginning, fundamental terms and concepts of knowledge management and usability are introduced briefly. This theoretical foundation serves as the basis for the prototyping-oriented development of the tool. Finally, the tool is evaluated by users. Based on these insights, recommendations are made to further enhance the usability and thus the value of the system. As a result, a hypertext-based knowledge map is developed which takes its users directly to process-specific information and facilitates the understanding of complex processes.
Modularisierung des Retrievalprozesses zur funktionellen Integration heterogener IR-Komponenten
(2002)
We present a first attempt at classifying German tweets by region using only the text of the tweets. German Twitter users are largely unwilling to share geolocation data. Here, we introduce a two-step process. First, we identify regionally salient tweets by comparing them to an "average" German tweet based on lexical features. Then, regionally salient tweets are assigned to one of 7 dialectal regions. We achieve an accuracy (on regional tweets) of up to 50% on a balanced corpus, much improved from the baseline. Finally, we show several directions in which this work can be extended and improved.
We study the influence of information structure on the salience of subjective expressions for human readers. Using an online survey tool, we conducted an experiment in which we asked users to rate main and relative clauses that contained either a single positive or negative or a neutral adjective. The statistical analysis of the data shows that subjective expressions are more prominent in main clauses where they are asserted than in relative clauses where they are presupposed. A corpus study suggests that speakers are sensitive to this differential salience in their production of subjective expressions.
We present the German Sentiment Analysis Shared Task (GESTALT) which consists of two main tasks: Source, Subjective Expression and Target Extraction from Political Speeches (STEPS) and Subjective Phrase and Aspect Extraction from Product Reviews (StAR). Both tasks focused on fine-grained sentiment analysis, extracting aspects and targets with their associated subjective expressions in the German language. STEPS focused on political discussions from a corpus of speeches in the Swiss parliament. StAR fostered the analysis of product reviews as they are available from the website Amazon.de. Each shared task led to one participating submission, providing baselines for future editions of this task and highlighting specific challenges. The shared task homepage can be found at https://sites.google.com/site/iggsasharedtask/.
We report on chunk tagging methods for German that recognize complex non-verbal phrases using structural chunk tags with Conditional Random Fields (CRFs). This state-of-the-art method for sequence classification achieves 93.5% accuracy on newspaper text. For the same task, a classical trigram tagger approach based on Hidden Markov Models reaches a baseline of 88.1%. CRFs allow for a clean and principled integration of linguistic knowledge such as part-of-speech tags, morphological constraints and lemmas. The structural chunk tags encode phrase structures up to a depth of 3 syntactic nodes. They include complex prenominal and postnominal modifiers that occur frequently in German noun phrases.
Der Wikipedia-Artikel „Deutschland“ ist trotz 11.882 Bearbeitungen kein als exzellent oder lesenswert ausgezeichneter Artikel. Man kann dementsprechend davon ausgehen, dass er im Sinne der Wikipedia-Qualitätskriterien nicht besonders hochwertig ist. Dieses Beispiel dient als Aufhänger für die Frage, ob und inwiefern Zusammenhänge zwischen der Anzahl und Art von Bearbeitungen und der Qualität von Beiträgen existieren. Was bedeutet eine Bearbeitung eines Wikipedia-Artikels hinsichtlich der Qualität des Beitrags und welche Aspekte sind bei der Untersuchung dieses Zusammenhangs wichtig? Um diese Frage zu adressieren, wurde eine explorative Studie in Form einer qualitativen Inhaltsanalyse von sechs Wikipedia-Artikeln durchgeführt. Der Artikel stellt den methodischen Ansatz dieser Studie sowie deren Ergebnisse dar.
Das Wissen in der freien Enzyklopädie Wikipedia wird von der Community zusammengetragen, wodurch in vielen kleinen Bearbeitungsschritten auch komplexe Themen kollaborativ erschlossen werden können. Dabei sind Prozesse des kollaborativen Schreibens und der kollaborativen Wissenskonstruktion von zentraler Bedeutung. Um die Evolution von Wissen in der Wikipedia nachvollziehen zu können, werden die verschiedenen inhaltlichen und nicht-inhaltlichen Bearbeitungsschritte anhand der Versionshistorie exemplarisch ausgewählter Artikel einer qualitativen Inhaltsanalyse unterzogen. Die daraus entwickelte Typisierung von Bearbeitungen erlaubt es, insbesondere vor dem Hintergrund der von der Community entwickelten Qualitätskriterien, quantitative Aussagen zu den untersuchten Artikeln und ihrer Qualität zu machen.
In dieser Arbeit geht es um Mustererkennung für "standardisierte" Schriftbilder. Sie baut auf früheren Untersuchungen der Projektgruppe "Neuronale Netze - SpaCAM" an der Universität Hildesheim auf, wobei es damals um die Wiedererkennung handgeschriebener Unterschriften auf Überweisungsvordrucken ging, also um ein Erkennungsproblem, bei der es in den Daten typischerweise kein Standard- Referenzmuster gibt. Da kein Mensch (physikalisch) identische Unterschriften produzieren kann, muss die Referenz(menge) aus einer Sammlung gegebener Samples "willkürlich" festgesetzt werden. Grundlage für jene Problembehandlung war die Verwendung von "Spärlich Codierten Assoziativmatrizen SpaCAM", die man als eine spezielle Variante der künstlichen neuronalen Netze auffassen kann. Die SpaCAM-Technik hat sich dabei - wie auch schon beim Einsatz in anderen Problembereichen - als besonders vorteilhaft in Bezug auf Fehlertoleranz, Robustheit und Geschwindigkeit erwiesen. Das Ziel der vorliegenden Arbeit ist es zu untersuchen, ob sich diese Technik auch zum Erkennen von Bildmustern eignet, bei denen die Referenzmuster bereits (extern) vorgegeben sind. Als Anwendungsfall wurden "Autokennzeichen" gewählt, auch weil es hierfür eine konkrete Problemstellung aus der Praxis gab, mit Zusatzparametern, die den Komplexitätsgrad des Erkennungsprozesses bereicherten. In Bezug auf die SpaCAM-Technologie soll geprüft werden, welche Merkmale bzw. Merkmalsgruppen für die Codierung von Zeichen besonders gut geeignet sind, insb. beim Lernen aus Schriftarten, um die Erkennung praktikabel zu machen. Für die Analyse und Diskussion der Phänomene wird eine Arbeitsumgebung entwickelt, die auf die sich ergebenden unterschiedlichen Teilaufgaben ausgerichtet ist, also Probleme der Vorverarbeitung (u.a. Grauwerte, Monochrome, Segmentierung), der Speicherprozesse (u.a. Merkmalscodierung, Referenzmengen) aber auch der Nachbestimmung (z.B. durch fehlertoleranten Datenbankabgleich) behandelt und zudem einen Spielraum für weitere Anpassungen bietet. Zur Verifizierung der Tauglichkeit des Ansatzes und zur Überprüfung der Prototyp-Implementation werden alle Teilmodule auf das konkrete Problem der Kfz-Kennzeichen-Erkennung angewandt. Die Software ist in Pascal ("Delphi 5 Professional") geschrieben und enthält neben den eigentlichen Mustererkennungs- auch umfangreiche Analyse- und Visualisierungsfunktionen. Daher eignet sie sich auch für Schulungszwecke und Präsentationen. Im konkret zugrunde liegenden Anwendungsfall entstammt die Menge der relevanten Kennzeichen einer Datenbasis, die neben dem authentischen Kennzeichen auch Sekundärinformationen (Fahrzeugdaten, Halter etc) enthält, welche für nachfolgende Entscheidungsprozesse von Bedeutung sind. Hier wurde im Hinblick auf den Einsatz in der Praxis zusätzlich eine ebenfalls auf der SpaCAMTechnik basierende Schnittstelle zwecks fehlertoleranter Suche nach Sekundärinformationen in der "gewöhnlichen" Datenbank implementiert. Insofern könnten die im Nachgang ermittelten Informationen unter Umständen beim vorherigen Erkennungsprozess mithelfen, Fehler oder Unentscheidbarkeiten zu verringern. Für die Technologie bedeutet das, dass in den separaten Phasen unterschiedliche Merkmalsmengen und Codevektoren gefunden werden müssen, deren Zusammenspiel aber eine Verbesserung der Endergebnisse bewirken kann. Auch diese Komposition soll beispielhaft dargestellt werden. Mit der Fragestellung der vorliegenden Arbeit befindet man sich nicht weit entfernt von aktuell diskutierten Sicherheits- oder Automatisierungsvorhaben. Man denke zum Beispiel an die Verwendung biometrischer Merkmale (Fingerabdrücke, Iris im Auge, Gesichtsform usw.) als Zugangskontrolle an Flughäfen, Schließfächern, Laboratorien usw. oder an die automatische Mauterhebung von Fahrzeugen u.v.m. Insofern besteht nicht nur ein akademisches Interesse an den Einsatzmöglichkeiten neuer Technologien, sondern auch ein organisatorisches bzw. gesellschaftliches, welches als Herausforderung an die Wissenschaftler empfunden werden kann.
In der vorliegenden Arbeit wird ein Verfahren zur Suche nach Informationen zu Wissenschaftlern prototypisch für den Bereich der Informationswissenschaft entwickelt, in welchem Ansätze des Web Content Mining eingesetzt werden. Zunächst werden Möglichkeiten und Probleme der Informationssuche im Web aufgezeigt, sowie verschiedene Verfahren des Web Content Mining beschrieben. Das entwickelte Verfahren verwendet online Publikationsdienste und persönliche Homepages der Wissenschaftler als Quellen. Zur Suche in den Publikationsdiensten und der Informationsextraktion aus ihren Ergebnisseiten werden Wrapper konstruiert. Des Weiteren werden Methoden zur Informationsextraktion aus den Homepages implementiert, die auf Heuristiken zu Struktur und Aufbau der Seiten beruhen. Für die Suche nach persönlichen Homepages von Informationswissenschaftlern wird ein spezialisiertes Suchverfahren entwickelt. Das Verfahren wird in einer Java-Applikation implementiert und anschließend evaluiert, um das Potenzial des gewählten Ansatzes zu untersuchen.
Collobert et al. (2011) showed that deep neural network architectures achieve state- of-the-art performance in many fundamental NLP tasks, including Named Entity Recognition (NER). However, results were only reported for English. This paper reports on experiments for German Named Entity Recognition, using the data from the GermEval 2014 shared task on NER. Our system achieves an F1 -measure of 75.09% according to the official metric.
Der Beitrag beschreibt die Entwicklung eines Chatbots für die Universitätsbibliothek Hildesheim. Das System antwortet auf Anfragen in getippter natürlicher Sprache. Die Konzeption sowie die Realisierung mit der Artifical Intelligence Markup Language werden besprochen. Eine Evaluierung weist auf eine grundsätzliche Akzeptanz eines derartigen Systems hin.
The Stuttgart-Tübingen Tagset (STTS) is a widely used POS annotation scheme for German which provides 54 different tags for the analysis on the part of speech level. The tagset, however, does not distinguish between adverbs and different types of particles used for expressing modality, intensity, graduation, or to mark the focus of the sentence. In the paper, we present an extension to the STTS which provides tags for a more fine-grained analysis of modification, based on a syntactic perspective on parts of speech. We argue that the new classification not only enables us to do corpus-based linguistic studies on modification, but also improves statistical parsing. We give proof of concept by training a data-driven dependency parser on data from the TiGer treebank, providing the parser a) with the original STTS tags and b) with the new tags. Results show an improved labelled accuracy for the new, syntactically motivated classification.
Forschungen zeigen, dass Analysen des Suchverhaltens verwendet werden können, um bei der Internetsuche auftretende Probleme zu identifizieren. Sind Benutzer frustriert, schlägt sich das in den Log-Daten, die ihre Aktionen dokumentieren, nieder. Je passgenauer derartige Frustration festgestellt werden kann, desto wirksamere Interventionen könnten dem Nutzer in solchen Fällen angeboten werden. Diese explorative Studie widmet sich negativen Gefühlen bei der Internetsuche und deren Ursachen. In Leitfadeninterviews mit 14 jungen Erwachsenen wurde deren Wahrnehmung von Schwierigkeiten im Information Seeking im Allgemeinen sowie im Bezug auf konkrete Erlebnisse thematisiert. Die Analyse ergibt wichtige Hinweise für die methodische Gestaltung von zukünftigen Benutzerstudien zur automatischen Erkennung von Frustration. Außerdem wird eine Unterscheidung der Ursachen von negativen Gefühlen getroffen, die als Grundlage für fallspezifische Interventionen dienen kann. Während Lernprozesse keine Rolle als Frustrationsquelle zu spielen scheinen, könnte vor allem mangelnde Datenqualität in Zukunft in Log-Daten erkannt und entsprechend optimiert werden. Des Weiteren wird ein kritischer Blick auf die Förderung von Suchkompetenzen geworfen.
Diese Magisterarbeit befasst sich mit Marken, die ausschließlich im Internet auftreten (E-Brands) sowie der Markenführung im Internet (E-Branding). Innerhalb dieses Rahmens wird eine Online-Befragung der wichtigsten Internet-Marken in Deutschland sowie eine Datenerhebung unter Internet-Nutzern durchgeführt, mit dem Ziel, einen Überblick über den aktuellen Entwicklungsstand von E-Branding zu geben sowie die Frage zu klären, ob und inwiefern Internet-Marken emotionalisieren.
Thema der vorliegenden Magisterarbeit sind Grundlagen, Methoden und Konzepte der Visualisierung gebrauchstauglicher Benutzeroberflächen, dargestellt am Beispiel eines Konfigurationssystems für die Blaupunkt GmbH. Dazu werden die relevanten Grundlagen der Visualisierung, der Kognitionswissenschaft und der Gestaltung erarbeitet. Weiterhin werden Richtlinien, Normen und Styleguides aus dem Webdesign und der Software-Ergonomie vorgestellt. Die in diesen Richtlinien und Styleguides enthaltenen Empfehlungen für Visualisierungsmethoden und –konzepte grafischer Benutzeroberflächen werden in Beziehung zu den erarbeiteten Grundlagen gesetzt. Aus den gewonnenen Erkenntnissen werden im Hinblick auf die grafische Benutzeroberfläche des Konfigurationssystems Visualisierungstechniken und –methoden extrahiert und deren Einsatz im Projekt erläutert.
Um dem stetigen Zuwachs der elektronisch in Datenbanken abgespeicherten Informationen wirkungsvoll zu begegnen, werden neue Werkzeuge gesucht, die den Nutzer bei Datenbankrecherchen unterstützen. In dieser Arbeit, die im Anwendungsbereich der Patentrecherche und Patentinformation angesiedelt ist, soll das automatische Gruppieren von Patentdokumenten - das so genannte Clustering - als ein Werkzeug zur Aufbereitung der Ergebnismenge einer Datenbankanfrage untersucht werden. Es werden zum einen Grundlagen der Cluster-Analyse, wie z.B. Attributtypen und Ähnlichkeits- bzw. Distanzmaße, zum anderen verschiedene Clustering- Verfahren sowie deren Vor- und Nachteile zum Clustern von Dokumenten beschrieben. Weiterhin werden Besonderheiten des Anwendungsbereichs aufgezeigt und bereits bestehende Einsatzmöglichkeiten von Clustering-Verfahren dargestellt. Im praktischen Teil dieser Arbeit werden im Anwendungsbereich Patentrecherche drei Clustering-Verfahren mittels Nutzerbewertungen miteinander verglichen, um tendenzielle Aussagen über die Eignung eines bestimmten Verfahrens abzuleiten.
Diese Arbeit behandelt die Weiterentwicklung eines multimodalen Dialogsystems für die Navigationszieleingabe in einem Kraftfahrzeug. Sowohl die graphische Oberfläche als auch die Sprachbedienung wurden - insbesondere im Hinblick auf eine effektive und effiziente Listenauswahl - verbessert und im Anschluss daran in einem umfassenden Benutzertest evaluiert
Enterprises express the concepts of their electronic business-to-business (B2B) communication in individual ontology-like schemas. Collaborations require merging schemas’ common concepts into Business Entities (BEs) in a Canonical Data Model (CDM). Although consistent, automatic schema merging is state of the art, the task of labeling the BEs with descriptive, yet short and unique names, remains. Our approach first derives a heuristically ranked list of candidate labels for each BE locally from the names and descriptions of the underlying concepts. Second, we use constraint satisfaction to assign a semantically unique name to each BE that optimally distinguishes it from the other BEs. Our system’s labels outperform previous work in their description of BE content and in their discrimination between similar BEs. In a task-based evaluation, business experts estimate that our approach can save about 12% of B2B integration effort compared to previous work and about 49% in total.
In diesem Beitrag wird mit der Verwendung von Spielmechaniken im universitären Kontext (game-based Learning) ein innovatives Lehr-Lernprojekt vorgestellt, in welchem einer neuen Generation von Lernenden, den Digital Natives, Informationskompetenz als eine der Schlüsselqualifikationen des 21. Jahrhunderts vermittelt werden kann. Der kompetente Umgang mit der Ressource Wissen ist in der heutigen als Wissensgesellschaft bezeichneten Gesellschaftsform unabdingbar. Es liegt nahe, dieser neuen Generation von Lernenden mit einer innovativen Lehrmethode und den vorhandenen technologischen Möglichkeiten und Ressourcen entgegenzukommen, um das notwendige Wissen zu vermitteln. Einhergehend mit dem Projekt wurde eine umfassende Evaluation konzipiert, die die esonderheiten des Konzepts ausführlich berücksichtigt.
In the latest decades, machine learning approaches have been intensively experimented for natural language processing. Most of the time, systems rely on using statistics within the system, by analyzing texts at the token level and, for labelling tasks, categorizing each among possible classes. One may notice that previous symbolic approaches (e.g. transducers) where designed to delimit pieces of text. Our research team developped mXS, a system that aims at combining both approaches. It locates boundaries of entities by using sequential pattern mining and machine learning. This system, intially developped for French, has been adapted to German.
The paper proposes a meta language model that can dynamically incorporate the influence of wider discourse context. The model provides a conditional probability in forms of P (text|context), where the context can be arbitrary length of text, and is used to influence the probability distribution over documents. A preliminary evaluation using a 3-gram model as the base language model shows significant reductions in perplexity by incorporating discourse context.
In this work we consider the problem of social media text Part-of-Speech tagging as fundamental task for Natural Language Processing. We present improvements to a social media Markov model tagger, by adapting parameter estimation methods for unknown tokens. In addition, we propose to enrich the social media text corpus by a linear combination with a newspaper training corpus. Applying our tagger to a social media text corpus results in accuracies of around 94.8%, which comes close to accuracies for standardized texts.
Automatic Web comment detection could significantly facilitate information retrieval systems, e.g., a focused Web crawler. In this paper, we propose a text genre classifier for Web text segments as intermediate step for Web comment detection in Web pages. Different feature types and classifiers are analyzed for this purpose. We compare the two-level approach to state-of-the-art techniques operating on the whole Web page text and show that accuracy can be improved significantly. Finally, we illustrate the applicability for information retrieval systems by evaluating our approach on Web pages achieved by a Web crawler.
Digital libraries allow us to organize a vast amount of publications in a structured way and to extract information of user’s interest. In order to support customized use of digital libraries, we develop novel methods and techniques in the Knowledge Discovery in Scientific Literature (KDSL) research program of our graduate school. It comprises several sub-projects to handle specific problems in their own fields. The sub-projects are tightly connected by sharing expertise to arrive at an integrated system. To make consistent progress towards enriching digital libraries to aid users by automatic search and analysis engines, all methods developed in the program are applied to the same set of freely available scientific articles.
In this paper, we investigate a semi- supervised learning approach based on neu- ral networks for nested named entity recog- nition on the GermEval 2014 dataset. The dataset consists of triples of a word, a named entity associated with that word in the first-level and one in the second-level. Additionally, the tag distribution is highly skewed, that is, the number of occurrences of certain types of tags is too small. Hence, we present a unified neural network archi- tecture to deal with named entities in both levels simultaneously and to improve gen- eralization performance on the classes that have a small number of labelled examples.
Ein Hindernis bei der Suche nach benötigter Information speziell bei einer krosslingualen Suche ist eine ungünstig formulierte Anfrage. Die Wörtervielfalt, aus denen eine Anfrage zusammengesetzt werden kann, verursacht oft eine ungenügende Übereinstimmung mit den Formulierungen im gesuchten Dokument und schmälert die Leistungsfähigkeit der Suche. Wenn man die "Bedeutung" einer Wortsammlung an die Engine übergeben könnte – anstelle isoliert verarbeiteter Worte, dann könnte eine Wirkung der Suchanfragen erzielt werden, die als gleichmäßiger empfunden würde. Dieser Gedanke wurde bei der Entwicklung einer neuartigen Retrievaltechnologie verfolgt und führte zur sogenannten "Essence Extractor Engine", kurz SENTRAX [SENT04]. Der dahinter liegende Index entsteht aus der Verarbeitung von in den Dokumenten nahe zusammenstehenden, bedeutungstragenden Begriffen (Kookkurrenzen) und erlaubt eine Definition und Übertragung von "Konzepten", die zwar durch Worte ausgedrückt oder beschrieben werden, aber eine gewisse Unabhängigkeit von der spezifischen Wortwahl haben. Diese Technologie stand für die vorliegende Arbeit zur Verfügung und wurde für die Problemstellung des Themas ausgenutzt. Bei der bilingualen Suche kann nämlich die Übertragung eines Konzeptes; statt der wortweisen Übersetzung der Anfrage; die Mehrdeutigkeiten entscheidend vermindern, da das Konzept den assoziierten Zusammenhang mit den übersetzten Begriffe bewahrt und die Verbindung zu den Umgebungen in den Texten herstellt. Diese Wirkung und Auswirkung wird untersucht und dargestellt. Weitere Funktionen der SENTRAX-Engine (z.B. Stringtoleranz von Eingabeworten und Ähnlichkeitsvergleich von Trefferdokumenten) sowie eine grafische Mensch-Maschine-Schnittstelle erweisen sich als günstig für das Vorhaben. Die nötigen Vorverarbeitungsmethoden werden entworfen, da zwei Indexe für die bilinguale Suche zusammenwirken. Drei wichtige Teile lassen sich nennen: erstens die Vorarbeit, wo die Erstellung des jeweiligen Konzepts geschieht, zweitens die Brücke, die das Suchkonzept der Ausgangsprache zur Zielsprache überträgt, und schließlich ein Konzeptsvergleichmaß, womit das Gleichgewicht des Konzeptes nach der Übertragung kontrolliert wird. Gegenwärtig laufen diese drei Stufen noch nicht vollautomatisch in der SENTRAX ab, sondern erlauben manuelle Eingriffe. Ungeachtet dieser technischen Unvollständigkeit des Systems lassen sich aber alle Hypothesen nachprüfen. Die Ergebnisse zeigen, dass die bilinguale Suche mittels Konzeptnetzen sehr leistungsfähig ist. Die Mehrdeutigkeit einer Übersetzung kann durch Betrachtung der Zusammenhänge und der Assoziationen vermindert werden. Es gibt auch einen Lernprozess beim Suchenden und hilft dem Nutzer bei der Entscheidung, ob eine Fortsetzung der begonnenen Suchrichtung Sinn macht oder diese abgebrochen werden muss, weil die benötigte Information vielleicht nicht in der Datenbasis steckt. Durch die grafische Darstellung werden die mit den Suchwörtern assoziierten Begriffe zur Auswahl angeboten und sind in beiden Sprachen (teilweise) vergleichbar. Dadurch kann man sicherstellen, dass die dahinter liegenden Dokumente von den gleichen bzw. ähnlichen Themen handeln.
Researchers in the (digital) humanities have identified a large potential in the use of automatic text analysis capabilities in their text studies, scaling up the amount of material that can be explored and allowing for new types of questions. To support the scholars’ specific research questions, it is important to embed the text analysis capabilities in an appropriate navigation and visualization framework. However, study-specific tailoring may make it hard to migrate analytical components across projects and compare results. To overcome this issue, we present in this paper the first version of TEANLIS (text analysis for literary scholars), a flexible framework designed to include text analysis capabilities for literary scholars.
Das Internet verändert die Rahmenbedingungen des wissenschaftlichen Publikationswesens einschneidend. Wissenschaftliche Dokumente sind zunehmend elektronisch verfügbar und beginnen, die klassischen Wissenschaftsmedien, wie Fachbücher und Fachzeitschriften zu verdrängen. Die Implementierung eines elektronischen Publikationsprozesses ist Voraussetzung für die erfolgreiche Verbreitung wissenschaftlicher Dokumente per Internet. Die Umsetzung setzt jedoch die Einhaltung bestimmter Vorgaben und Regularien voraus, sonst entstehen Inkompatibilitäten zwischen den Systemen. Im Kontext von Urheberrechtsnovellierung und Open Access-Bewegung erläutert die vorliegende Magisterarbeit technische und rechtliche Rahmenbedingungen von Online-Publikationen und stellt Projekte und Initiativen vor, die sich auf dem Weg des wissenschaftlichen Publikationswesens betätigen. Ausführlich werden Problembereiche des aktuellen Publikationsprozesses von Magisterarbeiten im Studiengang Internationales Informationsmanagement an der Universität Hildesheim mit Hilfe von Interviews untersucht. auf Grundlage der Zustandsanalyse sowie der vorangegangenen Ausführungen wird anschließend der Publikationsprozess modelliert.
We present a method for clustering word senses of a lexical-semantic resource by mapping them to those of another sense inventory. This is a promising way of reducing polysemy in sense inventories and consequently improving word sense disambiguation performance. In contrast to previous approaches, we use Dijkstra-WSA, a parameterizable alignment algorithm which is largely resource- and language-agnostic. To demonstrate this, we apply our technique to GermaNet, the German equivalent to WordNet. The GermaNet sense clusterings we induce through alignments to various collaboratively constructed resources achieve a significant boost in accuracy, even though our method is far less complex and less dependent on language-specific knowledge than past approaches.
Coreferences to a German compound (e.g. Nordwand) can be made using its last constituent (e.g. Wand). Intuitively, both coreferences and the last constituent of the compound should share the same translation. However, since Statistical Machine Translation (SMT) systems translate at sentence level, they both may be translated inconsistently across the document. Several studies focus on document level consistency, but mostly in general terms. This paper presents a method to enforce consistency in this particular case. Using two in-domain phrase-based SMT systems, we analyse the effects of compound coreference translation consistency on translation quality and readability of documents. Experimental results show that our method improves correctness and consistency of those coreferences as well as document readability.
Bei der krosslingualen Suche vermindert eine ungenügende Übereinstimmung mit den Formulierungen im gesuchten Dokument oft die Leistungsfähigkeit der Suche. Hinter der SENTRAX (Essence Extractor Engine) liegen zwei Container (indexierte Dokumente), die für die bilinguale Suche zusammenwirken. Sie entstehen aus der Verarbeitung von nahe zusammenstehenden, bedeutungstragenden Begriffen (Kookkurrenzen) in den zu durchsuchenden Dokumenten und erlauben eine Definition sowie Übertragung von "Konzepten", die zwar durch Worte ausgedrückt oder beschrieben werden, aber eine gewisse Unabhängigkeit von der spezifischen Wortwahl haben. Hierbei kann die Übertragung eines Konzeptes ? statt der wortweisen Übersetzung der Anfrage ? die Mehrdeutigkeiten entscheidend vermindern, da das Konzept den assoziierten Zusammenhang mit den übersetzten Begriffe bewahrt und die Verbindung zu den Umgebungen in den Texten herstellt. Somit kann sichergestellt werden, dass die dahinter liegenden Dokumente von den gleichen bzw. ähnlichen Themen handeln. Durch grafische Darstellung sind die mit den Suchwörtern assoziierten Begriffe in Ausgangs- und Zielsprache vergleichbar.
Dieser Band fasst die Vorträge des Fünften Hildesheimer Evaluierungs- und Retrieval- Workshops (HIER) zusammen, der am 11. Oktober 2006 an der Universität Hildesheim stattfand. Die HIER Workshop-Reihe begann im Jahr 2001 mit dem Ziel, die Forschungsergebnisse der Hildesheimer Informationswissenschaft zu präsentieren und zu diskutieren. Mittlerweile nehmen immer wieder Kooperationspartner von anderen Institutionen teil, was wir sehr begrüssen. Alle Beiträge stehen dieses Jahr in enger Beziehung zu den Kernthemen Information Retrieval und Evaluierung. Traditionell bietet der HIER auch ein Forum für Systemvorstellungen und praxisorientierte Beiträge.
Die stark anwachsende Menge von Wissen, welche weltweit zur Verfügung steht, erfordert eine teilweise Übertragung der Qualitätsbewertung auf Maschinen. Zugleich erlaubt die weltweite Vernetzung die Analyse, den Vergleich und die Verknüpfung sehr vieler Wissensangebote. Die Automatisierung von Qualitätsbewertung ist teilweise bereits Realität und erfordert eine stärkere wissenschaftliche Fundierung. Derzeit eingesetzte Systeme basieren auf der Linkanalyse und nutzen somit nur eine sehr eingeschränkte Wissensquelle. Aktuelle Forschungstendenzen aus unterschiedlichen Fachrichtungen verweisen auf komplexere Systeme zur automatischen Qualitätsbewertung. Im Rahmen des Projekts AQUAINT (Automatische Qualitätsabschätzung für Internet Ressourcen) wurde ein innovatives System zur Qualitätsbewertung entwickelt. Das Projekt behandelt die Grundlagen, die Entwicklung des Systems und dessen Evaluierung. Aus den Ergebnissen werden Konsequenzen für die Methodik der Evaluierung im Information Retrieval abgeleitet. Eine wichtige Anwendung liegt in Suchmaschinen der nächsten Generation.
Die Qualität von Antworten im Information Retrieval schwankt zwischen einzelnen Anfragen sehr stark. Die Evaluierung im Information Retrieval zielt in der Regel auf eine Optimierung der durschnittlichen Retrieval-Qualität über mehrere Testanfragen (Topics). Sehr schlecht beantwortete Anfragen wirken sich besonders negativ auf die Zufriedenheit des Benutzers aus. Neue Ansätze zur Evaluierung der Robustheit von Systemen werten daher die schwierigen Anfragen stärker. Im Rahmen des Cross Language Evaluation Forum (CLEF) wurde 2006 ein Robust Task durchgeführt. Der Artikel zeigt die Gründe für Entwicklung dieser Aufgabenstellung nach, referiert die Ergebnisse und verweist auf zukünftige Planungen.
Information Retrieval befasst sich mit vagen Anfragen und der vagen Modellierung von Benutzerverhalten. Neuronale Netze sind eine Methode zur vagen Informationsverarbeitung und zur Implementierung kognitiver Fähigkeiten. Diese Arbeit gibt einen umfassenden Überblick über den state-of-the-art zu neuronalen Netzen im Information Retrieval und analysiert, gruppiert und bewertet zahlreiche Systeme. Als Konsequenz von Schwächen bestehender Modelle wird das COSIMIRModell entwickelt, das auf dem neuronalen Backpropagation-Algorithmus aufbaut. Es erlernt den im Information Retrieval zentralen Vergleich zwischen Dokument und Anfrage anhand von Beispielen. Die kognitive Modellierung ersetzt so ein formales Modell und führt zu höherer Adaptivität und damit zu verbesserter Toleranz gegenüber Benutzereigenschaften. Das Transformations- Netzwerk ist ein weiteres System, das auf dem Backpropagation- Algorithmus basiert und Retrieval bei heterogenen Daten ermöglicht. In mehreren Experimenten werden das COSIMIR-Modell und das Transformations- Netzwerk mit realen Daten getestet. Das COSIMIR-Modell hat sich dabei für Fakten-Retrieval bewährt. Die Experimente mit dem Transformations-Netzwerk und alternativen Verfahren ergaben je nach Datengrundlage unterschiedliche Ergebnisse. Das optimale Verfahren hängt also vom Anwendungsfall ab. Bei gleicher Qualität ist die Überschneidung der Ergebnisse verschiedener Verfahren relativ gering, so dass Fusionsverfahren erprobt werden sollten.
This NECTAR track paper (NECTAR: new scientific and technical advances in research) summarizes recent research and curation activities at the CLARIN center Stuttgart. CLARIN is a European initiative to advance research in humanities and social sciences by providing language-based resources via a shared distributed infrastructure. We provide an overview of the resources (i.e., corpora, lexical resources, and tools) hosted at the IMS Stuttgart that are available through CLARIN and show how to access them. For illustration, we present two examples of the integration of various resources into Digital Humanities projects. We conclude with a brief outlook on the future challenges in the Digital Humanities.
It is of interest to study sentence construction for children’s writing in order to understand grammatical errors and their influence on didactic decisions. For this purpose, this paper analyses sentence structures for various age groups of children’s writings in contrast to text taken from children’s and youth literature. While valency differs little between text type and age group, sentence embellishments show some differences. Both use of adjectives and adverbs increase with age and book levels. Furthermore books show a larger use thereof. This work presents one of the steps in a larger ongoing effort to understand children’s writing and reading competences at word and sentence level. The need to look at variable from non-variable features of sentence structures separately in order to find distinctive features has been an important finding.
Kooperatives Lernen zeichnet sich gegenüber dem individuellen Lernen durch eine Vielzahl von Vorteilen aus. Diese äußern sich vornehmlich in einer potentiell erhöhten Lernmotivation, welche sich wiederum in einem positiveren Lernerfolg niederschlägt. Darüber hinaus bietet diese Lernform Möglichkeiten zum Erwerb von Sozialkompetenz und weiteren wichtigen Schlüsselkompetenzen wie beispielsweise Kommunikations- und Kooperationskompetenz.Die vorliegende Arbeit untersucht primär Möglichkeiten, um während der Zusammenarbeit die Ausprägungen aller Teammitglieder hinsichtlich der vorhandenen Rollen zu bestimmen, so dass die Tutorkomponente ihr Unterstützungsangebot an die Rollenzusammensetzung des jeweiligen virtuellen Teams anpassen kann. Ergänzend dazu wurde eine Studie durchgeführt, die sich mit den für diese spezielle Form der Zusammenarbeit typischen Problemen befasst. Das Ziel bestand darin, ein Konzept für eine Problemidentifikationskomponente als Teil der Tutorkomponente zu entwickeln, mit deren Hilfe Problemsituationen während der Zusammenarbeit durch den virtuellen Tutor entdeckt werden können. Die Untersuchungen und Evaluationen sowohl zur Rollen- als auch zur Problemanalyse fanden im wesentlichen auf der Grundlage von Benutzertests und Befragungen statt.
Adapting the Multilingual Information Retrieval System MIMOR to the Characteristics of Japanese
(2005)
This M.A. thesis describes the conception and realization of a cross-lingual information retrieval system for Japanese based on the MIMOR (“Mehrfachindexierung zur dynamischen Methoden-Objekt-Relationierung im Information Retrieval”) framework. After an analysis of the characteristics of Japanese and their implications for IR, an overview of established approaches and the state-of-the art in Japanese IR and crosslingual IR with Japanese is provided. It is followed by a description of the implemented system and its integration into the existing framework. Finally, the evaluation experiments carried out with two different document genres (newspaper articles and scientific abstracts) are reported. The main focus hereby was on the testing and analysis of different indexing strategies, in particular a yomi- or pronunciation-based index in addition to conventional word-based and n-gram-based indices, and the benefits of their fusion.
Im Rahmen der vorliegenden Magisterarbeit wurde auf Basis der Magisterarbeit von Ioana Brandes der von ihr entwickelte virtuelle Semesterapparat weiterentwickelt. Einen besonderen Mehrwert der Weiterentwicklung stellt die in das Online Formular integrierte OPAC-Suche dar, sowie die Realisierung zusätzlicher Formularseiten für die Semesterapparate verwaltende Person durch eine Änderung des Workflows und die Hinzufügung zusätzlicher Bearbeitungsfunktionen. Die weiterentwickelte Version ermöglicht es den DozentInnen der Universität Hildesheim, und besonders der Semesterapparate verwaltenden Person der Universitätsbibliothek Hildesheim, die Semesterapparate mit wenig Arbeitsaufwand und auf einfache und komfortable Weise zu erstellen.
Virtual textual communication involves numeric supports as transporter and mediator. SMS language is part of this type of communication and represents some specific particularities. An SMS text is characterized by an unpredictable use of white-spaces, special characters and a lack of any writing standards, when at the same time stays close to the orality. This paper aims to expose the database of alpes4science project from the collation to the processing of the SMS corpus. Then we present some of the most common SMS tokenization problems and works related to SMS normalization.
Verb Polarity Frames: a New Resource and its Application in Target-specific Polarity Classification
(2014)
We discuss target-specific polarity classification for German news texts. Novel, verb-specific features are used in a Simple Logistic Regression model. The polar perspective a verb casts on its grammatical roles is exploited. Also, an additional, largely neglected polarity class is examined: controversial texts. We found that the straightforward definition of ’controversial’ is problematic. More or less balanced polarities in a text are a poor indicator of controversy. Instead, non-polar wording helps more than polarity aggregation. However, our novel features proved useful for the remaining polarity classes.
A common way to express sentiment about some product is by comparing it to a different product. The anchor for the comparison is a comparative predicate like “better”. In this work we concentrate on the annotation of multiword predicates like “more powerful”. In the single-token-based approaches which are mostly used for the automatic detection of comparisons, one of the words has to be selected as the comparative predicate. In our first experiment, we investigate the influence of this decision on the classification performance of a machine learning system and show that annotating the modifier gives better results. In the annotation conventions adopted in standard datasets for sentiment analysis, the modified adjective is annotated as the aspect of the comparison. We discuss problems with this type of annotation and propose the introduction of an additional argument type which solves the problems. In our second experiment we show that there is only a small drop in performance when adding this new argument type.
Im Mittelpunkt dieser Arbeit steht ein Benutzermodellierungsansatz, der kulturbedingte Benutzerei-genschaften als einen determinierenden Faktor bei der Entwicklung von adaptiven hypermedialen Lernanwendungen betrachtet. Besondere Berücksichtigung finden dabei mehrere der von Kulturan-thropologen definierten Kulturdimensionen, die kulturspezifischen Merkmale verschiedener wissen-schaftlicher Stile und Diskursstrukturen sowie die Einflüsse kultureller Werte auf Konventionen des Designs von grafischen Benutzerschnittstellen. Ausgehend von der Annahme, dass das jeweilige kul-turspezifische Bildungssystem zur Herausbildung des Lernstils eines Einzelnen beiträgt und sich somit auch auf die Akzeptanz und Effektivität der genutzten Software auswirkt, wird diese Analyse auf den Bereich der Didaktik ausgeweitet. Diese kulturorientierte Adaptationsstrategie sieht zunächst den Einsatz von zwei Erhebungsmethoden vor. Das Ziel der Evaluation von Lernprogrammen aus verschiedenen Kulturen in den Bereichen Lay-out und multimediale Gestaltung, Interaktion und Navigation, Inhaltspräsentation und Didaktik besteht in der Ermittlung von kulturbedingten Designmerkmalen. In der hier betrachteten Fallstudie erfolgt ein Vergleich von britischen und deutschen Lernprogrammen. Die Durchführung einer kulturvergleichen-den Lernstilanalyse im Rahmen einer Befragung von potentiellen Benutzern aus den gewählten Kultu-ren dient der Vertiefung der Evaluationsergebnisse. Die Integration eines Lernstiltests in das adaptive System bietet an dieser Stelle eine noch genauere Möglichkeit der individuellen Erfassung des Benut-zerlernstils. Auf Basis der Ergebnisse dieser Vorstudie werden kultur- und lernstilspezifische Lernpro-gramm-Profile konstruiert. Das Vorgehensmodell sieht die Festlegung unterschiedlicher Grade der Wiederverwendbarkeit von Elementen eines Ausgangslernprogramms vor. Neben dem reinen Aus-tausch von bestehenden Programmteilen erfolgt die Konzeption kulturspezifischer Varianten, ggf. auch die Entwicklung neuer Elemente. Die Lernprogramm-Profile dienen wiederum als Vorlage für den Aufbau von Stereotypen, deren Zuordnung zu einem Benutzer den Ausgangspunkt des Adaptati-onsprozesses bildet. Auf der Grundlage des kontinuierlichen Monitoring des Navigationspfades sowie der systemseitigen Befragung des Benutzers nach dessen Zustimmung zu einer Anpassungsmaßnahme wird der Adaptationsprozess fortgeführt und das Benutzermodell laufend aktualisiert. Zusätzlich zu der Definition von Lernprogramm-Profilen ist zuvor die kulturorientierte Zusammenstellung von Methoden und Techniken der adaptiven Inhaltspräsentation und Navigationsunterstützung erforderlich. Der Benutzermodellierungsansatz wird im Rahmen von Usability-Tests unter Beteiligung von Benut-zern aus Großbritannien und Irland überprüft. Die Zufriedenheit der Probanden mit dem getesteten Lernsystem wird zunächst als eine Bestätigung für das dem Designkonzept zugrunde liegende Vorge-hensmodell betrachtet. Die Testergebnisse zeigen die bei der Lernprogrammevaluation bereits ermit-telte Dominanz der englischen Diskursregeln über Werte, die durch Kulturdimensionen erfasst werden. Darüber hinaus kann festgestellt werden, dass sich der Einfluss der Diskursnormen sowohl auf die Inhaltspräsentation als auch auf die Bereiche Navigation und Didaktik erstreckt. Dies verdeutlicht die Notwendigkeit einer Adaptationsstrategie, die über traditionelle Lokalisierungsansätze hinausgeht.
Die vorliegende Arbeit befasst sich mit Multilingualem Webre- trieval. Am Anfang werden verschiedene Retrieval Evaluation Initiativen beschrieben. Das Hauptaugenmerk liegt auf dem Cross Language Evaluation Forum (CLEF), mit dem in diesem Jahr gestarteten Web Track WebCLEF. Der Web Track WebCLEF ist in Anlehnung an die Web Tracks der TREC und NTCIR Initiativen entwickelt worden. Der entscheidene Unterschied zu diesen Tracks ist der multilinguale Ansatz, der im WebCLEF Track verfolgt wird. Allen Teilnehmern wurde eine Testkollektion bestehend aus dem EuroGOV Korpus, 547 Topics und der dazugehörigen Relevanzbewertung zur Verfügung gestellt. Neben dem Vergleich des WebCLEF Tracks zu den anderen Initiativen steht die aktive Teilnahme im Mittelpunkt dieser Arbeit. Aufgezeigt werden die Rahmenbedingungen für die Teilnahme, Eigenschaften der Testkollektion, die Vorgehensweise und Ziele des Institutes für Angewandte Sprachwissenschaften (IFAS) der Universität Hildesheim, Erfahrungen und Schwierigkeiten beim Generieren der verschiedenen Indizes, der eigentliche Retrievalprozess und die dazugehörigen Ergebnisse aller Experimente. Als Abschluss dieser Arbeit wird die Teilnahme ausgewertet, Verbesserungen zum eigentlichen Web Track und ein Ausblick für die erneute Teilnahme am WebCLEF Track 2006 dargestellt
Gefühle beeinflussen das menschliche Verhalten, indem sie beispielsweise zu bestimmten Handlungen motivieren, vergangene Erlebnisse bewerten und die soziale Interaktion prägen. Auch bei der Aktivität der Internetsuche spielen Gefühle als subjektive Empfindungen eine wichtige Rolle, sodass sie im Fachgebiet Information Seeking Behavior erforscht werden. Die vorliegende Arbeit ist in der Disziplin der Informationswissenschaft verortet und zielt darauf ab, das Wissen über die Gefühle der Suchenden zu erweitern und daraus konstruktive Schlussfolgerungen zu ziehen. Sie geht der Frage nach, wie die Informationssuche im Internet emotional erlebt wird und welche Bedingungen und Ursachen die Suchenden als bedeutsam für ihr emotionales Erleben bei der Onlinesuche betrachten. Um dies zu erforschen, wird ein methodologischer Rahmen verwendet, der sich diesem Thema auf ganz andere Art annähert, als bisherige Forschungsarbeiten auf diesem Gebiet: Die Grounded Theory-Methodologie. Durch deren Prinzipien des Fragenstellens und Vergleichens entsteht eine Theorie, die gleichzeitig interpretierend als auch empirisch fundiert ist. Als Datengrundlage dieser Theorie dienen Leitfadeninterviews, in denen junge Erwachsene aus den USA und Deutschland ihre Eindrücke und Empfindungen bei der Internetsuche schildern. Die Teilnehmenden beziehen sich dabei auf eine unmittelbar vor dem Interview durchgeführte Internetsuche, in der sie durch ein eigenes Informationsbedürfnis angeleitet wurden. Als Ergebnis der Studie zeigt sich zum einen, wie stark die individuellen Suchthemen die Gefühle der Suchenden beeinflussen. Zum anderen ergibt die Untersuchung, dass diejenigen Gefühle, die sich auf die Ausführung der Suche beziehen, erstaunlich gering ausgeprägt sind, denn die Internetsuche wird als normale Routinehandlung empfunden. Aufgrund dieser Erkenntnisse zur Individualität und Alltäglichkeit der Sucherfahrung formuliert die vorliegende Arbeit Vorschläge für eine bessere Unterstützung der Suchenden und für die zukünftige Erforschung der affektiven Ebene bei der Onlinesuche.
Modular Classifier Ensemble Architecture for Named Entity Recognition on Low Resource Systems
(2014)
This paper presents the best performing Named Entity Recognition system in the GermEval 2014 Shared Task. Our approach combines semi-automatically created lexical resources with an ensemble of binary classifiers which extract the most likely tag sequence. Out-of-vocabulary words are tackled with semantic generalization extracted from a large corpus and an ensemble of part-of-speech taggers, one of which is unsupervised. Unknown candidate sequences are resolved using a look-up with the Wikipedia API.
Improving the Performance of Standard Part-of-Speech Taggers for Computer-Mediated Communication
(2014)
We assess the performance of off-the-shelve POS taggers when applied to two types of Internet texts in German, and investigate easy-to-implement methods to improve tagger performance. Our main findings are that extending a standard training set with small amounts of manually annotated data for Internet texts leads to a substantial improvement of tagger performance, which can be further improved by using a previously proposed method to automatically acquire training data. As a prerequisite for the evaluation, we create a manually annotated corpus of Internet forum and chat texts.
Durch die Globalisierung und den wachsenden Gebrauch von netzwerkbasierten Systemen hat sich die Situation für die Informationssuche geändert. Die englische Sprache verliert in diesem Kontext an Gewicht, sodass andere Sprachen in den Vordergrund rücken. In dieser Arbeit werden für die tschechische Sprache mächtige informationslinguistische Ressourcen bestimmt, analysiert und erstellt. Die Ergebnisse dieser Arbeit stellen eine allgemeine tschechische Stoppwortliste und einen intellektuell erstellten Text-Katalog für die tschechische Toplevel-Domain von WebCLEF dar. Weiterhin umfasst diese Arbeit die Evaluierung des polnischen Stemmers STEMPEL. Seine Anwendung für tschechische Texte wird kritisch betrachtet.
Im Rahmen von WebCLEF 2006 wurde an der Universität Hildesheim mit dem sehr umfangreichen, multilingualen EuroGOV-Korpus experimentiert. Im Vordergrund stand die feldspezifische Indexierung anhand von HTML Strukturelementen. Zusätzlich wurde der Einsatz von Blind Relevance Feedback evaluiert. Wie 2005 wurde ein sprachunabhängiger Indexierungsansatz verwendet. Experimentiert wurde mit dem HTML-Title Element, dem H1 Element und anderen Auszeichnungen, die Text hervorheben. Blind Relevance Feedback wurde für alle Felder außer für das Volltextfeld ?content? implementiert. Die besten Resultate wurden mit einer starken Gewichtung der HTML-Title und H1 Elemente erreicht und stellten eine geringfügige Verbesserung gegenüber den Ergebnissen aus den letztjährigen Postexperimenten dar. Der Einsatz von Blind Relevance Feedback führte nicht zu Verbesserungen. Für WebCLEF 2006 wurden verbesserte Ergebnisse mit den manuell erstellten Anfragen erreicht, während von den Veranstaltern automatisch erstellte Anfragen zu Ergebnissen führten, die wesentlich unter denen der manuell erstellten lagen. Dies war bei allen teilnehmenden Gruppen der Fall.
In this paper we present Nessy (Named Entity Searching System) and its application to German in the context of the GermEval 2014 Named Entity Recognition Shared Task (Benikova et al., 2014a). We tackle the challenge by using a combination of machine learning (Naive Bayes classification) and rule-based methods. Altogether, Nessy achieves an F-score of 58.78% on the final test set.
Im Rahmen der vorliegenden Magisterarbeit wurde ein virtuelles Bibliotheksregal für die Informationswissenschaft entwickelt. Es ermöglicht den BenutzerInnen den Browsing-Zugang zum informationswissenschaftlichen Literaturbestand der Universitätsbibliothek Hildesheim über drei verschiedene hierarchische Ordnungssystematiken. Die BenutzerInnen können eine Systematik auswählen, nach der sich der Bestand entsprechend anordnet. Die vorliegende Arbeit beschreibt die einzelnen Schritte der Realisierung des virtuellen Bibliotheksregals sowie seine anschließende Evaluierung durch einen Benutzertest, der mit Studierenden der Universität Hildesheim durchgeführt wurde.
Der Beitrag geht von der Idee aus, dass Unterschiedlichkeit von Menschen für die Gemeinschaft nicht nur Probleme schafft, sondern ein positives Potential in sich trägt. Dies entspricht der Grundannahme eines Management-Ansatzes, der in den letzten Jahren in der nordamerikanischen Wirtschaft zur Personalführung unter dem Schlagwort "Managing Diversity" entwickelt wurde. In dem Beitrag wird diese grundlegende Idee auf die Zusammenarbeit in interkulturellen virtuellen Teams angewandt. Dabei wird auf Erfahrungen zurückgegriffen, die in standortübergreifenden Lehrveranstaltungen für Studierende unterschiedlicher Fachkulturen und z.T. auch unterschiedlicher Muttersprachen gesammelt wurden. Es werden erste Hypothesen zu didaktischen Strategien der Unterstützung eines wertschätzenden Umgangs mit kultureller Vielfalt in studentischen virtuellen Teams präsentiert. (Der Artikel erscheint vorraussichtlich im Februar 2005 in: Beneke, Jürgen; Jarman, Francis: Interkulturalität in Wissenschaft und Praxis. Schriftenreihe der Universitätsbibliothek Hildesheim)
Die vorliegende Arbeit befasst sich mit maschinellem Lernen von Ontologien. Es werden verschiedene Ansätze zum Ontology Learning vorgestellt und diskutiert. Der Fokus liegt auf dem Einsatz maschineller Lernalgorithmen zum automatischen Erwerb von Ontologien für das virtuelle Bibliotheksregal MyShelf. Dieses bietet Benutzern bei der Recherche durch Ontology Switching einen flexibleren Zugang zu Informationsbeständen. Da Ontologien einen Grundbaustein des Semantic Web darstellen, bietet maschinelles Lernen die Möglichkeit, Verfahren zur automatischen Generierung und Verarbeitung von Ontologien zu etablieren. Basierend auf Textkorpora werden Lerntechniken angewandt, um deren Potential für die Erstellung von Ontologien zu überprüfen.
Die vorliegende Arbeit beschäftigt sich mit der Erfassung und Klassifizierung informationswissenschaftlicher Titel in der Universitätsbibliothek Hildesheim. Da für diese Bücher bisher keine eigene Klassifikation existierte und sie unter vielen unterschiedlichen Systemstellen abgelegt sind, soll den Studierenden durch ein "virtuelles Bibliotheksregal" ein leichterer Zugriff auf Bücher aus der Informationswissenschaft ermöglicht werden.
Fusion und Relevance Feedback sind IR-Strategien zur Verbesserung der Effektivität. Diese Strategien wurden bei der Teilnahme am "multilingual–4"-Task von CLEF 2003 erprobt. Die Ergebnisse sind zufrieden stellend, auch wenn auf Seiten der benutzten Software MySQL deutlich weniger performant war als Lucene.
Die vorliegende Magisterarbeit untersucht den Mehrwert von anthropomorphen Interface-Agenten als Benutzerschnittstelle im Sprachdialog von Fahrerinformationssystemen. Vor diesem Hintergrund werden ein von der Blaupunkt GmbH erstellter Prototyp eines Sprachdialogsystems und ein um einen virtuellen Charakter der Charamel GmbH erweitertes System miteinander vergleichend evaluiert. Die dazu durchgeführte Experten-Evaluation und anschließende Benutzerstudie stellen in den Vordergrund der Untersuchung, inwiefern eine anthropomorphe Oberfläche die Akzeptanz der Anwender und die Usability des Sprachdialogs erhöht. Die Erkenntnisse dieser Untersuchung münden in eine Bewertung bezüglich des Mehrwerts virtueller Charaktere im gegebenen Anwendungskontext und in Richtlinien für die Gestaltung eines anthropomorphen Fahrerinformationssystems.
The rising popularity of the social web and the associated change of static websites and their content towards open platforms of social sharing, collaboration, and user-generated data confront knowledge-intensive business service providers with the question what role social software plays as a source of professional information in the workplace. Due to the high affinity and familiarity of young internet users with such services, it needs to be analyzed whether and, if yes, how employers need to adapt their electronic information environments to the expectations and behaviors of job entrants. In the course of this doctoral dissertation of information science this problem is addressed in a specific context of use and scientific research environment. The information seeking behavior of young professionals in management consulting is analyzed by assessing the fit of existing analytical and process models of information seeking in regards to the research interest of this thesis and their validity for the context of use. This is achieved through qualitative observation and semi-structured interviews. The identified shortcomings and criticism of existing research results in the development of a task-specific model of information seeking that enables the design of a context-specific online survey of the information source usage of the examined population (n=115). The results of this multi-layered methodical approach show that in spite of the identified potential of external wikis and social intranet sites to serve as sources of social information, particularly for supporting young professionals in management consulting in gathering an overview of existing sources and evaluating the retrieved information and its quality, the high frequency of use of social web services for private purposes is not transferred to the usage for professional purposes. In the course of a leadership workshop measures for leveraging the realization of the identified potential are derived and aligned to the process of task-based information seeking behavior of young professionals. This leads to the reflection of context-specific challenges and conflicting interests of including social software as a source of information from a management perspective.
Die wachsende Popularität der neuen Informations- und Kommunikationstechniken zeigt ihren Einfluss auch in Forschung und Lehre. Netzbasierte standortübergreifende Lehrveranstaltungen fördern die Kooperation zwischen unterschiedlichen Hochschulen und ermöglichen ein breiteres Bildungsangebot. Ein wesentlicher Unterschied zu her-kömmlichen Präsenzveranstaltungen ist dabei der Einsatz der computerunterstützten Kommunikation. Die folgende Arbeit wird Problemsituationen in der Kommunikation von Studierenden während der kooperativen Softwareentwicklung im virtuellen Team erfassen und einen adäquaten Klassifizierungsansatz für die auftretenden Fälle entwer-fen. In einem weiteren Schritt werden den Ergebnissen entsprechende Lösungsansätze dargestellt. Die Grundlage der Untersuchung bilden Logfiles von virtuellen Übungssit-zungen des Projekts VitaminL. Unter Einbeziehung von Aspekten der angewandten Diskursforschung wird eine Methode zur Analyse von Problemfällen in der computer-unterstützten Wissenskommunikation entwickelt und in einer tabellarischen Analyse-matrix umgesetzt.
K3 ist ein Forschungsprojekt, welches das Ziel verfolgt die distributiven und kommunikativen Mehrwertpotenziale asynchroner Medien Gewinn bringend für die universitäre Ausbildung zu nutzen. Hierzu werden aufsetzend auf dem von Kuhlen vorgeschlagenen Paradigma des netzwerkbasierten Wissensmanagements konzeptionelle didaktische Ansätze erprobt und eine kollaborative Wissensmanagementsoftware entwickelt. Dieser Artikel beschreibt zunächst den grundlegenden Ansatz und wichtige Gestaltungsfaktoren des netzwerkbasierten Wissensmanagements. Darauf aufbauend werden methodische Aspekte der Evaluation solcher kooperativer Lernszenarien dargestellt, Untersuchungsinstrumente angeführt und die Reichweite und Grenzen der Evaluierbarkeit derartiger Lernszenarien diskutiert.
We discovered several recurring errors in the current version of the Europarl Corpus originating both from the web site of the European Parliament and the corpus compilation based thereon. The most frequent error was incompletely extracted metadata leaving non-textual fragments within the textual parts of the corpus files. This is, on average, the case for every second speaker change. We not only cleaned the Europarl Corpus by correcting several kinds of errors, but also aligned the speakers’ contributions of all available languages and compiled every- thing into a new XML-structured corpus. This facilitates a more sophisticated selection of data, e.g. querying the corpus for speeches by speakers of a particular political group or in particular language combinations.
This paper will have a holistic view at the field of corpus-based linguistic typology and present an overview of current advances at Leipzig University. Our goal is to use automatically created text data for a large variety of languages for quantitative typological investigations. In our approaches we utilize text corpora created for several hundred languages for cross-language quantitative studies using mathematically well-founded methods (Cysouw, 2005). These analyses include the measurement of textual characteristics. Basic requirements for the use of these parameters are also discussed. The measured values are then utilized for typological studies. Using quantitative methods, correlations of measured properties of corpora among themselves or with classical typological parameters are detected. Our work can be considered as an automatic and language-independent process chain, thus allowing extensive investigations of the various languages of the world.
We present Sentilyzer, a web-based tool that can be used to analyze and visualize the sentiment of German user comments on Facebook pages. The tool collects comments via the Facebook API and uses the TreeTagger to perform basic lemmatization. The lemmatized data is then analyzed with regard to sentiment by using the Berlin Affective Word List – Reloaded (BAWL-R), a lexicon that contains emotional valence ratings for more than 2,900 German words. The results are visualized in an interactive web interface that shows sentiment analyses for single posts, but also provides a timeline view to display trends in the sentiment ratings.
Challenging the assumption that traditional whitespace/punctuation-based tokenisation is the best solution for any NLP application, I propose an alternative approach to segmenting text into processable units. The proposed approach is nearly knowledge-free, in that it does not rely on language-dependent, man-made resources. The text segmentation approach is applied to the task of automated error reduction in texts with high noise. The results are compared to conventional tokenisation.
We present an extensive corpus study of Centering Theory (CT), examining how adequately CT models coherence in a large body of natural text. A novel analysis of transition bigrams provides strong empirical support for several CT-related linguistic claims which so far have been investigated only on various small data sets. The study also reveals genre-based differences in texts’ degrees of entity coherence. Previous work has shown unsupervised CT-based coherence metrics to be unable to outperform a simple baseline. We identify two reasons: 1) these metrics assume that some transition types are more coherent and that they occur more frequently than others, but in our corpus the latter is not the case; and 2) the original sentence order of a document and a random permutation of its sentences differ mostly in the fraction of entity-sharing sentence pairs, exactly the factor measured by the baseline.
In this paper, we propose an integrated web strategy for mixed sociolinguistic research methodologies in the context of social media corpora. After stating the particular challenges for building corpora of private, non-public computer-mediated communication, we will present our solution to these problems: a Facebook web application for the acquisition of such data and the corresponding meta data. Finally, we will discuss positive and negative implications for this method.
The workshops hosted at this iteration of KONVENS also reflect the interaction of, and common themes shared between, Computational Linguistics and Information Science: a focus on on evaluation, represented by shared tasks on Named Entity Recognition (GermEval) and on Sentiment Analysis (GESTALT); a growing interest in the processing of non-canonical text such as that found in social media (NLP4CMC) or patent documents (IPaMin); multi-disciplinary research which combines Information Science, Computer Aided Language Learning, Natural Language Processing, and E-Lexicography with the objective of creating language learning and training systems that provide intelligent feedback based on rich knowledge (ISCALPEL).
We present a set of refined categories of interoperability aspects and argue that the representational aspect of interoperability and its content-related aspects should be treated independently. While the implementation of a generic exchange format provides for representational interoperability, content-related interoperability is much harder to achieve. Applying a task-based approach to content-related interoperability reduces complexity and even allows for the combination of very different resources.
This paper presents Atomic, an open-source platform-independent desktop application for multi-level corpus annotation. Atomic aims at providing the linguistic community with a user-friendly annotation tool and sustainable platform through its focus on extensibility, a generic data model, and compatibility with existing linguistic formats. It is implemented on top of the Eclipse Rich Client Platform, a pluggable Java-based framework for creating client applications. Atomic - as a set of plug-ins for this framework - integrates with the platform and allows other researchers to develop and integrate further extensions to the software as needed. The generic graph-based meta model Salt serves as Atomic’s domain model and allows for unlimited annotation levels and types. Salt is also used as an intermediate model in the Pepper framework for conversion of linguistic data, which is fully integrated into Atomic, making the latter compatible with a wide range of linguistic formats. Atomic provides tools for both less experienced and expert annotators: graphical, mouse-driven editors and a command-line data manipulation language for rapid annotation.
Was sind die gestalterischen Herausforderungen, um den Nutzer optimal bei der Suche auf mobilen Webseiten im Smartphonebereich zu unterstützen? Dieser Beitrag liefert einen Überblick der wesentlichen Usability-Probleme in diesem Kontext, welche durch Usability-Tests mit der Restrospective-Thinking-Aloud-Methode analysiert und verifiziert wurden. Als Ergebnis werden die wichtigsten Erkenntnisse aus den empirischen Erhebungen erläutert und partiell mit bestehenden Konventionen des stationären Desktopbe- reichs kontrastiert.
This paper presents the TWEETDICT system prototype, which uses co-occurrence and frequency distributions of Twitter hashtags to generate clusters of keywords that could be used for topic summarization/identification. They also contain mentions referring to the same entity, which is a valuable resource for coreference resolution. We provide a web interface to the co-occurrence counts where an interactive search through the dataset collected from Twitter can be started. Additionally, the used data is also made freely available.
This paper presents the BECREATIVE Named Entity Recognition system and its participation at the GermEval 2014 Named Entity Recognition Shared Task (Benikova et al., 2014a). BECREATIVE uses a hybrid approach of two commonly used procedural methods, namely list-based lookups and machine learning (Naive Bayes Classification), which centers around the classifier. BECREATIVE currently reaches an F-score of 37.34 on the strict evaluation setting applied on the development set provided by GermEval.
E-Voting in Deutschland? Zum Problem der Stimmabgabe über das Internet bei politischen Wahlen
(2005)
Diese Magisterarbeit beschäftigt sich mit der Frage, ob und gegebenenfalls in welcher Form ein internetgestütztes Wahlsystem bei politischen Wahlen in Deutschland eingesetzt werden könnte oder sollte. Hierfür ist es erforderlich, die Funktionen und Bedeutung der Wahl in der Demokratie sowie ihre verfassungsrechtliche Verankerung darzu-stellen. Ferner werden die Potentiale des Internets im politischen Willensbildungsprozess erörtert, indem explizit auf die neuen Informations-, Kommunikations- und Partizi-pationsfunktionen eingegangen wird. Die Diskussion um eine mögliche Einführung eines verfassungskonformen E-Voting-Systems bedingt ferner die Erörterung sicher-heitstechnischer sowie demokratietheoretischer Anforderungen. Aufbauend auf den Ergebnissen einiger E-Voting-Pilotprojekte in In- und Ausland sind eventuelle Auswirkungen sowohl auf den Wahlprozess als auch auf die Wahlbevölkerung zu diskutieren. Diese Auswirkungen werden schließlich in Beziehung zu den in Deutschland wichtigen rechtlichen und gesellschaftlichen Rahmenbedingungen gesetzt, bevor verschiedene Einführungsmodelle entwickelt werden.
In this paper, we describe our system developed for the GErman SenTiment AnaLysis shared Task (GESTALT) for participation in the Maintask 2: Subjective Phrase and Aspect Extraction from Product Reviews. We present a tool, which identifies subjective and aspect phrases in German product reviews. For the recognition of subjective phrases, we pursue a lexicon-based approach. For the extraction of aspect phrases from the reviews, we consider two possible ways: Besides the subjectivity and aspect look-up, we also implemented a method to establish which subjective phrase belongs to which aspect. The system achieves better results for the recognition of aspect phrases than for the subjective identification.
Political debates bearing ideological references exist for long in our society; the last few years though the explosion of the use of the internet and the social media as communication means have boosted the production of ideological texts to unprecedented levels. This creates the need for automated processing of the text if we are interested in understanding the ideological references it contains. In this work, we propose a set of linguistic rules based on certain criteria that identify a text as bearing ideology. We codify and implement these rules as part of a Natural Language Processing System that we also present. We evaluate the system by using it to identify if ideology exists in tweets published by French politicians and discuss its performance.
Durch Assoziativmatrizen gebildete Assoziativspeicher können als künstliche neuronale Netze aufgefasst werden, die sich zur fehlerrobusten Datenspeicherung, Mustererkennung, Musterergänzung und für zahlreiche daraus abgeleitete Aufgaben einsetzen lassen. Die vorliegende Arbeit weitet den Einsatzbereich von Assoziativmatrizen auf das störunanfällige Speichern und Abarbeiten von Programmen aus, indem mehrere Assoziativmatrizen zweier Typen zu einer frei programmierbaren Maschine zusammengesetzt werden. In der Programmierung dieser Maschine werden keine Zahlen oder Zähler eingesetzt, sondern Assoziationsketten benutzt. Das Anwendungsprogramm und seine Daten befinden sich gemeinsam im fehlertoleranten Assoziativspeicher, was verglichen mit anderen fehlertoleranten Systemen prinzipielle oder Geschwindigkeitsvorteile zeitigt. Der Konstruktionsplan dieser Maschine (Vidas-Maschine) wurde mit Hilfe eines Digitalsimulators detailliert erarbeitet. In der Maschine arbeiten sechs Assoziativmatrizen für verschiedene Aufgabenbereiche zusammen. Eine der Matrizen assoziiert eine Programmzeile mit der nächsten, eine weitere Matrix liefert die zu den Programmzeilen gehörenden Befehle und zwei weitere Matrizen übernehmen die Parameterversorgung. Variablen werden über eine besondere Assoziativmatrix mit schnellen Hebb-Synapsen verwaltet, damit Variablen ihre alten Werte "vergessen" können. Daten werden hingegen in einer gewöhnlichen Assoziativmatrix abgelegt, um dem Anwendungsprogramm in der bewährten, fehlertoleranten Weise zur Verfügung zu stehen. In der Programmierung der Vidas-Maschine greift man bei der Konstruktion von Schleifen auf Assoziationsketten zu, da die Maschine kein Rechenwerk besitzt. Die Assoziative Programmierung erlaubt dennoch, der Maschine das Rechnen beizubringen. Als Anwendungsfelder dieser neuen Technik werden solche vorgestellt, in denen Störungen oder Ungenauigkeiten herkömmliche Technik zu Fehlverhalten oder Ausfällen führen. Zum Test der Störunanfälligkeit wurde die Vidas-Maschine in der Simulation mit vier Arten von Zerstörungen überprüft. Sie zeigte dabei ihre Störfestigkeit in der für den Einsatz von Assoziationmatrizen typischen Weise. Die Stärken der Maschine liegen zudem in der Fähigkeit des schnellen Lernens und Abfragens von Mustern, womit sie als Grundbaustein für den Aufbau von Systemen zur Mustererkennung dienen kann
Der Lemmatizer wmtrans der Canoo Engineering AG (Canoo 2012) und der Porter-Stemmer (Porter 1997) werden hier verglichen. Ziel ist es, jeweils den Einfluss auf die Information Retrieval-Qualität zu analysieren. Basierend auf den Testdaten der CLEF Studie von 2002 wird der Schwerpunkt auf die Analyse einzelner Informationsbedürfnisse gelegt.
Die vorliegende Arbeit stellt die Problematik dar, die nicht immer vertrauenswürdigen Informationen aus dem Internet anhand von Bewertungskriterien zu beurteilen. Insbesondere werden hier die kulturellen Unterschiede, die sich bei der Bewertung von Internetangeboten ergeben, mit Hilfe der Kulturdimensionen von Hofstede untersucht. Um diese kulturellen Unterschiede zu ermitteln, wurde eine empirische Untersuchung an einem lateinamerikanischen Land (Peru, stellvertretend für Lateinamerika) im Vergleich zu einem europäischen Land (Deutschland, stellvertretend für Europa), durchgeführt.
German Perception Verbs: Automatic Classification of Prototypical and Multiple Non-literal Meanings
(2014)
This paper presents a token-based automatic classification of German perception verbs into literal vs. multiple non-literal senses. Based on a corpus-based dataset of German perception verbs and their systematic meaning shifts, we identify one verb of each of the four perception classes optical, acoustic, olfactory, haptic, and use Decision Trees relying on syntactic and semantic corpus-based features to classify the verb uses into 3-4 senses each. Our classifier reaches accuracies between 45.5% and 69.4%, in comparison to baselines between 27.5% and 39.0%. In three out of four cases analyzed our classifier’s accuracy is significantly higher than the according baseline.