Refine
Document Type
- Conference Proceeding (3)
- Master's Thesis (2)
- Doctoral Thesis (1)
- Habilitation (1)
Has Fulltext
- yes (7)
Is part of the Bibliography
- no (7)
Keywords
- Maschinelles Lernen (7) (remove)
Institute
Die vorliegende Arbeit befasst sich mit maschinellem Lernen von Ontologien. Es werden verschiedene Ansätze zum Ontology Learning vorgestellt und diskutiert. Der Fokus liegt auf dem Einsatz maschineller Lernalgorithmen zum automatischen Erwerb von Ontologien für das virtuelle Bibliotheksregal MyShelf. Dieses bietet Benutzern bei der Recherche durch Ontology Switching einen flexibleren Zugang zu Informationsbeständen. Da Ontologien einen Grundbaustein des Semantic Web darstellen, bietet maschinelles Lernen die Möglichkeit, Verfahren zur automatischen Generierung und Verarbeitung von Ontologien zu etablieren. Basierend auf Textkorpora werden Lerntechniken angewandt, um deren Potential für die Erstellung von Ontologien zu überprüfen.
Der komplexe Prozess der Softwareentwicklung auf professioneller Ebene wird in der Regel in Teams vollzogen; dieser für den Wissenserwerb förderliche Ansatz des kollaborativen Lernens kommt auch in der universitären Lehre vermehrt zum Einsatz. Durch die neuen Informations- und Kommunikationstechniken kann diese Form des gemeinsamen Wissenserwerbs virtuell über zeitliche und geographische Grenzen hinweg durchgeführt werden. Das Projekt VitaminL versucht, virtuelle Lerngruppen bei der Bearbeitung von Programmieraufgaben durch eine Softwarekomponente effektiv zu unterstützen. Die vorliegende Arbeit untersucht typische Problemsituationen von Anfängern unter Berücksichtigung psychologischer und kognitiver Prozesse. Anhand dieser empirischer Ergebnisse aus Beobachtungen und Tests im Rahmen des VitaminLProjekts werden verschiedene Unterstützungsmöglichkeiten diskutiert und die Realisierung des beispielbasierten Ansatzes mittels maschineller Lernverfahren skizziert.
Recommender systems are personalized information systems that learn individual preferences from interacting with users. Recommender systems use machine learning techniques to compute suggestions for the users. Supervised machine learning relies on optimizing for a suitable objective function. Suitability means here that the function actually reflects what users and operators consider to be a good system performance. Most of the academic literature on recommendation is about rating prediction. For two reasons, this is not the most practically relevant prediction task in the area of recommender systems: First, the important question is not how much a user will express to like a given item (by the rating), but rather which items a user will like. Second, obtaining explicit preference information like ratings requires additional actions from the side of the user, which always comes at a cost. Implicit feedback in the form of purchases, viewing times, clicks, etc., on the other hand, is abundant anyway. Very often, this implicit feedback is only present in the form of positive expressions of preference. In this work, we primarily consider item recommendation from positive-only feedback. A particular problem is the suggestion of new items -- items that have no interaction data associated with them yet. This is an example of a cold-start scenario in recommender systems. Collaborative models like matrix factorization rely on interaction data to make predictions. We augment a matrix factorization model for item recommendation with a mechanism to estimate the latent factors of new items from their attributes (e.g. descriptive keywords). In particular, we demonstrate that optimizing the latent factor estimation with regard to the overall loss of the item recommendation task is superior to optimizing it with regard to the prediction error on the latent factors. The idea of estimating latent factors from attributes can be extended to other tasks (new users, rating prediction) and prediction models, yielding a general framework to deal with cold-start scenarios. We also adapt the Bayesian Personalized Ranking (BPR) framework, which is state of the art in item recommendation, to a setting where more popular items are more frequently encountered when making predictions. By generalizing even more, we get Weighted Bayesian Personalized Ranking, an extension of BPR that allows importance weights to be placed on specific users and items. All method contributions are supported by experiments using large-scale real-life datasets from various application areas like movie recommendation and music recommendation. The software used for the experiments has been released as part of an efficient and scalable free software package.
Die stark anwachsende Menge von Wissen, welche weltweit zur Verfügung steht, erfordert eine teilweise Übertragung der Qualitätsbewertung auf Maschinen. Zugleich erlaubt die weltweite Vernetzung die Analyse, den Vergleich und die Verknüpfung sehr vieler Wissensangebote. Die Automatisierung von Qualitätsbewertung ist teilweise bereits Realität und erfordert eine stärkere wissenschaftliche Fundierung. Derzeit eingesetzte Systeme basieren auf der Linkanalyse und nutzen somit nur eine sehr eingeschränkte Wissensquelle. Aktuelle Forschungstendenzen aus unterschiedlichen Fachrichtungen verweisen auf komplexere Systeme zur automatischen Qualitätsbewertung. Im Rahmen des Projekts AQUAINT (Automatische Qualitätsabschätzung für Internet Ressourcen) wurde ein innovatives System zur Qualitätsbewertung entwickelt. Das Projekt behandelt die Grundlagen, die Entwicklung des Systems und dessen Evaluierung. Aus den Ergebnissen werden Konsequenzen für die Methodik der Evaluierung im Information Retrieval abgeleitet. Eine wichtige Anwendung liegt in Suchmaschinen der nächsten Generation.
The paper proposes a meta language model that can dynamically incorporate the influence of wider discourse context. The model provides a conditional probability in forms of P (text|context), where the context can be arbitrary length of text, and is used to influence the probability distribution over documents. A preliminary evaluation using a 3-gram model as the base language model shows significant reductions in perplexity by incorporating discourse context.
Challenging the assumption that traditional whitespace/punctuation-based tokenisation is the best solution for any NLP application, I propose an alternative approach to segmenting text into processable units. The proposed approach is nearly knowledge-free, in that it does not rely on language-dependent, man-made resources. The text segmentation approach is applied to the task of automated error reduction in texts with high noise. The results are compared to conventional tokenisation.
The dependency of word similarity in vector space models on the frequency of words has been noted in a few studies, but has received very little attention. We study the influence of word frequency in a set of 10 000 randomly selected word pairs for a number of different combinations of feature weighting schemes and similarity measures. We find that the similarity of word pairs for all methods, except for the one using singular value decomposition to reduce the dimensionality of the feature space, is determined to a large extent by the frequency of the words. In a binary classification task of pairs of synonyms and unrelated words we find that for all similarity measures the results can be improved when we correct for the frequency bias.