Volltext-Downloads (blau) und Frontdoor-Views (grau)

Untersuchungen zur sprachübergreifenden, bilingualen Suche mit Hilfe der Konzeptnetz-Technologie der SENTRAX-Engine

  • Ein Hindernis bei der Suche nach benötigter Information speziell bei einer krosslingualen Suche ist eine ungünstig formulierte Anfrage. Die Wörtervielfalt, aus denen eine Anfrage zusammengesetzt werden kann, verursacht oft eine ungenügende Übereinstimmung mit den Formulierungen im gesuchten Dokument und schmälert die Leistungsfähigkeit der Suche. Wenn man die "Bedeutung" einer Wortsammlung an die Engine übergeben könnte – anstelle isoliert verarbeiteter Worte, dann könnte eine Wirkung der Suchanfragen erzielt werden, die als gleichmäßiger empfunden würde. Dieser Gedanke wurde bei der Entwicklung einer neuartigen Retrievaltechnologie verfolgt und führte zur sogenannten "Essence Extractor Engine", kurz SENTRAX [SENT04]. Der dahinter liegende Index entsteht aus der Verarbeitung von in den Dokumenten nahe zusammenstehenden, bedeutungstragenden Begriffen (Kookkurrenzen) und erlaubt eine Definition und Übertragung von "Konzepten", die zwar durch Worte ausgedrückt oder beschrieben werden, aber eine gewisse Unabhängigkeit von der spezifischen Wortwahl haben. Diese Technologie stand für die vorliegende Arbeit zur Verfügung und wurde für die Problemstellung des Themas ausgenutzt. Bei der bilingualen Suche kann nämlich die Übertragung eines Konzeptes; statt der wortweisen Übersetzung der Anfrage; die Mehrdeutigkeiten entscheidend vermindern, da das Konzept den assoziierten Zusammenhang mit den übersetzten Begriffe bewahrt und die Verbindung zu den Umgebungen in den Texten herstellt. Diese Wirkung und Auswirkung wird untersucht und dargestellt. Weitere Funktionen der SENTRAX-Engine (z.B. Stringtoleranz von Eingabeworten und Ähnlichkeitsvergleich von Trefferdokumenten) sowie eine grafische Mensch-Maschine-Schnittstelle erweisen sich als günstig für das Vorhaben. Die nötigen Vorverarbeitungsmethoden werden entworfen, da zwei Indexe für die bilinguale Suche zusammenwirken. Drei wichtige Teile lassen sich nennen: erstens die Vorarbeit, wo die Erstellung des jeweiligen Konzepts geschieht, zweitens die Brücke, die das Suchkonzept der Ausgangsprache zur Zielsprache überträgt, und schließlich ein Konzeptsvergleichmaß, womit das Gleichgewicht des Konzeptes nach der Übertragung kontrolliert wird. Gegenwärtig laufen diese drei Stufen noch nicht vollautomatisch in der SENTRAX ab, sondern erlauben manuelle Eingriffe. Ungeachtet dieser technischen Unvollständigkeit des Systems lassen sich aber alle Hypothesen nachprüfen. Die Ergebnisse zeigen, dass die bilinguale Suche mittels Konzeptnetzen sehr leistungsfähig ist. Die Mehrdeutigkeit einer Übersetzung kann durch Betrachtung der Zusammenhänge und der Assoziationen vermindert werden. Es gibt auch einen Lernprozess beim Suchenden und hilft dem Nutzer bei der Entscheidung, ob eine Fortsetzung der begonnenen Suchrichtung Sinn macht oder diese abgebrochen werden muss, weil die benötigte Information vielleicht nicht in der Datenbasis steckt. Durch die grafische Darstellung werden die mit den Suchwörtern assoziierten Begriffe zur Auswahl angeboten und sind in beiden Sprachen (teilweise) vergleichbar. Dadurch kann man sicherstellen, dass die dahinter liegenden Dokumente von den gleichen bzw. ähnlichen Themen handeln.
  • A problem in the search for information is an unsuitable formulated query – in particular with respect to cross language document retrieval. A query can be built in many ways according to the combination of words used. This often causes insufficiency and ineffectiveness in the retrieval process. The idea to maintain the "concept" or "meaning" of a set of terms and process it within the search -instead of a pure list of singular itemsled to the development of an innovative retrieval engine, the so called SENTRAX ("essence extraxtor engine" [SENT04]). The underlying index built from the documents refers to collections of meaningful terms that are close neighbours in the texts (cooccurrences). It allows a definition and a processing of concepts which are described by words but have a certain independency from the chosen terms. This technology was extensively used for this thesis. As to the task of the bilingual search the transfer of a concept can strongly reduce the ambiguity which normally comes along with the word by word translation of the query. A concept retains associations of the translated terms as well as it connects to the neighbourhoods in the texts. For theses reasons the bilingual search can be well done by the SENTRAX method. In addition to this some other features of this engine (e.g. error tolerance of strings, similarity clustering of document hits, graphic user interface) have shown to be very useful for this project. The binding construction units and the necessary pre-processing methods are designed in order to create the bilingual search by two SENTRAX indexes. This works in three steps. First the pre-processing, which is responsible for building a concept. Second is the bridge, which transfers the searching query from the source language to the target language. Finally there is a concept comparison measure, which controls the equilibrium of the concept after its transfer. At present these three parts do not run fully automatic within with the SENTRAX but allow manual control. Despite such incompleteness of the system the hypotheses can be tested. It can be stated by the results of the examination that the bilingual search can be done very well via a concept network. Ambiguities of the translation can be decreased by the consideration of context connections and of associations. Besides this there is a learning process while operating on the tasks which supports the user in the decision whether continuing with the search or to stop it, because the necessary information was never contained in the database. The graphical interaction tools offer terms associated with the input, and can be compared (partly) in both languages. By this incident it can be checked if the documents in the database deal with the same or similar topic.

Download full text files

Export metadata

Additional Services

Share in Twitter    Search Google Scholar    frontdoor_oas
Metadaten
Author:Suriya Na nhongkai
URN:https://nbn-resolving.org/urn:nbn:de:gbv:hil2-opus-957
Advisor:Hans-Joachim Bentz
Document Type:Doctoral Thesis
Language:German
Date of Publication (online):2011/05/19
Publishing Institution:Stiftung Universität Hildesheim
Granting Institution:Universität Hildesheim, Fachbereich III
Date of final exam:2006/07/03
Release Date:2011/05/19
Tag:Information Retrieval; Informationssysteme
GND Keyword:Künstliche Intelligenz
PPN:Link zum Katalog
Institutes:Fachbereich III / Informationswissenschaft und Sprachtechnologie
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 004 Informatik
Licence (German):License LogoDeutsches Urheberrecht