Konzeptsuche

A Konzeptsuche (oder Konzeptionelle Suche) ist automatisiert Informationsrückgewinnung Methode, mit der elektronisch gespeichert wird unstrukturierter Text (zum Beispiel, Digitale Archive, E -Mail, wissenschaftliche Literatur usw.) für Informationen, die den in a bereitgestellten Informationen konzeptionell ähnlich sind Suchanfrage. Mit anderen Worten, die Ideen ausgedrückt in den Informationen, die als Reaktion auf a abgerufen wurden Konzept Suchabfrage sind relevant zu den Ideen, die im Text der Abfrage enthalten sind.

Entwicklung

Konzept Suchtechniken wurden aufgrund von Einschränkungen entwickelt Schlagwortsuche Technologien beim Umgang mit großen, unstrukturierten digitalen Textsammlungen. Keyword-Suche gibt häufig Ergebnisse zurück, die viele nicht relevante Elemente enthalten (Fehlalarm) oder die zu viele relevante Elemente (falsch negative) aufgrund der Auswirkungen von ausschließen Synonymie und Polysemie. Synonymie bedeutet, dass eines von zwei oder mehr Wörtern in derselben Sprache die gleiche Bedeutung hat, und Polysemy bedeutet, dass viele einzelne Wörter mehr als eine Bedeutung haben.

Polysemy ist ein wichtiges Hindernis für alle Computersysteme, die versuchen, mit menschlicher Sprache umzugehen. In Englisch haben die am häufigsten verwendeten Begriffe mehrere häufige Bedeutungen. Zum Beispiel kann das Wort Feuer bedeuten: eine Verbrennungsaktivität; Beschäftigung zu beenden; zu starten oder zu erregen (wie im Brand). Für die 200 am meisten polysemischen Begriffe in englischer Sprache hat das typische Verb mehr als zwölf gemeinsame Bedeutungen oder Sinne. Das typische Substantiv aus diesem Satz hat mehr als acht gemeinsame Sinne. Für die 2000 am meisten polysemous Begriffe in englischer Sprache hat das typische Verb mehr als acht gemeinsame Sinne und das typische Substantiv hat mehr als fünf.[1]

Zusätzlich zu den Problemen von Polysemous und Synonymie können Keyword -Suche versehentlich ausschließen falsch geschrieben Wörter sowie die Variationen der Stängel (oder Wurzeln) von Wörtern (z. B. Streik gegen Streik). Keyword -Suche sind auch anfällig für Fehler, die durch eingeführte durch optische Zeichenerkennung (OCR) Scanprozesse, die einführen können Zufällige Fehler in den Text der Dokumente (oft als als bezeichnet als als lauter Text) Während des Scanprozesses.

Eine Konzeptsuche kann diese Herausforderungen durch die Beschäftigung bewältigen Wortgefühl Disambiguation (WSD),[2] und andere Techniken, um die tatsächlichen Bedeutungen der Wörter und ihre zugrunde liegenden Konzepte abzuleiten, anstatt einfach durch Anpassung von Charakter -Saiten wie Keyword -Suchtechnologien.

Ansätze

Im Algemeinen, Informationsrückgewinnung Forschung und Technologie können in zwei breite Kategorien unterteilt werden: semantisch und statistisch. Informationsabrufsysteme, die in die semantische Kategorie fallen Semantische Analyse des Natürliche Sprache Text, den ein menschlicher Benutzer bereitstellen würde (siehe auch Computerlinguistik). Systeme, die in die statistische Kategorie fallen, werden Ergebnisse ermitteln, die auf statistischen Maßnahmen beruhen, wie genau sie mit der Abfrage übereinstimmen. Systeme in der semantischen Kategorie beruhen jedoch häufig auch auf statistische Methoden, um Informationen zu finden und abzurufen.[3]

Die Bemühungen zur Bereitstellung von Informationsabrufsystemen mit semantischen Verarbeitungsfunktionen haben im Grunde drei Ansätze verwendet:

Hilfsstrukturen

Eine Vielzahl von Techniken basiert auf künstliche Intelligenz (AI) und Verarbeitung natürlicher Sprache (NLP) wurden auf die semantische Verarbeitung angewendet, und die meisten haben sich auf die Verwendung von Hilfsstrukturen wie z. kontrollierte Vokabeln und Ontologien. Kontrollierte Vokabulare (Wörterbücher und Thesauri) und Ontologien ermöglichen es, breitere Begriffe, engere Begriffe und verwandte Begriffe in Fragen einzubeziehen.[4] Kontrollierte Vokabulare sind eine Möglichkeit, einige der schwersten Einschränkungen von Booleschen Schlüsselwortabfragen zu überwinden. Im Laufe der Jahre zusätzliche Hilfsstrukturen von allgemeinem Interesse, wie die großen Synonym -Sätze von Wordnet, wurden gebaut.[5] Es wurde gezeigt, dass die Konzeptsuche, die auf Hilfsstrukturen wie WordNet basiert, effizient implementiert werden kann, indem Abrufmodelle und Datenstrukturen des Abrufens klassischer Informationen wiederverwendet werden.[6] Spätere Ansätze haben Grammatik implementiert, um den Bereich der semantischen Konstrukte zu erweitern. Die Erstellung von Datenmodellen, die Konzepte in einem bestimmten Bereich darstellen (Domain -Ontologien) und die die Beziehungen zwischen Begriffen einbeziehen können, wurde in den letzten Jahren ebenfalls umgesetzt.

Handgefertigte kontrollierte Vokabulare tragen zur Effizienz und Vollständigkeit von Informationsabruf- und verwandten Textanalysevorgängen bei. Sie funktionieren jedoch am besten, wenn die Themen eng definiert sind und die Terminologie standardisiert ist. Kontrollierte Vokabulare erfordern umfangreiche menschliche Input und Aufsicht, um mit der raschen Sprachentwicklung Schritt zu halten. Sie sind auch nicht gut zu den wachsenden Bänden unstrukturierter Text geeignet, die eine unbegrenzte Anzahl von Themen abdecken und Tausende einzigartiger Begriffe enthalten, da neue Begriffe und Themen ständig eingeführt werden müssen. Kontrollierte Vokabulare neigen auch dazu, eine bestimmte Weltanschauung zu einem bestimmten Zeitpunkt zu erfassen, was es schwierig macht, sie zu ändern, wenn Konzepte in einem bestimmten Themenbereich ändert.[7]

Lokale Ko-Auftreten-Statistik

Informationsabrufsysteme, die diesen Ansatz enthalten Schiebefenster von Begriffen oder Sätzen (z. B. ± 5 Sätze oder ± 50 Wörter) innerhalb eines Dokuments. Es basiert auf der Idee, dass Wörter, die in ähnlichen Kontexten zusammen auftreten, ähnliche Bedeutungen haben. Es ist lokal in dem Sinne, dass das Gleitfenster der Begriffe und Sätze zur Bestimmung des Ko-Auftretens von Begriffen relativ gering ist.

Dieser Ansatz ist einfach, erfasst jedoch nur einen kleinen Teil der semantischen Informationen, die in einer Textsammlung enthalten sind. Auf die grundlegendste Ebene haben zahlreiche Experimente gezeigt, dass ungefähr ein Viertel der im Text enthaltenen Informationen lokaler Natur ist.[8] Um am effektivsten am effektivsten zu sein, erfordert diese Methode Vorwissen über den Inhalt des Textes, was bei großen, unstrukturierten Dokumentsammlungen schwierig sein kann.[7]

Transformationstechniken

Einige der leistungsstärksten Ansätze zur semantischen Verarbeitung basieren auf der Verwendung mathematischer Transformationstechniken. Matrixabzug Techniken waren die erfolgreichsten. Einige weit verbreitete Matrix -Zersetzungstechniken umfassen die folgenden:[9]

Matrix-Zersetzungstechniken sind datengetrieben, wodurch viele der mit Hilfsstrukturen verbundenen Nachteile vermieden werden. Sie sind auch globaler Natur, was bedeutet, dass sie viel robuster sind Informationsextraktion und Darstellung semantischer Informationen als Techniken, die auf lokalen Ko-Auftreten-Statistiken basieren.[7]

Die unabhängige Komponentenanalyse ist eine Technik, die spärliche Darstellungen auf automatisierte Weise erzeugt.[10] und die semi-diskrete und nicht negative Matrix-Ansätze opfern die Genauigkeit der Repräsentation, um die Rechenkomplexität zu verringern.[7]

Die Singular Value Decomposition (SVD) wurde erstmals Ende der 1980er Jahre auf Text bei Bell Labs angewendet. Es wurde als Grundlage für eine Technik genannt Latente semantische Indexierung (LSI) Aufgrund seiner Fähigkeit, die semantische Bedeutung zu finden, die in einer Sammlung von Text latent ist. Zunächst wurde die SVD aufgrund der Ressourcenanforderungen, die für die Arbeit mit großen Datensätzen erforderlich sind, nur langsam übernommen. Die Verwendung von LSI hat sich jedoch in den letzten Jahren erheblich erweitert, da frühere Herausforderungen bei Skalierbarkeit und Leistung überwunden wurden.[11] und sogar offen.[12] LSI wird in einer Vielzahl von Informationsabruf- und Textverarbeitungsanwendungen verwendet, obwohl seine primäre Anwendung für die Konzeptsuche und die automatisierte Dokumentenkategorisierung bestimmt wurde.[13]

Verwendet

  • Ediscovery -Konzeptbasierte Suchtechnologien werden zunehmend für die Erkennung elektronischer Dokumente (EDD oder EDIScovery) verwendet, um Unternehmen bei der Vorbereitung auf Rechtsstreitigkeiten zu unterstützen. In der Ediscovery ist die Fähigkeit, große Sammlungen unstrukturierter Text konzeptionell zu kategorisieren, zu kategorisieren und zu durchsuchen, viel effizienter als herkömmliche lineare Überprüfungstechniken. Die konzeptbasierte Suche wird als zuverlässige und effiziente Suchmethode akzeptiert, bei der eher relevante Ergebnisse als Schlüsselwort oder Boolesche Suchvorgänge erzielt werden.[14]
  • Enterprise -Suche und Enterprise Content Management (ECM) - Konzept -Suchtechnologien werden bei der Enterprise -Suche häufig verwendet. Da das Informationsvolumen innerhalb des Unternehmens wächst, ist die Fähigkeit, große Sammlungen unstrukturierter Text auf konzeptioneller Basis zu kategorisieren, zu kategorisieren und zu durchsuchen. Im Jahr 2004 schätzte die Gartner Group, dass Fachleute 30 Prozent ihrer Zeit damit verbringen, Informationen zu suchen, abzurufen und zu verwalten.[15] Das Forschungsunternehmen IDC stellte fest, dass ein Unternehmen mit 2.000 Mitarbeitern bis zu 30 Millionen US-Dollar pro Jahr einsparen kann, indem die Mitarbeiter verknüpfen, um Informationen zu finden und bestehende Dokumente zu duplizieren.[15]
  • Inhaltsbasiertes Bildabruf (CBIR) -Inhaltsbasierte Ansätze werden für das semantische Abrufen digitalisierter Bilder und Video aus großen visuellen Korpora verwendet. Eines der frühesten inhaltsbasierten Bildabrufsysteme, um das semantische Problem zu lösen, war die Imagescape-Suchmaschine. In diesem System könnte der Benutzer direkte Abfragen für mehrere visuelle Objekte wie Himmel, Bäume, Wasser usw. unter Verwendung räumlich positionierter Symbole in einem WWW -Index mit mehr als zehn Millionen Bildern und Videos mit Keyframes vornehmen. Das System verwendete die Informationstheorie, um die besten Merkmale zur Minimierung der Unsicherheit in der Klassifizierung zu bestimmen.[16] Die semantische Lücke wird oft in Bezug auf CBIR erwähnt. Die semantische Lücke bezieht sich auf die Lücke zwischen den Informationen, die aus visuellen Daten extrahiert werden können, und der Interpretation, die dieselben Daten für einen Benutzer in einer bestimmten Situation haben.[17] Der ACM SIGMM -Workshop auf Multimedia Information Abruf[18] ist für Studien von CBIR gewidmet.
  • Multimedia und Veröffentlichung - Die Konzeptsuche wird von den Multimedia- und Publishing -Branchen verwendet, um den Benutzern Zugang zu Nachrichten, technischen Informationen und Fachkenntnissen zu gewähren, die aus einer Vielzahl unstrukturierter Quellen stammen. Inhaltsbasierte Methoden zum Abrufen von Multimedia-Informationen (MIR) sind besonders wichtig geworden, wenn Textanmerkungen fehlen oder unvollständig sind.[16]
  • Digitale Bibliotheken und Archive - Bilder, Videos, Musik und Textelemente in digitalen Bibliotheken und digitalen Archiven werden für große Gruppen von Benutzern (insbesondere im Web) durch die Verwendung von Konzept -Suchtechniken zugänglich gemacht. Zum Beispiel der Executive Daily Brief (EDB), ein von Geschäftsinformationsüberwachung und Alarmierungsprodukt von entwickelt von EBSCO Publishing, verwendet Concept -Suchtechnologie, um den Endbenutzern von Unternehmen den Zugriff auf eine digitale Bibliothek mit einer Vielzahl von Geschäftsinhalten zu gewähren. In ähnlicher Weise die Musikgenomprojekt Pandora hervorgebracht, das das Konzept sucht, um spontan einzelne Musikbibliotheken oder spontan zu erstellen oder virtuell Radio Stationen.
  • Genominformation Abruf (GIR) - Genomic Information Retrieval (GIR) verwendet Konzeptsuche Techniken, die auf genomische Literaturdatenbanken angewendet werden, um die Unklarheiten der wissenschaftlichen Literatur zu überwinden.
  • Personalpersonal und Rekrutierung - Viele Personal- und Rekrutierungsorganisationen haben Konzept -Suchtechnologien eingesetzt, um hochrelevante Suchergebnisse zu erstellen, die genauere und relevantere Lebensläufe von Kandidaten liefern als locker verwandte Schlüsselwortergebnisse.

Effektive Suche

Die Wirksamkeit einer Konzeptsuche kann von einer Vielzahl von Elementen abhängen, einschließlich des durchsuchenden Datensatzes und der Suchmaschine, mit der Abfragen verarbeitet und Ergebnisse angezeigt werden. Die meisten Konzept -Suchmaschinen eignen sich jedoch am besten für bestimmte Arten von Abfragen:

  • Effektive Abfragen bestehen aus genügend Text, um die beabsichtigten Konzepte angemessen zu vermitteln. Effektive Abfragen können vollständige Sätze, Absätze oder sogar ganze Dokumente enthalten. Abfragen aus nur wenigen Wörtern sind nicht so wahrscheinlich die relevantesten Ergebnisse.
  • Effektive Abfragen enthalten keine Konzepte in eine Abfrage, die nicht Gegenstand der Suche sind. Das Einbeziehen zu vieler nicht verwandter Konzepte in eine Abfrage kann die Relevanz der Ergebniselemente negativ beeinflussen. Zum Beispiel suchen Sie nach Informationen zu Bootfahren am Mississippi River würde eher relevante Ergebnisse zurückgeben als eine Suche nach Bootfahren am Mississippi River an einem regnerischen Tag mitten im Sommer 1967.
  • Effektive Abfragen werden in einem Volltext, der natürliche Sprachstil ähnelt, ähnlich im Stil der durchsuchten Dokumente. Beispielsweise wäre die Verwendung von Abfragen aus Auszügen aus einem einführenden Wissenschaftslehrbuch nicht so effektiv für die Konzeptsuche, wenn der gesuchte Datensatz aus fortgeschrittenen wissenschaftlichen Texten auf Hochschulebene besteht. Wesentliche Abfragen, die die allgemeinen Konzepte, Stile und Sprache der Elemente, für die die Abfrage durchgeführt wird, besser darstellen, sind im Allgemeinen effektiver.

Wie bei allen Suchstrategien verfeinern erfahrene Suchende ihre Abfragen im Allgemeinen durch mehrere Suchanfragen, beginnend mit einer Initialen Samen Abfrage zur Erzielung konzeptionell relevanter Ergebnisse, mit denen dann zusätzliche Abfragen für immer relevantere Ergebnisse komponieren und/oder verfeinert werden können. Abhängig von der Suchmaschine kann die Verwendung von Abfragekonzepten, die in Ergebnisdokumenten gefunden wurden ähnlich finden Funktion. Das Ändern einer Abfrage durch Hinzufügen von Begriffen und Konzepten zur Verbesserung der Ergebnisrelevanz wird genannt Abfragebehandlung.[19] Die Verwendung von Ontologien wie WordNet wurde untersucht, um Abfragen mit konzeptionell bezogenen Wörtern zu erweitern.[20]

Relevanz -Feedback

Relevanz -Feedback ist eine Funktion, mit der Benutzer feststellen können, ob die für ihre Fragen zurückgegebenen Ergebnisse ihren Informationsanforderungen entsprechen. Mit anderen Worten, die Relevanz wird relativ zu einem Informationsbedarf, nicht zu einer Abfrage bewertet. Ein Dokument ist relevant, wenn es den angegebenen Informationen benötigt, nicht weil es einfach alle Wörter in der Abfrage enthält.[21] Dies ist eine Möglichkeit, Benutzer in den Abrufprozess einzubeziehen, um das Endergebnissatz zu verbessern.[21] Benutzer können ihre Abfragen basierend auf ihren ersten Ergebnissen verfeinern, um die Qualität ihrer Endergebnisse zu verbessern.

Im Allgemeinen bezieht sich die Relevanz der Konzeptsuche auf den Grad der Ähnlichkeit zwischen den in der Abfrage ausgedrückten Konzepten und den in den Ergebnissen enthaltenen Konzepten, die für die Abfrage zurückgegeben wurden. Je ähnlicher die Konzepte in den Ergebnissen der in der Abfrage enthaltenen Konzepte sind, desto relevanter werden die Ergebnisse als gelten. Die Ergebnisse werden normalerweise nach Relevanz eingestuft und sortiert, sodass die relevantesten Ergebnisse ganz oben auf der Liste der Ergebnisse stehen und die am wenigsten relevanten Ergebnisse unten in der Liste stehen.

Es wurde gezeigt, dass Relevanz -Feedback die Relevanz der Ergebnisse sehr effektiv verbessert.[21] Eine Konzeptsuche verringert das Risiko, wichtige Ergebnisse zu fehlen, da alle Elemente, die mit den Konzepten in der Abfrage zusammenhängen, zurückgegeben werden, unabhängig davon, ob sie dieselben Wörter enthalten oder nicht, die in der Abfrage verwendet werden.[15]

Rangfolge wird weiterhin Teil eines modernen Informationsabrufsystems sein. Die Probleme heterogener Daten, Skalierungen und nicht traditioneller Diskursarten, die sich im Text widerspiegeln, sowie die Tatsache, dass Suchmaschinen zunehmend integrierte Komponenten komplexer Informationsmanagementprozesse und nicht nur eigenständige Systeme benötigen, werden neue Arten erfordern von Systemreaktionen auf eine Abfrage. Zum Beispiel ist eines der Probleme mit Ranglisten, dass sie möglicherweise keine Beziehungen unter einigen der Ergebniselemente enthüllen.[22]

Richtlinien für die Bewertung einer Konzept -Suchmaschine

  1. Die Ergebniselemente sollten für die Informationsbedürfnisse relevant sein, die durch die in den Abfrageanweisungen enthaltenen Konzepte ausgedrückt werden, auch wenn sich die von den Ergebniselementen verwendete Terminologie von der in der Abfrage verwendeten Terminologie unterscheidet.
  2. Ergebniselemente sollten nach Relevanz sortiert und eingestuft werden.
  3. Relevante Ergebniselemente sollten schnell lokalisiert und angezeigt werden. Selbst komplexe Abfragen sollten relevante Ergebnisse ziemlich schnell zurückgeben.
  4. Abfragelänge sollte sein nicht fixiert, d.h. eine Abfrage kann so lang wie notwendig erachtet werden. Ein Satz, ein Absatz oder sogar ein ganzes Dokument kann als Abfrage eingereicht werden.
  5. Eine Konzeptabfrage sollte keine spezielle oder komplexe Syntax erfordern. Die in der Abfrage enthaltenen Konzepte können klar und prominent ausgedrückt werden, ohne besondere Regeln zu verwenden.
  6. Kombinierte Abfragen mit Konzepten, Schlüsselwörtern und Metadaten sollten zulässig sein.[23]
  7. Relevante Teile der Ergebniselemente sollten als Abfragetext verwendet werden, indem sie einfach das Element auswählen und der Suchmaschine zu sagen, dass ähnlich finden Artikel.
  8. Abfragebereite Indizes sollten relativ schnell erstellt werden.
  9. Die Suchmaschine sollte in der Lage sein, auszuführen Föderierte Suchanfragen. Mit der Federated Searching können Konzeptabfragen für die gleichzeitige Suche mehrerer Mehrfaches verwendet werden Datenquellen Informationen, die dann zusammengeführt, sortiert und in den Ergebnissen angezeigt werden.
  10. Eine Konzeptsuche sollte nicht von falsch geschriebenen Wörtern, typografischen Fehlern oder OCR -Scanfehlern im Abfragetext oder im Text des Abfrage betroffen sein Datensatz gesucht werden.

Konferenzen und Foren

Die formalisierte Suchmaschinenbewertung dauert seit vielen Jahren. Zum Beispiel die Textabnahmekonferenz (TREC) wurde 1992 gestartet, um die Forschung innerhalb der Informationsabrufgemeinschaft zu unterstützen, indem die für die großflächige Bewertung von Textabrufmethoden erforderliche Infrastruktur bereitgestellt wurde. Die meisten der heutigen kommerziellen Suchmaschinen umfassen Technologie, die erstmals in TREC entwickelt wurden.[24]

1997 wurde ein japanisches Gegenstück von TREC mit dem Namen National Institute of Informatics Test Collection for IR Systems (NTCIR) gestartet. NTCIR führt eine Reihe von Evaluierungsworkshops für die Forschung zum Abrufen von Informationen, Fragen zur Beantwortung von Fragen durch, Automatische Zusammenfassungusw. Eine europäische Reihe von Workshops namens Cross-Language Evaluation Forum (CLEF) wurde 2001 gestartet, um die Forschung beim mehrsprachigen Informationszugriff zu unterstützen. Im Jahr 2002 wurde die Initiative zur Bewertung des XML-Retrievals (Unerly) zur Bewertung von inhaltsorientiertem Inhaltsorientierter festgelegt XML -Abruf Systeme.

Präzision und Rückruf waren zwei der traditionellen Leistungsmaßnahmen für die Bewertung von Informationsabrufsystemen. Präzision ist der Anteil der abgerufenen Ergebnisdokumente, die für den Informationsbedarf des Benutzers relevant sind. Der Rückruf ist definiert als der Bruchteil der relevanten Dokumente in der gesamten Sammlung, die als Ergebnisdokumente zurückgegeben werden.[21]

Obwohl die Workshops und öffentlich verfügbaren Testsammlungen, die für Suchmaschinentests und Bewertung verwendet wurden Jetzt, da so viele Informationen verfügbar sind.[22] Wissenschaftliche Daten darüber, wie Menschen die heute verfügbaren Informationstools verwenden, sind noch unvollständig, da experimentelle Forschungsmethoden nicht in der Lage waren, mit dem schnellen Veränderungstempo Schritt zu halten. Viele Herausforderungen wie kontextualisierte Suche, Personalinformationsmanagement, Informationsintegration und Aufgabenunterstützung müssen noch angesprochen werden.[22]

Siehe auch

Verweise

  1. ^ Bradford, R. B., Word Sense Disambiguation, Content Analyst Company, LLC, US -Patent 7415462, 2008.
  2. ^ R. Navigli, Disambiguation von Wort Sinn: Eine Umfrage, ACM Computing Surveys, 41 (2), 2009.
  3. ^ Greengrass, E., Information Abruf: A Survey, 2000.
  4. ^ Dubois, C., Die Verwendung von Thesauri im Online-Abruf, Journal of Information Science, 8 (2), 1984 März, S. 63-66.
  5. ^ Miller, G., Sonderausgabe, WordNet: Eine online-lexikalische Datenbank, Intl. Journal of Lexicography, 3 (4), 1990.
  6. ^ Fausto Giunchiglia, Uladzimir Kharkevich und Ilya ZaiHrayeu. Konzeptsuche Archiviert 2014-02-10 im Wayback -Maschine, In Proceedings of European Semantic Web Conference, 2009.
  7. ^ a b c d Bradford, R. B., warum LSI? Latente semantische Indexierung und Informationsabruf, Weißbuch, Content Analyst Company, LLC, 2008.
  8. ^ Landauer, T. und Dumais, S.,, Eine Lösung für Platons Problem: Die latente semantische Analysetheorie des Erwerbs, Induktion und Repräsentation von Wissen, Psychological Review, 1997, 104 (2), S. 211-240.
  9. ^ Skilicorn, D.,, Verständnis komplexer Datensätze: Data Mining mit Matrix -Zerlegungen, CRC Publishing, 2007.
  10. ^ Honkela, T., Hyvarinen, A. und Vayrynen, J. Wordica - Entstehung sprachlicher Darstellungen für Wörter durch unabhängige Komponentenanalyse. Natural Language Engineering, 16 (3): 277-308, 2010
  11. ^ Řehůřek, Radim (2011). "Skalierbarkeit der semantischen Analyse in der Verarbeitung natürlicher Sprache" (PDF). Abgerufen 27. Januar 2015.
  12. ^ Gensim Quelloffene Software
  13. ^ Dumais, S., Latent Semantic Analysis, Arist Review of Information Science and Technology, Vol. 38, Kapitel 4, 2004.
  14. ^ Richter John M. Facciola des US -Bezirksgerichts für den Distrikt Washington, DC Disability Rights Council gegen Washington Metropolitan Transit Authority, 242 FRD 139 (D. D. C. 2007), unter Berufung auf George L. Paul & Jason R. Baron, "Information Inflation Inflation : Kann sich das Rechtssystem anpassen? " 13 reich. J. L. & Tech. 10 (2007).
  15. ^ a b c Laplanche, R., Delgado, J., Turck, M., Concept -Suchtechnologie geht über Keywords hinaus, Information Outlook, Juli 2004.
  16. ^ a b Lew, M. S., Sebe, N., Djeraba, C., Jain, R., Inhaltsbasierte Multimedia-Information Abruf: Stand der Kunst und Herausforderungen, ACM -Transaktionen zu Multimedia Computing, Kommunikation und Anwendungen, Februar 2006.
  17. ^ Datta R., Joshi, D., Li J., Wang, J. Z.,, Bildabruf: Ideen, Einflüsse und Trends des neuen Zeitalters, ACM Computing Surveys, Vol. 40, Nr. 2, April 2008.
  18. ^ "Archivierte Kopie". www.liacs.nl. Archiviert von das Original am 7. März 2014. Abgerufen 12. Januar 2022.{{}}: CS1 Wartung: Archiviertes Kopie als Titel (Link)
  19. ^ Robertson, S. E., Spärck Jones, K., Einfache, bewährte Ansätze zum Abrufen von Text, technischer Bericht, Computerlabor der Universität von Cambridge, Dezember 1994.
  20. ^ Navigli, R., Velardi, P. Eine Analyse von Ontologie-basierten Abfragenerweiterungsstrategien Archiviert 2012-04-26 bei der Wayback -Maschine. Proc. des Workshops zur adaptiven Textextraktion und zum Bergbau (Atem 2003), in dem 14. Europäische Konferenz über maschinelles Lernen (ECML 2003), Cavtat-Dubrovnik, Kroatien, 22. bis 26. September 2003, S. 42–49
  21. ^ a b c d Manning, C. D., Raghavan P., Schütze H., Einführung in den Informationsabruf, Cambridge University Press, 2008.
  22. ^ a b c Callan, J., Allan, J., Clarke, C. L. A., Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Treffen der Köpfe: Eine Forschungsagenda des Informationsabrufs, ACM, Sigir Forum, Vol. 41 Nr. 2, Dezember 2007.
  23. ^ Rehurek, R., ein kombiniertes System zur Vektor-Ähnlichkeitssuche basierend auf dem invertierten Volltextindex, Scaletext-Suchmaschine, bis zum US-Patent 15726803, 2017.
  24. ^ Croft, B., Metzler, D., Strohman, T., Suchmaschinen, Informationsabruf in der Praxis, Addison Wesley, 2009.

Externe Links