Latente semantische Analyse

Latente semantische Analyse (LSA) ist eine Technik in Verarbeitung natürlicher Sprache, im Speziellen Verteilungssemantikmit der Analyse von Beziehungen zwischen einer Reihe von Dokumenten und den Begriffen, die sie enthalten, indem sie eine Reihe von Konzepten im Zusammenhang mit den Dokumenten und Begriffen erstellen. LSA geht davon aus Verteilungshypothese). Eine Matrix, die Wortzählungen pro Dokument enthält (Zeilen repräsentieren eindeutige Wörter und Spalten jedes Dokument Einzelwertzerlegung (SVD) wird verwendet, um die Anzahl der Zeilen zu reduzieren und gleichzeitig die Ähnlichkeitsstruktur zwischen den Spalten zu erhalten. Dokumente werden dann verglichen, indem der Cosinus des Winkels zwischen den beiden Vektoren (oder dem Skalarprodukt zwischen den Normalisierungen der beiden Vektoren), die durch zwei Spalten gebildet wurden. Werte in der Nähe von 1 stellen sehr ähnliche Dokumente dar, während Werte nahe 0 sehr unterschiedliche Dokumente darstellen.[1]

Eine Informationsabruftechnik unter Verwendung einer latenten semantischen Struktur wurde 1988 patentiert (US -Patent 4.839.853, jetzt abgelaufen) von Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum und Lynn Streeter. Im Kontext seiner Anwendung auf Informationsrückgewinnung, es wird manchmal genannt Latente semantische Indexierung (Lsi).[2]

Überblick

Animation des Themenerkennungsprozesses in einer Dokumentwortmatrix. Jede Spalte entspricht einem Dokument, jede Zeile eines Wortes. Eine Zelle speichert die Gewichtung eines Wortes in einem Dokument (z. B. nach tf-idf), dunkle Zellen zeigen hohe Gewichte an. LSA gruppiert beide Dokumente, die ähnliche Wörter enthalten, sowie Wörter, die in einem ähnlichen Satz von Dokumenten auftreten. Die resultierenden Muster werden verwendet, um latente Komponenten zu erkennen.[3]

Vorkommensmatrix

LSA kann a verwenden Dokumentenmatrix das beschreibt das Vorkommen von Begriffen in Dokumenten; es ist ein spärliche Matrix deren Zeilen entsprechen Bedingungen und deren Spalten Dokumenten entsprechen. Ein typisches Beispiel für die Gewichtung der Elemente der Matrix ist tf-idf (Term Frequenz -inverses Dokumentfrequenz): Das Gewicht eines Elements der Matrix ist proportional zu der Häufigkeit, mit der die Begriffe in jedem Dokument angezeigt werden, wo seltene Begriffe hochgezogen werden, um ihre relative Bedeutung widerzuspiegeln.

Diese Matrix ist auch semantischen Standardmodellen üblich, obwohl sie nicht unbedingt explizit als Matrix ausgedrückt wird, da die mathematischen Eigenschaften von Matrizen nicht immer verwendet werden.

Rangabsenkung

Nach dem Bau der Vorkommensmatrix findet LSA a Niedrige Annäherung[4] zum Termdokumentmatrix. Für diese Annäherungen könnte es verschiedene Gründe geben:

  • Die ursprüngliche Term-Document-Matrix wird für die Rechenressourcen als zu groß angesehen. In diesem Fall wird die angenäherte Matrix mit niedrigem Rang als interpretiert als Annäherung (ein "am wenigsten und notwendiges Übel").
  • Die ursprüngliche Term-Document-Matrix wird vermutet laut: Zum Beispiel sind anekdotische Fälle von Begriffen zu beseitigen. Aus dieser Sicht wird die angenähte Matrix als interpretiert als de-noiSified Matrix (Eine bessere Matrix als das Original).
  • Die ursprüngliche Term-Dokumentmatrix wird übermäßig angenommen spärlich relativ zur "wahren" Term-Dokumentmatrix. Das heißt, die ursprüngliche Matrix listet nur die Wörter auf in Jedes Dokument, während wir uns an allen Wörtern interessieren könnten im Zusammenhang mit Jedes Dokument - im Allgemeinen ein viel größerer Satz aufgrund Synonymie.

Die Folge der Rangsenkung ist, dass einige Dimensionen kombiniert werden und von mehr als einem Begriff abhängen:

{(Auto), (LKW), (Blume)} -> {(1.3452 * Auto + 0,2828 * Truck), (Blume)}}}

Dies mildert das Problem der Identifizierung von Synonymie, da die Rangabsenkung die mit Begriffen verbundenen Dimensionen mit ähnlichen Bedeutungen zusammenführen soll. Es mildert auch teilweise das Problem mit PolysemieDa Komponenten polysemous Wörter, die in die "rechte" Richtung zeigen, zu den Komponenten von Wörtern hinzugefügt werden, die eine ähnliche Bedeutung haben. Umgekehrt neigen Komponenten, die in andere Richtungen zeigen, entweder einfach aus oder im schlimmsten Fall kleiner als Komponenten in den Richtungen, die dem beabsichtigten Sinn entsprechen.

Ableitung

Lassen Sei eine Matrix, wo Element beschreibt das Auftreten des Begriffs im Dokument (Dies kann beispielsweise die Frequenz sein). wird so aussehen:

Jetzt ist eine Zeile in dieser Matrix ein Vektor, der einem Begriff entspricht, der sich zu jedem Dokument in Beziehung setzt:

Ebenso ist eine Spalte in dieser Matrix ein Vektor, der einem Dokument entspricht, der ihre Beziehung zu jedem Begriff enthält:

Jetzt die Skalarprodukt Zwischen zwei Begriffsvektoren gibt die Korrelation zwischen den Begriffen über den Satz von Dokumenten. Das Matrixprodukt Enthält all diese Punktprodukte. Element (Das ist gleich Element ) Enthält das Punktprodukt (). Ebenso die Matrix Enthält die Punktprodukte zwischen allen Dokumentvektoren, die ihre Korrelation über die Begriffe geben: .

Nun, aus der Theorie der linearen Algebra gibt es eine Zersetzung von so dass und sind Orthogonale Matrizen und ist ein diagonale Matrix. Dies wird a genannt Einzelwertzerlegung (SVD):

Die Matrixprodukte, die uns den Begriff und die Dokumentkorrelationen geben, werden dann

Seit und sind diagonal wir sehen das muss die enthalten Eigenvektoren von , während Muss die Eigenvektoren von sein . Beide Produkte haben die gleichen Eigenwerte ungleich Null, die durch die Einträge ungleich Null angegeben werden oder gleichermaßen durch die ungleich Nulleinträge von . Jetzt sieht die Zersetzung so aus:

Die Werte werden die einzigartigen Werte und genannt, und und die linken und rechten Singularvektoren. Beachten Sie den einzigen Teil von das trägt zu ist der die Zeile. Lassen Sie diesen Zeilenvektor aufrufen . Ebenso der einzige Teil von das trägt zu ist der Säule, . Diese sind nicht die Eigenvektoren, aber abhängen an alle die Eigenvektoren.

Es stellt sich heraus, dass wenn Sie die auswählen größte singuläre Werte und ihre entsprechenden singulären Vektoren von und , du bekommst den Rang Annäherung an mit dem kleinsten Fehler (FROBENIUS NORM). Diese Näherung hat einen minimalen Fehler. Noch wichtiger ist jedoch, dass wir jetzt den Begriff behandeln und Vektoren als "semantischer Raum" dokumentieren können. Die Reihe "Begriff" Vektor dann hat Entries, es in eine niedrigerdimensionale Raumabmessungen zuzuordnen. Diese neuen Dimensionen beziehen sich nicht auf verständliche Konzepte. Sie sind eine niedrigerdimensionale Näherung des höherdimensionalen Raums. Ebenso der "Dokument" -Vektor ist eine Annäherung in diesem niedrigerdimensionalen Raum. Wir schreiben diese Näherung als

Sie können jetzt Folgendes tun:

  • Sehen Sie, wie verwandte Dokumente und sind im niedrigdimensionalen Raum durch Vergleich der Vektoren und (Normalerweise von Kosinusähnlichkeit).
  • Begriffe vergleichen und Durch Vergleich der Vektoren und . Beachten Sie, dass ist jetzt ein Spaltenvektor.
  • Dokumente und Term Vector-Darstellungen können mit herkömmlichen Clustering-Algorithmen wie K-Means unter Verwendung von Ähnlichkeitsmaßnahmen wie Cosinus geklustert werden.
  • Betrachten Sie dies als Mini-Dokument an und vergleichen Sie es mit Ihren Dokumenten im niedrigdimensionalen Raum.

Um zu tun, müssen Sie zuerst Ihre Abfrage in den niedrigdimensionalen Raum übersetzen. Es ist dann intuitiv, dass Sie dieselbe Transformation verwenden müssen, die Sie in Ihren Dokumenten verwenden:

Beachten Sie hier, dass die Umkehrung der diagonalen Matrix kann gefunden werden, indem jeder Wert ungleich Null innerhalb der Matrix invertiert wird.

Dies bedeutet, dass wenn Sie einen Abfragebericht haben Sie müssen die Übersetzung durchführen Bevor Sie es mit den Dokumentvektoren im niedrigdimensionalen Raum vergleichen. Sie können dasselbe für Pseudo -Begriff Vektoren tun:

Anwendungen

Der neue niedrigdimensionale Raum kann normalerweise verwendet werden, um:

  • Vergleichen Sie die Dokumente im niedrigdimensionalen Raum (Datenclustering, Dokumentklassifizierung).
  • Finden Sie ähnliche Dokumente über Sprachen hinweg, nachdem Sie einen Basissatz von übersetzten Dokumenten analysiert haben (Cross-Language Information Abruf).
  • Beziehungen zwischen Begriffen finden (Synonymie und Polysemie).
  • Übersetzen Sie es bei einer Abfrage der Begriffe in den niedrigdimensionalen Raum und finden Sie passende Dokumente (Informationsrückgewinnung).
  • Finden Sie die beste Ähnlichkeit zwischen kleinen Gruppen von Begriffen auf semantische Weise (d. H. In einem Kontext eines Wissenskorpus), wie zum Beispiel in Multi -Choice -Fragen MCQ Antwortmodell.[5]
  • Erweitern Sie den Merkmalsraum von maschinellem Lern- / Text -Mining -Systemen [6]
  • Analysieren Sie die Wortvereinigung im Textkorpus [7]

Synonymie und Polysemie sind grundlegende Probleme in Verarbeitung natürlicher Sprache:

  • Synonymie ist das Phänomen, bei dem verschiedene Wörter dieselbe Idee beschreiben. Somit kann eine Abfrage in einer Suchmaschine ein relevantes Dokument nicht abrufen, das nicht die Wörter enthält, die in der Abfrage erscheinen. Beispielsweise kann eine Suche nach "Ärzten" ein Dokument mit dem Wort nicht zurückgeben. "Ärzte", obwohl die Wörter die gleiche Bedeutung haben.
  • Polysemie ist das Phänomen, bei dem das gleiche Wort mehrere Bedeutungen hat. Eine Suche kann also irrelevante Dokumente abrufen, die die gewünschten Wörter in der falschen Bedeutung enthalten. Zum Beispiel wünschen sich ein Botaniker und ein Informatiker, der nach dem Wort "Baum" sucht, wahrscheinlich verschiedene Dokumente.

Kommerzielle Anwendungen

LSA wurde verwendet, um die Ausführung zu unterstützen vorherige Kunst Suche nach Patente.[8]

Anwendungen im menschlichen Gedächtnis

Die Verwendung einer latenten semantischen Analyse war in der Untersuchung des menschlichen Gedächtnisses weit verbreitet, insbesondere in Bereichen von freier Rückruf und Speichersuche. Es besteht eine positive Korrelation zwischen der semantischen Ähnlichkeit von zwei Wörtern (gemessen anhand von LSA) und der Wahrscheinlichkeit, dass die Wörter nacheinander in freien Rückrufaufgaben unter Verwendung von Studienlisten von zufälligen gemeinsamen Substantiven nacheinander zurückgerufen werden. Sie stellten auch fest, dass in diesen Situationen die Inter-Antwort-Zeit zwischen den ähnlichen Wörtern viel schneller war als zwischen unterschiedlichen Wörtern. Diese Ergebnisse werden als semantischer Proximity -Effekt bezeichnet.[9]

Als die Teilnehmer Fehler beim Rückruf untersuchten Gegenstände machten, waren diese Fehler tendenziell Artikel, die semantischer mit dem gewünschten Element verwandt waren und in einer zuvor untersuchten Liste gefunden wurden. Diese Vorlisten-Eindringungen, wie sie genannt wurden, scheinen mit Elementen auf der aktuellen Liste für den Rückruf zu konkurrieren.[10]

Ein weiteres Modell, das als Word Association Spaces (wurde) (wurde) bezeichnet, wird ebenfalls in Gedächtnisstudien verwendet, indem freie Assoziationsdaten aus einer Reihe von Experimenten gesammelt werden und die Messungen der Wortbeziehung für über 72.000 verschiedene Wortpaare enthält.[11]

Implementierung

Das SVD wird typischerweise mit großen Matrixmethoden berechnet (zum Beispiel, zum Beispiel, Lanczos -Methoden) kann aber auch schrittweise und mit stark reduzierten Ressourcen über a berechnet werden neurales Netzwerk-ähnlich, der nicht erforderlich ist, dass die große Vollrang-Matrix im Gedächtnis gehalten wird.[12] Ein schneller, inkrementeller SVD-Algorithmus mit großem Matrix wurde kürzlich entwickelt.[13] Matlab und Python Implementierungen dieser schnellen Algorithmen sind verfügbar. Im Gegensatz zu Gorrell und Webbs (2005) stochastischer Approximation bietet der Markenalgorithmus (2003) eine genaue Lösung. In den letzten Jahren wurden Fortschritte erzielt, um die rechnerische Komplexität von SVD zu verringern. Zum Beispiel ist durch Verwendung eines parallelen Arpackalgorithmus zur Durchführung einer parallele Eigenwert -Zersetzung möglich, die SVD -Berechnungskosten zu beschleunigen und gleichzeitig eine vergleichbare Vorhersagequalität bereitzustellen.[14]

Einschränkungen

Einige der Nachteile von LSA umfassen:

  • Die daraus resultierenden Dimensionen könnten schwer zu interpretieren sein. Zum Beispiel in
{(Auto), (LKW), (Blume)} ↦ {(1,3452 * Auto + 0,2828 * Truck), (Blume)}}}
Die (1,3452 * Auto + 0,2828 * LKW) -Komponente könnte als "Fahrzeug" interpretiert werden. Es ist jedoch sehr wahrscheinlich, dass Fälle in der Nähe
{(Auto), (Flasche), (Blume)} ↦ {(1,3452 * Auto + 0,2828 * Flasche), (Blume)}
wird passieren. Dies führt zu Ergebnissen, die auf mathematischer Ebene gerechtfertigt werden können, aber in der natürlichen Sprache keine unmittelbar offensichtliche Bedeutung haben. Die Komponente (1,3452 * Auto + 0,2828 * Flasche) könnte jedoch aufgrund der Tatsache gerechtfertigt sein, dass sowohl Flaschen als auch Autos transparente und undurchsichtige Teile haben, männlich gemacht und mit hoher Wahrscheinlichkeit Logos/Wörter auf ihrer Oberfläche enthalten; In vielerlei Hinsicht teilen diese beiden Konzepte "Semantik". Das heißt, innerhalb einer fraglichen Sprache gibt es möglicherweise kein leicht verfügbares Wort zum Zuweisen, und die Erklärung wird zu einer Analyseaufgabe im Gegensatz zu einfacher Aufgabe von Word/Class/Concept -Zuweisung.
  • LSA kann nur teilweise erfassen Polysemie (d. H. Mehrere Bedeutungen eines Wortes), weil jedes Auftreten eines Wortes als die gleiche Bedeutung behandelt wird, da das Wort als einzelner Punkt im Raum dargestellt wird. Zum Beispiel wird das Auftreten von "Stuhl" in einem Dokument, das "Vorsitzender des Verwaltungsrats" und in einem separaten Dokument mit "Der Vorsitzendemacher" enthält, als gleich angesehen. Das Verhalten führt dazu, dass die Vektorrepräsentation eine ist Durchschnitt Von allen unterschiedlichen Bedeutungen des Wortes im Korpus, was es für den Vergleich schwer machen kann.[15] Der Effekt wird jedoch oft aufgrund von Wörtern mit a verringert vorherrschender Sinn In einem Korpus (d. H. Nicht alle Bedeutungen sind gleich wahrscheinlich).
  • Einschränkungen von Tasche mit Wörtern Modell (Bogen), wo ein Text als ungeordnete Wörtersammlung dargestellt wird. Einen Teil der Einschränkung von ansprechen Tasche mit Wörtern Modell (VERNEIGUNG), Multi-Gram Wörterbuch kann verwendet werden, um sowohl direkte und indirekte Assoziation als auch zu finden Auftrag von oben Auftreten Unter den Begriffen.[16]
  • Das Probabilistisches Modell von LSA entspricht nicht beobachtete Daten: LSA geht davon aus, dass Wörter und Dokumente eine Verbindung bilden Gaußscher Modell (Ergodische Hypothese), während ein Poisson-Verteilung wurde beobachtet. Eine neuere Alternative ist also Probabilistische latente semantische Analysebasierend auf einem multinomial Das Modell, das berichtet wird, dass es bessere Ergebnisse liefert als Standard -LSA.[17]

Alternative Methoden

Semantisches Hashing

Im semantischen Hashing [18] Dokumente werden mit a auf Speicheradressen zugeordnet neurales Netzwerk so, dass sich semantisch ähnliche Dokumente in nahe gelegenen Adressen befinden. Tiefes neuronales Netzwerk im Wesentlichen baut a Grafisches Modell der Wortzählvektoren, die aus einem großen Satz von Dokumenten erhalten wurden. Dokumente, die einem Abfragendokument ähnlich sind, können dann einfach auf alle Adressen zugreifen, die nur wenige Bits von der Adresse des Abfragendokuments unterscheiden. Diese Art der Ausweitung der Effizienz des Hash-Coding auf ungefähre Übereinstimmung ist viel schneller als Lokalität sensibler Hashing, was die schnellste aktuelle Methode ist.[Klarstellung erforderlich]

Latente semantische Indexierung

Latente semantische Indexierung (Lsi) ist eine Indexierungs- und Abrufmethode, die eine mathematische Technik verwendet Einzelwertzerlegung (SVD), um Muster in den Beziehungen zwischen den zu identifizieren Bedingungen und Konzepte enthalten in einer unstrukturierten Textsammlung. LSI basiert auf dem Prinzip, dass Wörter, die in denselben Kontexten verwendet werden, tendenziell ähnliche Bedeutungen haben. Ein wesentliches Merkmal von LSI ist die Fähigkeit, den konzeptionellen Inhalt von a zu extrahieren Textkörper Durch die Festlegung von Assoziationen zwischen den Begriffen, die in ähnlicher Weise auftreten Kontexte.[19]

LSI ist auch eine Anwendung von Korrespondenzanalyse, eine multivariate statistische Technik, die von entwickelt wurde von Jean-Paul Benzécri[20] In den frühen 1970er Jahren zu a Kontingenztabelle aus Wortzählungen in Dokumenten erstellt.

Genannt "latente Semantik Indexierung "wegen seiner Fähigkeit zu korrelieren semantisch Verwandte Begriffe, die sind latent In einer Textsammlung wurde es zunächst auf Text bei angewendet Bellcore In den späten 1980er Jahren. Die Methode, auch Latent Semantic Analysis (LSA) genannt als Konzeptsuche. Abfragen oder Konzeptensuche gegen eine Reihe von Dokumenten, die LSI unterzogen wurden, gibt die Ergebnisse zurück, die in Bezug auf die Suchkriterien konzeptionell ähnlich sind, auch wenn die Ergebnisse kein bestimmtes Wort oder Wörter mit den Suchkriterien teilen.

Vorteile von LSI

LSI hilft, Synonymie zu überwinden, indem er zunimmt abrufen, eine der problematischsten Einschränkungen von Boolesche Keyword -Abfragen und Vektorraummodelle.[15] Synonymie ist häufig die Ursache für Fehlanpassungen im Vokabular, das von den Autoren von Dokumenten und den Benutzern von verwendet wird Informationsrückgewinnung Systeme.[21] Infolgedessen geben Boolesche oder Keyword -Abfragen häufig irrelevante Ergebnisse zurück und verpassen Informationen, die relevant sind.

LSI wird auch zur automatisierten Durchführung verwendet Dokumentenkategorisierung. Tatsächlich haben mehrere Experimente gezeigt, dass es eine Reihe von Korrelationen zwischen der Art und Weise gibt, wie LSI und Menschen Text verarbeiten und kategorisieren.[22] Die Kategorisierung von Dokumenten ist die Zuordnung von Dokumenten zu einer oder mehreren vordefinierten Kategorien, die auf ihrer Ähnlichkeit mit dem konzeptionellen Inhalt der Kategorien basieren.[23] LSI verwendet Beispiel Dokumente, um die konzeptionelle Grundlage für jede Kategorie festzulegen. Während der Kategorisierungsverarbeitung werden die Konzepte, die in den zu kategorisierten Dokumenten enthalten sind In den Beispieldokumenten.

Dynamisches Clustering basierend auf dem konzeptionellen Inhalt von Dokumenten kann auch mit LSI erreicht werden. Clustering ist eine Möglichkeit, Dokumente zu gruppieren, die auf ihrer konzeptionellen Ähnlichkeit miteinander basieren, ohne Beispieldokumente zu verwenden, um die konzeptionelle Grundlage für jeden Cluster zu ermitteln. Dies ist sehr nützlich, wenn es sich um eine unbekannte Sammlung unstrukturierter Text handelt.

Da es einen streng mathematischen Ansatz verwendet, ist LSI von Natur aus unabhängig von der Sprache. Dies ermöglicht LSI, den semantischen Inhalt von Informationen in einer Sprache zu ermitteln, ohne die Verwendung von Hilfsstrukturen wie Wörterbüchern und Thesauri zu verwenden. LSI kann auch kreuzklinisch durchführen Konzeptsuche und Beispielbasierte Kategorisierung. Beispielsweise können Abfragen in einer Sprache wie Englisch durchgeführt werden, und konzeptionell ähnliche Ergebnisse werden zurückgegeben, selbst wenn sie aus einer völlig anderen Sprache oder mehreren Sprachen bestehen.

LSI ist nicht darauf beschränkt, nur mit Worten zu arbeiten. Es kann auch willkürliche Zeichenketten verarbeiten. Jedes Objekt, das als Text ausgedrückt werden kann, kann in einem LSI -Vektorraum dargestellt werden. Beispielsweise haben Tests mit Medline -Abstracts gezeigt, dass LSI Gene effektiv klassifizieren kann, basierend auf der konzeptionellen Modellierung der in den Titeln und Abstracts der Medline -Zitate enthaltenen biologischen Informationen.[24]

LSI passt automatisch an neue und sich ändernde Terminologie an und hat sich als sehr tolerant gegenüber Rauschen (d. H. Wörter, typografische Fehler, unlesbare Zeichen usw.) erwiesen.[25] Dies ist besonders wichtig für Anwendungen, die von Text aus der optischen Charaktererkennung (OCR) und Sprach-Text-Konvertierung abgeleitet wurden. LSI befasst sich auch effektiv mit spärlichen, mehrdeutigen und widersprüchlichen Daten.

Der Text muss nicht in Satzform sein, damit LSI wirksam ist. Es kann mit Listen, Freiform-Notizen, E-Mails, webbasiertem Inhalt usw. funktionieren. Solange eine Sammlung von Text mehrere Begriffe enthält, kann LSI verwendet werden, um Muster in den Beziehungen zwischen den wichtigen Begriffen und Konzepten zu identifizieren, die in der enthalten sind Text.

LSI hat sich als nützliche Lösung für eine Reihe von konzeptionellen Übereinstimmungen erwiesen.[26][27] Es wurde gezeigt, dass die Technik wichtige Beziehungsinformationen erfasst, einschließlich kausaler, zielorientierter und taxonomischer Informationen.[28]

LSI -Zeitleiste

  • Mitte der 1960er Jahre - Faktoranalyse -Technik, die erstmals beschrieben und getestet wurde (H. Borko und M. Bernick)
  • 1988 - Samenpapier über die LSI -Technik veröffentlicht [19]
  • 1989 - Originalpatent gewährt [19]
  • 1992 - Erste Verwendung von LSI, um den Rezensenten Artikel zuzuweisen[29]
  • 1994 -Patent für die Kreuzungsanwendung von LSI (Landauer et al.) Gewährt
  • 1995 - Erste Verwendung von LSI zur Bewertung von Aufsätzen (Foltz et al., Landauer et al.)
  • 1999 - Erste Implementierung der LSI -Technologie für Intelligence Community zur Analyse unstrukturierter Text (SAIC).
  • 2002 -LSI-basiertes Produktangebot für intelligente Regierungsbehörden (SAIC)

Mathematik von LSI

LSI verwendet gemeinsame lineare Algebra -Techniken, um die konzeptionellen Korrelationen in einer Textsammlung zu lernen. Im Allgemeinen beinhaltet der Prozess die Konstruktion einer gewichteten Term-Dokumentmatrix, die a Einzelwertzerlegung Auf der Matrix und Verwendung der Matrix, um die im Text enthaltenen Konzepte zu identifizieren.

Termdokumentmatrix

LSI beginnt mit dem Bau einer Term-Document-Matrix, , um das Ereignis der Ereignisse zu identifizieren Einzigartige Begriffe innerhalb einer Sammlung von Unterlagen. In einer Term-Document-Matrix wird jeder Begriff durch eine Zeile dargestellt, und jedes Dokument wird durch eine Spalte mit jeder Matrixzelle dargestellt. zunächst die Häufigkeit, mit der der zugehörige Term im angegebenen Dokument angezeigt wird, dargestellt. . Diese Matrix ist normalerweise sehr groß und sehr spärlich.

Sobald eine Term-Document-Matrix konstruiert ist, können lokale und globale Gewichtungsfunktionen darauf angewendet werden, um die Daten zu konditionieren. Die Gewichtungsfunktionen transformieren jede Zelle, von , um das Produkt eines lokalen Begriffs Gewicht zu sein, , was die relative Häufigkeit eines Begriffs in einem Dokument und eines globalen Gewichts beschreibt. , die die relative Häufigkeit des Begriffs innerhalb der gesamten Sammlung von Dokumenten beschreibt.

Einige häufige lokale Gewichtungsfunktionen[30] werden in der folgenden Tabelle definiert.

Binär Wenn der Begriff im Dokument oder sonst vorhanden ist, oder sonst
TermFrequenz , die Anzahl der Vorkommen des Terms im Dokument
Protokoll
Augnorm

Einige häufige globale Gewichtungsfunktionen sind in der folgenden Tabelle definiert.

Binär
Normal
Gfidf , wo ist die Gesamtzahl der Laufzeit tritt in der gesamten Sammlung auf und kommt ist die Anzahl der Dokumente, in welcher Begriff tritt ein.
IDF (inverse Dokumentfrequenz)
Entropie , wo

Empirische Studien mit LSI berichten, dass die Gewichtungsfunktionen der Protokoll- und Entropie in der Praxis gut funktionieren, mit vielen Datensätzen.[31] Mit anderen Worten, jeder Eintrag von wird berechnet als:

Rangreduzierte Singularwertabbauung

Ein Rangreduzierter, Einzelwertzerlegung wird auf der Matrix durchgeführt, um Muster in den Beziehungen zwischen den im Text enthaltenen Begriffen und Konzepten zu bestimmen. Die SVD bildet die Grundlage für LSI.[32] Es berechnet den Begriff und die Dokumentvektorräume, indem die einzelnen Termfrequenzmatrix angenähert wird. , in drei andere Matrizen - und m durch r Term-Konzept-Vektormatrix , ein r durch r Singularwerte Matrix , und ein n durch r Concept-Dokument-Vektormatrix, , die die folgenden Beziehungen erfüllen:

In der Formel, A ist der gelieferte m durch n gewichtete Matrix der Termfrequenzen in einer Textsammlung, wo m ist die Anzahl der eindeutigen Begriffe und n ist die Anzahl der Dokumente. T ist ein berechnet m durch r Matrix der Begriffsvektoren wo r ist der Rang von A- Ein Maß für seine einzigartigen Dimensionen ≤ min (m, n). S ist ein berechnet r durch r diagonale Matrix abnehmender einzigartiger Werte und D ist ein berechnet n durch r Matrix der Dokumentvektoren.

Die SVD ist dann gekürzt um den Rang zu reduzieren, indem nur die größten behalten k «r Diagonale Einträge in der Singular Value Matrix S, wo k ist normalerweise auf der Reihenfolge 100 bis 300 Dimensionen. Dies reduziert effektiv den Begriff und die Dokumentvektormatrixgrößen auf m durch k und n durch k beziehungsweise. Die SVD -Operation zusammen mit dieser Reduzierung hat den Einfluss, die wichtigsten semantischen Informationen im Text zu erhalten und gleich A. Dieser reduzierte Satz von Matrizen wird häufig mit einer modifizierten Formel bezeichnet, wie z. B.:

A ≈ ak = Tk Sk DkT

Effiziente LSI -Algorithmen berechnen nur den ersten k Singularwerte und Term- und Dokumentvektoren im Gegensatz zum Berechnen einer vollständigen SVD und dann abschneiden.

Beachten Sie, dass diese Rangreduzierung im Wesentlichen gleich ist wie Hauptkomponentenanalyse (PCA) auf der Matrix A, außer dass PCA die Mittel abnimmt. PCA verliert die Spärlichkeit der A Matrix, die es für große Lexikaner unmöglich machen kann.

Abfragen und Erweiterung von LSI -Vektorräumen

Das berechnete Tk und Dk Matrizen definieren den Begriff und die Dokumentvektorräume, die mit den berechneten Singularwerten, Skverkörpern die konzeptionellen Informationen, die aus der Dokumentsammlung abgeleitet wurden. Die Ähnlichkeit der Begriffe oder Dokumente in diesen Räumen ist ein Faktor dafür, wie nahe sie in diesen Räumen sind, typischerweise als Funktion des Winkels zwischen den entsprechenden Vektoren berechnet.

Dieselben Schritte werden verwendet, um die Vektoren zu lokalisieren, die den Text von Abfragen und neuen Dokumenten im Dokumentraum eines vorhandenen LSI -Index darstellen. Durch eine einfache Transformation der A = t s dT Gleichung in das Äquivalent D = aT T s–1 Gleichung, ein neuer Vektor, dFür eine Abfrage oder für ein neues Dokument kann durch Berechnung einer neuen Spalte in erstellt werden A und dann die neue Spalte mit multiplizieren T s–1. Die neue Spalte in A wird unter Verwendung der ursprünglich abgeleiteten globalen Termgewichte berechnet und die gleiche lokale Gewichtungsfunktion auf die Begriffe in der Abfrage oder im neuen Dokument angewendet.

Ein Nachteil beim Berechnen von Vektoren auf diese Weise, wenn neue durchsuchbare Dokumente hinzugefügt werden, sind die Begriffe, die während der SVD -Phase für den ursprünglichen Index nicht bekannt waren, ignoriert. Diese Begriffe werden keinen Einfluss auf die globalen Gewichte und erlernten Korrelationen haben, die aus der ursprünglichen Textsammlung abgeleitet werden. Die berechneten Vektoren für den neuen Text sind jedoch für Ähnlichkeitsvergleiche mit allen anderen Dokumentvektoren immer noch sehr relevant.

Der Prozess der Erweiterung der Dokumentvektorräume für einen LSI -Index mit neuen Dokumenten auf diese Weise wird genannt Einklappung. Obwohl der Zusammenfassungsprozess den neuen semantischen Inhalt des neuen Textes nicht berücksichtigt, liefert das Hinzufügen einer beträchtlichen Anzahl von Dokumenten auf diese Weise weiterhin gute Ergebnisse für Abfragen, solange die von ihnen enthaltenen Begriffe und Konzepte innerhalb des LSI gut dargestellt sind Index, zu dem sie hinzugefügt werden. Wenn die Begriffe und Konzepte eines neuen Satzes von Dokumenten in einen LSI-Index enthalten sein müssen, müssen entweder die Term-Document-Matrix und die SVD neu berechnet werden oder eine inkrementelle Aktualisierungsmethode (wie die in beschriebene in beschrieben [13]) wird gebraucht.

Zusätzliche Verwendungen von LSI

Es wird allgemein anerkannt, dass die Fähigkeit, semantisch mit Text zu arbeiten, für moderne Informationsabrufsysteme von wesentlicher Bedeutung ist. Infolgedessen hat sich die Verwendung von LSI in den letzten Jahren erheblich erweitert, da frühere Herausforderungen bei Skalierbarkeit und Leistung überwunden wurden.

LSI wird in einer Vielzahl von Informationsabruf- und Textverarbeitungsanwendungen verwendet, obwohl seine primäre Anwendung für die Konzeptsuche und die automatisierte Dokumentenkategorisierung bestimmt wurde.[33] Im Folgenden finden Sie einige andere Möglichkeiten, wie LSI verwendet wird:

  • Informationsentdeckung[34] (Ediscovery, Regierungs-/Geheimdienstgemeinschaft, Veröffentlichung)
  • Automatisierte Dokumentklassifizierung (Ediscovery, Regierungs-/Geheimdienstgemeinschaft, Veröffentlichung)[35]
  • Textübersicht[36] (Ediscovery, Veröffentlichung)
  • Beziehungsentdeckung[37] (Regierung, Geheimdienstgemeinschaft, soziale Netzwerke)
  • Automatische Generierung von Link -Diagrammen von Einzelpersonen und Organisationen[38] (Regierung, Geheimdienstgemeinschaft)
  • Übereinstimmende technische Papiere und Zuschüsse mit Rezensenten[39] (Regierung)
  • Online -Kundensupport[40] (Kundenmanagement)
  • Bestimmung der Urheberschaft von Dokumenten[41] (Ausbildung)
  • Automatische Keyword -Annotation von Bildern[42]
  • Software -Quellcode verstehen[43] (Softwareentwicklung)
  • Filterung Spam[44] (Systemadministration)
  • Informationsvisualisierung[45]
  • Aufsatz Tor[46] (Ausbildung)
  • Literaturbasierte Entdeckung[47]
  • Vorhersage der Aktienrenditen[6]
  • Trauminhaltsanalyse (Psychologie) [7]

LSI wird zunehmend für die Entdeckung des elektronischen Dokuments (EDIScovery) verwendet, um Unternehmen bei der Vorbereitung auf Rechtsstreitigkeiten zu unterstützen. In der Ediscovery ist die Fähigkeit, große Sammlungen unstrukturierter Text auf konzeptioneller Basis zu kategorisieren, zu kategorisieren und zu durchsuchen. Die konzeptbasierte Suche mit LSI wurde bereits 2003 auf den EDIScovery-Prozess angewendet.[48]

Herausforderungen an LSI

Frühe Herausforderungen für LSI konzentrierten sich auf Skalierbarkeit und Leistung. LSI erfordert relativ hohe Rechenleistung und Speicher im Vergleich zu anderen Informationsabruftechniken.[49] Mit der Implementierung moderner Hochgeschwindigkeitsprozessoren und der Verfügbarkeit des kostengünstigen Gedächtnisses wurden diese Überlegungen jedoch weitgehend überwunden. In einigen LSI-Anwendungen sind reale Anwendungen mit mehr als 30 Millionen Dokumenten, die vollständig über die Matrix- und SVD-Berechnungen verarbeitet wurden. Eine vollständig skalierbare (unbegrenzte Anzahl von Dokumenten, Online -Schulungen) Implementierung von LSI ist in der Open Source enthalten Gensim Softwarepaket.[50]

Eine weitere Herausforderung für LSI war die angebliche Schwierigkeit, die optimale Anzahl von Dimensionen für die Durchführung der SVD zu bestimmen. In der Regel ermöglichen weniger Dimensionen breitere Vergleiche der Konzepte, die in einer Textsammlung enthalten sind, während eine höhere Anzahl von Dimensionen spezifischere (oder relevantere) Vergleiche von Konzepten ermöglicht. Die tatsächliche Anzahl von Dimensionen, die verwendet werden können, ist durch die Anzahl der Dokumente in der Sammlung begrenzt. Untersuchungen haben gezeigt, dass rund 300 Dimensionen normalerweise die besten Ergebnisse mit mittelgroßen Dokumentsammlungen (Hunderttausende von Dokumenten) und möglicherweise 400 Dimensionen für größere Dokumentsammlungen (Millionen von Dokumenten) liefern.[51] Jüngste Studien zeigen jedoch, dass 50-1000 Dimensionen je nach Größe und Art der Dokumentsammlung geeignet sind.[52] Überprüfen Sie den Anteil der beibehaltenen Varianz, ähnlich wie PCA oder Faktorenanalyse, um die optimale Dimensionalität zu bestimmen, ist für LSI nicht geeignet. Unter Verwendung eines Synonym -Tests oder Vorhersage fehlender Wörter sind zwei mögliche Methoden, um die korrekte Dimensionalität zu finden.[53] Wenn LSI -Themen als Merkmale in beaufsichtigten Lernmethoden verwendet werden, kann man Vorhersagefehlermessungen verwenden, um die ideale Dimensionalität zu finden.

Siehe auch

Verweise

  1. ^ Susan T. Dumais (2005). "Latente semantische Analyse". Jährliche Überprüfung der Informationswissenschaft und -technologie. 38: 188–230. doi:10.1002/aris.1440380105.
  2. ^ "Die Latent Semantic Indexing Homepage".
  3. ^ http://topicmodels.west.uni-kobenz.de/ckling/tmt/svd_ap.html
  4. ^ Markovsky I. (2012) Annäherung an niedrige Rang: Algorithmen, Implementierung, Anwendungen, Springer, 2012, ISBN978-1-4471-2226-5[Seite benötigt]
  5. ^ Alain Lifschitz; Sandra Jhean-Larose; Guy Denhière (2009). "Auswirkung von abgestimmten Parametern auf ein LSA -Multiple -Choice -Fragen zum Beantworten des Modells" Modell " (PDF). Verhaltensforschungsmethoden. 41 (4): 1201–1209. Arxiv:0811.0146. doi:10.3758/brm.41.4.1201. PMID 19897829. S2CID 480826.
  6. ^ a b Ramiro H. Gálvez; Agustín Gravano (2017). "Bewertung der Nützlichkeit des Online -Message Board -Mining in automatischen Vorhersagesystemen". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  7. ^ a b Altszyler, e.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "Die Interpretation der Traumbedeutung: Lösung von Mehrdeutigkeiten unter Verwendung einer latenten semantischen Analyse in einem kleinen Textkorpus". Bewusstsein und Erkenntnis. 56: 178–187. Arxiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
  8. ^ Gerry J. Elman (Oktober 2007). "Automatisierte Patentprüfungsunterstützung - Ein Vorschlag". Biotechnologie -Rechtsbericht. 26 (5): 435–436. doi:10.1089/Blr.2007.9896.
  9. ^ Marc W. Howard; Michael J. Kahana (1999). "Kontextvariabilität und serielle Positionseffekte im freien Rückruf" (PDF). {{}}: Journal zitieren erfordert |journal= (Hilfe)
  10. ^ Franklin M. Zaromb; et al. (2006). Zeitliche Assoziationen und Vorlagenintrusionen im freien Rückruf (PDF). Interspeech'2005.
  11. ^ Nelson, Douglas. "Die Normen der University of South Florida Word, Rhyme und Wort Fragment". Abgerufen 8. Mai, 2011.
  12. ^ Geneviève Gorrell; Brandyn Webb (2005). "Generalisierter hebbischer Algorithmus für eine latente semantische Analyse" (PDF). Interspeech'2005. Archiviert von das Original (PDF) am 2008-12-21.
  13. ^ a b Matthew Brand (2006). "Schnelle Modifikationen mit niedrigem Rang der dünnen singulären Wertzerlegung" (PDF). Lineare Algebra und ihre Anwendungen. 415: 20–30. doi:10.1016/j.laa.2005.07.021.
  14. ^ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). Eine parallele Implementierung der Singularwertabteilung basierend auf Map-Reduce und Parpack. Proceedings of 2011 Internationaler Konferenz über Informatik und Netzwerktechnologie. S. 739–741. doi:10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID 15281129.
  15. ^ a b Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexierung durch latente semantische Analyse". Zeitschrift der American Society for Information Science. 41 (6): 391–407. Citeseerx 10.1.1.108.8490. doi:10.1002/(SICI) 1097-4571 (199009) 41: 6 <391 :: Aid-Asi1> 3.0.co; 2-9.
  16. ^ Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27. November 2014). "Empirische Studie unter Verwendung des Netzwerks semantisch verwandter Assoziationen bei der Überbrückung der Wissenslücke". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. PMC 4252998. PMID 25428570.
  17. ^ Thomas Hofmann (1999). "Probabilistische latente semantische Analyse". Unsicherheit in der künstlichen Intelligenz. Arxiv:1301.6705.
  18. ^ Salakhutdinov, Ruslan und Geoffrey Hinton. "Semantisches Hashing." RBM 500,3 (2007): 500.
  19. ^ a b c S. Deerwester et al.
  20. ^ Benzécri, J.-P. (1973). L'Alalyze des Données. Band II. L'Alalyze des Korrespondenzen. Paris, Frankreich: Dunod.
  21. ^ Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "Das Wortschatzproblem in der Kommunikation des Menschensystems". Kommunikation der ACM. 30 (11): 964–971. Citeseerx 10.1.1.118.4768. doi:10.1145/32206.32212. S2CID 3002280.
  22. ^ Landauer, T., et al.,, Lernen von menschlichem Wissen durch Singular Value Decomposition: Ein Fortschrittsbericht, M. I. Jordan, M. J. Kearns & S. A. Solla (Hrsg.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, S. 45–51.
  23. ^ Dumais, S.; Platt, J.; Heckerman, D.; Sahhami, M. (1998). "Induktive Lernalgorithmen und Darstellungen für die Kategorisierung von Text" (PDF). Proceedings der siebten Internationalen Konferenz über Informations- und Wissensmanagement - CIKM '98. pp.148. Citeseerx 10.1.1.80.8909. doi:10.1145/288627.288651. ISBN 978-1581130614. S2CID 617436.
  24. ^ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "Genclustering durch latente semantische Indexierung von Medline -Abstracts". Bioinformatik. 21 (1): 104–115. doi:10.1093/bioinformatics/bth464. PMID 15308538.
  25. ^ Price, R. J.; Zukas, A. E. (2005). "Anwendung der latenten semantischen Indexierung auf die Verarbeitung von lautem Text". Intelligenz- und Sicherheitsinformatik. Vorlesungsnotizen in Informatik. Vol. 3495. p. 602. doi:10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. ^ Ding, C., Ein mit Ähnlichkeit basierendes Wahrscheinlichkeitsmodell für die latente semantische Indexierung, Proceedings der 22. Internationalen ACM Sigir -Konferenz für Forschung und Entwicklung in Information Abruf, 1999, S. 59–65.
  27. ^ B. Bartell, G. Cottrell und R. Belew, R., Latente semantische Indexierung ist ein optimaler Sonderfall einer mehrdimensionalen Skalierung[Dead Link], Proceedings, ACM SIGIR -Konferenz über Forschung und Entwicklung im Informationsabruf, 1992, S. 161–167.
  28. ^ Graesser, a.; Karnavat, A. (2000). "Latente semantische Analyse erfasst kausale, zielorientierte und taxonomische Strukturen". Proceedings of Cogsci 2000: 184–189. Citeseerx 10.1.1.23.5444.
  29. ^ Dumais, S.; Nielsen, J. (1992). Automatisierung der Zuordnung von eingereichten Manuskripten an die Rezensenten. Proceedings der fünfzehnten jährlichen internationalen Konferenz für Forschung und Entwicklung im Informationsabruf. S. 233–244. Citeseerx 10.1.1.16.9793. doi:10.1145/133160.133205. ISBN 978-0897915236. S2CID 15038631.
  30. ^ Berry, M. W. und Browne, M., Search Engines verstehen: Mathematische Modellierung und Textabnahme, Gesellschaft für industrielle und angewandte Mathematik, Philadelphia, (2005).
  31. ^ Landauer, T., et al., Handbuch der latenten semantischen Analyse, Lawrence Erlbaum Associates, 2007.
  32. ^ Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W.,, Verwenden linearer Algebra für intelligente Informationsabrufe, Dezember 1994, Siam Review 37: 4 (1995), S. 573–595.
  33. ^ Dumais, S., Latent Semantic Analysis, Arist Review of Information Science and Technology, Vol. 38, 2004, Kapitel 4.
  34. ^ Best Practices Kommentar zur Verwendung von Such- und Informationsabrufmethoden in E-Discovery, The Sedona Conference, 2007, S. 189–223.
  35. ^ Foltz, P. W. und Dumais, S. T. Personalisierte Informationsbereitstellung: Eine Analyse von Informationsfiltermethoden, Kommunikation der ACM, 1992, 34 (12), 51-60.
  36. ^ Gong, Y. und Liu, X.,, Erstellen generischer Textzusammenfassungen, Proceedings, Sechste internationale Konferenz über Dokumentanalyse und Anerkennung, 2001, S. 903–907.
  37. ^ Bradford, R.,, Effiziente Entdeckung neuer Informationen in großen Textdatenbanken, Proceedings, IEEE International Conference über Intelligenz- und Sicherheitsinformatik, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, S. 374–380.
  38. ^ Bradford, R. B. (2006). "Anwendung der latenten semantischen Indexierung bei der Generierung von Grafiken terroristischer Netzwerke". Intelligenz- und Sicherheitsinformatik. Vorlesungsnotizen in Informatik. Vol. 3975. S. 674–675. doi:10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. ^ Yarowsky, D. und Florian, R.,, Nehmen Sie die Ladung von den Konferenzstühlen ab: Auf dem Weg zu einem digitalen Papier-Routing-Assistenten, Proceedings der Joint Sigdat-Konferenz von 1999 zu empirischen Methoden in NLP und sehr großer Corpora, 1999, S. 220–230.
  40. ^ Caron, J., Anwendung von LSA auf Online -Kundenunterstützung: Eine Teststudie, unveröffentlichte Masterarbeit, Mai 2000.
  41. ^ Soboroff, I., et al., Visualisierung von Dokumentenautorship mit N-Gramm und latentem semantischer Indexierung, Workshop zu neuen Paradigmen in der Informationsvisualisierung und -manipulation, 1997, S. 43–48.
  42. ^ Monay, F. und Gatica-Perez, D.,, Auf Bildautomatikannotation mit latenten Raummodellen, Proceedings der 11. ACM International Conference on Multimedia, Berkeley, CA, 2003, S. 275–278.
  43. ^ Maletikum, J.; Marcus, A. (13. bis 15. November 2000). Verwendung der latenten semantischen Analyse zur Identifizierung von Ähnlichkeiten im Quellcode zur Unterstützung des Programmverständnisses. Verfahren der 12. IEEE Internationalen Konferenz über Tools mit künstlicher Intelligenz. Vancouver, British Columbia. S. 46–53. Citeseerx 10.1.1.36.6652. doi:10.1109/tai.2000.889845. ISBN 978-0-7695-0909-9. S2CID 10354564.
  44. ^ Gee, K., Verwenden der latenten semantischen Indexierung zum Filter von SpamIn: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, S. 460–464.
  45. ^ T. Landauer, D. Laham und M. Derr, M., Vom Absatz zu Grafik: Latente semantische Analyse zur Informationsvisualisierung, Proceedings der National Academy of Sciences, 101, 2004, S. 5214–5219.
  46. ^ Foltz, Peter W., Laham, Darrell und Landauer, Thomas K., Automatisierte Bewertung von Aufsätzen: Anwendungen für Bildungstechnologie, Proceedings of Edmedia, 1999.
  47. ^ Gordon, M. und Dumais, S.,, Verwendung der latenten semantischen Indexierung für die literaturbasierte Entdeckung, Journal der American Society for Information Science, 49 (8), 1998, S. 674–685.
  48. ^ Es muss einen besseren Weg zur Suche, 2008, White Paper, Fios, Inc.
  49. ^ Karypis, G., Han, E.,, Schneller überwachte Dimensionalitätsreduzierungsalgorithmus mit Anwendungen zur Dokumente der Kategorisierung und Abruf, Proceedings of CIKM-00, 9. ACM-Konferenz über Informations- und Wissensmanagement.
  50. ^ Radim řehůřek (2011). "Subspace Tracking für latente semantische Analyse". Fortschritte beim Abrufen von Informationen. Fortschritte beim Abrufen von Information - 33. Europäische Konferenz für IR -Forschung, ECIR 2011. Vorlesungsnotizen in Informatik. Vol. 6611. S. 289–300. doi:10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
  51. ^ Bradford, R.,, Eine empirische Untersuchung der erforderlichen Dimensionalität für groß angelegte latente semantische Indexierungsanwendungen, Proceedings der 17. ACM -Konferenz über Informations- und Wissensmanagement, Napa Valley, Kalifornien, USA, 2008, S. 153–162.
  52. ^ Landauer, Thomas K. und Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3 (11): 4356, 2008.
  53. ^ Landauer, T. K., Foltz, P. W. & Laham, D. (1998). Einführung in die latente semantische Analyse. Diskursprozesse, 25, 259-284

Weitere Lektüre

Externe Links

Artikel über LSA

Gespräche und Demonstrationen

Implementierungen

Aufgrund seiner Cross-Domain-Anwendungen in Informationsrückgewinnung, Verarbeitung natürlicher Sprache (NLP), Kognitionswissenschaft und ComputerlinguistikLSA wurde implementiert, um viele verschiedene Arten von Anwendungen zu unterstützen.

  • Sense Cluster, eine Informations-Abruf-orientierte Perl-Implementierung von LSA
  • S-Raum-Paket, eine rechnerische Linguistik und kognitive wissenschaftsorientierte Java-Implementierung von LSA
  • Semantische Vektoren Anwendet zufällige Projektion, LSA und reflektierende zufällige Indexierung zu Lucene Termdokumentmatrizen
  • Infomap -Projekt, eine NLP-orientierte C-Implementierung von LSA (abgelöst von SemanticVectors Project)
  • Text an Matrixgenerator, Eine Matlab-Toolbox zum Generieren von Term-Document-Matrizen aus Textsammlungen mit Unterstützung für LSA
  • Gensim Enthält eine Python -Implementierung von LSA für Matrizen, die größer als RAM sind.