Subjektindexierung

Subjektindexierung ist der Akt der Beschreibung oder klassifizieren a dokumentieren durch Indexbegriffe, Schlüsselwörter oder andere Symbole, um anzugeben, welche verschiedenen Dokumente sind um, um ihre zusammenzufassen Inhalt oder zu erhöhen Fundbarkeit. Mit anderen Worten, es geht darum, die zu identifizieren und zu beschreiben Thema von Dokumenten. Indizes werden getrennt auf drei verschiedenen Ebenen konstruiert: Begriffe in einem Dokument wie einem Buch; Objekte in einer Sammlung wie einer Bibliothek; und Dokumente (wie Bücher und Artikel) in einem Wissensbereich.

Die Indexierung des Subjekts wird in verwendet Informationsrückgewinnung vor allem zu schaffen Bibliographische Indizes Dokumente zu einem bestimmten Thema abrufen. Beispiele für akademische Indexierungsdienste sind Zentralblatt Math, Chemische Abstracts und PubMed. Die Indexbegriffe wurden größtenteils von Experten zugewiesen, aber auch die Schlüsselwörter des Autors sind häufig.

Der Indexierungsprozess beginnt mit jeder Analyse des Themas des Dokuments. Der Indexer muss dann Begriffe identifizieren, die das Subjekt entweder durch direktes Extrahieren von Wörtern direkt aus dem Dokument identifizieren oder Wörter von a zuweisen kontrolliertes Wortschatz.[1] Die Begriffe im Index werden dann in systematischer Reihenfolge dargestellt.

Indexer müssen entscheiden, wie viele Begriffe enthalten sind und wie spezifisch die Begriffe sein sollten. Zusammen ergibt dies eine Tiefe der Indexierung.

Subjektanalyse

Der erste Schritt zur Indizierung besteht darin, über den Gegenstand des Dokuments zu entscheiden. Bei der manuellen Indexierung würde der Indexer den Gegenstand als Antwort auf eine Reihe von Fragen betrachten, wie z. B. "Bearbeitet das Dokument mit einem bestimmten Produkt, einer bestimmten Bedingung oder einem bestimmten Phänomen?".[2] Da die Analyse durch das Wissen und die Erfahrungen des Indexers beeinflusst wird, kann zwei Indexer den Inhalt unterschiedlich analysieren und daher unterschiedliche Indexbegriffe entwickeln. Dies wird sich auf den Erfolg des Abrufs auswirken.

Automatische vs. manuelle Subjektanalyse

Automatic indexing Befolgt festgelegte Prozesse zur Analyse von Häufigkeiten von Wortmustern und dem Vergleich von Ergebnissen mit anderen Dokumenten, um den Subjektkategorien zuzuweisen. Dies erfordert kein Verständnis dafür, dass das indexierte Material indexiert wird. Dies führt zu einer einheitlicheren Indexierung, aber auf Kosten der wahren Bedeutung, die interpretiert wird. Ein Computerprogramm versteht die Bedeutung von Aussagen nicht und kann daher einige relevante Begriffe nicht zuweisen oder falsch zuweisen. Menschliche Indexer konzentrieren sich auf bestimmte Teile des Dokuments wie den Titel, die Zusammenfassung, die Zusammenfassung und die Schlussfolgerungen, da die Analyse des vollständigen Textes in der Tiefe kostspielig und zeitaufwändig ist [3] Ein automatisiertes System nimmt das Zeitlimit weg und ermöglicht es, dass das gesamte Dokument analysiert wird, hat aber auch die Option, an bestimmte Teile des Dokuments zu richten.

Termauswahl

Die zweite Indexstufe beinhaltet die Übersetzung der Subjektanalyse in einen Satz von Indexbegriffe. Dies kann das Extrahieren aus dem Dokument oder das Zuweisen von a beinhalten kontrolliertes Wortschatz. Mit der Fähigkeit, a zu führen Volltextsuche weit verbreitete Menschen haben sich auf ihr eigenes Fachwissen bei der Durchführung von Informationssuchungen verlassen und verlassen Volltextsuche ist sehr beliebt geworden. Subjektindexierung und seine Experten, professionellen Indexer, Kataloge und Bibliothekare, bleibt für Informationsorganisation und Abruf von entscheidender Bedeutung. Diese Experten verstehen kontrollierte Vokabeln und sind in der Lage, Informationen zu finden, die nicht von lokalisiert werden können Volltextsuche. Die Kosten für die Expertenanalyse zur Erstellung von Subjekt-Indexierung sind nicht einfach mit den Kosten von Hardware, Software und Arbeitskräften zur Herstellung eines vergleichbaren Satzes von vollständigen, vollständig durchsuchbaren Materialien. Mit neuen Webanwendungen, die es jedem Benutzer ermöglichen, Dokumente zu kommentieren, Soziales Tagging hat vor allem im Web an Popularität gewonnen.[4]

Eine Anwendung der Indexierung, die, die Buchindex, bleibt trotz der Informationsrevolution relativ unverändert.

Extraktion/abgeleitete Indizierung

Durch die Extraktionsindexierung wird Wörter direkt aus dem Dokument genommen. Es verwendet Natürliche Sprache und eignet sich gut für automatisierte Techniken, bei denen Wortfrequenzen berechnet werden, und diejenigen mit einer Frequenz über einen festgelegten Schwellenwert werden als Indexbegriffe verwendet. Eine Stoppliste mit gemeinsamen Wörtern (z. B. "das", "und") würde erwähnt und so Stoppen Sie Wörter würde als Indexbegriff ausgeschlossen.

Die automatisierte Extraktionsindexierung kann zum Verlust der Bedeutung von Begriffen führen, indem einzelne Wörter im Gegensatz zu Phrasen indiziert werden. Obwohl es möglich ist, häufig auftretende Phrasen zu extrahieren, wird es schwieriger, wenn Schlüsselkonzepte in Phrasen inkonsistent formuliert werden. Die automatisierte Extraktionsindexierung hat auch das Problem, dass selbst bei Verwendung einer Stoppliste zum Entfernen gemeinsamer Wörter möglicherweise einige häufige Wörter möglicherweise nicht nützlich sind, um eine Diskriminierung zwischen Dokumenten zu ermöglichen. Beispielsweise ist der Begriff Glukose wahrscheinlich in jedem Dokument in Bezug auf Diabetes häufig auftritt. Daher würde die Verwendung dieses Begriffs wahrscheinlich die meisten oder alle Dokumente in der Datenbank zurückgeben. Die postkoordinierte Indexierung, bei der Begriffe zum Zeitpunkt der Suche kombiniert werden, würde diesen Effekt verringern, aber die Verantwortung würde dem Suchenden sein, geeignete Begriffe im Gegensatz zum Informationsfachmann zu verknüpfen. Darüber hinaus können Begriffe, die selten auftreten, von hoher Bedeutung sein, beispielsweise kann ein neues Medikament selten erwähnt werden, aber die Neuheit des Subjekts macht jede Referenz signifikant. Eine Methode, um seltenere Begriffe einzubeziehen und gemeinsame Wörter durch automatisierte Techniken ausgeschlossen zu werden, wäre ein relativer Frequenzansatz, bei dem die Häufigkeit eines Wortes in einem Dokument mit der Häufigkeit in der gesamten Datenbank verglichen wird. Daher kann ein Begriff, der in einem Dokument häufiger auftritt, als auf dem Rest der Datenbank erwartet werden könnte, dann als Indexbegriff verwendet werden, und die gleiche häufig vorkommenden Begriffe werden ausgeschlossen.

Ein weiteres Problem bei der automatisierten Extraktion ist, dass es nicht erkennt, wann ein Konzept diskutiert wird, aber im Text nicht durch ein indexierbares Schlüsselwort identifiziert wird.[5]

Da dieser Prozess auf einer einfachen String -Matching basiert und keine intellektuelle Analyse beinhaltet, ist das resultierende Produkt eher angemessen als a Konkordanz als ein Index.

Zuweisungsindizierung

Eine Alternative ist die Zuweisungsindizierung, bei der Indexbegriffe aus einem kontrollierten Vokabular entnommen werden. Dies hat den Vorteil der Kontrolle Synonyme Da der bevorzugte Term indexiert ist und Synonyme oder verwandte Begriffe den Benutzer zum bevorzugten Begriff leiten. Dies bedeutet, dass der Benutzer Artikel unabhängig von dem vom Autor verwendeten bestimmten Begriff finden kann, und dem Benutzer alle möglichen Synonyme wissen und überprüfen müssen.[6] Es entfernt auch jede Verwirrung durch Homographien durch Aufnahme eines qualifizierenden Begriffs. Ein dritter Vorteil ist, dass es die Verknüpfung verwandter Begriffe ermöglicht, ob sie durch Hierarchie oder Assoziation verknüpft sind, z. Ein Indexeintrag für ein orales Medikament kann andere mündliche Medikamente als verwandte Begriffe auf derselben Ebene der Hierarchie auflisten, würde aber auch mit breiteren Begriffen wie der Behandlung verknüpfen. Die Indexierung der Zuordnung wird in der manuellen Indexierung verwendet, um die Konsistenz zwischen den Indexer zu verbessern, da verschiedene Indexer eine kontrollierte Auswahlmenge zur Auswahl haben. Kontrollierte Vokabulare entfernen Inkonsistenzen nicht vollständig, da zwei Indexer das Subjekt immer noch unterschiedlich interpretieren können.[2]

Indexpräsentation

Die letzte Phase der Indexierung besteht darin, die Einträge in systematischer Reihenfolge zu präsentieren. Dies kann die Verknüpfung von Einträgen beinhalten. In einem vorkoordinierten Index bestimmt der Indexer die Reihenfolge, in der Begriffe in einem Eintrag verknüpft sind, indem er überlegt, wie ein Benutzer seine Suche formulieren kann. In einem postkoordinierten Index werden die Einträge einzeln dargestellt und der Benutzer kann die Einträge durch Suchvorgänge verknüpfen, die am häufigsten von Computersoftware durchgeführt werden. Nach der Koordinierung führt zu einem Präzisionsverlust im Vergleich zur Vor-Koordination [7]

Indextiefe

Indexer müssen Entscheidungen darüber treffen, welche Einträge einbezogen werden sollen und wie viele Einträge ein Index enthalten sollte. Die Tiefe der Indexierung beschreibt die Gründlichkeit des Indexierungsprozesses unter Bezugnahme auf Veraugung und Spezifität [8]

Abgrenzung

Ein erschöpfender Index ist einer, der alle möglichen Indexbegriffe auflistet. Eine größere Spannwirklichkeit ergibt eine höhere abrufenoder mehr Wahrscheinlichkeit, dass alle relevanten Artikel abgerufen werden. Dies tritt jedoch auf Kosten von auf Präzision. Dies bedeutet, dass der Benutzer eine größere Anzahl irrelevanter Dokumente oder Dokumente abrufen kann, die sich nur eingehender mit dem Thema befassen. In einem manuellen System bringt ein größeres Maß an Spappivity einen höheren Preis mit sich, da mehr Menschenstunden erforderlich sind. Die zusätzliche Zeit in einem automatisierten System wäre viel weniger bedeutend. Am anderen Ende der Skala werden in einem selektiven Index nur die wichtigsten Aspekte abgedeckt.[9] Der Rückruf wird in einem selektiven Index reduziert, als ob ein Indexer nicht genügend Begriffe enthält. Ein hochrelevanter Artikel kann übersehen werden. Daher sollten Indexer nach einem Gleichgewicht streben und überlegen, was das Dokument verwendet werden kann. Sie müssen möglicherweise auch die Auswirkungen von Zeit und Kosten berücksichtigen.

Spezifität

Die Spezifität beschreibt, wie genau die Indexbegriffe mit den Themen übereinstimmen, die sie darstellen [10] Ein Index soll spezifisch sein, wenn der Indexer parallele Deskriptoren zum Konzept des Dokuments verwendet und die Konzepte genau widerspiegelt.[11] Die Spezifität nimmt tendenziell angenehm zu, da die meisten Begriffe, die Sie einschließen, desto enger werden diese Begriffe sein.

Indexierungstheorie

Hjørland (2011)[12] fanden heraus, dass die Indexierungstheorien auf der tiefsten Ebene mit verschiedenen Wissenstheorien verbunden sind:

  • Rationalistische Indexierungstheorien (wie Ranganathans Theorie) legen nahe, dass die Probanden logisch aus einem grundlegenden Satz von Kategorien konstruiert werden. Die grundlegende Methode der Subjektanalyse ist dann "analytisch-synthetisch", um einen Satz grundlegender Kategorien (= Analyse) zu isolieren und dann das Thema eines bestimmten Dokuments zu konstruieren, indem diese Kategorien nach einigen Regeln kombiniert werden (= Synthese).
  • Empiriker Theorien der Indexierung basieren auf der Auswahl ähnlicher Dokumente basierend auf ihren Eigenschaften, insbesondere durch Anwendung numerischer statistischer Techniken.
  • Historiker und hermeneutische Indexierungstheorien Schlagen Sie vor, dass das Thema eines bestimmten Dokuments relativ zu einem bestimmten Diskurs oder einer bestimmten Domäne ist, warum die Indexierung die Notwendigkeit eines bestimmten Diskurses oder einer bestimmten Domäne widerspiegeln sollte. Laut Hermeneutik ist ein Dokument, das immer aus einem bestimmten Horizont geschrieben und interpretiert wird. Gleiches gilt für Systeme der Wissensorganisation und bei allen Benutzern, die solche Systeme durchsuchen. Jede Frage, die an ein solches System gestellt wird, stammt aus einem bestimmten Horizont. Alle diese Horizonte können mehr oder weniger im Konsens oder im Konflikt stehen. Um ein Dokument zu indizieren, soll versuchen, zum Abrufen von „relevanten“ Dokumenten beizutragen, indem Sie über diese verschiedenen Horizonte informiert werden.
  • Pragmatische und kritische Indexierungstheorien (wie Hjørland, 1997)[13] stimmt mit dem historistischen Standpunkt überein, dass die Probanden im Verhältnis zu bestimmten Diskursen stehen, betont jedoch, dass die Subjektanalyse die angegebenen Ziele und Werte stützen sollte und die Konsequenzen der Indexierung auf die eine oder andere Weise berücksichtigen sollte. Diese Theorien glauben, dass die Indexierung nicht neutral sein kann und dass es ein falsches Ziel ist, auf neutrale Weise zu versuchen, zu indizieren. Die Indexierung ist ein Gesetz (und die computerbasierte Indexierung wirkt nach den Absichten der Programmierer). Acts dienen menschlichen Zielen. Bibliotheken und Informationsdienste dienen auch menschlicher Ziele, warum ihre Indexierung auf eine Weise erfolgen sollte, die diese Ziele so weit wie möglich unterstützt. Auf einen ersten Blick sieht dies seltsam aus, da die Ziele von Bibliotheken und Informationsdiensten darin bestehen, alle Dokumente oder Informationen zu identifizieren. Dennoch ist eine spezifische Art der Indexierung, die auf Kosten anderer immer eine Art Verwendungszwecke unterstützt. Die zu indizierten Dokumente beabsichtigen, einige spezifische Zwecke in einer Community zu dienen. Grundsätzlich sollte die Indizierung beabsichtigen, die gleichen Zwecke zu dienen. Primär- und sekundäre Dokumente und Informationsdienste sind Teile des gleichen Gesamtsozialsystems. In einem solchen System können verschiedene Theorien, Erkenntnistheorien, Weltanschauungen usw. im Spiel sein, und die Benutzer müssen in der Lage sein, sich zu orientieren und zwischen diesen verschiedenen Ansichten zu navigieren. Dies erfordert eine Zuordnung der verschiedenen Erkenntnistheorien im Feld und die Klassifizierung des einzelnen Dokuments in eine solche Karte. Hervorragende Beispiele für solche unterschiedlichen Paradigmen und deren Konsequenzen für die Indexierung und Klassifizierungssysteme werden im Kunstbereich von Ørom (2003) bereitgestellt[14] und in Musik von Abrahamsen (2003).[15]

Der Kern der Indexierung ist, wie von Rowley & Farrow angegeben[16] Um den Beitrag eines Papiers zum Wissen zu bewerten und es entsprechend zu indizieren. Oder mit den Worten von Hjørland (1992,,[17] 1997), um seine informativen Potenziale zu indizieren.

"Um eine gute konsistente Indexierung zu erreichen, muss der Indexer die Struktur des Subjekts und die Art des Beitrags, den das Dokument zur Weiterentwicklung des Wissens leistet, eine gründliche Wertschätzung haben." (Rowley & Farrow, 2000,[16] p. 99).

Siehe auch

Verweise

  1. ^ F. W. Lancaster (2003): "Indexierung und Zusammenfassung in Theorie und Praxis". Dritte Edition. London, Facette ISBN1-85604-482-3. Seite 6
  2. ^ a b G.G. Chowdhury (2004): "Einführung in modernes Informationsabruf". Dritte Edition. London, Facette. ISBN1-85604-480-7. Seite 71
  3. ^ F. W. Lancaster (2003): "Indexierung und Zusammenfassung in Theorie und Praxis". Dritte Edition. London, Facette ISBN1-85604-482-3. Seite 24
  4. ^ Voss, Jakob (2007). "Tagging, Volkomie & Co - Renaissance der manuellen Indexierung?". Verfahren des Internationalen Symposiums für Informationswissenschaft. S. 234–254. Arxiv:CS/0701072. Bibcode:2007cs ........ 1072v.
  5. ^ J. Lamb (2008): Menschliche oder computergestützte Indizes? Archiviert 2014-06-04 bei der Wayback -Maschine [Online] Sheffield, Society of Indexers. Zugriff am 15. Januar 2009.
  6. ^ C. Tenopir (1999): "Human oder automatisiert, Indexierung ist wichtig". Bibliotheksjournal 124(18) Seiten 34-38.
  7. ^ D. Bodoff und A. Kambil, (1998): "Partielle Koordination. I. Das Beste aus der Koordination und nach der Koordination." Zeitschrift der American Society for Information Science, 49(14), 1254-1269.
  8. ^ D.B. Cleveland und A. D. Cleveland (2001): "Einführung in die Indexierung und Abstracting". 3. Aufl. Englewood, Libraries Unlimited, Inc. ISBN1-56308-641-7. Seite 105
  9. ^ B.H. Weinberg (1990): "Genauigkeit der Indizes: Bücher, Zeitschriften und elektronische Volltexte; Zusammenfassung eines Workshops, der auf der ASI -Jahreskonferenz von 1999 vorgestellt wurde". Schlüsselwörter, 7(5), Seiten 1+.
  10. ^ J. D. Anderson (1997): Richtlinien für Indizes und verwandte Informationsabrufgeräte [online]. Bethesda, Maryland, Niso Press. 10. Dezember 2008.
  11. ^ D.B. Cleveland und A. D. Cleveland (2001): "Einführung in die Indexierung und Abstracting". 3. Aufl. Englewood, Libraries Unlimited, Inc. ISBN1-56308-641-7. Seite 106
  12. ^ Hjørland, Birger (2011). Die Bedeutung von Wissenstheorien: Indexierung und Informationsabruf als Beispiel. Zeitschrift der American Society for Information Science und Technologie, 62 (1,), 72-77.
  13. ^ Hjørland, B. (1997). Informationssuche und Subjektdarstellung. Ein aktivitätstheoretischer Ansatz für die Informationswissenschaft. Westport & London: Greenwood Press.
  14. ^ Ørom, Anders (2003). Wissensorganisation im Bereich der Kunststudien - Geschichte, Übergang und konzeptionelle Veränderungen. Wissensorganisation. 30 (3/4), 128-143.
  15. ^ Abrahamsen, Knut T. (2003). Indexierung von musikalischen Genres. Eine erkenntnistheoretische Perspektive. Wissensorganisation, 30 (3/4), 144-169.
  16. ^ a b Rowley, J. E. & Farrow, J. (2000). Organisieren von Wissen: Eine Einführung in die Verwaltung des Zugriffs auf Informationen. 3.. Alderstot: Gower Publishing Company
  17. ^ Hjørland, Birger (1992). Das Konzept des "Subjekts" in Informationswissenschaft. Journal of Dokumentation. 48 (2), 172-200. http://iva.dk/bh/core%20Concepts%20in%20lis/1992jdoc%5fsubject.pdf

Weitere Lektüre

  • Fugman, Robert (1993). Subjektanalyse und Indizierung. Theoretische Grundlage und praktische Ratschläge. Frankfurt/Main: Indexverlag.
  • Frohmann, B. (1990)."Regeln der Indexierung: Eine Kritik des Mentalismus in der Informationsabruftheorie". Journal of Dokumentation. 46 (2): 81–101. doi:10.1108/eb026855.