Kontrolliertes Wortschatz

Kontrollierte Vokabeln Bieten Sie eine Möglichkeit, Wissen für das spätere Abruf zu organisieren. Sie werden in verwendet Subjektindexierung Pläne, Betreffüberschriften, Thesauri,[1][2] Taxonomien und andere Wissensorganisationssysteme. Kontrollierte Vokabularschemata erfordern die Verwendung vordefinierter, autorisierter Begriffe, die von den Designern der Pläne im Gegensatz zu den Schemata vorgewählt wurden Natürliche Sprache Vokabulare, die keine solche Einschränkung haben.

In Bibliotheks- und Informationswissenschaft

Im Bibliotheks- und Informationswissenschaft, kontrollierter Wortschatz ist eine sorgfältig ausgewählte Liste von Wörter und Phrasen, die gewohnt sind Schild Informationseinheiten (Dokument oder Arbeit), damit sie durch eine Suche leichter abgerufen werden können.[3][4] Kontrollierte Vokabulare lösen die Probleme von Homographien, Synonyme und Polyseme durch eine Bijection zwischen Konzepten und autorisierten Begriffen. Kurz gesagt, kontrollierte Vokabulare verringern die Mehrdeutigkeit, die normalen menschlichen Sprachen innewohnt, wo dasselbe Konzept unterschiedliche Namen erhalten und eine Konsistenz sicherstellen kann.

Zum Beispiel in der Betreffüberschriften der Bibliothek des Kongresses[5] (Ein Subjektüberschriftensystem, das ein kontrolliertes Vokabular verwendet), autorisierte Begriffe - in diesem Fall Subject -Überschriften - können ausgewählt werden, um Entscheidungen zwischen Variantenschreibungen desselben Wortes (American versus britisch) zu bewältigen, Auswahl zwischen wissenschaftlichen und populären Begriffen (Bevölkerung (populäre BegriffeKakerlake gegen PeriauNeta Americana) und Auswahl zwischen Synonymen (Automobil gegen Wagen) unter anderen schwierigen Themen.

Auswahl der autorisierten Begriffe basieren auf den Grundsätzen von Benutzerbefehl (Welche Begriffe verwenden Benutzer wahrscheinlich), literarischer Haftbefehl (Welche Begriffe werden im Allgemeinen in Literatur und Dokumenten verwendet) und struktureller Haftbefehl (Begriffe, die unter Berücksichtigung der Struktur, Umfang des kontrollierten Vokabulars gewählt werden).

Kontrollierte Vokabulare behandeln typischerweise auch das Problem von Homographien mit Qualifikationen. Zum Beispiel der Begriff Schwimmbad muss qualifiziert sein, sich auf beide zu beziehen Schwimmbad oder das Spiel Schwimmbad Um sicherzustellen, dass sich jeder autorisierte Begriff oder Übergang auf nur ein Konzept bezieht.

Typen in Bibliotheken verwendet

In Bibliotheken werden zwei Hauptarten von kontrollierten Vokabeln verwendet: Betreffüberschriften und Thesauri. Während die Unterschiede zwischen den beiden abnehmen, gibt es immer noch einige geringfügige Unterschiede. In der Vergangenheit wurden Betreffüberschriften ausgelegt, um Bücher in Bibliothekskatalogen von Katalogen zu beschreiben, während Thesauri von Indexern verwendet wurde, um Indexbegriffe auf Dokumente und Artikel anzuwenden. Betreffüberschriften sind in der Regel breiter im Bereich, in dem sie ganze Bücher beschreiben, während Thesauri dazu neigt, sehr spezifische Disziplinen zu verdecken. Auch aufgrund des Kartenkatalogsystems haben Subjektüberschriften zu Begriffen, die in indirekter Reihenfolge sind (obwohl dies mit dem Aufstieg automatisierter Systeme entfernt wird), während Thesaurus -Begriffe immer in direkter Reihenfolge sind. Betreffüberschriften verwenden auch in der Regel eine mehr Vor-Koordination von Begriffen, so dass der Designer des kontrollierten Vokabulars verschiedene Konzepte mit einer autorisierten Subjektüberschrift kombiniert. (z. B. Kinder und Terrorismus), während Thesauri dazu neigen, einzelne direkte Begriffe zu verwenden. Schließlich listet die Thesauri-Liste nicht nur äquivalente Begriffe, sondern auch engere, breitere Begriffe und verwandte Begriffe zwischen verschiedenen autorisierten und nicht autorisierten (aber potenziell synonymen) Begriffen, während die meisten Fachüberschriften historisch nicht. Zum Beispiel die Betreff der Bibliothek des Kongresses selbst hatte erst 1943 viel syndetische Struktur, und erst 1985 begann es, den THESAURI -Typ Begriff zu übernehmen "Breiterer Begriff" und "Schmaler Begriff".

Das Bedingungen werden von ausgebildeten Fachleuten (einschließlich Bibliothekaren und Informationswissenschaftlern) ausgewählt und organisiert, die über Fachwissen in diesem Bereich verfügen. Kontrollierte Vokabeln können genau beschreiben, worum es in einem bestimmten Dokument tatsächlich geht, auch wenn die Begriffe selbst nicht im Text des Dokuments vorkommen. Zu bekannte Betreffsysteme gehören die Kongresssystem Bibliothek, das u s nih Nationalbibliothek für Medizin MEDICAL -Fachbeschichtungen (Mesh) und Sears. Bekanntes Thesauri umfasst die Kunst und Architektur Thesaurus und die Eric Thesaurus.

Die Auswahl autorisierter Begriffe, die verwendet werden sollen, ist ein kniffliges Geschäft.[6] Neben den oben genannten Bereichen muss der Designer die Spezifität des gewählten Begriffs berücksichtigen, ob die Sprache direkte Einreise, Interkonsistenz und Stabilität der Sprache verwendet werden soll.

Zuletzt ist die Menge an Vorkoordination (in diesem Fall wird der Grad der Aufzählung und die Synthese zum Thema) und nach der Koordination im System ein weiteres wichtiges Thema. Kontrollierte Wortschatzelemente (Begriffe/Phrasen), die als verwendet werden Stichworte, um den Inhaltsidentifikationsprozess von Dokumenten oder anderen Informationen des Informationssystems (z. B. DBMS, Web Services) zu unterstützen Metadaten.

Indexierungssprachen

Es gibt drei Haupttypen von Indizierungssprachen.

  • Kontrollierte Indizierungssprache - Nur genehmigte Begriffe können vom Indexer verwendet werden, um das Dokument zu beschreiben
  • Natürliche Sprache Indexierungssprache - Jeder Begriff aus dem fraglichen Dokument kann verwendet werden, um das Dokument zu beschreiben
  • Kostenlose Indexierungssprache - Jeder Begriff (nicht nur aus dem Dokument) kann verwendet werden, um das Dokument zu beschreiben

Bei der Indexierung eines Dokuments muss der Indexer auch die Indexierungsgrenze auswählen, wobei das Detailebene, in dem das Dokument beschrieben wird, beschrieben wird. Beispielsweise werden unter Verwendung einer niedrigen Indexierungsgräbchen kleinere Aspekte der Arbeit nicht mit Indexbegriffen beschrieben. Im Allgemeinen desto höher ist die Indexierungsgräbigkeit, desto mehr Begriffe sind für jedes Dokument indiziert.

In den vergangenen Jahren Kostenlose Textsuche Als Mittel des Zugangs zu Dokumenten ist beliebt geworden. Hier indiziert). Viele Studien wurden durchgeführt, um die Effizienz und Effektivität freier Textrecherchen mit Dokumenten zu vergleichen, die von Experten indexiert wurden, die einige gut ausgewählte kontrollierte Vokabulardeskriptoren verwenden.

Vorteile

Es wird häufig behauptet, kontrollierte Vokabulare zu verbessern irrelevant Elemente in der Abrufliste. Diese irrelevanten Elemente (Fehlalarm) werden oft durch die inhärente Unklarheit von verursacht Natürliche Sprache. Das englische Wort nehmen Fußball zum Beispiel. Fußball ist der Name, der einer Reihe von verschiedenen gegeben wird Team-Sport. Weltweit ist der beliebteste dieser Mannschaftssportarten Fußballverband, was auch zufällig genannt wird Fußball in mehreren Ländern. Das Wort Fußball wird auch an angewendet auf Rugby Fußball (Rugby Union und Rugby League), Amerikanischer Fußball, Australische Regeln Fußball, gälisches Fußball, und Kanadischer Fußball. Eine Suche nach Fußball Daher werden Dokumente abgerufen, bei denen es sich um mehrere völlig unterschiedliche Sportarten handelt. Der kontrollierte Wortschatz löst dieses Problem durch Tagging Die Dokumente so, dass die Unklarheiten beseitigt werden.

Im Vergleich zur kostenlosen Textsuchung kann die Verwendung eines kontrollierten Wortschatzes die Leistung eines Informationsabrufsystems dramatisch erhöhen, wenn die Leistung anhand der Präzision gemessen wird (der Prozentsatz der Dokumente in der Abrufliste, die tatsächlich sind relevant zum Suchthema).

In einigen Fällen können kontrolliertes Vokabular auch den Rückruf verbessern, da im Gegensatz zu natürlichen Sprachschemata, sobald der richtige autorisierte Begriff gesucht wurde, nicht nach anderen Begriffen suchen muss, die möglicherweise Synonyme dieses Begriffs sind.

Probleme

Eine kontrollierte Vokabularsuche kann zu unbefriedigender Weise führen abrufenDa es einige Dokumente nicht abrufen wird, die tatsächlich für die Suchfrage relevant sind.

Dies ist besonders problematisch, wenn die Suchfrage Begriffe umfasst, die dem Themenbereich ausreichend tangentiell sind, so dass der Indexer möglicherweise beschlossen hat, ihn mit einem anderen Begriff zu markieren (der Sucher könnte dies auch in Betracht ziehen). Dies kann im Wesentlichen nur von einem erfahrenen Benutzer des kontrollierten Vokabulars vermieden werden, dessen Verständnis des Vokabulars mit dem des Indexer zusammenfasst.

Eine andere Möglichkeit besteht darin, dass der Artikel einfach nicht vom Indexer markiert wird, da die Indexierungsgräbchen niedrig sind. Zum Beispiel könnte ein Artikel Fußball als sekundärer Fokus erwähnen, und der Indexer entscheidet sich möglicherweise, ihn nicht mit "Fußball" zu markieren, da er im Vergleich zum Hauptaugenmerk nicht wichtig genug ist. Es stellt sich jedoch heraus, dass für den Suchenden dieser Artikel relevant ist und sich daher der Rückruf fehlschlägt. EIN Kostenlose Textsuche würde diesen Artikel automatisch aufnehmen.

Auf der anderen Seite haben kostenlose Textsuchungen eine hohe Abgrenzung (jedes Wort wird durchsucht), obwohl es eine viel geringere Präzision aufweist, aber ein hohes Rückruf hat, solange der Sucher das Problem der Synonyme durch Eingabe jeder Kombination überwinden.

Kontrollierte Vokabulare können in sich schnell entwickelnden Wissensbereichen schnell veraltet werden, es sei denn, die autorisierten Begriffe werden regelmäßig aktualisiert. Selbst in einem idealen Szenario ist ein kontrollierter Wortschatz oft weniger spezifisch als die Wörter des Textes selbst. Indexer, die versuchen, die entsprechenden Indexbegriffe auszuwählen, können den Autor falsch interpretieren, während dieses genaue Problem kein Faktor in einem freien Text ist, da er die eigenen Wörter des Autors verwendet.

Die Verwendung kontrollierter Vokabulare kann im Vergleich zu kostenlosen Textsuche kostspielig sein, da menschliche Experten oder teure automatisierte Systeme für jeden Eintrag erforderlich sind. Darüber hinaus muss der Benutzer mit dem kontrollierten Vokabular -Schema vertraut sein, um das System am besten zu nutzen. Wie bereits erwähnt, kann die Kontrolle von Synonymen jedoch Homographen erhöhen.

Es wurden zahlreiche Methoden entwickelt, um die Schaffung kontrollierter Vokabularien zu unterstützen, einschließlich Facettenklassifizierung, damit ein bestimmter Datensatz oder ein bestimmtes Dokument auf verschiedene Weise beschrieben werden kann.

Die Wortauswahl in ausgewählten Vokabeln ist nicht neutral, und der Indexer muss die Ethik ihrer Wortauswahl sorgfältig berücksichtigen. Zum Beispiel waren traditionell kolonialistische Begriffe häufig die bevorstehenden Begriffe in ausgewählten Vokabeln bei der Erörterung von Fragen der First Nations, was zu Kontroversen geführt hat.[7]

Anwendungen

Kontrollierte Vokabeln wie die Betreffüberschriften der Bibliothek des Kongresses, sind eine wesentliche Komponente von Literaturverzeichnis, die Studie und Klassifizierung von Büchern. Sie wurden anfangs in entwickelt in Bibliotheks- und Informationswissenschaft. In den 1950er Jahren begannen die Regierungsbehörden, kontrollierte Vokabulare für die aufkeimende Journal -Literatur in spezialisierten Bereichen zu entwickeln. Ein Beispiel ist das MEDICAL -Fachbeschichtungen (Mesh) entwickelt von der US -amerikanische Nationalbibliothek für Medizin. Anschließend tauchten gemeinnützige Unternehmen (als Abstracting and Indexing Services bezeichnet) auf, um die schnell wachsende Literatur in jedem Wissensbereich zu indizieren. In den 1960er Jahren wurde eine Online -bibliografische Datenbankbranche basierend auf dem Dialup entwickelt X.25 Networking. Diese Dienste wurden der Öffentlichkeit selten zur Verfügung gestellt, weil sie schwer zu nutzen waren. Fachbibliothekare namens Search -Intermediäre behandelten den Suchjob. In den 1980er Jahren die erste voller Text Datenbanken erschienen; Diese Datenbanken enthalten den vollständigen Text der Indexartikel sowie die bibliografischen Informationen. Online -bibliografische Datenbanken sind ins Internet migriert und sind jetzt öffentlich verfügbar. Die meisten sind jedoch proprietär und können teuer zu bedienen sein. Studenten, die an Hochschulen und Universitäten eingeschrieben sind, können möglicherweise ohne Anklage auf einige dieser Dienste zugreifen. Einige dieser Dienste können ohne Gebühr in einer öffentlichen Bibliothek zugänglich sein.

Technische Kommunikation

In großen Organisationen können kontrollierte Vokabulare eingeführt werden, um sich zu verbessern technische Kommunikation. Die Verwendung des kontrollierten Vokabulars stellt sicher, dass jeder das gleiche Wort verwendet, um dasselbe zu bedeuten. Diese Konsistenz der Begriffe ist eines der wichtigsten Konzepte in technisches Schreiben und Wissensmanagement, wo Anstrengung aufgewendet wird, um dasselbe Wort während eines a zu verwenden dokumentieren oder Organisation Anstelle von etwas anderen, die sich auf dasselbe beziehen.

Semantisches Web und strukturierte Daten

Die Websuche könnte durch die Entwicklung eines kontrollierten Vokabulars zur Beschreibung von Webseiten dramatisch verbessert werden. Die Verwendung eines solchen Wortschatzes könnte in a gipfeln Semantisches Web, in denen der Inhalt der Webseiten mit einem maschinellem Lesbaren beschrieben wird Metadaten planen. Einer der ersten Vorschläge für ein solches Schema ist das Dublin -Kern Initiative. Ein Beispiel für ein kontrolliertes Vokabular, das für verwendet werden kann Indizierung Webseiten ist PSH.

Es ist unwahrscheinlich, dass es einem einzigen Metadatenschema jemals gelingen wird, den Inhalt des gesamten Webs zu beschreiben.[8] Um ein semantisches Web zu erstellen, kann es erforderlich sein, aus zwei oder mehr Metadatensystemen zu zeichnen, um den Inhalt einer Webseite zu beschreiben. Die ausgetauschbare, facettierte Metadatensprache (XFML) ist so konzipiert, dass kontrollierte Vokabeln die Metadatensysteme veröffentlichen und teilen. XFML ist auf Facettenklassifizierung Prinzipien.[9]

Kontrollierte Vokabulare der Semantisches Web Definieren Sie die Konzepte und Beziehungen (Begriffe), die verwendet werden, um ein Interessensfeld oder ein Problembereich zu beschreiben. Um beispielsweise eine Person in einem maschinenlesbaren Format zu deklarieren, wird ein Wortschatz benötigt, der die formale Definition von "Person" wie dem Freund eines Freundes hat (Foaf. Schema.org.[10] In ähnlicher Weise kann ein Buch mit dem Buchvokabular von beschrieben werden Schema.org[11] und allgemeine Veröffentlichungsbedingungen aus der Dublin -Kern Wortschatz,[12] eine Veranstaltung mit dem Ereignisvokabular von Schema.org,[13] usw.

Um maschinenlesbare Begriffe aus allen kontrollierten Vokabeln zu verwenden, können Webdesigner aus einer Vielzahl von Annotationsformaten, einschließlich RDFA, auswählen. HTML5 Microdata, oder JSON-LD im markup, oder RDF Serialisierungen (RDF/XML, Turtle, N3, Trig, Trix) in externen Dateien.

Siehe auch

Verweise

  1. ^ Kontrollierte Vokabeln Links zu Beispielen für Thesauri- und Klassifizierungsschemata.
  2. ^ Kontrollierte Vokabeln Links zu Beispielen für Thesauri- und Klassifizierungssysteme, die im Bereich der Landwirtschaft, Fischerei, Forstwirtschaft usw. verwendet werden, usw.
  3. ^ Amy Warner, Ein Taxonomie -Primer // Dead Link Archiviert 2016-03-05 in der Wayback -Maschine.
  4. ^ Karl Fast, Fred Leise und Mike Steckel, [1]
  5. ^ "Kontrollierte Vokabulare | Bibliothekare | Kongressbibliothek". Die Bibliothek des Kongresses. Abgerufen 2018-05-22.
  6. ^ Wer hat diese subjektive Aussage gesagt?
  7. ^ Smith, Catherine (2021-04-03). "Kontrollierte Vokabulare: Vergangenheit, Gegenwart und Zukunft des Zugriffs des Subjekts". Cataloging & Classification Quarterly. 59 (2–3): 186–202. doi:10.1080/01639374.2021.1881007. ISSN 0163-9374. S2CID 233205938.
  8. ^ Cory Doctorow, Metacrap.
  9. ^ Mark Pilgrim, Viertelbare facettierte Metadatensprache.
  10. ^ "Die Person Vokabular von schema.org". Abgerufen 13. März 2015.
  11. ^ "Das Buch Wortschatz von schema.org". Abgerufen 13. März 2015.
  12. ^ "Dublin Core Metadata Element Set, Version 1.1". Abgerufen 13. März 2015.
  13. ^ "Das Ereignisvokabular von schema.org". Abgerufen 13. März 2015.

Externe Links