Mehr Qualität im Internet - Entwicklung und Implementierung von Metadaten

View Dublin Core Metadata for this article external link

Rusch-Feja, Diann

 

Please note:
This paper is a preprint of an article published in Online-Tagung der DGD. Berlin: Deutsche Gesellschaft für Dokumentation, 1997 (pp. 113-130), therefore there may be minor differences between the two versions.

The copyright of this electronic version remains with the author and the Max Planck Institute for Human Development.

    Abstract

Nicht neu ist die Erkenntnis, daß die Indexierungstiefe, der Datenaufbau und die Integrität der Erschließung die Qualität der Treffermengen ausmacht. Das Retrieval von wissenschaftlichen Quellen im Internet steht in direktem Zusammenhang mit dem inhaltlichen und formalen Erschließungsgrad der Quellen, dem wissenschaftlichen Niveau, den Selektionskriterien und den Suchmodalitäten, die im Suchinstrument angeboten werden sowie der Implementierung von Standards und einheitlichen Strukturen - jedoch gekoppelt mit gewisser Flexibität. Bei Internetquellen werden strukturierte Metadaten-Elemente zu diesem Zweck mit in die HTML-Datei eingebettet oder in verknüpften Dateien zu nicht HTML-Dateien bzw. im Falle von nicht dokumentenähnlichen Quellen auch in Datenbankstrukturen. Metadaten des Dublin Core bieten Einfachheit der Elemente an, jedoch Präzisierungsmöglichkeiten durch Subfields, Qualifiers und die Offenheit für mehrere Metadata-Schemata (Regelwerke) etc. Search Engines, Roboter und fachspezifische Informationsbroker, die diese Metadaten verarbeiten, liefern qualitativ bessere Rechercheergebnisse.

Metadata zur Erschließung sowie zur Präzisierung des Retrievals (resource discovery and retrieval) werden in erster Linie betrachtet. Einige Metadaten-Schemata (Dublin Core, TEI, EAD, GILS etc.) werden bezgl. ihrer Vor- und Nachteile charakterisiert. Stellen im Internet, wo Metadaten bereits implementiert sind, werden darstellt. Die Diskussion, wer als Metadata-Providergruppe (Autoren, Bibliothekare, Indexierer, Verleger etc.) in Frage kommt, wird aufgegriffen. Schließlich einige Entwicklungen weiterer Metadaten wie Bezugs- und Beschaffungsbedingungen (Zugangs- und Berechtigungsbedingungen, zu engl. "terms and conditions") sowie Nutzungsdaten (eng. "use metadata") etc. werden erwähnt. Die grundlegenden Bedingungen für eine Qualitätsverbesserung sowohl des Indexierungsverfahrens bei Internetquellen als auch der Informationsvermittlungsarbeit mit Internetquellen bieten einen Kernpunkt für eine Diskussion zu diesem Thema.

Einführung

Nicht neu ist die Erkenntnis, daß die Indexierungstiefe, der Datenaufbau und die Integrität der Erschließung die Qualität der Treffermengen bei einer Informationssuche ausmacht. Dies trifft jedoch insbesondere für die Nutzung des Internet als Informationsangebot zu. Das Retrieval von wissenschaftlichen Quellen im Internet steht in direktem Zusammenhang mit dem inhaltlichen und formalen Erschließungsgrad der Quellen, deren wissenschaftlichen Niveau, den angegebenen Selektionskriterien und den Retrievalmodalitäten, die im Suchinstrument angeboten werden sowie der Implementierung von Standards und einheitlichen Strukturen.

Da das wissenschaftliche Niveau der Internetquellen nicht von unserer Berufssparte in allzu großer Menge direkt beeinflußt werden kann, bleiben nur die drei anderen Kriterien in unserer Macht übrig. Die Selektionskriterien für eine Recherche sind vom Rechercheur zu bestimmen, hängen jedoch auch von den Retrievalmodalitäten des Suchinstruments ab. Es ist zum Beispiel bekannt, daß die Recherche im Internet mittels Suchmaschinen aus verschiedenen Gründen oft nicht zufriedenstellend ist.

Vor allem die von sog. Robotern erstellten Datenbanken der Suchmaschinen ("Search Engines") ermöglichen zwar das schnelle Durchsuchen von sehr vielen Internetquellen mit Hilfe von Bool'schen Operatoren und ggf. anderen Kriterien ("Expertensuche", "Advanced Search"), jedoch ergibt die Suche oft eine verhältnismäßig hohe Zahl von unzutreffenden Links bzw. Treffern, die aufgrund von "Stringmatching" bzw. der reinen orthographischen Übereinstimmung mit der gesuchten Zeichenkette aus Termini aus dem Kontext mit anderer als der gewünschten Bedeutung bzw. mit vielen verschiedenen Aspekten eines Themas zusammengestellt sind. Es zeigt sich immer wieder: Die Schnelligkeit der Suchmaschinen ist erstaunlich, jedoch fehlt die Basis inhaltlicher Erschließung, die eine gezielte, präzise Recherche gewährleisten kann.

Die Datenbanken, die die einzelnen Suchmaschinen zugrunde legen und bei der Recherche durchforsten, bieten jeweils die Verarbeitung nur eines Teils der relevanten Informationsquellen im Internet. Da Überlappungen der Ergebnismengen derselben Anfragen bei mehreren Suchmaschinen (auch bei sog. Metasuchmaschinen wie WebCrawler etc.) nur mit großer Mühe feststellbar sind, ist eine umfangreiche Suche notwendig, um ein Thema zu recherchieren, für die der Ansatz ist, alles zu einem Thema im Internet ausfindig zu machen. Die Ergebnisse einer Suche mit denselben Terminologien fallen bei unterschiedlichen Suchmaschinen deutlich unterschiedlich aus.

Da die Ranking-Verfahren der Ergebnissen bei einzelnen Suchmaschinen nicht auf einer inhaltlichen Basis beruhen, sondern auf der unterschiedlichen Bewertung der Gewichtung durch Wortfrequenz und Stelle des gesuchten Wortes innerhalb des Dokuments, kann das Ranking nicht immer für die Qualität der angezeigten Titel ausschlaggebend sein. Außerdem können Dokumente mit gewissen Begriffen strategisch manipuliert werden, um ein hohes Ranking zu erzielen, obwohl der Text oft wenig mit der eigentlichen fachlichen und wissenschaftlichen Relevanz zu tun hat.[1]

Somit ergibt eine Recherche mittels einer der besten Suchmaschinen (AltaVista) Ergebnisse von einer sehr großen Zahl von Treffern, davon aber sind sehr geringe Mengen (z.B. bei sehr spezifischen Fragen lediglich 5,00% bis hin zur 0,005 %) eigentliche Treffer für den Zweck der wissenschaftlichen Suche und in dem Niveau des gewünschten Informationsgehalts.

Bei manchen Fragestellungen spielt auch die Qualität der derzeitigen Internetquellen eine Rolle. Erst mit zunehmender Beteiligung von Fachgesellschaften (siehe unten) mit indexierten Preprint-Servern, fachbezogenen Datenbanken im Internet und den Ansätzen, mehr wissenschaftliche Arbeiten in elektronischer Form im Internet rechierbar zu machen, steigt nun die Bedeutung von Internet für "wissenschaftliche" Zwecke. In hohem Maße jedoch liegt die unbefriedigende Qualität der Rechercheergebnisse an der zu bemängelnden Indexierung vorhandener Texte.

Indexierung im Internet

Die Qualität der Rechercheergebnisse im Internet hängt unmittelbar davon ab, wie die Daten im Internet selbst verzeichnet und beschrieben sind, wie sie von Suchmaschinen und anderen intellektuellen Indexierungsvorgängen (Indexierern) generiert, aufgearbeitet und in die Rechercheoptionen eingebunden werden. Zu diesem Zweck wird der Internet Engineering Task Force die Ergänzung der Internetquellen um eine Konstellation von Metatags oder Metadaten vorgeschlagen, die die inhaltliche und formale Erschließung und damit auch die Recherchemöglichkeiten erheblich verbessern können. Nur einheitliche Strukturen können maschinell verarbeitet werden, und in dieser Hinsicht sind Standards für diesen Bereich anzustreben.

Grundlegende Bedingungen für eine Qualitätsverbesserung sowohl des Indexierungsverfahrens bei Internetquellen als auch der Informationsvermittlungsarbeit mit Internetquellen schließen folgende mit ein:

Präzision bei der Beschreibung der Ressourcen in formalen und inhaltlichen Kategorien und Deskriptoren.
Anwendung von internationalen Standards.
Vermeidung von Sprachenproblemen.
Multilingualität fordern und fördern.
Möglichst numerisch-basierte Klassifikationssysteme anwenden (um Internationalität zu erreichen).
Einfache Anwendung und Verständnisstrukturen (um Abweichungen und Variationen bei komplexen Systemen zu meiden).
Präzision auch durch Kombination (Bool'scher Operatoren) bei der Recherche erreichen.
Präzise Indexierung durch die Verfasser und Wissenschaftler selbst zumindest für die fachlichen Aspekte der Indexierung

Zusätzliche Angaben durch Metadaten-Tags verschaffen ein Mittel, vor allem die inhaltliche Erschließung der Internetressourcen qualitativ zu verbessern.

Das Konzept der Metadaten

Metadaten beinhaltet zusätzliche, teilweise übergeordnete Daten zu Informationseinheiten. Metadaten sind Informationen über andere Daten (Dokumenten, Datensammlungen, Bilder, Server etc.), die in einer Form gehalten werden, daß sie die Recherche, das Retrieval und die Nutzung der Primärdokumente ermöglichen, erleichtern und ggf. bestimmen. Durch Metadaten gewinnen formale und inhaltliche Angaben zu den Werken an Struktur, die Präzision fordert, und sinnlose Antworten bei der Recherche vermeidet. Zum Beispiel kann es durch Nutzungspezifizierung vermieden werden, daß gleichlautende Wörter (Homophonen) inkl. Eigennamen ("Menden" als Personennachname im Gegensatz zur Erwähnung der Stadt "Menden" im Titel oder anderem Feld etc.) zu Fehlanzeigen bei der Treffermenge führen. Ebenso können sprachliche Einschränkungen bei einer Recherche sinnvoll sein ("Land" in deutscher Sprache (LANG = de) im Gegensatz zur englischen Sprache).

Verschiedene Schemata von Metadaten existieren schon längst sowohl für Print- als auch für digitale Medien. Darunter sind auch die bibliothekarischen Katalogisierungsregeln und Katalogaustauschformate sowie Klassifikationsschemata, verbale Beschreibungen mittels Deskriptoren, Thesauri, Schlagwortnormdateien etc. Bezogen auf Quellen, die im Internet verzeichnet werden, wurden Metadaten in funktionsbedingte "Elemente" aufgeteilt, die im Vergleich zu herkömmlichen Metadaten eher Gruppierungen sind (z.B. themenbezogene Aspekte, Beziehung zu anderen Werken u.v.a.m.). Durch die entsprechenden Metadata-Tags werden zusätzliche inhaltliche und formale Aspekte mit den Dateien/Objekten verbunden, die dann von Suchmaschinen und anderen methodischen Suchstrategien aufgegriffen werden und dadurch präziseres Suchverfahren und ein höheres Quota von Direkttreffern ermöglichen. Metadaten können sowohl für elektronische "Dokumente" bzw. "dokumentenähnliche Objekte" ("DLOs" - "Document Like Objects") als auch für physikalische Objekte (Bücher, Gegenstände, etc.) benutzt werden, die selbst nicht elektronisch gespeichert werden, aber elektronisch beschrieben oder bibliographiert werden. Somit können inhaltlich verbundene, heterogene Gegenstände zu einem Thema oder Fachgebiet mittels einer Recherche zusammengeführt werden.

Mit dieser neuen Anwendung hat der Begriff "Metadata" eine neue Bedeutung im Zusammenhang mit einigen digitalen Bibliotheksprojekten bekommen, vor allem denjenigen, die von der National Science Foundation der USA gefördert werden. In solchen Projekten wird ein weitaus größeres Spektrum von digitalen und digitalisierten Informationen oft auf der Metaebene, sprich "über" das Werk selbst und als Metatags in der eigentlichen (HTML-)Datei oder getrennt in einer anderen Datei gehalten. Somit wird eine Funktionalität ermöglicht, die bereits erwähnt wurde, um alle Gegenstände, die mit einem Themenstellung zusammenhängen, nachweislich zusammenzuführen, auch wenn sie räumlich weit auseinander liegen, in verschiedenen, bisher nicht zusammengeführten Formen und Formaten vorliegen, und in unterschiedlichen Systemen verzeichnet wurden. Auf dieser Weise wird nicht nur eine technische "Interoperability" verschiedener Systeme sondern auch eine inhaltliche, funktionelle "Interoperability" oder Funktionalität zwischen verschiedenen Datenbankarchitekturen bzw. zwischen verschiedenen angewandten Metadaten-Schemata hergestellt. Leider läßt sich das englische Wort "Interoperability" schlecht ins Deutsche übersetzten. Am nächsten sind Beschreibungen der betriebssystemübergreifenden Funktionalität (auf der Hardware-Ebene), die Integration von und Austausch zwischen verschiedenen Datenbank- und Abfragestrukturen, die einen einheitlichen Suchvorgang gleichzeitig in mehreren Datenspeicherungssystemen ermöglichen, sowie die gleichzeitige Anwendung verschiedener Metadatenkriterien, die ggf. parallel oder getrennt für verschiedene Suchstrukturen und Suchaspekte benutzt werden können.

Bei Internetquellen können strukturierte Metadaten-Elemente folgendermaßen eingesetzt werden:

eingebettet in der Zielinformationen des Headers der HTML-Datei,
in HTML-Dateien, die nur aus Metadaten bestehen, und die zu Nicht-HTML-Dateien

(Bild-, Tondateien etc.), die sie beschreiben, verknüpft sind,

im "Hintergrund" zu Nicht-HTML- oder Textdateien, die sie beschreiben,
in Datenbankstrukturen, die die Zielinformationen enthalten oder auch nicht.

Der erste Fall ermöglicht das "Einsammeln" der versehenen Metadaten bei einer Durchsicht eines Roboters, Harvesters bzw. einer Suchmaschine. Dies gilt auch für den zweiten Fall. Im dritten Fall können einige Suchmaschinen die Metadaten im "Hintergrund" zu Nicht-HTML- oder Textdateien auflesen, im vierten Fall jedoch nicht, da diese in internen Strukturen sind. Datenbanken ermöglichen jedoch "domänspezifisches" Suchen, das heißt, Metadaten, die in einer fachspezifischen Datenbank eingetragen werden, werden sowohl über die Datenbankrecherchestruktur auffindbar als auch über einen fachbezogenen Roboter (wenn dieser darauf eingerichtet ist). So ist die Qualitätssteigerung der Recherche durch Präzisierung mittels Metadaten auch abhängig von den gegebenen Strukturen, in denen die Metadaten gespeichert sind.

Verarbeitung von Metadaten durch Suchmaschinen

Von den bekanntesten Suchmaschinen bearbeiten zur Zeit lediglich AltaVista und Lycos eine begrenzte Zahl von Metadaten-Feldern in HTML-Dateien, nämlich "keywords" ("Stichworte") und "description" ("Beschreibung"), wo vorhanden. Seit April 1997 ist eine Metadata Search Engine (MDSE) im Einsatz, die <META>-Tags nach dem Dublin Core in HTML-Dateien indexiert und einen attributbasierten Suchvorgang für die indexierten Dokumenten anbietet. Diese Suchmaschine wurde speziell zur Unterstützung von der Anwendung von Dublin Core Metadaten sowie die Anwendung von Metadaten im ERIN-Projekt von der Distributed Technology Systems Centre (DSTC) in Melbourne, Australien entwickelt. [2] Diese Suchmaschine kann auch "keywords" und "description" Felder, die von AltaVista und Lycos indexiert worden sind, bearbeiten. [3] Netscape Gold erlaubt die Eingabe von "keywords" als <META>-Tag.

Weitere Suchmaschinen, die allgemein zugänglich und universell in ihrem Angebot sind, die Metadaten indexieren, und sind nicht bekannt. Allerdings gibt es eine Reihe projektbezogener und fachbezogener "Informationsbroker", die Metadaten einzelner Projekte absuchen. Das Nordic Metadata Project [4] hat auch zum Ziel, eine Suchmaschine, die Dublin Core Metadaten indexiert, zu entwickeln. Zur Zeit sind ca. 4 % (nach einer Untersuchung von Preben Hansen) aller schwedischen Web-Seiten mit Metadaten (meistens "keywords" und "description") versehen.

Von den Fachgesellschaften in Deutschland haben einige elektronische Informationssysteme und Preprint-Server mit eigenen Datenbanken und Suchmaschinen oder Informationsbrokern aufgebaut. [5] Die Physiker haben PhysDoc <http://www.physik.uni-oldenburg.de/EPS/EurophysNet/PhysDoc>, die Mathematiker MathNet und MathN Broker <http://www.mathematik. uni-osnabrueck.de/DMVPreprint-Core.html> und <http://www.mathemathik.uni-osnabrueck.de>, die Chemiker die CIC-Metadaten-Initiative <http://schiele.organik.uni-erlangen.de/cic/metadata.html>, die Informatiker MeDoc <http://www11.informatik.tu-muenchen.de/Dienst/>, die Erziehungswissenschaftler den Deutschen Bildungs-Server (DBS) <http://dbs.schule.de>. Auch die deutschen Geowissenschaftler beteiligen sich an mehreren Projekten, die Metadaten benutzen. Obwohl anfangs eigene Metadaten-Schemata in den einzelnen Fachgesellschaften entwickelt wurden, da fachspezifische Belange im Vordergrund standen, haben einige dieser Fachgesellschaften seit Ende 1996 den Wert eines fachübergreifenden Metadaten-Standardformats erkannt und daher ihre Metadaten größenteils auf den Dublin Core umgestellt. Fachspezifische Aspekte werden noch ausgebaut, jedoch innerhalb der Struktur des Dublin Core.

Das deutsche MathN-Projekt des Deutschen Mathematiker-Vereins (DMV) dient als Beispiel für die Bemühungen der deutschen Fachgesellschaften, Metadaten zur Qualitätsverbesserung des fachbezogenen Retrievals ihres Veröffentlichungsangebots einzusetzen. Mathematiker des DMV haben eine Eingabe-Maske für die Erfassung von Metainformationen für den Preprint-Server entwickelt. Diese Angaben werden in die HTML-Dokumente in Dublin Core Syntax (soweit dieser bis jetzt vereinheitlich wurde) umgesetzt und in der Datenbank gespeichert. Die in der internationalen Mathematik allgemein verwendete Systematik der American Mathematical Society (MSC) bzw. die Systematiken verwandter naturwissenschaftlicher Gesellschaften (PACS, CR etc.) sind vorgesehen und erfaßbar. Die durchgehende Verwendung der englischen Sprache für die formalen und inhaltlichen Metadaten sowie für Recherchezwecke entspricht der Internationalität des Faches. Deutschsprachige Titel der Preprints sind natürlich auch im Stringsearch suchbar, aber die Verwendung der international anerkannten Fachsystematik und englischen Verbalerschließungsbegriffe öffnet den Server zur sinnvollen Nutzung durch eine größere internationale Fachcommunity. Trotz der ausgeprägten Internationalität des Faches Mathematik stellt dieser Preprint-Server ein gutes Beispiel für ein gut organisiertes verteiltes Informationssystem dar, das durch die Anwendung von Metadaten eine hohe Akzeptanz unter den Anwender gefunden hat. Der MathN-Broker vertritt entsprechend die fachbezogenen Suchmaschinen der einzelnen Fachgesellschaften, der entsprechend die im System beteiligten Server absucht, und anhand der Metadaten-Eingaben präzise Treffer liefert. Somit erfolgt sowohl eine Qualitätsverbesserung der Recherche durch den fachbezogenen Server und gezielter Informationsbroker als auch durch die Verwendung standardisierter Metadaten (eingegeben durch Standard-Templates).

Im Kontrast zum MathN-Projekt steht der Deutsche Bildungs-Server (German Educational Resources) [6] durchgehend in deutscher Sprache, mit Übersetzung einzelner Seiten in englischer und in französischer Sprache, zur Verfügung. Die verwiesenen Dokumente sind überwiegend deutschsprachig, werden aber teilweise mit sowohl deutschen als auch englischen Metadaten versehen. Da die Bereiche Erziehungswissenschaft, Bildungswesen und Schulwesen in die kulturelle und soziale Struktur eines Landes eingebettet und oft damit auch in den linguistischen Eigenheiten der jeweiligen Sprache konzeptionell verankert sind, reichen Übersetzungen alleine nicht immer aus. Weitere inhaltliche Probleme treten auf, wo die linguistische Darstellung von soziopolitischen Strukturen in einer anderen Sprache nicht mit dem ursprünglichen Sprachbegriff genau übereinstimmt. Der Deutsche Bildungs-Server bietet auch ein passendes Beispiel von der Notwendigkeit zusätzlicher fachspezifischer bzw. domänenspezifischer Qualifiers, um z.B. fachbedingte Ressourcenarten (Lehrmaterialien, Unterrichtspläne u.a.), Themenunterteilungen nach Schulebene etc. zu erschließen und recherchierbar zu machen. Auch im Deutschen Bildungs-Server können Lehrer, Schüler und Wissenschaftler ihre Dokumente und digitalen Ressourcen selbst mit Hilfe eines Eintragungsformulars (auf Deutsch) eingeben, die in Dublin Core Metadaten Kategorien ebenfalls umsetzt. [7]

Weitere Projekte in Großbritannien [8], Skandinavien [9] und Australien [10] fingen bereits 1996 mit der Implementierung von Dublin Core Metadaten an.

Überblick über verschiedenartige Metadaten

Metadaten haben verschiedene Zwecke und Funktionalität. In einem Arbeitspapier beschreiben David Bearman und Ken Sochats [11] die Anforderungen an Metadaten in einer Systemumgebung wie Internet und definieren sechs Schichten, die bestimmte Metadaten-Komponenten gruppieren:

1.
Metadaten zur Identifikation und zu Nachweiszwecken
2.
Metadaten zu Zugangsbedingungen sowie Nutzungs- und Beschaffungskonditionen
3.
Metadaten zu strukturellen Aspekten
4.
Metadaten zum Kontext
5.
Metadaten zum Inhalt
6.
Metadaten zur Nutzungs- und Wirkungsgeschichte

Bearmans Metadatenmodell sollte eigentlich dem Zweck akzeptabler geschäftlicher Kommunikation und Vermittlung von digitalen Werken über verteilte Informationssysteme und Netze dienen. Es baut auf vorhandenen und angelaufenen Standardisierungsdiskussionen auf und versucht, alle Aspekte, die einen digitalen Gegenstand betreffen könnten, zu berücksichtigen.

Der Hauptanteil der gegenwärtigen Metadatendiskussion in der Bibliotheks- und informationsvermittelnden Landschaft betrifft nur die erste Ebene von Bearmans Modell, nämlich die Ebene der Identifikation und des Nachweises (resource discovery and retrieval). Über Standards für die weiteren Ebenen im Bearmans Modell wird zur Zeit in kleineren Expertengruppen beraten, die weniger öffentlich sind und enger an den Bedürfnissen der kommerziellen Teilnehmer liegen. Daher liegt das Hauptmerkmal dieser Abhandlung auf der ersten Ebene von Bearmans Modell, der Ebene, die den informationsvermittelnden Zielen am nächsten kommt und die vorwiegend der für sinnvolles, gezieltes Retrieval erforderlichen Indexierung dient.

Metadaten zur Indexierung und Retrievalpräzisierung

Die Nutzung von Metadaten im Informationsvermittlungsbereich ist zur Präzisierung des Retrievals am weitesten ausgebaut. Verschiedene Metadata-Schemata für inhaltliche und formale Erschließung von digitalen Dokumenten und dokument-ähnlichen Ressourcen wurden in den letzten Jahren von Experten im Rahmen von Digitalisierungsprojekten wie z.B. der NSF-Digital Libraries Initiative (DLI) in USA entwickelt. Neben den herkömmlichen Katalogisierungsregeln und Klassifikationssystemen werden aufgrund der Anforderungen nach Vereinfachung und internationaler Standardisierung neue Metadaten-Elementensätze konzipiert. Einige Metadaten-Schemata (Dublin Core, TEI, EAD, GILS, USMARC etc.) werden hier kurz charakterisiert. Der bekannteste hiervon, der Dublin Core, stammt größenteils aus der bibliothekarischen Welt und wurde nach dem Ort der ersten Tagung zu diesem Zweck, Dublin, Ohio, dem Sitz des Bibiothekslieferanten OCLC, benannt. Andere sind aus den Bedürfnissen entstanden, digitalisierte Objekte im Internet eindeutig und im fachlichen Zusammenhang zu beschreiben, und gleichzeitig fachübergreifende Retrievalfähigkeit zu bewahren.

Dublin Core

Der Dublin Core [12] repräsentiert den "Kern" der inhaltlichen und formalen Erschließungsmerkmale, die sonst für die bibliothekarische und inhaltliche Erschließung benutzt worden sind. Ursprüngliches Ziel der Bemühungen von Bibliothekaren, Informationswissenschaftlern, Informatikern und Systemspezialisten war es, einen Minimalsatz von Erschließungselementen zu definieren, die zur verbesserten Präzision und Retrievalfähigkeit digitaler Dokumente bei Recherchen im Internet, z.B. mittels Suchmaschinen, verhelfen konnten. [13] HTML-Dokumente und dokumentenähnlichen Objekte (DLOs) [14] sollten mit eingebetteten formalen und inhaltlichen "Metatags" im Header des Dokuments versehen werden, die jedoch nicht beim normalen Display durch den Browser angezeigt werden. Search Engines, Roboter und fachspezifische Informations-Broker können diese Metadaten verarbeiten, was zu qualitativ besseren Rechercheergebnissen führen soll.

Ein kurzer Umriß der Entwicklungsgeschichte des Dublin Core sowie die neuesten Entwicklungen, die zur Vorbereitung mehrerer RFC's für die Internet Engineering Task Force noch verhandelt werden, steht an anderer Stelle. [15] Obwohl der Dublin Core zunächst an bibliothekarischen Objekten orientiert war, wurde sehr schnell festgestellt, daß Bild-, Ton- und andere Dateienarten ebenfalls mit dem Dublin Core zufriedenstellend indexiert werden könnten. Separate Workshops zum Zwecke der Indexierung solcher digitalen und digitalisierter Werke wie Satelliten- und andere Bilder, dreidimensionelle CAD/CAM-Darstellungen, sowie statistische und kartographische Werke und Museumsgegenstände bestätigten, daß der Dublin Core auch für diese Art von Erzeugnissen mit wenigen Änderungen angewandt werden kann. [16]

Seit dem 12. Dezember 1996 gibt es die Version 1.0 des Dublin Core, die aus 15 Elementen besteht. Diese wurden nach einer ca. 18monatigen Diskussionsphase in drei internationalen Dublin-Core-Konferenzen, die von der National Science Foundation (NSF) in USA und anderen Gremien der Erforschung, der Verbreitung und Erschließung digitaler Werke unterstützt wurden und in einer (bzw. mehreren) Internet-Diskussionslisten debattiert wurde, festgelegt.

Die 15 Dublin Core Elemente

Im folgenden sind die 15 Dublin Core Elemente nach dem Dublin Core Element Reference Set [17] mit einer kurzen deutschen Beschreibung. Die 15 Elemente des Dublin Core in deutscher Übersetzung mit den derzeitigen ausführlichen Texterläuterungen nach dem englischen Vorbild sind an anderer Stelle einzusehen. [18]

DC.TITLE Titel der Quelle

DC.CREATOR Verfasser/ Urheber, Person(en) oder Organisation(en)

DC.SUBJECT Thema, Schlagwort/Stichwort [19]

DC.DESCRIPTION Beschreibung, Abstract etc.

DC.PUBLISHER Verleger/Herausgeber

DC.CONTRIBUTORS Sonstige Beteiligte: Personen, Organisationen

DC.DATE Datum (empfohlen: JJJJMMTT [20])

DC.TYPE Ressourcenart nach akzeptierten Formschlagwörtern [21]

DC.FORMAT Format, Dateiart

DC.IDENTIFIER Ressourcenidentifikation: URL, URN, ISBN, etc.

DC.SOURCE Quelle, wenn davon abgeleitet

DC.LANGUAGE Sprache des Werks, Code nach Z 39.53

DC.RELATION Beziehung zu anderen Ressourcen

DC.COVERAGE Abgedeckter geographischer Raum/Zeitraum [22]

DC.RIGHTS Rechtliche Bedingungen (URL oder Text) [23]

Jedes Dublin Core Element ist so definiert, daß es leicht verständlich ist und nicht weiter spezifiziert werden muß, um sowohl für Erschließungs- als auch für Recherche-Zwecke allein funktionieren zu können. Ein Qualifier ("Unterfeld") - falls vorhanden - verfeinert den Wert und die Bedeutung des Elements ggf. durch den inhaltlichen Bezug zur Benutzung in einer bestimmten Fachcommunity. Qualifiers entstammten zunächst bekannten bibliothekarischen Standards bzw. Standardbegriffen eines Fachgebiets, zu dem die Ressource gehört. Eine Reihe von Qualifiers wurden bereits im ROADS-Projekt [24] und im Nordic Metadata Project [25] implementiert. Die Flexibilität der nicht obligatorischen Qualifiers sowie die Regelwerkbezeichnung ("SCHEME"), nach welcher Klassifikations- oder Katalogisierungssystematik oder Norm die Bezeichnungen vergeben wird, ermöglicht eine "Tiefe" v.a. der sachlichen Erschließung, die auch den Anforderungen anspruchsvollerer Forschungs- und wissenschaftlichen Recherchezwecken genügt. Qualifiers sind wichtig, weil sie eine selbst zu definierende Spannweite zwischen Alltagsbenutzern und wissenschaftlichen Nutzern zuläßt. [26]

Allerdings teilen sich die Meinungen über die Anwendungen von Qualifiers. Anhänger des ursprünglichen Ziels des Dublin Core, einen einfachen Satz von Elementen zu benutzen, die der entsprechenden Erschließung und dem Retrieval von digitalen Ressourcen im Internet höhere Qualität verleihen könnte (die "Minimalisten"), behaupten, der Kernsatz von 15 Dublin Core Elementen müßte für die Präzisierung der Suche ausreichen. Andere vertreten die Meinung, daß ohne zusätzliche Qualifiers das inhaltliche Ziel des Dublin Core, nämlich eine verbesserte Suchpräzision, kaum erreichbar wäre, daß eine Reihe von Qualifiers für einzelne Elemente notwendig und wünschenswert sei, um Eindeutigkeit des Suchverfahrens zu erzielen und gleichzeitig der Komplexität des Fachgebiets bzw. den Ansprüchen der Wissenschaft gerecht zu werden.

So wurden im 4. Dublin Core Workshop zunächst drei Qualifiers genannt, deren Struktur und Anwendungseckwerte zur Zeit in Arbeitsgruppen ausgearbeitet werden. Diese sind: "SCHEME", "TYPE" und "LANG". Im "SCHEME" wird eine Angabe über das verwendete Regelwerk für die Angaben eines bestimmten Elements eingetragen. "SCHEME" kann z.B. eine ISO-Norm sein, ein bibliothekarischer Normsatz, ein Datumformat oder ein anderes Regelwerk. Die Angabe des "SCHEME" ist oft für die Anwendung weiterer Qualifiers nötig. Alle Einträge in "SCHEME" müssen von einer Koordinierungsstelle akzeptiert werden. "SCHEME" gibt z.B. zusätzliche Informationen, die zur Präzisierung des Indexierungs- bzw. Suchbegriffs dienen. Zum Beispiel: Ein numerischer Wert im Qualifier "CLASSIFICATION" würde ohne die Angabe, daß es sich um eine Zahl aus der "DDC" (Dewey Decimal Classification) Systematik handelt, eventuell mit einem anderen numerischen Regelwerk für Systematik (wie z.B. MSC, PACS etc.) vertauscht und zu Fehlanzeigen führen.

Der zweite Qualifier, "TYPE", wurde als einzige Unterteilungs- oder Verfeinerungsangabe für ein Element und kann in einigen Fällen auch als Unterelement ("subelement") angesehen werden. Die vorher akzeptierte "ROLE" wurde hiermit unter "TYPE" subsumiert und verschwindet als eigenständige Unterteilung. Zur Zeit werden Angaben für die "TYPE"-Unterteilungsmöglichkeiten der jeweiligen Elemente geprüft und es wird eine begrenzte Zahl von erlaubten "TYPE"-Bezeichnungen vorgeschlagen. Die endgültige Liste soll jeweils elementen-gebunden werden und noch weit eingeschränkter als die ursprüngliche ROADS-Liste von Sub-Elementen sein, um die Nutzbarkeit und Retrievalfähigkeit von Dublin Core Metadaten nicht zu beeinträchtigen.

Angaben, die für sprachbedingte Suchen notwendig sind, sollen mit einer Sprachangabe gekennzeichnet werden. Dieses erfolgt mit dem Zusatzqualifier "LANG" (für die Sprache des Inhalts einer Metadatenfelds) und einer Angabe aus dem zweistelligen Sprachencodes Z 39.53 bzw. nach einem anderen universellen Sprachencode. Dieser Qualifier dient auch dazu, orthographischgleiche Wörter in verschiedenen Sprachen mit unterschiedlichen Bedeutung bei einer Suche zu differenzieren.

Im Prinzip einigte man sich während des 4. Dublin Core Workshop (März 1997), daß mit einigen wenigen Ausnahmen alle Elemente auch unqualifiziert ausreichend recherchierbar sein sollen. [27] Dagegen besteht die Möglichkeit der Elementverfeinerung durch zusätzliche Qualifiers, die aber in einem definierten und beschriebenen Satz von erlaubten Qualifiers für das jeweilige Element enthalten sind.

Die Einfachheit des Dublin Core Elementenschemas ermöglicht es, daß nicht nur Bibliothekare (d.h. Kenner eines oder mehrerer komplexer Erschließungssysteme) diese Metadaten anwenden und "vergeben" können. Die Einfachheit wird wahrscheinlich auch ein Pluspunkt für die Akzeptanz solcher Metadaten durch kommerzielle Suchmaschinenhersteller bilden.

Der Stand der Standardisierung des Dublin Core befindet sich noch in der Formulierungsphase. Für die Basisversion des Dublin Core als einfacher Elementensatz und als eingebettete HMTL-Metainformationen werden zwei RFC's formuliert. Weitere RFC's werden dann formuliert, wenn die Referenzlisten der akzeptierten Angaben für die Qualifiers "SCHEME", "TYPE" und "LANG" festgelegt werden. Dabei spielen inhaltliche Aspekte und Syntaxfragen für die Unterstruktur der Elemente eine Rolle.

Eine Koordinierungsstelle bzw. Referenzstelle ("Registry") für den Dublin Core und zugelassene Qualifier, Regelwerke etc. war eine der Empfehlungen des 4. Dublin Core Metadata-Workshops (1997). Ebenso wurden sprachenbezogene bzw. regionalbezogene und fachbezogene Registries für die besonderen Angaben, Übersetzungen und Ergänzungen zu den Dublin Core Elementen und Qualifiers empfohlen. Eine Konkordanz für den Dublin Core zu Katalogisierungsregelwerken und Austauschformaten wurde bereits erstellt. [28]

Die Dublin Core Elemente fanden erstmalige Anwendung vereinzelt in Skandinavien (DESIRE), USA (OCLC etc.), Großbritannien (Archaeology Data Service [29], ROADS [30], SOSIG), Australien (National Library of Australia) und Neuseeland. In Deutschland wird es in einzelnen Projekten der Fachgesellschaften (wie oben erwähnt). Weitere Projekte sind auf der Home Page des Dublin Core aufgelistet <http://purl.org/metadata/dublin_core/>.

Der Dublin Core bietet keine "100 %-Lösung" für alle Zwecke an. Erstens ist er kein "Austauschformat" für bibliothekarische Daten. Zweitens besteht immer wieder ein Konflikt zwischen dem minimalistischen Ansatz, den Dublin Core so einfach und leich anwendbar wie möglich zu halten, und die Flexibilität und Tiefe dieser Metadaten auszuschöpfen. Drittens droht andererseits das Verlieren ins Nebulöse, wenn die Erweiterbarkeit des Dublin Core zu weit ins Detail geht. Teilweise erwarten Fachwissenschaftler sogar eine Erweiterung der Kategorien, die vorher auch in den bibliographischen Datenbanken die Kategorien und Felder ausmachten. Dieses wurde zum Beispiel sehr deutlich bei der Diskussion über Eingabekriterien für elektronische Dissertationen im Kolloquium "Dissertationen Online" (18. März 1997). [31]

Parallel zu den Dublin Core Bemühungen, Metadaten zur Beschreibung von Internet-Ressourcen zwecks Recherche und Retrieval zu definieren, liefen eine Reihe von weiteren, voneinander unabhängigen Bemühungen, verschiedene Metadaten für Internet-Ressourcen zu implementieren. Im Mai 1996 fand ein Workshop des World Wide Web Consortium (W3C) in Cambridge, Mass., statt, der sich mit der Indexierung und Suchpräzisierung von Internet-Ressourcen beschäftigt hat. [32]

Text Encoding Initiative (TEI)

Die Text Encoding Initiative (TEI) wurde bereits 1994 auf SGML-Strukturen zur Identifikation primär bibliographischer Informationen beim Electronic Text Center in Virginia/USA [33] entwickelt. Dieser Metadaten-Satz [34] wurde hauptsächlich zur Anwendung von digitalisierten Texten von gedruckten Vorlagen konzipiert und ist deshalb stark auf Textdokumente beschränkt. Der TEI-Header gibt die Informationen wieder, die auf der "Titelseite" einer elektronischen Veröffentlichung stehen sowie die Art von Dokument, um das es sich handelt. Der TEI-Header kann theoretisch aus dem elektronischen Text automatisch erzeugt werden. Die Hauptfelder der TEI sind:

<teiHeader> Informationen auf der elektronischen Titelseite

<fileDesc> Bibliographische Angaben zur Datei, inkl. Dateiart und -länge

<encodingDesc> Beziehung zwischen elektronischer Vorlage und (gedruckten)

Textquellen, von den es abgebildet wurde

<profileDesc> Beschreibung nichtbibliographischer Informationen über den Text: Sprache(n) des Werkes, Inhaltsangaben, Charaktere, Entstehungsgeschichte des Werkes

<revisionDesc> Reihenfolge der Änderungen zur Datei

Eine TEI-Datei muß den TEI-Header sowie das Feld <fileDesc> enthalten. Weitere Hauptfelder sind nicht obligatorisch, aber empfohlen. Jedes Hauptfeld enthält weitere Attribute, die in SGML einzeln recherchierbar sind (z.B. <titleStmt> Titelangabe, <editionStmt> Ausgabe, <publicationStmt> Impressumsinformationen, <availability> Copyright, Verfügbarkeit etc.). Einige davon sind obligatorisch, andere nur "empfohlen". TEI-Angaben können sowohl in der SGML-Datei vorhanden sein oder in einer getrennten SGML-Datei mit dem Bezug (Linkinformationen) zum Text, auch wenn er im entfernten Server gehalten wird. Das Feld <fileDesc> sollte zur Erstellung einer bibliographischen Titelaufnahme genügen.

Die Attributenstruktur erlaubt weitgehende Angaben von elektronisch gespeicherten Texten und ihren Quellen in einer Detailliertheit, weit über die Möglichkeiten von sogar USMARC hinausgehen. Hier können z.B. unter <profileDesc> auch Angaben über das Projekt enthalten sein, in dem die Digitalisierung des Textes vorgenommen wurde. Ähnlich können Zuordnungen zu verschiedenen Klassifikationssystemen hier angebracht und Referenzdetails u.a. Der Nachteil des TEI-Headers ist, daß er für andere als Textdateien um zusätzliche Aspekte erweitert werden müßte.

Encoding Archive Description (EAD) [35]

Dieser Metadaten-Satz wurde auf SGML-Basis aufgebaut und dient auch als Suchkriterium ("EAD Finding Aid") für Archivdaten. Gründsätzlich enthält dieser Metadaten-Satz mehr Felder als der Dublin Core, wobei fast alle in einem der DC-Elemente wieder gefunden werden können. [36]

Die Elemente dieses Metadaten-Schema sind:

<eadheader> Headername des Dokuments

<title> Titel des Dokuments

<subtitle> Untertitel des Dokuments

<origination> Verantwortliche(r) Hersteller des Dokuments

<author> Verfasser

<sponsor> Zuwendungsgeber für die Erstellung des Dokuments

<imprint> Impressum mit Copyright

<publisher> Verlag / Herausgeber

<repository> Archivstelle im Netz

<address> Adresse des Dokuments

<unidate> Datum der Veröffentlichung

<creation> Datum der Herstellung

<controlaccess> kontrolllierten Vokabular

<index> Thesaurus

<indexterm> Deskriptor

<subject> Weiteres Themawort

<do> Datenformat

<genreform> Art des Dokuments

<add>

<dodesc> Beschreibung des physischen Dokuments

<extent> Systembedingungen und Dateiumfang

<fileplan> Zugangsinformation

<unitid> Standard-Indentifikationsbezeichnung

<archdesc>

<langmaterial> Sprache des Werkes

<langusage> Sprachenanmerkung

<chronlist> Chronologische Einordnung

<chronitem> Zeitliche Begrenzung

<event> Ereignis

<geogname> Geographische Koordinaten, Namen, Bezeichnung

<relatedmaterial> Beziehung zu anderen Materialien

<separatedmaterial> Getrennte, aber inhaltlich und formal verbundene Materialien

<acqinfo> Beschaffungsinformationen

<admininfo> Verwaltungsinformationen

<scopecontent> Anmerkungen zum Inhalt

<profiledesc> Beschreibung im Sinne eines Profils

<note> Anmerkung

Wie gleich ersichtlich, unterscheiden sich diese Metadaten von anderen komplizierten bibliographischen Systemen kaum und erleichtern damit dem Nutzer die Indexierung nicht. Zwar ist eine Eindeutigkeit und eine gewisse Tiefe gewährleistet, aber nicht die einfache Eingabe. Ebenfalls müßte der Endnutzer ausreichende Kenntnisse der Felder, die er recherchieren kann, haben.

Government Information Locator Service (GILS) [37]

Die US-Regierungsbehörden sind daran gehalten, Metadaten in allen ihren digitalen Erzeugnissen einzuschließen. Dadurch, daß seit einigen Jahren alle Regierungsamtsdruckschriften von der Government Printing Office auch in elektronischer Form angeboten werden, funktioniert dieser Metadaten-Satz als eine Art Norm für alle US-amtlichen Druckschriften. Folgende Elemente gehören zu diesem Metadaten-Satz:

Title Titel

Orginator Verfasser / Hersteller

Distributor Herausgebende Behörde

Point of Contact Kontaktstelle (für die Bestellung)

Available Time Period-Structured Erhältlich bis ... (strukturiert)

Available Time Period-Textual Erhältlich bis .. (Text)

Index Terms-Controlled Kontrolliertes Vokabular

Thesaurus Thesaurusbegriff

Local Subject Term Zusätzlicher Lokal-Deskriptor

Format Datenformat, Dateiformat

Control Identifier Identifikationskennung

Original Control Identifier Ursprüngliche Identifikationskennung

Spatial Domain Geographischen Bereich

Bounding Coordinates, Place Abgrenzenden Koordinaten örtlicher Bestimmung

Time Period-Struktured Zeitraum-strukturiert

Time Period-Textual Zeitraum-in Textbeschreibung

Record Source Ressourcenquelle

Sources of Data Datenquellen

Abstract Abstract

In diesem Metadaten-Satz fehlen Angaben für die Sprache des Werkes und vor allem den Bezug zu anderen Ressourcen.

USMARC

USMARC ist das Austauschformat für maschinelle Verarbeitung bibliographischer Daten, die vom Network Office der Library of Congress bereits in den spätsechziger Jahren entwickelt wurde. Dieses Metadaten-Format enthält weitaus mehr und differenziertere Felder als jeglicher andere Metadaten-Satz. Diese werden hier nicht aufgelistet, da sie an anderer Stelle einzusehen sind, auch in Verbindung mit den Elementen der EAD, der GILS und des Dublin Core. [38]

USMARC wird sowohl in der British Library CATRIONA Projekt (Katalogisierung von Internetressourcen) als auch von OCLC in einem Internetkatalogisierungsprojekt benutzt. [39]

MAB2

Das deutsche Pendant zu USMARC, das maschinelle Austauschformat für Bibliotheken 2 (MAB2), dient auch als Metadaten-Satz, der im Umfang ähnlich ist wie USMARC [40] jedoch mit einfachen Feldern, während USMARC-Felder oft in Unterteilungen (Subfelder) strukturiert sind. In Nordrhein-Westfalen werden im Internet-basierten Informations-System (IBIS) MAB-Felder als Metadaten für die Katalogisierung von Internet-Ressourcen benutzt. Eine Konkordanz zwischen MAB2 und dem Dublin Core Metadaten-Satz haben Volker Henze und Michael Schefczik hergestellt. [41]

Weitere Metadaten-Schemata schließen die US-Federal Geographic Data Committee Content (FGDC) (die geowissenschaftliche Spezifika enthält) u.a. ein. Eine Zusammenfassung dieser und weiterer verschiedener Metadaten-Schemata haben Rachel Heery und Lorcan Dempsey u.a. erstellt. [42]

Organisatorische Strukturen zur Eingabe von Metadaten

Bei der Konzeption von Metadaten ist es vorgesehen, daß der Autor oder Hersteller eines "Werkes" selbst die Metadaten, insbesondere zur inhaltlichen Erschließung, erzeugt oder einträgt. Bei Bildern, Datensammlungen, Servern und vielen anderen Ressourcen werden Extradateien für die Metadaten angefertigt ggf. mit Hilfe von geeigneten Templates. Für verschiedene Zwecke wird ein einzelnes "Werk" eventuell mehrfach mit verschiedenen Metadaten in unterschiedlichen Vertiefungsgraden erschlossen. Die Meinungen von Wissenschaftlern, Dokumentaren und Bibliothekaren teilen sich bei dieser Frage. Vor allem ohne einen gewissen Grad von Standardisierung und ohne die Verfügbarkeit von benutzerfreundlichen Templates zur Eingabe, ist kein Ersteller von Internet-Informationen bereit, seine Metadaten selbst einzutragen.

Seit März 1997 steht ein im Rahmen des Nordic Metadata Project von Traugott Koch und Matthias Borell entwickeltes Anmeldeformular [43] bzw. Konverter für Metadatenangaben nach dem Dublin Core zur Verfügung. Dieses Formular bearbeitet die Metadaten sowohl in ASCII-Textformat als auch in HTML-Metadata-Format zur Übernahme in eine HTML-Datei. Das Formular bietet Hilfstexte [44] zu allen Angaben bei der Metadaten-Erfassung an. Der Grad der Erweiterbarkeit bzw. Indexierungs-"Tiefe" bleibt dem Verfasser erhalten: In diesem Formular sind sowohl die Minimalanforderungen definiert und mit roten Punkten gekennzeichnet während gleichzeitig eine breite Pallette von Standardeintragungen für alle Elemente und ggf. weitere Unterfelder inklusive Formschlagwörtern, universell anerkannter Regelwerke zur Übernahme in die Rubrik "SCHEME" etc. angeboten werden. Dieser Service kann von jedem genutzt werden, der Metadaten in seiner HTML-Datei einbetten möchte, auch wenn er selbst keine HTML-Erfahrungen hat. Die Angaben können auch für eine Datenbankerfassung von Metadaten angewendet werden. Weitere Eingabe-Templates sind im MathN und anderen Projekten der Preprint-Server sowie in den ROADS-Projekten in Großbritannien für zugelassene Benutzer vorhanden. Der Deutsche Bildungs-Server hat eine freizugängliche Eingabe-Maske, die für alle Arten von Ressourcen dient und von Schülern, Lehrern oder Erziehungswissenschaftlern bedient werden kann.

Der Indexierer wählt selbst die Felder, die belegt werden. So kann eine einfache, relativ schnelle Erfassung erfolgen jedoch auch gleichzeitig - wenn es für sinnvoll gehalten wird - eine hochstrukturierte, spezialisierte Erfassung. Die Entscheidung wird letztendlich von verschiedenen Kriterien abhängen. Ideal entspricht der Grad der Tiefenindexierung dem wissenschaftlichen Niveau, er könnte sich jedoch auch aus dem Zeitmanagement des Indexierers bzw. seinem Kenntnisstand ergeben. Je strukturierter die vergebenen Metadaten zu einer Datei sind, umso strukturierter und nützlicher für fachspezifische Recherchen sind die Retrievalindices und -möglichkeiten.

Indexierung durch den Verfasser beinhaltet eine qualitativ höherwertige Indexierung als durch einen Bibliothekar oder Dokumentar. Nicht nur übertreffen die Fachkenntnisse des Verfassers meistens diejenigen des Bibliothekars / Dokumentars, sondern der zeitliche Aufwand, die inhaltliche Erschließung zu bestimmen, ist durchaus weniger beim Verfasser des Objekts als bei einem "Dritten", der das Werk anlesen und analysieren muß, etc. Außerdem kann der Verfasser den Inhalt im Kontext und im Bezug zu anderen relevanten Quellen viel eher setzen als daß der bibliothekarische oder dokumentarischer Mitarbeiter es kann.

Die verteilte Vergabe der Metadaten und Elementeninhalte kann unter mangelnder Ansetzungs- und Begriffsstandardisierung zu abweichenden und nicht übereinstimmenden, sogar weit auseinanderliegenden Terminologien und Ansetzungen führen, die bei der Recherche nicht unbedingt gleichzeitig berücksichtigt werden und dem Zweck des Retrievals dann nicht gerecht werden. Auch die Vergabe durch verschiedene Personen mit verschiedenen inhaltlichen und "Tiefen-"Bedürfnissen wird dazu beitragen, daß die Erschließung sehr unterschiedlich ausfällt und nicht immer für den Zweck einer einzigen Recherche ausreicht. Standards, vor allem diejenigen, die von den wissenschaftlichen Fachgesellschaften unterstützt werden, können jedoch diese Probleme minimieren.

Metadaten-Provider

Die Diskussion, wer als Metadata-Providergruppe (Autoren, Bibliothekare, Indexierer, Verleger etc.) in Frage kommt, ist noch nicht ausgestanden. Auch kommerzielle Anbieter kommen in Frage als Anwender von Metadaten. Einige Firmen, z.B. Softquad, nehmen aktiven Teil an der Dublin-Core-Entwicklung und wenden ihn z.T. bereits an. In Europa zielt das EU-Projekt BIBLINK darauf ab, Metadaten sowohl von Bibliotheken als auch von Verlegern und anderen Produzenten in den Katalogisierungsvorgang für vernetzten Ressourcen zu integrieren. Metadaten, die vom Verleger oder kommerziellen Anbieter / Host erfaßt werden, beinhalten vor allem Nutzungs- und Beschaffungsbedingungen sowie Modalitäten zur Kostenabrechnung, die sonst getrennt von der Ressource gehalten werden. Somit können diese Informationen (Abo-Informationen, Einzelartikelkosten und -bedingungen, Bezugsbedingungen für Datenbankquellen etc.) gleich beim Retrievalvorgang abgerufen werden und für eine Entscheidung im Zusammenhang mit den inhaltlichen Kriterien benutzt werden. Außerdem werden Bezugs-, Nutzungs- und Preisbedingungen genau auf das Objekt abgestimmt, statt daß der Nutzer auf ein kompliziertes, oft nicht durchschaubares Abrechnungssystem von Lizenzgebühren, Aufsatzgebühren, Liefergebühren etc. verwiesen wird, die ggf. für eine Gesamtnutzung einer Quelle zutreffen, aber nicht für den Einzelartikel oder Datensatz gelten.

Die Implementierung von PICS [45] wird für den ganzen Bereich von Metadaten, aber vor allem im Hinblick auf Bewertungen und gesicherte Benutzungs-, Berechtigungs- und Zahlungskonditionen für einzelnen Dokumente, ausschlaggebend sein.

Zusammenfassung

Die Metadaten, die hier angesprochen sind, beziehen sich lediglich auf die ergänzende Beschreibung des Inhalts und der Form (bzw. des Formats) und dienen vorwiegend der für sinnvolles, gezielteres Retrieval erforderlichen Indexierung. Diese können die Qualität des Suchverfahrens und des Informationsretrievals im Internet verbessern. Da die Anwendung erst angelaufen ist und Ergebnisse zunächst aus der fachbezogenen Metadatennutzung und den fachbezogenen Informationsbrokern stammen, muß noch beobachtet werden, wie die universellen Suchmaschinen reagieren, wenn standardisierte Metadaten angewandt werden.

Außerdem müssen neue Kriterien für die informationsvermittelnde Arbeit sowie für die bibliothekarische Arbeit definiert werden, um mit den Wissenschaftler geeignete Kooperationsmöglichkeiten zur verbessertern Erschließung von Internetquellen und ggf. auch herkömmlichen Quellen in einer vernetzten, retrievalfähigen Datenbank zu erreichen. Die Implikationen dieser Entwicklung, vor allem durch den Einsatz des Verfassers Metadaten teilweise selbst einzutragen, sind weitreichend. Herkömmliche Katalogisierungspraxen werden durch die Vergabe von Metatags weitgehend überholt. Wissenschaftler (Verfasser) und Bibliothekare / Dokumentare kooperieren arbeitsteilig, um Zeitersparnis und verbesserte Erschließung bzw. Informationsvermittlung zu erreichen. Nach den ersten Erfahrungen mit solchen Metadata-Tags zu urteilen, kann die Qualität des Retrievals im Internet erhöht werden. So sind die ersten festen Schritte unternommen worden, das Internet wissenschaftsreif, wissenschaftsfähig zu machen und zu vermeiden, daß die Arbeit mit dem Internet als "unnötiger Zeitverlust und Informationsoverload" überwiegend charakterisiert wird.

Weitere Literatur

Beckett, David: IAFA Templates in use as Internet Metadata <http://www.w3.org/pub/Conferences/WWW4/Papers/52/>

Dublin Core Metadata Element Set: Reference Description <http://purl.org/metadata/dublin_core_elements>

Guide to Creating Core Descriptive Metadata [DRAFT] <http://www.ckm.ucsf.edu/meta/mguide3.html> (wird zur Zeit überarbeitet)

IFLA: Metadata-Resources <http://www.nlc-bnc.ca/ifla/II/metadata.htm>

Miller, Paul: Metadata for the Masses. Ariadne September 1996 <http://www.ukoln.ac.uk/ariadne/issue5/metadata-masses/>

Weibel, Stuart: A Proposed Convention for Embedding Metadata in HTML. June 1996 <http://www.oclc.org:5046/~weibel/html-meta.html>

Weibel, Stuart: Metadata: The Foundations of Resource Description. D-Lib Magazine July 1995 <http://www.dlib.org/dlib/July95/07weibel.html>

Weibel, Stuart; Miller, Eric; Godby, Jean; LeVan, Ralph: An Architecture for Scholarly Publishing on the World Wide Web. <http://www.oclc.org:5046/oclc/research/publications/weibel/web_pub_arch/>

 

   
   

Fußnoten

Vgl. Diann Rusch-Feja: Informationsvermittlung, Informationsretrieval und Informationsqualität im Internet. Zeitschrift für Bibliothekswesen und Bibliographie 43 (4) (1996), S. 329-360; Bernard Bekarvac: Suchverfahren und Suchdienste des World Wide Web. Nachrichten für Dokumentation 47 (4) (1996), S.195-213. Siehe auch The Internet: Bringing Order from Chaos. The Scientific American 276 (3) (1997), S. 41-42 und Clifford Lynch: Searching the Internet. The Scientific American 276 (3) (1997), S. 43-48 sowie die weiteren Artikel in diesem Themenheft.
Die Metadata Search Engine findet man unter der URL <http://purl.org/dstc/mdse>.
Da zum Zeitpunkt der Erfassung dieses Artikels nicht sehr viel in der entsprechenden Datenbank dieser Suchmaschine enthält, beruht diese Aussage auf eine Mitteilung von Dr. Renato Iannella, DSTC, vom 8.4.97 in der META2 Diskussionsliste.
<http://www.ub2.lu.se/desire/>
Siehe z.B. Projekte der Fachgesellschaften, die auf der Metadata-Seite der Universität Göttingen erwähnt sind <http://www2.sub.uni-goettingen.de/initiatives.html>. Für die Aktivitäten der IuK-Kommission der Fachgesellschaften hinsichtlich Metadaten siehe <http://www.mathematik.uni-osnabrueck.de/ak-technik/IuKKwF.html>.
<http://dbs.schule.de>
"Erstellung eines neuen Datensatzes" (für die Datenbank von Lern- und Unterrichtsmaterialien) <http://dbs.schule.de/db/inconeue.html>
Lorcan Dempsey: ROADS to Desire. Some UK and Other European Metadata and Resource Discovery Projects. D-Lib Magazine, July/August 1996 <http://bubl.ac.uk/>; siehe auch die Homepage des ROADS-Projekts der eLib <http://ukoln.bath.ac.uk/roads/>
DESIRE, Nordic Metadata Projekt <http://www.ub2.lu.se/desire/>
Renato Iannella: Metadata Activities in Australia <http://www.dstc.edu.au/RDU/pres/nat-md/>
David Bearman und Ken Sochats: Metadata Requirements for Evidence <http://www.oclc.org:5046/conferences/metadata/requirements.txt>
Vgl. die Homepage des Dublin Core <http://purl.org/metadata/dublin_core/>
Diese Art von Metadaten dient lediglich "resource discovery and retrieval" (vgl. Rusch-Feja, Diann: Metadaten zur Erschließung digitaler Ressourcen und PURL. In: Weiter auf dem Weg zur Virtuellen Bibliothek! Praxis, Projekt, Perspektiven. 2. InetBib-Tagung der Universität Dortmund und der Fachhochschule Potsdam Fachbereich Archiv-Bibliothek-Dokumentation vom 10.-11. März 1997 in Potsdam. Hrsg. Beate Tröger. Dortmund, Potsdam, 1997, S. 7-11. In Kurzform: <http://www.mpib-berlin.mpg.de/DOK/metadata/INETwksp.htm>. Siehe auch David Bearman und Ken Sochats: Metadata Requirements for Evidence <http://www.oclc.org:5046/conferences/metadata/requirements.txt>
DLO = Document-Like Object.
Diann Rusch-Feja: Dublin Core Metadata - Auf dem Weg zur Entwicklung eines Internet-Standards - (mit einem Bericht über den 4. Dublin Core Metadata Workshop in Canberra, Australien). Bibliotheksdienst 31 (4) (1997), (im Druck)
CNI/OCLC Metadata Workshop on Metadata for Networked Images <http://purl.oclc.org/metadata/image>. Siehe auch Stuart Weibel und Eric Miller: Image Description on the Internet. A Summary of the CNI/OCLC Image Metadata Workshop, September 24-25,1996, Dublin, Ohio. D-Lib Magazine, January 1997 <http://www.ukoln.ac.uk/dlib/january97/oclc/01weibel.html>
<http://purl.oclc.org/metadata/dublin_core/>
Dublin Core Element Reference Set <http://purl.org/metadata/dublin_core_elements/> Die deutsche Fassung der englischen Erläuterungen der DC-Elemente wird jeweils auf dem neuen Stand an folgender URL gehalten: <http://www.mpib-berlin.mpg.de/DOK/metatagd.htm>
Dieses Dublin Core Element kann durch die Zusatzangabe "SCHEME" ein Klassifikationssystem, einen Thesaurus oder ähnliches anerkanntes Erschließungssystem spezifizert werden.
Seit März 1997 wird eine Spezfizierung dieses Elements in DC.DATE.CREATED (Datum der Herstellung bzw. der ersten Veröffentlichung) und DC.DATE.LASTMODIFIED (Datum der letzten Änderung) akzeptiert. Weitere zugelassene Aufteilungen dieses Elements werden zur Zeit besprochen
Die Angabe für dieses Feld wird aus einer definierten Liste von Ressourcenarten zu entnehmen sein. Eine vorläufige Liste solcher Ressourcenarten ist unter der URL <http://www.roads.lut.ac.uk/Metadata/DC-ObjectTypes.html> zu finden, die sich aber zur Zeit unter heftiger Diskussion befindet und stark überarbeitet wird. Weitere deutsche Entsprechungen werden auf der Metadata-Seiten der Verfasserin zu finden sein <http://www.mpib-berlin.mpg.de/DOK/metadata.htm>.
Im 4. Dublin Core Workshop wurde zunächst eine grundsätzliche Aufteilung dieses Elements in DC.COVERAGE.SPATIAL (bei Angaben zur räumlichen Verortung) und DC.COVERAGE.TEMPORAL (für Angaben, die einen zeitlichen Wert oder eine Dauer beinhalten) durchgeführt.
Vorgesehen für den Inhalt dieses Elements ist ein Link (URL oder andere passende URI wie zutreffend) zu einem Urhebervermerk, ein "Rights-Management"-Vermerk über die rechtlichen Bedingungen oder ggf. zu einem Server, der solche Informationen dynamisch erzeugt. Die Angaben in diesem Feld ermöglichen Informationsanbietern, die Verbindung von Bezugs- und Benutzungsbedingungen sowie rechtliche und abrechnungsbedingte Voraussetzungen oder Urhebervermerke mit einer entsprechenden Ressource oder einer Sammlung von Ressourcen herzustellen.
Jon Knight und Martin Hamilton: Dublin Core Qualifiers. ROADS Project, Department of Computer Studies, Loughborough University <http://www.roads.lut.ac.uk/Metadata/DC-Qualifiers.html>
The Nordic Metadata Project <http://linnea.helsinki.fi/meta/index.html>
Stuart Weibel: Metadata: The Foundations of Resource Description. D-Lib Magazine July 1995 <http://www.dlib.org/dlib/July95/07weibel.html>
Siehe Rusch-Feja (1997), (Fußnote [15])
Siehe USMARC-DC-Crosswalk (Rebecca Günther) <http://www.loc.gov/marc/dccross.html>
<http://www.ncl.ac.uk/~napm1/ads/metadata.html>, siehe auch Paul Miller: An Application of Dublin Core from the Archaeology Data Service <http://intarch.ac.uk/ads/project/metadata/dublin.html>
Im ROADS-Projekt wurden IAFA Templates zunächst benutzt, die allerdings auch eine Ähnlichkeit mit den Dublin Core Metadaten haben. Diese wurden für die Indexierung und Beschreibung von FTP-Dateien ursprünglich benutzt.
Siehe Dissertationen Online <http://www.educat.hu-berlin.de/diss_online/program.html>
W3C Distributed Indexing and Searching Workshop <http://www.w3.org/pub/WWW/Search/9605-Indexing-Workshop/>
Vgl. Edward Gaynor: Cataloging Electronic Texts: The University of Virginia Library Experience. Library Resources and Technical Services 38 (4) (1994), S. 403-413.
Vgl. C.M. Sperberg-McQueen und Lou Burnard (Hrsg.): Guidelines for Electronic Text Encoding and Interchange. Chicago, Oxford: Text Encoding Initiative, 1994.
Die EAD Homepage findet man unter der URL <http://lcweb.loc.gov/loc/standards/ead/>
Vgl. DRAFT: Dublin Core Element Set Crosswalk <http://www.oclc.org:5046/~emiller/DC/crosswalk.html>
Die Spezifizierungen für GILS findet man unter dem URL <http://www.usgs.gov/gils/index.html>, siehe auch GILS: Application Profile for the Government Information Locator Service (GILS), Federal Information Processing Standard, FIPS PUB 192. Siehe auch <http://www.usgs.gov/gils>
Siehe Dublin Core Element Set Crosswalk <http://www.oclc.org:5046/~emiller/DC/crosswalk.html>.
Vgl. CATRIONA-Projekt <http://www.bubl.bath.ac.uk/BUBL/maincatriona.html> und N. Olson (Hrsg.): Cataloging Internet Resources: A Manual and Practical Guide <http://www.oclc.org/oclc/man/catproj/catcall.htm>. Siehe auch <http://www.ubS2.lu.se/tk/metadata/cat-sept.html> für Hinweise über IAFA Templates und andere Internetkatalogisierungsprojekte.
Eine Konkordanz zwischen USMARC und MAB1 wurde von Bernhard Eversberg hergestellt und wird von ihm weiter online gepflegt.
Volker Henze und Michael Schefczik: Metadaten: Beziehungen zwischen Dublin Core Set, Warwick Framework und Datenformaten. Bibliotheksdienst 31 (3) (1997), S. 413-419.
Lorcan Dempsey und Rachel Heery: Metadata: an overview of current resource description practice. Work Package of Telematics for Research Project DESIRE (no. 1004) <http://www.ukoln.ac.uk/metadata/DESIRE/overview/>
Dublin Core Metadata Template <http://www.ub2.lu.se/metadata/DC_creator.html>
Traugott Koch: Dublin Core Element Set: The 15 Elements. <http://www.ub2.lu.se/tk/metadata/CD10cats.html>
Der Platform for Internet Content Selection (PICS) sieht sowohl ein System für inhaltliche Bewertungen vor als auch eine Empfehlung für die Namensgebung und Syntax von Metadaten zwecks datentechnischer Kommunikationen. Siehe <http://www.w3.org/pub/WWW/PICS/>.
   
         
  Contact Author
 

Diann Rusch-Feja
Max-Planck-Institut für Bildungsforschung
Lentzeallee 94
D-14195 Berlin
Tel.: +49 30 824 06-230
Fax: +49 30 824 99 39
E-mail: ruschfeja(at)mpib-berlin.mpg.de

http://www.mpib-berlin.mpg.de/DOK/ech.htm (Clearinghouse für projektbezogene Internet Informationen)

http://www.mpib-berlin.mpg.de/DOK/metatagd.htm (Dublin Core, Deutsche Version)

   
       
    » Home   » The Institute   » Electronic Full Texts   
  Update 7/2001   » webmaster-library(at)mpib-berlin.mpg.de
» ©Copyright