© Universität Bielefeld

BASE Weblog

BASE Weblog - Tag [indexierung]

Neue Quellen im BASE Lab

Veröffentlicht am 10. März 2011

Ein wichtiger Teil der Migration von FAST nach Lucene/Solr ist die Anpassung der Workflows zum Management der OAI-Quellen. Deshalb freuen wir uns, dass wir in den letzten Tagen eine größere Anzahl neuer Dokumentenserver, die zum Teil schon länger bei uns in der Pipeline standen, in den BASE-Lab-Index aufnehmen konnten:

  • Univerzita Tomáše Bati ve Zlíně: DSpace UTB
  • Universidade Católica Portuguesa: Veritati - Repositório Institucional
  • Instituto Superior de Psicologia, Lisboa: Repositório do ISPA
  • Instituto Politécnico de Leiria: IC-onlineUniverzita Tomáše Bati ve Zlíně: DSpace UTB
  • Electronic Sumy State University Institutional Repository (eSSUIR)
  • CEEMaR (Central and Eastern European Marine Repository)
  • Universität des Saarlandes, Universitätsverlag universaar: Bücher Online
  • University of Central Florida Libraries: Digital Collections
  • San José State University: SJSU ScholarWorks
  • Repozytorium Cyfrowe Poloników / Digital Repository Polonica
  • Pedagogical Digital Library (dLibra) / Pedagogiczna Biblioteka Cyfrowa
  • OPUS - Hochschulschriftenserver der Hochschule Aalen
  • Olivet Nazarene University: Digital Commons @ Olivet
  • Linfield College: DigitalCommons@Linfield
  • Hertie School of Governance, Berlin: OPUS-Dokumentenserver
  • Georgetown University's Law School: Scholarship@Georgetown Law
  • Universität Siegen: OPUS Siegen
  • Universität des Saarlandes, Universitätsverlag universaar: Zeitschriften online
  • Universidade Federal de Uberlândia (UFU): Sistema Eletrônico de Editoração de Revistas
  • Universidade Federal da Paraíba: Portal de Periódicos Científicos Eletrônicos da UFPB
  • Universidade do Oeste Paulista (Unoeste): Sistema Eletrônico de Editoração de Revistas
  • Universida del Norte: Series y Revistas Científicas
  • Revista Iberoamericana (Host: University of Texas, Austin)
  • Revista Brasileira de Estudos de Segurança Pública (REBESP)
  • Review of Economics and Institutions / Economia, Società e Istituzioni
  • Community Literacy Journal (Host: DePaul University, Chicago)
  • Bergische Universität Wuppertal: Elektronische Publikationen
  • African Ethnomedicines Network: E-Journals (Host: Simon Fraser Univ. Vancouver)
  • InterDisciplines - Journal of History and Sociology (Bielefeld Graduate School in History and Sociology

Links und Dokumentenzahl können der Quellenliste entnommen werden.

Gesendet von Dirk Pieper in Indexierung

Fehler in der Trefferliste, oder: wie indexiert BASE?

Veröffentlicht am 8. März 2011

Von Nutzern und Repository-Betreibern werden wir hin und wieder auf scheinbar unvollständig indexierte Quellen oder fehlerhaft indexierte Dokumente aufmerksam gemacht.

Zu solchen Fehlern kommt es in aller Regel, wenn es Probleme mit der OAI-Schnittstelle des Repositories gibt. An der Weboberfläche des Repositories kann dabei durchaus alles korrekt sein, da wir aber nur die OAI-Metadaten indexieren ist die Anzeige der Weboberfläche für die Indexierung in BASE nicht relevant. Wir indexieren über OAI, da hier - anders als auf Webseiten - eine eindeutige und korrekte Indexierung von Metadaten (Autor, Titel, Abstract, Schlagwörter etc.) möglich ist. Die Indexierung geschieht zuerst mit einem Harvester, der sich um das Einsammeln (to harvest = ernten) der OAI-Daten kümmert. Die Daten werden anschließend mit unserer Suchmaschinensoftware indexiert und schließlich in einer Trefferliste angezeigt. Dazu ein Beispiel dem Dokumentenserver des BIB:

Anzeige im Dokumentenserver: http://ub.unibi.de/base04a
OAI-Datensatz: http://ub.unibi.de/base04b
Treffer in BASE: http://ub.unibi.de/base04c

Man sieht einen kleinen Unterschied zwischen der Anzeige im Dokumentenserver und der Anzeige in BASE; während nämlich die URL des Datensatzes http://www.opus-bayern.de/bib-info/frontdoor.php?source_opus=546 lautet, führt der Treffer in BASE auf die Zitat-URL http://www.opus-bayern.de/bib-info/volltexte/2008/546/. Dies liegt daran, dass im OAI-Datensatz im Feld <dc:identifier> diese Zitat-URL zu finden ist.

Die OAI-Metadaten können sich aber noch weitaus stärker von dem unterscheiden, was man an der Weboberfläche im Dokumentenserver sieht. Es kann auch sein, dass der Betreiber der Quelle im OAI-Datensatz einen Fehler behebt, diese Korrektur aber nicht ordnungsgemäß über die OAI-Schnittstelle mitteilt. So erfährt unser Harvester auch nicht, dass sich an dem Datensatz etwas geändert hat. Erst ein kompletter Neuabzug der Daten behebt dann den Fehler auch in den Metadaten, die bei uns angezeigt werden. Wegen der langen Ladezeiten können wir solche Komplettabzüge aber nur hin und wieder durchführen.

Neben unterschiedlichen Metadaten, kann es auch vorkommen, dass über OAI nur ein Teil der Daten geliefert werden, die im gesamten Dokumentenserver zu finden sind. Manchmal fehlt auch der "identifier" in den OAI-Metadaten. Dann wird der Datensatz nicht weiter verarbeitet, denn reine Zitatanagaben ohne einen Link zumindest auf eine Webseite mit den Metadaten nehmen wir (anders als z.B. Google Scholar) nicht in unseren Index auf.

Da es auch vorkommen kann, dass auf unserer Seite beim Harvesten oder Indexieren ein Fehler passiert, sind wir natürlich an Ihren Rückmeldungen interessiert. Wenn Ihnen also ein Fehler auffällt, schicken Sie einfach eine Nachricht über unser Kontaktformular.

Gesendet von Sebastian Wolf in Indexierung

Tag Hinweis

Auf dieser Seite werden nur die mit dem Tag [indexierung] versehenen Blogeinträge gezeigt.

Wenn Sie alle Blogeinträge sehen möchten klicken Sie auf: Startseite

Kalender

« April 2024
MoDiMiDoFrSaSo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
     
       
Heute