BASE Weblog

Hintergrundbild
Hintergrundbild

BASE Weblog - Tag [index]

100 Millionen Nachweise in BASE

Veröffentlicht am 18. November 2016

Unsere wissenschaftlichen Suchmaschine BASE hat einen wichtigen
Meilenstein erreicht: Die Metadaten von über 100 Millionen
wissenschaftlichen Dokumenten können über BASE durchsucht werden. BASE
ist damit - nach Google Scholar - die größte wissenschaftliche
Suchmaschine weltweit. BASE ist zudem eine der größten europäischen
Suchmaschinen überhaupt.

Ausgebaut und verfeinert haben wir in letzter Zeit vor allem die
Erkennung von Open-Access-Dokumenten und die Zuordnung zu Dokumentarten.
Sie können nun z.B. in der erweiterten Suche gezielt nur nach
Zeitschriftenaufsätzen, Buchkapiteln oder Vorträgen suchen. Hierbei
kommen von uns intellektuell erstellte Tabellen zum Einsatz, über die
die heterogenen Angaben aus den Originaldaten dem jeweiligen Oberbegriff
zuordnet werden. Als Vorlage hierfür diente uns das Vokabular, welches
im EU-Projekt OpenAIRE verwendet wird, an dem die
Universitätsbibliothek Bielefeld beteiligt ist.

Knapp 40% der indexierten Nachweise konnten wir inzwischen eindeutig als
Open Access kennzeichnen. Darüber hinaus sind weitere Nachweise frei
zugänglich, die aber teilweise wegen unzureichender Metadaten (noch)
nicht in BASE als OA gekennzeichnet werden konnten. Etwa 60% der
indexierten Nachweise in BASE sind nach Stichproben weltweit frei
zugänglich.

Ein größeres Projekt, an dem wir derzeit arbeiten, ist die Anreicherung
der Autorennamen um ORCID-iDs im Rahmen des Projektes ORCID DE.
Geplant ist auch die Einbindung eines ORCID-Claiming-Dienstes, so dass
Autoren selbst ihre Metadaten in BASE um ORCID-iDs ergänzen können und
in ihre ORCID-Publikationsliste exportieren können.

Für Repository-Betreiber haben wir Goldene Regeln zusammengestellt,
die dabei helfen, die eigene OAI-Schnittstelle (nicht nur) für die
Indexierung in BASE zu optimieren.

Nachweise aus BASE sind über Schnittstellen inzwischen in zahlreichen
anderen Suchmaschinen und Portalen in aller Welt integriert. Die
HTTP-Schnittstelle und OAI-Schnittstelle können für nicht-kommerzielle
Projekte kostenlos nachgenutzt werden. Über unsere Schnittstellen
und die BASE-Suchmaske erfolgen inzwischen mehrere Millionen Zugriffe im
Monat. Der von der Universitätsbibliothek Bielefeld aufgebaute Index
trägt so zu einer weltweiten Sichtbarmachung von Open-Access-Nachweisen bei.

Wichtige Fragen (und deren Antworten) zu BASE haben wir in unserer FAQ zusammengestellt.

Gesendet von Sebastian Wolf in Allgemein Tags: orcid index

10 Jahre BASE

Veröffentlicht am 24. Juni 2014

Vor genau 10 Jahren, am 24.6.2004, ging unsere wissenschaftliche Suchmaschine BASE online.

BASE umfasst mittlerweile über 60 Mio. Dokumente aus über 3000 Quellen und ist eine der größten wissenschaftlichen Suchmaschinen weltweit. Etwa 70% der Dokumente sind frei im Sinne des Open Access zugänglich. Von den restlichen Dokumenten stehen die Metadaten zur Verfügung.

Ein Rückblick

Die Ursprünge unserer Suchmaschine BASE liegen im Jahr 2001. Eine viel beachtete wissenschaftlichen Studie zeigte bereits damals, dass Wissenschaftler und Studierende zur Informationsrecherche vorwiegend Internet-Suchmaschinen benutzten. Fachdatenbanken mit ihren oftmals komplizierten Suchmasken und Trefferlisten wurden deutlich seltener genutzt. Die Bibliothek entwickelte daraufhin im Januar 2002 ein erstes Konzept für eine "Universelle Wissenschaftssuchmaschine". Das Ziel war es von Anfang an die einfache Bedienung von Suchmaschinen in die wissenschaftliche Welt zu übertragen, um die Recherche nach qualitativ hochwertigen Dokumenten zu erleichtern.

Grundsätzlich gelangen die Inhalte dabei auf zwei verschiedenen Wegen in die Datenbank:

  • Repository-Server, die ihre Inhalte (bibliographische Metadaten) in strukturierter Form über das "Open Archives Initiative Protocol for Metadata Harvesting" (OAI-PMH) bereitstellen werden geharvested, d.h. die über eine OAI-Schnittstelle bereitgestellten Daten werden eingesammelt, anschließend werden sie von uns normalisiert (z.B. Jahreszahlen vereinheitlicht), kleinere Fehler in den Metadaten werden mit Hilfe verschiedener Skripte bereinigt und die so "verbesserten" Daten anschließend indexiert.

  • Außerdem werden ausgewählte Webquellen indexiert, wobei ähnliche Techniken wie bei Internetsuchmaschinen wie Google eingesetzt werden

Darüber hinaus haben wir über 1.000 weitere Quellen mit über 30 Millionen Dokumenten geharvested. Die auf diese Weise gesammelten Metadaten sind jedoch aus verschiedenen Gründen nicht für die anschließende Indexierung geeignet (Server ist zugriffsgeschützt, Metadaten stark fehlerhaft oder unvollständig, Server häufig offline, die Quelle besitzt keine frei zugänglichen Volltexte oder alle Inhalte sind bereits über eine andere Quelle indexiert). Solche Quellen werden von uns nach individueller Prüfung nicht indexiert, die Betreiber jedoch ggf. über aufgetretene Probleme informiert (teilweise werden diese auch vom Betreiber behoben und die Quelle kann von uns dann indexiert werden).

Seit dem Start von BASE sind nicht nur zahlreiche weitere Quellen und Dokumente indexiert worden, sondern es kamen auch viele neue Funktionen, neue Suchmöglichkeiten und neue Schnittstellen hinzu, über die wir auch hier im Blog kontinuierlich berichtet haben. Etwa 10 Mio. Dokumente sind mit einer DDC versehen und können über das Browsing gefunden werden. Der größte Teil der Dokumente wird dabei automatisch mit einer DDC klassifiziert. Voraussetzung ist, dass ein ausreichend langes Abstract in deutscher oder englischer Sprache zur Verfügung steht. Außerdem gibt es ein Browsing nach Dokumentart.

BASE ist nicht nur unter der Originaloberfläche - www.base-search.net - absuchbar, sondern auch in zahlreichen Metasuchmaschinen, Datenbanken und Kataloge eingebunden. Spezielle "Fachausschnitte" aus BASE sind z.B. über EconBiz (Virtuelle Fachbibliothek Wirtschaftswissenschaften) und den High North Research Documents (Universität Tromsö) suchbar.

Ein Ausblick

Neben dem kontinuierlichen Aufwand für die ständige Pflege und Kontrolle der bereits indexierten Inhalte stehen auf der Agenda einige Punkte für die zukünftige Entwicklung unserer Suchmaschine:

  • Bisher beschränken wir uns bei der Indexierung strukturierte Metadaten auf OAI-PMH. Zwar bieten sehr viele Repositorien und E-Journals eine solche Schnittstelle an, es gibt jedoch auch weitere Schnittstellen, über die z.T. noch mehr bibliographischen Daten angeboten werden. Hier ermitteln wir derzeit eine Quelle für praktische Tests.

  • Die Kennzeichnung von Open-Access-Dokumenten auf Dokumentebene soll ausgebaut werden. Die Auszeichnung wird von den Betreibern selbst allerdings nicht immer vorgenommen und auch das OAI-Protokoll bietet nur unzureichende Möglichkeiten, die Zugänglichkeit eines Volltextes eindeutig zu kennzeichnen. Momentan können daher nur gut 20% der indexieren Dokumente zweifelsfrei als Open Access von uns gekennzeichnet werden, auch wenn die tatsächliche Quote der frei zugänglichen Dokumente, die in BASE zu finden sind, bei ca. 70% liegt.

  • Auch die Integration von Funktionen, wie man sie aus dem Umfeld von Google Scholar kennt, z.B. die Zusammenführung von Dubletten / mehreren Versionen eines Artikels oder die Anzeige von Zitaten, steht auf unserer Agenda. Beides ist allerdings nur mit großem Aufwand zu realisieren.

Ein paar Zahlen

Die 10 größten Quellen:

  • CiteSeerX 3.353.358 Dokumente
  • DataCite Metadata Store (TIB Hannover) 3.160.121
  • PubMed Central (PMC) 3.113.557
  • HighWire Press (Stanford University) 2.342.511
  • Gallica - bibliothèque numérique de la Bibliothèque nationale de France (BnF) 2.172.104
  • Directory of Open Access Journals: DOAJ Articles 1.597.202
  • University of Michigan: Digital Library Production Service (DLPS) 1.208.765
  • RePEc: Research Papers in Economics 1.114.209
  • Hathi Trust Digital Library 964.755
  • ArXiv.org (Cornell University Library) 940.537

Länder mit über 100 Quellen im Index:

  • USA 629 Quellen
  • Deutschland 247
  • Großbritannien 186
  • Brasilien 167
  • Spanien 161
  • Japan 149
  • Italien 108

Länder mit über 1 Mio. Dokumente im Index:

  • USA 24.643.988 Dokumente
  • Deutschland 6.228.448
  • Frankreich 3.973.813
  • Spanien 2.850.617
  • Großbritannien 2.632.363
  • Australien 1.912.267
  • Taiwan 1.384.966
  • Polen 1.338.866
  • Schweiz 1.272.013
  • Japan 1.205.641
  • Niederlande 1.055.150
  • Brasilien 1.047.417

Weitere Zahlen und Statistiken

Gesendet von Sebastian Wolf in Allgemein Tags: index

60 Millionen Dokumente aus 3000 Quellen im BASE-Index

Veröffentlicht am 20. Mai 2014

In Kürze feiert unsere Suchmaschine BASE ihr 10-jähriges Bestehen. Was im Juni 2004 mit der Indexierung einiger Hunderttausend Dokumente aus einem Dutzend Quellen begann, ist inzwischen auf über 60 Millionen Dokumente aus über 3000 Quellen angewachsen. Die Metadaten (Autor, Titel, Erscheinungsjahr usw.) der Dokumente können weltweit frei durchsucht werden, die Volltexte sind in ca. 70% der Fälle frei zugänglich.

Mittlerweile sind Quellen aus 94 Ländern im BASE-Index zu finden, ein Zeichen für den weltweiten Erfolg "Open-Archives"-Initiative und des dazu gehörigen OAI-PMH-Protokolls. BASE indexiert vorwiegend Dokumente aus Quellen, die über ein solches Protokoll verfügen und ihre Metadaten in strukturierte Form über OAI-PMH zur Verfügung stellen.

Alleine aus Deutschland können 246 Quellen mit über 6 Millionen Dokumenten über BASE DE durchsucht werden. Damit ist BASE eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente, insbesondere im deutschsprachigen Bereich. Neben dem umfangreichen Index bietet BASE auch zahlreiche Möglichkeiten gezielt zu suchen und das Ergebnis auch gezielt einzuschränken. Hier ein Beispiel aus einer Trefferliste (klicken zum vergrößern):

Trefferliste aus BASE

Weitere Informationen über unsere Suchmaschine BASE finden Sie auch im öffentlichen Wiki der Universitätsbibliothek Bielefeld oder in unserer BASE-FAQ.

 


Gesendet von Sebastian Wolf in Allgemein Tags: base index oai statistik Kommentare [0]

Tag Hinweis

Auf dieser Seite werden nur die mit dem Tag [index] versehenen Blogeinträge gezeigt.

Wenn Sie alle Blogeinträge sehen möchten klicken Sie auf: Startseite

Kalender

« Juni 2017
MoDiMiDoFrSaSo
   
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
  
       
Heute

Kategorien