BASE Weblog

Hintergrundbild
Hintergrundbild

BASE Weblog - Tag [base]

60 Millionen Dokumente aus 3000 Quellen im BASE-Index

Veröffentlicht am 20. Mai 2014

In Kürze feiert unsere Suchmaschine BASE ihr 10-jähriges Bestehen. Was im Juni 2004 mit der Indexierung einiger Hunderttausend Dokumente aus einem Dutzend Quellen begann, ist inzwischen auf über 60 Millionen Dokumente aus über 3000 Quellen angewachsen. Die Metadaten (Autor, Titel, Erscheinungsjahr usw.) der Dokumente können weltweit frei durchsucht werden, die Volltexte sind in ca. 70% der Fälle frei zugänglich.

Mittlerweile sind Quellen aus 94 Ländern im BASE-Index zu finden, ein Zeichen für den weltweiten Erfolg "Open-Archives"-Initiative und des dazu gehörigen OAI-PMH-Protokolls. BASE indexiert vorwiegend Dokumente aus Quellen, die über ein solches Protokoll verfügen und ihre Metadaten in strukturierte Form über OAI-PMH zur Verfügung stellen.

Alleine aus Deutschland können 246 Quellen mit über 6 Millionen Dokumenten über BASE DE durchsucht werden. Damit ist BASE eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente, insbesondere im deutschsprachigen Bereich. Neben dem umfangreichen Index bietet BASE auch zahlreiche Möglichkeiten gezielt zu suchen und das Ergebnis auch gezielt einzuschränken. Hier ein Beispiel aus einer Trefferliste (klicken zum vergrößern):

Trefferliste aus BASE

Weitere Informationen über unsere Suchmaschine BASE finden Sie auch im öffentlichen Wiki der Universitätsbibliothek Bielefeld oder in unserer BASE-FAQ.

 


Gesendet von Sebastian Wolf in Allgemein Tags: oai index base statistik Kommentare [0]

Neue BASE Version im BASE Lab

Veröffentlicht am 14. Februar 2011

In den letzten Monaten haben wir intensiv an der Migration von FAST nach Lucene/Solr gearbeitet. Wir geben heute eine erste Test-Version im BASE Lab frei und freuen uns auf Ihr Feedback in diesem Blog.

Wie unterscheidet sich die Lab-Version vom jetzigen System?

Inhalt:

Der BASE Index enthält rd. 25,5 Mio. Dokumenten aus 1.724 Quellen, der neue Index im BASE Lab enthält rd. 26,5 Mio.aus 1.693 Quellen. Der alte BASE Index wird nicht mehr aktualisiert, das Harvesten von Dokumentenservern über OAI-PMH geht natürlich weiter, was die höhere Dokumentenzahl im BASE Lab erklärt. Ein Teil der Quellen konnte aus technischen Gründen nicht in das BASE Lab übernommen werden, neue Quellen werden nur noch für den neuen Index aufbereitet. Die BASE API zeigt derzeit noch auf BASE und nicht auf BASE Lab.

Suche und Suchoberfläche:

Die Suchoberfläche im BASE Lab läuft unter VuFind. VuFind-Funktionalitäten, die ein Login erfordern, sind während des Tests im BASE Lab deaktiviert. Unter Lucene/Solr ist vorerst keine multilinguale Suche (Eurovoc Thesaurus) und keine automatische Schlagwortanreicherung für deutschsprachige Dokumente möglich. Ebenso können wir derzeit keine mehrsprachige Lemmatisierung (Wortformen-Suche), sondern nur ein einfaches Stemming für englischsprachige Suchbegriffe (Porter Stemmer) anbieten. Das bedeutet, dass die Suchergebnisse von BASE unter FAST und BASE unter Lucene/Solr - nicht nur aufgrund der unterschiedlichen Dokumentenzahl - wenig vergleichbar sind. Neue Funktionalitäten, wie das Abonnieren von RSS-Feeds oder Versenden von Ergebnissen als EMail sind im BASE Lab schon aktiv. Repository-Manager können den Stand ihrer Dokumentenserver über die BASE-Lab-Quellenliste abfragen.

Wie geht es weiter?

Die vollständige Ablösung des FAST-Systems ist für die nächsten Monate geplant, ebenso die Umlenkung der BASE API auf den neuen Index. Der Index unter Lucene/Solr wird vorerst in unregelmäßigen Abständen aktualisiert werden.

Gesendet von Dirk Pieper in BASE Lab Tags: lucene base lab solr Kommentare [2]

Tag Hinweis

Auf dieser Seite werden nur die mit dem Tag [base] versehenen Blogeinträge gezeigt.

Wenn Sie alle Blogeinträge sehen möchten klicken Sie auf: Startseite

Kalender

« August 2014
MoDiMiDoFrSaSo
    
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
       
Heute

Kategorien