BASE Weblog

Hintergrundbild
Hintergrundbild

BASE Weblog

Open-Access-Dokumente "boosten"

Veröffentlicht am 29. Juli 2014

Schätzungsweise 70% aller in BASE indexierten Dokumente sind Open Access, also weltweit frei zugänglich. Etwa 1/3 dieser Dokumente können von uns zweifelsfrei als Open Access gekennzeichnet werden, da uns in diesem Fall entsprechende Zugangsinformation zur Verfügung stehen.

Um die Dokumente, die eindeutig als Open Access gekennzeichnet sind, stärker in den Vordergrund zu rücken, haben wir in unserem Testbereich – dem BASE Lab – eine Möglichkeit geschaffen, diese Dokumente stärker zu gewichten. Über die Checkbox "Open-Access-Dokumente bevorzugen" erhalten diese Dokumente ein "Boosting". Die Checkbox ist standardmäßig aktiviert, sie kann aber auch deaktiviert werden. Dann erscheinen die Treffer im Standard-Ranking.

Ein Beispiel zum Vergleich ist die Suche nach open access

Trefferliste mit Standard-Ranking
Trefferliste mit "OA-Boosting"

Die unterschiedlich gewichtete Trefferliste wird auch über den folgenden Screenshot anschaulich:

Das Ranking, also die Reihenfolge, in der die Treffer ausgegeben werden, richtet sich nach verschiedenen Kriterien, insbesondere nach der Position und Anzahl der gesuchten Wörter im Text. Kommt ein Wort im Titel vor, wird es entsprechend höher gewichtet, als wenn es z.B. nur im Abstract vorkommt. Auch die Länge von Titeln oder Abstracts hat Auswirkung auf das Ranking. Durch das Boosting werden nun mehr eindeutig gekennzeichnete Open-Access-Dokumente auf der ersten Trefferseite angezeigt. Es ist aber nicht so, dass zuerst nur Open-Access-Dokumente angezeigt werden und anschließend alle anderen Dokumente (dies wäre eine Sortierung) – passt ein Dokument besonders gut zu Ihrer Suchanfrage, wird es immer weit oben angezeigt, egal ob es als Open Access gekennzeichnet ist oder nicht.

Was halten Sie von der Möglichkeit, Open-Access-Dokumente höher zu gewichten? Schreiben Sie einen Kommentar hier im Blog oder auf Twitter an @BASEsearch (Hashtag #oaboost)!

Gesendet von Sebastian Wolf in BASE Lab

10 Jahre BASE

Veröffentlicht am 24. Juni 2014

Vor genau 10 Jahren, am 24.6.2004, ging unsere wissenschaftliche Suchmaschine BASE online.

BASE umfasst mittlerweile über 60 Mio. Dokumente aus über 3000 Quellen und ist eine der größten wissenschaftlichen Suchmaschinen weltweit. Etwa 70% der Dokumente sind frei im Sinne des Open Access zugänglich. Von den restlichen Dokumenten stehen die Metadaten zur Verfügung.

Ein Rückblick

Die Ursprünge unserer Suchmaschine BASE liegen im Jahr 2001. Eine viel beachtete wissenschaftlichen Studie zeigte bereits damals, dass Wissenschaftler und Studierende zur Informationsrecherche vorwiegend Internet-Suchmaschinen benutzten. Fachdatenbanken mit ihren oftmals komplizierten Suchmasken und Trefferlisten wurden deutlich seltener genutzt. Die Bibliothek entwickelte daraufhin im Januar 2002 ein erstes Konzept für eine "Universelle Wissenschaftssuchmaschine". Das Ziel war es von Anfang an die einfache Bedienung von Suchmaschinen in die wissenschaftliche Welt zu übertragen, um die Recherche nach qualitativ hochwertigen Dokumenten zu erleichtern.

Grundsätzlich gelangen die Inhalte dabei auf zwei verschiedenen Wegen in die Datenbank:

  • Repository-Server, die ihre Inhalte (bibliographische Metadaten) in strukturierter Form über das "Open Archives Initiative Protocol for Metadata Harvesting" (OAI-PMH) bereitstellen werden geharvested, d.h. die über eine OAI-Schnittstelle bereitgestellten Daten werden eingesammelt, anschließend werden sie von uns normalisiert (z.B. Jahreszahlen vereinheitlicht), kleinere Fehler in den Metadaten werden mit Hilfe verschiedener Skripte bereinigt und die so "verbesserten" Daten anschließend indexiert.

  • Außerdem werden ausgewählte Webquellen indexiert, wobei ähnliche Techniken wie bei Internetsuchmaschinen wie Google eingesetzt werden

Darüber hinaus haben wir über 1.000 weitere Quellen mit über 30 Millionen Dokumenten geharvested. Die auf diese Weise gesammelten Metadaten sind jedoch aus verschiedenen Gründen nicht für die anschließende Indexierung geeignet (Server ist zugriffsgeschützt, Metadaten stark fehlerhaft oder unvollständig, Server häufig offline, die Quelle besitzt keine frei zugänglichen Volltexte oder alle Inhalte sind bereits über eine andere Quelle indexiert). Solche Quellen werden von uns nach individueller Prüfung nicht indexiert, die Betreiber jedoch ggf. über aufgetretene Probleme informiert (teilweise werden diese auch vom Betreiber behoben und die Quelle kann von uns dann indexiert werden).

Seit dem Start von BASE sind nicht nur zahlreiche weitere Quellen und Dokumente indexiert worden, sondern es kamen auch viele neue Funktionen, neue Suchmöglichkeiten und neue Schnittstellen hinzu, über die wir auch hier im Blog kontinuierlich berichtet haben. Etwa 10 Mio. Dokumente sind mit einer DDC versehen und können über das Browsing gefunden werden. Der größte Teil der Dokumente wird dabei automatisch mit einer DDC klassifiziert. Voraussetzung ist, dass ein ausreichend langes Abstract in deutscher oder englischer Sprache zur Verfügung steht. Außerdem gibt es ein Browsing nach Dokumentart.

BASE ist nicht nur unter der Originaloberfläche - www.base-search.net - absuchbar, sondern auch in zahlreichen Metasuchmaschinen, Datenbanken und Kataloge eingebunden. Spezielle "Fachausschnitte" aus BASE sind z.B. über EconBiz (Virtuelle Fachbibliothek Wirtschaftswissenschaften) und den High North Research Documents (Universität Tromsö) suchbar.

Ein Ausblick

Neben dem kontinuierlichen Aufwand für die ständige Pflege und Kontrolle der bereits indexierten Inhalte stehen auf der Agenda einige Punkte für die zukünftige Entwicklung unserer Suchmaschine:

  • Bisher beschränken wir uns bei der Indexierung strukturierte Metadaten auf OAI-PMH. Zwar bieten sehr viele Repositorien und E-Journals eine solche Schnittstelle an, es gibt jedoch auch weitere Schnittstellen, über die z.T. noch mehr bibliographischen Daten angeboten werden. Hier ermitteln wir derzeit eine Quelle für praktische Tests.

  • Die Kennzeichnung von Open-Access-Dokumenten auf Dokumentebene soll ausgebaut werden. Die Auszeichnung wird von den Betreibern selbst allerdings nicht immer vorgenommen und auch das OAI-Protokoll bietet nur unzureichende Möglichkeiten, die Zugänglichkeit eines Volltextes eindeutig zu kennzeichnen. Momentan können daher nur gut 20% der indexieren Dokumente zweifelsfrei als Open Access von uns gekennzeichnet werden, auch wenn die tatsächliche Quote der frei zugänglichen Dokumente, die in BASE zu finden sind, bei ca. 70% liegt.

  • Auch die Integration von Funktionen, wie man sie aus dem Umfeld von Google Scholar kennt, z.B. die Zusammenführung von Dubletten / mehreren Versionen eines Artikels oder die Anzeige von Zitaten, steht auf unserer Agenda. Beides ist allerdings nur mit großem Aufwand zu realisieren.

Ein paar Zahlen

Die 10 größten Quellen:

  • CiteSeerX 3.353.358 Dokumente
  • DataCite Metadata Store (TIB Hannover) 3.160.121
  • PubMed Central (PMC) 3.113.557
  • HighWire Press (Stanford University) 2.342.511
  • Gallica - bibliothèque numérique de la Bibliothèque nationale de France (BnF) 2.172.104
  • Directory of Open Access Journals: DOAJ Articles 1.597.202
  • University of Michigan: Digital Library Production Service (DLPS) 1.208.765
  • RePEc: Research Papers in Economics 1.114.209
  • Hathi Trust Digital Library 964.755
  • ArXiv.org (Cornell University Library) 940.537

Länder mit über 100 Quellen im Index:

  • USA 629 Quellen
  • Deutschland 247
  • Großbritannien 186
  • Brasilien 167
  • Spanien 161
  • Japan 149
  • Italien 108

Länder mit über 1 Mio. Dokumente im Index:

  • USA 24.643.988 Dokumente
  • Deutschland 6.228.448
  • Frankreich 3.973.813
  • Spanien 2.850.617
  • Großbritannien 2.632.363
  • Australien 1.912.267
  • Taiwan 1.384.966
  • Polen 1.338.866
  • Schweiz 1.272.013
  • Japan 1.205.641
  • Niederlande 1.055.150
  • Brasilien 1.047.417

Weitere Zahlen und Statistiken

Gesendet von Sebastian Wolf in Allgemein Tags: index

60 Millionen Dokumente aus 3000 Quellen im BASE-Index

Veröffentlicht am 20. Mai 2014

In Kürze feiert unsere Suchmaschine BASE ihr 10-jähriges Bestehen. Was im Juni 2004 mit der Indexierung einiger Hunderttausend Dokumente aus einem Dutzend Quellen begann, ist inzwischen auf über 60 Millionen Dokumente aus über 3000 Quellen angewachsen. Die Metadaten (Autor, Titel, Erscheinungsjahr usw.) der Dokumente können weltweit frei durchsucht werden, die Volltexte sind in ca. 70% der Fälle frei zugänglich.

Mittlerweile sind Quellen aus 94 Ländern im BASE-Index zu finden, ein Zeichen für den weltweiten Erfolg "Open-Archives"-Initiative und des dazu gehörigen OAI-PMH-Protokolls. BASE indexiert vorwiegend Dokumente aus Quellen, die über ein solches Protokoll verfügen und ihre Metadaten in strukturierte Form über OAI-PMH zur Verfügung stellen.

Alleine aus Deutschland können 246 Quellen mit über 6 Millionen Dokumenten über BASE DE durchsucht werden. Damit ist BASE eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente, insbesondere im deutschsprachigen Bereich. Neben dem umfangreichen Index bietet BASE auch zahlreiche Möglichkeiten gezielt zu suchen und das Ergebnis auch gezielt einzuschränken. Hier ein Beispiel aus einer Trefferliste (klicken zum vergrößern):

Trefferliste aus BASE

Weitere Informationen über unsere Suchmaschine BASE finden Sie auch im öffentlichen Wiki der Universitätsbibliothek Bielefeld oder in unserer BASE-FAQ.

 


Gesendet von Sebastian Wolf in Allgemein Tags: oai index base statistik Kommentare [0]

Über 3,3 Millionen Dokumente von CiteSeerX in BASE

Veröffentlicht am 11. Dezember 2013

Das an der Pennsylvania State University betriebene Repository CiteSeerX ist eine der wichtigsten Quellen für Open-Acces-Dokumente aus den Bereichen Informatik und Informationswissenschaft. In Kommunikation zwischen unserem Senior Developer, Bernd Fehling, und Verantwortlichen bei CiteSeerX konnte vor Kurzem die OAI-PMH-Schnittstelle so verbessert werden, dass das Harvesten des gesamten Repositories jetzt ohne Probleme möglich ist. Damit ist CiteSeerX noch vor PubMed Central das weltweit größte Repository für Open-Access-Dokumente in BASE, wobei selbstverständlich auch andere OAI-Service-Provider von der mit BASE-Hilfe verbesserten OAI-Schnittstelle bei CiteSeerX profitieren können. Die von BASE gegebenen Rückmeldungen an OAI-Data-Provider haben schon in vielen Fällen zu verbesserten Schnittstellen auf Seiten der Repositories geführt und machen einen nicht unerheblichen Anteil unserer Arbeit für die Open-Access-Community aus.

Gesendet von Dirk Pieper in Allgemein Kommentare [0]

Neuer Meilenstein für BASE: 50 Millionen Dokumente!

Veröffentlicht am 26. August 2013

BASE (www.base-search.net) ermöglicht eine Suche nach über 50 Millionen Dokumenten, deren Metadaten von rund 2.700 Dokumentenservern (Repositories) wissenschaftlicher Institutionen weltweit bereit gestellt werden. Damit ist BASE eine der größten Suchmaschinen für wissenschaftliche, frei im Internet verfügbare Dokumente. Alleine in diesem Jahr wuchs der Index um rund 10 Millionen Einträge.

Dazu passt auch das Ergebnis einer Studie für die Europäische Kommission, die eine Trendwende für Open Access insofern feststellt, dass nun mehr als 50% aller in 2011 veröffentlichten wissenschaftlichen Publikationen frei zugänglich seien (http://europa.eu/rapid/press-release_IP-13-786_en.htm). Suchmaschinen  wie BASE sind ein wichtiges Hilfsmittel, frei zugängliche wissenschaftliche Publikationen im Internet zu finden, und zusammen mit den von den Hochschulen, Forschungsorganisationen und anderen wissenschaftlichen Institutionen betriebenen Repositories bildet sie einen wesentlichen Teil der Open-Access-Infrastruktur. Repositories beinhalten dabei längst nicht mehr nur Hochschulschriften (wie z.B. Dissertationen) oder Preprints, sondern zunehmend auch Forschungsdaten, digitalisierte Textsammlungen, oder E-Books. Gerade in den letztgenannten Bereichen gibt es derzeit ein dynamisches Wachstum, welches sich in den BASE-Zahlen widerspiegelt.

Gesendet von Dirk Pieper in Allgemein Kommentare [0]

Springer Open-Access-Artikel in BASE

Veröffentlicht am 15. Mai 2013


In Kooperation mit Springer Science + Business Media verzeichnet BASE rund
48.000 frei zugängliche Zeitschriftenartikel aus dem Programm Springer
Open Choice und aus SpringerOpen-Zeitschriften. Damit ist erstmalig eine
gemeinsame Recherche über alle von Springer
bereitgestellten Open-Access-Zeitschriftenartikel in BASE möglich, die
von Springer zur Verfügung gestellten Metadaten werden wöchentlich in
BASE aktualisiert.

Zählt man den zu Springer gehörenden Verlag BioMed Central hinzu,
verzeichnet BASE derzeit rund 215.000 Open-Access-Zeitschriftenartikel
dieser Verlagsgruppe
, womit Springer Science + Business Media derzeit der größte Open-Access-Verlag sein dürfte.

Gesendet von Dirk Pieper in Indexierung Kommentare [0]

Jetzt über 2500 Quellen in BASE

Veröffentlicht am 27. März 2013

Kurz vor Ostern hat BASE die Anzahl von 2500 Quellen überschritten. Damit ist die Datenbank auf über 43,5 Millionen Dokumente angewachsen.

Gesendet von BFehling in Indexierung Kommentare [0]

40 Millionen Dokumente in BASE

Veröffentlicht am 11. Dezember 2012

Nach dem jüngsten Update haben wir in BASE erstmalig die Marke von 40 Millionen Dokumenten übersprungen. Wir freuen uns wie Bolle, auch wenn wir bei der nächsten Index-Aktualisierung eventuell wieder unter diese Grenze rutschen könnten.

Gesendet von Dirk Pieper in Indexierung Kommentare [0]

BASE im Knowlegde Exchange Report - oder: warum betreiben wir BASE?

Veröffentlicht am 15. Oktober 2012

Im aktuellen KE Report "Sustainability of Open Access Services" ist auf Seite 38 zu lesen:

"As well as this, some libraries are service providers (or, in some
cases, service sponsors) in their own right.
Libraries may do this because there is a clear advantage to them in
terms of recognition, impact, esteem and
reputation and in some cases they can charge other libraries for
on-going support and maintenance of services. It
helps to understand some of the ways that they are sustaining these
services. A good example is Bielefeld
University Library, which developed and supports the BASE search engine
and considers it a strategic investment
that helps brand the library, has positive networking effects and may
assist in bringing in grant funding. The
expertise gained through developing such a service is also valuable and
can be used to underpin other innovative
developments in the library. The data collected by BASE is of monetary
value to library suppliers and may be
exchanged for cash, discounts or other benefits. The Library’s
philosophy is to give away its services to those
who also give theirs away (for example, reciprocal relationships with
RepEc and DOAJ), but to charge commercial
suppliers."

Dank an Alma Swan für die treffende Beschreibung.

Gesendet von Dirk Pieper in Indexierung Kommentare [0]

Nationaler Nachweis von OAI-Metadaten

Veröffentlicht am 17. Juli 2012

BASE bietet seit kurzem unter de.base-search.net eine eigene Suchoberfläche für in Deutschland beheimatete Dokumentenserver an. Damit fasst BASE die "nationalen Erschließungsdaten" (siehe DFG Ausschreibung Neuausrichtung überregionaler Informationsservices) von allen Dokumentenservern, die ihre Metadaten über OAI-PMH bereistellen, nach dem Territorialprinzip zusammen. Aktuell sind unter de.base-search.net 218 Dokumentenserver mit 1.780.896 Datensätzen recherchierbar.

Über dokumentierte Schnittstellen werden die Daten bereits jetzt in andere Endnutzersysteme und Datenplattformen integriert und können mit anderen Daten zusammengeführt werden.

Wer sich für den Vergleich mit anderen Ländern interessiert, kann schon seit längerem mit Hilfe der BASE-Länderkarten die Anzahl der Dokumentenserver pro Land mit aktuellen Dokumentenzahlen ermitteln.

Die "Deutschland-Sicht", die Länderkarten sowie die über die
Schnittstellen exponierten Daten werden bei jedem Indexupdate automatisch aktualisiert.

Gesendet von Dirk Pieper in Indexierung Kommentare [2]

Persönliches Profil für BASE

Veröffentlicht am 17. April 2012

Sie haben jetzt die Möglichkeit, ein persönliches Profil in BASE einzurichten, um sich z.B. einzelne Treffer als "Favorit" abzuspeichern oder Suchanfragen zur Suchhistorie hinzuzufügen. Favoriten und Suchhistorie stehen Ihnen über Ihr persönliches Login dauerhaft zur Verfügung.

Ein Konto richten Sie auf der BASE-Website durch Klick auf "Anmelden" und anschließend "Neues Konto anlegen" ein. Wenn Sie eingeloggt sind, erscheint Ihr Login-Name oben rechts.

Demonstration einiger Funktionen (zum Vergrößern das Bild anklicken):

Treffer zu den Favoriten hinzufügen

Ihre gespeicherten Favoriten

Suche speichern

Gespeicherte Suche

Ihre Login-Daten werden selbstverständlich nur für den jeweiligen Zweck verwendet und nicht an Dritte weitergegeben. Sobald Sie Ihr Profil löschen, werden alle damit in Zusammenhang stehenden Daten auch aus unserem System gelöscht.

Gesendet von Sebastian Wolf in Allgemein Kommentare [2]

BASE-Ausschnitt in EconBiz

Veröffentlicht am 13. Februar 2012

Die virtuelle Fachbibliothek Wirtschaftswissenschaften EconBiz hat rd. 50.000 wirtschaftswissenschaftlich relevante Datensätze aus BASE in ihren Katalog  eingebunden. Ziel von EconBiz ist es, den zentralen Einstiegspunkt für wirtschaftswissenschaftliche Fachinformation im Internet anzubieten; mit dem auf manueller und automatisch erzeugter Klassifikation (DDC 330) basierenden Fachausschnitt des BASE-Index konnte der Anteil von Open-Access-Content in EconBiz deutlich gesteigert werden.

Gesendet von Dirk Pieper in Allgemein Kommentare [0]

High North Research Documents

Veröffentlicht am 27. Januar 2012

High North Research Documents ist eine Datenbank für frei zugängliche wissenschaftliche Dokumente mit thematischem Fokus auf nördliche Polarforschung. Dieser neue Service wurde von der Universitätsbibliothek Tromsø entwickelt, BASE fungiert in diesem Projekt als OAI-Dataprovider, d.h. aus den BASE-Daten selektieren unsere norwegischen Kollegen automatisch die Metadaten, die für das Themengebiet relevant sind. Das Projekt ist ein gutes Beispiel dafür, wie durch Verbreitung und Nachnutzung von OAI-Metadaten und fachliche Fokussierung die Sichtbarkeit von Dokumenten auf den entsprechenden Repositories weiter gesteigert werden kann.

Gesendet von Dirk Pieper in Indexierung Kommentare [0]

Zweiter Platz bei der Wahl zur Hochschulperle des Jahres 2011

Veröffentlicht am 23. Januar 2012

Die vom Stifterverband für die Deutsche Wissenschaft veranstaltete Online-Wahl zur Hochschulperle des Jahre 2011 hat das studentische Mentoren Projekt "Rock your Life" mit rund 25% der abgegebenen Stimmen gewonnen. Vom BASE-Team Glückwunsch an den verdienten Gewinner! Mit einigem Abstand, aber immerhin mit 2.420 Stimmen (rd. 18%), hat BASE den zweiten Platz erreicht. Wir bedanken uns bei allen, die uns unterstützt und ihre Stimme gegeben haben.



Gesendet von Dirk Pieper in Indexierung Kommentare [0]

Wahl als Hochschulperle des Jahres 2011!

Veröffentlicht am 10. Januar 2012

Wir bitten um Ihre Unterstützung bei der Wahl zur Hochschulperle des Jahres 2011! Hochschulperlen sind innovative Projekte an Hochschulen, BASE wurde im Mai 2011 vom Stifterverband für die Deutsche Wissenschaft als Hochschulperle des Monats Mai 2011 ausgezeichnet. Wir würden uns freuen, wenn Sie uns beim Online-Voting zur Hochschulperle des Jahres Ihre Stimme geben würden. Die Wahl geht bis zum 23. Januar 2012, 12.00 Uhr, jeder Internetnutzer ist stimmberechtigt, einmal pro Tag und Nutzer darf eine Stimme abgegeben werden.

Stimmen Sie für BASE, verbreiten Sie die Nachricht in Ihren Blogs, auf Twitter oder in Ihrem sozialen Netzwerk!

Vielen Dank

Ihr BASE-Team

Gesendet von Dirk Pieper in Indexierung Kommentare [0]

Kalender

« Dezember 2014
MoDiMiDoFrSaSo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
    
       
Heute

Kategorien