TU BRAUNSCHWEIG
| Carl-Friedrich-Gauß-Faculty | Computer Science
Informatikzentrum

Open-Access Harvesting

Supervisor Dr. Jens Brandt
Professor Prof. Dr.-Ing. Lars Wolf
Project oaps
IBR Group CM (Prof. Wolf)
Type Bachelor Thesis, Studienarbeit
Status finished
Start

Im Rahmen des OAPS Projektes entsteht derzeit eine Plagiatsuche auf Basis von Open-Access-Dokumenten. Ein zentraler Aspekt hierfür ist der Aufbau eines Volltextindex aller Dokumente, die über pen Access angeboten werden. Von der Open Archives Initiative (OAI) wurde das Protocol for Metadata Harvesting (OAI-PMH) spezifiziert, das einen automatisierten Abruf von Metadaten erlaubt. Leider enthalten diese Metadaten nicht immer eine URL, die einen direkten Zugriff auf das Dokument selbst erlaubt. In einigen Fällen ist eine URL angegeben, die auf eine für einen menschlichen Nutzer konzipierte HTML-Seite verweist, von der aus das Dokument erreichbar ist. In anderen Fällen fehlt die URL gänzlich.

Aufgabenstellung

Im Rahmen dieser Arbeit soll untersucht werden, wie verschiedene OA-Anbieter ihre Dokumente zur Verfügung stellen und wie diese automatisiert abgerufen werden können. Dazu sollen im ersten Teil dieser Arbeit zunächst verschiedene OA-Anbieter in Deutschland aber auch international recherchiert und im Hinblick auf das Anbieten der Dokumente analysiert werden. Wenn möglich sollte hier eine Klassifizierung der Anbieter hinsichtlich der Art und Weise wie Dokumente abgerufen werden können erarbeitet werden.

Im zweiten Teil dieser Arbeit sollen, basierend auf den Ergebnissen des ersten Teils, Verfahren zum automatisierten Herunterladen der Dokumente vorgeschlagen werden. Einige dieser Verfahren sind prototypisch zu implementieren. Bei der Implementation sollte insbesondere auf eine starke Modularisierung Wert gelegt werden, um eine flexible Erweiterbarkeit zu gewährleisten. Die Implementation sowie die vorgeschlagenen Verfahren sind zum Abschluss der Arbeit in geeigneter Form zu evaluieren und zu dokumentieren.

Links


last changed 2014-04-25, 14:27 by Dr. Jens Brandt
printemailtop