TU BRAUNSCHWEIG
| Carl-Friedrich-Gauß-Fakultät | Informatik
Informatikzentrum

Indexierung von Dokumenten in Open-Access-Repositorien

Bearbeiter(anonym, Login erforderlich)
BetreuerDr. Jens Brandt
ProfessorProf. Dr.-Ing. Lars Wolf
Projektoaps
IBR GruppeCM (Prof. Wolf)
ArtHiWi Job
Statusabgeschlossen

Motivation

Im Rahmen des Projektes OAPS sollen Dokumente in weltweit frei zugänglichen Repositorien für eine Plagiatsuche genutzt werden. Hierfür ist es notwendig diese Dokumente in einen Volltextindex aufzunehmen so dass eine effiziente Suche innerhalb dieser Dokumente ermöglicht werden kann.

Als Repositorien kommen hierbei sowohl Open-Access Repositorien mit wohl definierten Schnittstellen als auch proprietäre Datenbanken und einfache Webseiten in Betracht. Zur Abfrage von Metadaten bei OA-Repositorien steht das OAI-Protocol for Metadata Harvesting (OAI-PMH) zur Verfügung, das u.U. jedoch nicht von allen betrachteten Repositorien unterstützt wird.

Für den Betrieb des Indexservers ist der Einsatz von Apache Solr vorgesehen. Bei Solr handelt es sich um eine Open-Source Implementation eines Suchservers der auf der Java-Suchbibliothek Lucene aufsetzt.

Aufgaben

Diese HIWI-Tätigkeit umfasst verschiedene Aspekte und Tätigkeiten im Rahmen des OAPS-Projektes, insbesondere aber im Bereich des Aufbaus eine Volltextindex über verschiedene OA-Repositorien. Hierfür ist es zunächst nötig sich in die Open-Access-Thematik einzuarbeiten und verschiedene Werkzeuge und Projekte in diesem Bereich zu recherchieren. Anschließend sind Strategien für eine regelmäßige, automatische Indizierung kompletter OA-Repositorien zu entwickeln.

Anforderungen und Bedingungen

Die Tätigkeit bietet für Studenten die Möglichkeit sich aktiv in laufende Forschungsprojekte einzubringen und ermöglicht somit einen direkten Einblick in die Forschungsaktivitäten am Institut. Als Voraussetzungen erwarten wir hohes Engagement, eigenständiges Arbeiten und die Fähigkeit zur selbständigen Problemlösung. Ferner ist es von Vorteil, wenn der Bewerber oder die Bewerberin Kenntnisse in den Bereichen Linux, Webserver, PHP und Webanwendungen mitbringt.

Zur Bearbeitung dieser Aufgaben bieten wir ein sehr flexibles Arbeitsumfeld mit weitgehend freier Zeiteinteilung an. Auch der Umfang der Arbeiten kann individuell (ab 30 Std/Monat) festgelegt werden.

Die Laufzeit der Stelle ist befristet durch die Laufzeit des Projektes bis April 2011.

Bei Interesse an dieser Stelle setzten Sie sich bitte per E-Mail mit Dr. Jens Brandt in Verbindung.


aktualisiert am 21.11.2011, 09:13 von Dr. Jens Brandt
printemailtop