TU BRAUNSCHWEIG
| Carl-Friedrich-Gauß-Fakultät | Informatik
Informatikzentrum

Betrieb eines verteilten Volltextindex

BetreuerDr. Jens Brandt
ProfessorProf. Dr.-Ing. Lars Wolf
Projektoaps
IBR GruppeCM (Prof. Wolf)
ArtHiWi Job
Statusabgeschlossen

Motivation

Im Rahmen des Projektes OAPS sollen Dokumente in weltweit frei zugänglichen Repositorien für eine Plagiatsuche genutzt werden. Hierfür ist es notwendig diese Dokumente in einen Volltextindex aufzunehmen, so dass eine effiziente Suche innerhalb dieser Dokumente möglich ist.

Ein solcher Volltextindex basierend auf Apache Solr befindet sich zur Zeit im Aufbau. Bei Solr handelt es sich um eine Open-Source Implementation eines Suchservers der auf der Java-Suchbibliothek Lucene aufsetzt. Für einen verteilten Betrieb des Index auf mehreren Knoten bietet Solr zur Zeit nur eine rudimentäre Unterstützung, bei der der Index manuell auf verschiedene Knoten verteilt werden muss.

Aufgaben

Im Rahmen dieser Hiwi-Tätigkeit soll untersucht werden, wie der Betrieb eines verteilten Index stärker automatisiert werden kann. Fällt bspw. ein Knoten des Index aus, soll dieser auf einfache Art und Weise ersetzt werden können. Ebenso soll die Leistungsfähigkeit des verteilten Index durch ein Hinzufügen von Knoten auf einfache Weise erhöht werden können. Sowohl das Ersetzen als auch das Hinzufügen von Knoten soll hierbei mit so geringem Aufwand wie möglich, insbesondere ohne Detailkenntnis über den Index erfolgen.

Für den Betrieb verschiedener Applikationen auf Computer Clustern wurde im Rahmen des Apache Hadoop Projekts ein Open Source Framework entwickelt, das weltweit in vielen verschiedenen Projekten genutzt wird. Zentrale Teile von Hadoop sind das verteilte Dateisystem HDFS sowie das MapReduce Framework. Beides wurde ursprünglich von Google für den Betrieb eines verteilten Index entwickelt und mittlerweile von vielen Suchmaschinen genutzt.

Zu Beginn dieser Hiwi-Tätigkeit ist zunächst eine intensive Einarbeitung in die Thematik notwendig. Hierbei sind verschiedene Projektem die Hadoop für einen verteilten Index einsetzen zu recherchieren und zu analysieren. Basierend auf diesen Kenntnissen soll anschließend ein Konzept eines verteilten Index auf Basis von Hadoop entwickelt und im Rahmen einer Testinstallation umgesetzt werden. Mit Hilfe der Testinstallation soll anschließend die Leistungsfähigkeit solch eines Systems untersucht werden.

Anforderungen und Bedingungen

Die Tätigkeit bietet für Studenten die Möglichkeit sich aktiv in laufende Forschungsprojekte einzubringen und ermöglicht somit einen direkten Einblick in die Forschungsaktivitäten am Institut. Als Voraussetzungen erwarten wir hohes Engagement, eigenständiges Arbeiten und die Fähigkeit zur selbständigen Problemlösung. Für diese Tätigkeit erwarten wir fundierte Kenntnisse im Umgang mit Linux insbesodnere als Betriebssystem von Servern. Ferner ist es von Vorteil, wenn der Bewerber oder die Bewerberin Kenntnisse in den Bereichen Webserver, PHP und Webanwendungen mitbringt.

Zur Bearbeitung dieser Aufgaben bieten wir ein sehr flexibles Arbeitsumfeld mit weitgehend freier Zeiteinteilung an. Unser Team umfasst derzeit zwei studentische und zwei wissenschaftliche Mitarbeiter der TU und der PTB Braunschweig. Der Umfang der Arbeiten kann individuell (ab 30 Std/Monat) festgelegt werden.

Weitere Details dieser Tätigkeit sollten in einem persönlichen Gespräch geklärt werden. Bei Interesse an dieser Stelle setzten Sie sich bitte per E-Mail mit Dr. Jens Brandt in Verbindung.


aktualisiert am 16.03.2011, 14:09 von Dr. Jens Brandt
printemailtop