TU BRAUNSCHWEIG
| Carl-Friedrich-Gauß-Fakultät | Informatik
Informatikzentrum

Referenzbasierte Ähnlichkeitsanalyse von Textdokumenten zur Plagiatserkennung

Bearbeiter(anonym, Login erforderlich)
BetreuerDr. Jens Brandt
ProfessorProf. Dr.-Ing. Lars Wolf
Projektoaps
IBR GruppeCM (Prof. Wolf)
ArtMasterarbeit, Diplomarbeit
Statusvorläufig
Beginn

Bei der Plagiatsanalyse von Textdokumenten muss ein zu analysierendes Dokument mit anderen Dokumenten verglichen werden. Ein Ansatz hierfür ist die Benutzung generischer, textbasierter Suchmaschinen zum Auffinden von Dokumenten, die den gleichen Text enthalten. Dadurch können Dokumente, die gleiche oder ähnliche Passagen wie das zu untersuchenden Dokument enthalten in der Regel zuverlässig aufgefunden werden. Wurde das Plagiat jedoch sorgfältiger erstellt, so dass nur wenige Passagen exakt übereinstimmen, sinkt die Trefferquote. Für das Auffinden derartiger Plagiate reicht ein einfacher Textvergleich häufig nicht aus. Stattdessen müssen andere Methoden für die Analyse genutzt werden.

Im Rahmen des OAPS Projektes wird derzeit eine Plagiatssuche auf Basis von Open Access Datenbanken realisiert. Hierbei soll ein umfassender Index über sämtliche Open Access veröffentlichten Dokumente erstellt werden. Anders als bei der Nutzung externer Suchmaschinen, kann im Rahmen von OAPS Einfluss auf die Gestaltung des Indexes genommen werden. Dies ermöglicht auch die Umsetzung umfangreicherer Methoden zur Ähnlichkeitsanalyse von Dokumenten.

In diese Arbeit soll der Ansatz einer referenzbasierte Ähnlichkeitsanalyse von Textdokumenten näher betrachtet werden. Bei einer referenzbasierten Analyse werden die Referenzen des zu untersuchenden Dokuments analysiert und mit denen anderer Dokumente in Beziehung gesetzt. Mögliche Ansätze hierfür sind bspw. ein Vergleich mit Dokumenten, die auf die gleichen Quellen wie das Ausgangsdokument verweisen (bibliographic coupling) oder ein Vergleich mit Dokumenten die von den gleichen Dokumenten referenziert werden wie das Ausgangsdokument selbst (co-citation). Die Ergebnisse einer solchen Zitationsanalyse können anschließend dazu genutzt werden, um die Ähnlichkeit von Dokumenten zu bestimmen.

Aufgabenstellung

Im Rahmen dieser Arbeit sollen zunächst existierender Ansätze zur referenzbasierten Ähnlichkeitsanalyse recherchiert und bewertet werden. Basierend darauf soll anschließend ein für die Plagiatsuche geeignetes Verfahren zur Ähnlichkeitsanalyse von Textdokumenten entworfen und implementiert werden. Für die Umsetzung des entwickelten Verfahrens soll eine Softwarearchitektur entworfen werden, die die Referenzen eines übergebenen Dokumentes extrahiert, um diese mit Hilfe des neu entwickleten Verfahrens zu analysieren. Als Datenbasis für diese Analyse soll eine Datenbank genutzt werden, deren Anforderungen genauer zu spezifizieren sind. Das Ergebnis der Analyse soll Informationen zu ähnlichen Dokumenten zusammen mit einem Grad der Ähnlichkeit enthalten. Für die Rückgabe ist ein geeignetes Format zu spezifizieren.

Das entworfene System soll anschließend zusammen mit dem enwickelten Verfahren prototypisch umgesetzt werden. Hierbei kann, wenn möglich, auf existierende Implementationen zurück gegriffen werden. Als Datenbank soll hierbei die Datenbasis des SciPlore (http://www.sciplore.org) Projektes genutzt werden, auf die über eine Webservice-Schnittstelle zugegriffen werden kann. Basierend auf dieser Implementation ist das entwickelte Verfahren zum Abschluss der Arbeit in geeigneter Form zu evaluieren und zu dokumentieren.

Links


aktualisiert am 22.07.2009, 10:25 von Dr. Jens Brandt
printemailtop