TU BRAUNSCHWEIG
| Carl-Friedrich-Gauß-Fakultät | Informatik
Informatikzentrum

Algorithmen zur Plagiaterkennung

Bearbeiter (anonym, Login erforderlich)
Betreuer Dr. Martin Gutbrod
Professor Prof. Dr.-Ing. Lars Wolf
IBR Gruppe VS (Prof. Fischer)
Art Studienarbeit
Status abgeschlossen
Beginn 6/05

Plagiate bezeichnen Dokumente und Textbereiche, die unerlaubterweise wörtlich aus anderen Quellen übernommen wurden. Schätzungen ergaben, dass zirka 30 Prozent von studentischen Arbeiten wörtlich übernommene fremde Textquellen beinhalten, die nicht korrekt zitiert sind.

Diese Arbeit ist angesiedelt im Bereich der automatisierten Erkennung solcher Textplagiate. Im ersten Teil erfolgt eine Darstellung verwendeter Algorithmen, die zur Plagiaterkennung verwendet werden. Hierfür ist eine genaue Literaturrecherche notwendig. Es soll eine Unterscheidung der Algorithmen nach n erfolgen, wobei n die Anzahl der Vergleichsdokumente darstellt.

Ein neuer Algorithmus zur Plagiatsuche ist der S-Tupel Algorithmus. Dieser bedient sich einer Folge von Wörteren, die, extrahiert aus einem Satz, in Suchmaschinen gesucht werden. Eine geringe Länge der Fragemente bestimmt die Anzahl der fälschlicherweise als plagiiert erkannten Stellen. Die Arbeit widmet sich wissenschaftlich der Fragestellung, was über die Fragementlängen und die verwendeten Wörter durch empirische Versuche ausgesagt werden kann. Dabei werden sowohl deutsche, als auch englische und französische Texte untersucht und Aussagen über Fragementhäufigkeiten bei bestimmten Wortgüten gemacht. Wortgüte bezeichnet dabei die Qualität des einzelnen Wortes im Verhältnis anderer Wörter bezüglich seiner Plagiatrelevanz.

Die Arbeit wird abgeschlossen mit einer technischen Analyse und einem Perfomance- und Ergebnisvergleich von mindestens zwei implemtierten Algorithmen in Plagiaterkennungswerkzeugen.


aktualisiert am 15.11.2005, 17:56 von Dr. Martin Gutbrod
printemailtop