Informatik-Logo
Fakultät für Informatik - Technische Universität München

Lehrstuhl für Effiziente Algorithmen

TUM-Logo

Systementwicklungsprojekt

Web Crawler zur Referenzenerfassung

bereits vergeben

Quellenangaben in wissenschaftlichen Publikationen sollten in einheitlicher Weise und internationalen Standards genügend erfolgen. Dies in der akademischen Weise und internationalen Standards genügend erfolgen. Dies in der akademischen Praxis (und darüber hinaus) umzusetzen, ist mitunter recht mühsam, weil Praxis (und darüber hinaus) umzusetzen, ist mitunter recht mühsam, weil einerseits eine große Anzahl an Regeln zu beachten ist und andererseits nicht jederzeit alle notwendigen Informationen verfügbar sind. Zur Vereinfachung gibt jederzeit alle notwendigen Informationen verfügbar sind. Zur Vereinfachung gibt es am Lehrstuhl für Effiziente Algorithmen seit ca. 20 Jahren die es am Lehrstuhl für Effiziente Algorithmen seit ca. 20 Jahren die bibliographische Datenbank LEABiB. In ihr sind etwa 72.000 Literaturangaben zur Theoretischen Informatik als BibTeX-Einträge referenziert und über das WWW abrufbar. BibTeX-Einträge referenziert und über das WWW abrufbar.

Die einzelnen Verlage bieten im Internet Meta-Daten zu den einzelnen Publikationen an, z.B. Autoren, Titel, Keywords, Abstracts, ... (siehe Theoretical Computer Science). Zur Zeit wird mit Hilfe eines Wrapper-Tools ein Teil dieser Meta-Daten (Autoren, Titel, ...) halb-automatisch erfasst, wobei die einzelnen Referenzen der Publikationen nicht extrahiert werden.

In diesem Projekt werden Sie einen Web Crawler in Java entwickeln, der die Referenzen zu einer gegebenen Publikation extrahiert und speichert. Die Referenzen sollen nicht in der Form, wie sie im Web angegeben sind, abgelegt werden, sondern es soll nur die entsprechende ID der referenzierten Publikation gespeichert werden. Die ID's können über das Portal www.io-port.net mittels eines Webservices ermittelt werden.

Die folgenden Kenntnisse sind für das Projekt von Nutzen, aber Die folgenden Kenntnisse sind für das Projekt von Nutzen, aber selbstverständlich müssen Sie nicht auf allen diesen Gebieten ausführliche selbstverständlich müssen Sie nicht auf allen diesen Gebieten ausführliche Erfahrungen mitbringen, sofern Sie motiviert und bereit sind, sich fehlende Kenntnisse anzueignen.

 

Aufgabensteller: Prof. Dr. Ernst W. Mayr
Betreuung: Stefan Pfingstl
Bearbeiter:Gregor Rößle

 

Stefan Pfingstl, 23. August 2004