LEA
Fakultät für Informatik der Technischen Universität München
Lehrstuhl für Effiziente Algorithmen
Postadresse: 80290 München; Hausadresse: Arcisstr.21, 80333 München

Proseminar: Textalgorithmen

Auskünfte u. Anmeldung bei Martin Raab
[Zusammenfassung] [Themenliste] [Termine] [Hinweise] [Auskünfte u. Anmeldung]

Zusammenfassung

Algorithmen für die Verarbeitung von Texten haben eine lange Geschichte in der Informatik.

Probleme, in denen Texte verarbeitet werden müssen, tauchen nicht nur im Zusammenhang mit Textverarbeitungssystemen (z.B. den bekannten UNIX-Programmen grep, awk, emacs, vi, compress und zip) auf, sondern kommen in Bereichen wie der Theorie der formalen Sprachen, beim Übersetzerbau, bei der Implementierung von Programmiersprachen, bei Volltextdatenbanken, bei Multimedia Systemen, der Bildverarbeitung und der Bioinformatik vor - insbesondere die Bioinformatik hat in den letzten Jahren zu einem erneuerten Forschungsinteresse an Textalgorithmen geführt.

Das wohl grundlegendste Problem in der Textverarbeitung ist das Suchproblem (Pattern Matching), in dem es darum geht, zu entscheiden ob, wo und wie oft ein Muster in einem Text vorkommt. Im Seminar werden verschiedene Variationen von Algorithmen zur Lösung dieses Problems betrachtet (exact, approximate; off-line, on-line). Dazu kommen Algorithmen zur Analyse und zum Vergleich von Texten (Symmetrien in Texten, "Edit Distance", Unifikation) und Algorithmen zur Textkomprimierung.

Es wird auf eine klare Darstellung der Probleme und Algorithmen Wert gelegt, wobei auch die Analyse (Korrektheit und Laufzeit) berücksichtigt werden soll. Die zwei letzten Seminarthemen befassen sich mit anspruchsvolleren Analysen des Suchalgorithmus von Boyer-Moore und sind deshalb mit einem Stern gekennzeichnet.

Die meisten Themen stammen aus dem Buch "`Text Algorithms"' von Maxime Crochemore und Wojciech Rytter, Kapitel 1 und 2 dieses Buches geben eine gute Übersicht und führen in das Thema ein.


Die folgenden Themen stehen zur Auswahl: Themen mit Literaturangaben in Postscript

Pattern Matching (off-line)

  1. Algorithmus von Knuth-Morris-Pratt
  2. Algorithmus von Boyer-Moore

Pattern Matching (on-line)

  1. McCreight's Algorithmus
  2. Weiner's Algorithmus
  3. On-line Konstruktion von Suffix Bämen: Ukkonen's Algorithmus

Variationen über Pattern Matching

  1. Approximate pattern Matching: Berechnung der Edit Distance und "longest common subsequence"
  2. Matching mit "don't care" Symbolen
  3. Randomisierte Algorithmen: Karp-Miller-Rabin
  4. Lineare Unifikation

Weitere Themen

  1. Pattern Matching Automaten: Aho-Corasick
  2. Symmetrien in Texten: wiederholte Teilwörter
  3. Text Kompression: Huffman coding und Lempel-Ziv
  4. Ein Approximationsalgorithmus für "shortest common superstrings"

Analyse des Algorithmus von Boyer-Moore

  1. *Cole's Analyse von Boyer-Moore
  2. *"Average case" Analyse von Boyer-Moore

Termine


Hinweise zur Gestaltung der Vorträge

* Merkblatt zur Gestaltung eines Seminarvortrags. (Die Tips auf diesem Merkblatt sind keine offiziellen Anforderungen oder Bewertungskriterien der TU München, sondern aus der Praxis eines Seminarleiters heraus entstandene Ratschläge.)

Auskünfte und Anmeldung

Weitere Auskünfte und Anmeldungen bei Martin Raab, Jesper Larsson Träff.


Martin Raab, Last modified: Fri Feb 27 11:08:59 MEZ 1998