Dies sind die archivierten Webseiten des Lehrstuhls für Programmierung und Softwaretechnik (PST).
Die Seiten des Software and Computational Systems Lab (SoSy) finden Sie auf https://www.sosy-lab.org/.

Bachelorseminar "Mustererkennung in Texten"

Aktuelles

  • Seminar: Dienstag den 29.4., 6.5., 13.5., 20.5. und 27.5., je 16ct-18 Uhr, Amalienstr. 73A, Raum 118
    (kontinuierliche Anwesenheit wird erwartet)
  • Achtung: 8.4., 15.4. und 22.4. noch kein Seminar!
    Das Seminar startet am 29.4.!

  • 28.01.2014, 16 Uhr: Vorbesprechung
  • 24.01.2014, 09 Uhr: Anmeldung wurde geschlossen, Zusagen und Absagen wurden verschickt.
  • 01.12.2013, 09 Uhr: Anmeldung in UniWorX wurde geöffnet.

Inhalte

Mustererkennung in Texten tritt in ganz unterschiedlichen Anwendungsgebieten auf:

z. B. in Textverarbeitung,  Plagiatserkennung, WEB-Suche, Data Mining, Spam Filter, Handschriftenerkennung, Virus/Wurmentdeckung, System Intrusion Detection, Intelligent Language Monitoring for Language Translation, Gensequenzanalyse.
 
Die  elementare Fragestellung bei  Mustererkennung in Texten (string matching, pattern matching) besteht darin, zu prüfen,  ob ein gegebenes Muster M in einem Text T vorkommt, und wenn ja, an welchen Stellen.

Weitere Fragen sind z.B.:

  • gesucht werden mehrere Muster in einem Text
  • welches ist der längste Teiltext  eines Textes T, der wiederholt in dem Text T vorkommt?
  • welches ist der längste Teiltext, der sowohl in dem Text T als auch in dem Text T' vorkommt?
  • wie löst man derartige Fragen, wenn fehlerhafte oder unvollständige Informationen vorliegen?
  • wie lassen sich die Ideen auf zweidimensionale Mustererkennung übertragen?


In dem Seminar werden die wichtigsten Ideen und Verfahren zur Lösung dieser Fragen behandelt. Alle Studierenden, die für das Seminar ausgewählt werden, bekommen bei der Vorbesprechung ihr konkretes Thema.

Termine

Di 29.4., 6.5., 13.5., 20.5. und 27.5. von 16 bis 18 Uhr, Amalienstr. 73A, Raum 118

Personen

Dozent

Übungsleitung

Materialien

Die folgenden Materialien unterliegen dem Copyright. Teilnehmern der Vorlesung ist die Verwendung für persönliche Studien gestattet. Alle anderen Rechte sind vorbehalten.

Bewertungskriterien

Vortrag

  • Inhalt: Motivation und Einführung, Gliederung, Argumentationskette, Abstraktionsniveau, Vollständigkeit
  • Form: Form der Folien (Schriftgröße, Diagramme, Folien nicht überladen), freie Rede, sprachliche Verständlichkeit (deutliche Sprechweise, Wortwahl), Einhalten der Zeit
  • Beantwortung von Fragen

Ausarbeitung

  • Darstellung: Klarheit des Textes, sprachliche Gewandtheit, äußere Form, Rechtschreibung, Quellenangaben, sinnvolle Darstellung von Abbildungen
  • Hinführung: Abstract, Einleitung und Motivation
  • Hauptteil: Argumentationskette, Darstellung der Hauptresultate
  • Abschluss: Schlussbewertung und Zusammenfassung, Ausblick

Hörerkreis

Bachelor Informatik oder Medieninformatik. Gefordert ist ein Vortrag von 45 Minuten mit anschließender 15 minütiger Diskussion und eine Ausarbeitung mit 5-10 Seiten.
 

Benötigte Vorkenntnisse

Grundlegende Kenntnisse der Informatik genügen, allerdings wird erwartet, dass die Teilnehmer Interesse an Ihrem Thema zeigen und dem korrekten Referenzieren von verwendeten Quellen nicht abgeneigt sind.

Literatur

Dan Gusfield: Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, 1997

und weitere Quellen