Bachelorseminar "Mustererkennung in Texten"

Aktuelles

Seminar: Dienstag den 29.4., 6.5., 13.5., 20.5. und 27.5., je 16ct-18 Uhr, Amalienstr. 73A, Raum 118
(kontinuierliche Anwesenheit wird erwartet)
Achtung: 8.4., 15.4. und 22.4. noch kein Seminar!
Das Seminar startet am 29.4.!
28.01.2014, 16 Uhr: Vorbesprechung
24.01.2014, 09 Uhr: Anmeldung wurde geschlossen, Zusagen und Absagen wurden verschickt.
01.12.2013, 09 Uhr: Anmeldung in UniWorX wurde geöffnet.

Inhalte

Mustererkennung in Texten tritt in ganz unterschiedlichen Anwendungsgebieten auf:

z. B. in Textverarbeitung, Plagiatserkennung, WEB-Suche, Data Mining, Spam Filter, Handschriftenerkennung, Virus/Wurmentdeckung, System Intrusion Detection, Intelligent Language Monitoring for Language Translation, Gensequenzanalyse.

Die elementare Fragestellung bei Mustererkennung in Texten (string matching, pattern matching) besteht darin, zu prüfen, ob ein gegebenes Muster M in einem Text T vorkommt, und wenn ja, an welchen Stellen.

Weitere Fragen sind z.B.:

gesucht werden mehrere Muster in einem Text
welches ist der längste Teiltext eines Textes T, der wiederholt in dem Text T vorkommt?
welches ist der längste Teiltext, der sowohl in dem Text T als auch in dem Text T' vorkommt?
wie löst man derartige Fragen, wenn fehlerhafte oder unvollständige Informationen vorliegen?
wie lassen sich die Ideen auf zweidimensionale Mustererkennung übertragen?

In dem Seminar werden die wichtigsten Ideen und Verfahren zur Lösung dieser Fragen behandelt. Alle Studierenden, die für das Seminar ausgewählt werden, bekommen bei der Vorbesprechung ihr konkretes Thema.

Termine

Di 29.4., 6.5., 13.5., 20.5. und 27.5. von 16 bis 18 Uhr, Amalienstr. 73A, Raum 118

Personen

Dozent

Prof. Dr. Mila Majster-Cederbaum

Übungsleitung

Marianne Busch

Materialien

Die folgenden Materialien unterliegen dem Copyright. Teilnehmern der Vorlesung ist die Verwendung für persönliche Studien gestattet. Alle anderen Rechte sind vorbehalten.

Vorlagen für den Vortrag: PowerPoint-Vorlage, OpenOffice-Vorlage
Vorlagen für die Ausarbeitung: Latex-Vorlage, PDF der Vorlage, Beispielausarbeitung

Bewertungskriterien

Vortrag

Inhalt: Motivation und Einführung, Gliederung, Argumentationskette, Abstraktionsniveau, Vollständigkeit
Form: Form der Folien (Schriftgröße, Diagramme, Folien nicht überladen), freie Rede, sprachliche Verständlichkeit (deutliche Sprechweise, Wortwahl), Einhalten der Zeit
Beantwortung von Fragen

Ausarbeitung

Darstellung: Klarheit des Textes, sprachliche Gewandtheit, äußere Form, Rechtschreibung, Quellenangaben, sinnvolle Darstellung von Abbildungen
Hinführung: Abstract, Einleitung und Motivation
Hauptteil: Argumentationskette, Darstellung der Hauptresultate
Abschluss: Schlussbewertung und Zusammenfassung, Ausblick

Hörerkreis

Bachelor Informatik oder Medieninformatik. Gefordert ist ein Vortrag von 45 Minuten mit anschließender 15 minütiger Diskussion und eine Ausarbeitung mit 5-10 Seiten.

Benötigte Vorkenntnisse

Grundlegende Kenntnisse der Informatik genügen, allerdings wird erwartet, dass die Teilnehmer Interesse an Ihrem Thema zeigen und dem korrekten Referenzieren von verwendeten Quellen nicht abgeneigt sind.

Literatur

Dan Gusfield: Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, 1997

und weitere Quellen

Forschung

Lehre

SoSe 2016

WiSe 15/16

SoSe 2015

WiSe 14/15

SoSe 2014

Entwurf und Implementierung paralleler Programme

Formale Techniken der Software-Entwicklung

Praktikum Software Engineering für Fortgeschrittene