Bachelorseminar "Mustererkennung in Texten"
Aktuelles
- Seminar: Dienstag den 29.4., 6.5., 13.5., 20.5. und 27.5., je 16ct-18 Uhr, Amalienstr. 73A, Raum 118
(kontinuierliche Anwesenheit wird erwartet) - Achtung: 8.4., 15.4. und 22.4. noch kein Seminar!
Das Seminar startet am 29.4.! - 28.01.2014, 16 Uhr: Vorbesprechung
- 24.01.2014, 09 Uhr: Anmeldung wurde geschlossen, Zusagen und Absagen wurden verschickt.
- 01.12.2013, 09 Uhr: Anmeldung in UniWorX wurde geöffnet.
Inhalte
Mustererkennung in Texten tritt in ganz unterschiedlichen Anwendungsgebieten auf:
z. B. in Textverarbeitung, Plagiatserkennung, WEB-Suche, Data Mining, Spam Filter, Handschriftenerkennung, Virus/Wurmentdeckung, System Intrusion Detection, Intelligent Language Monitoring for Language Translation, Gensequenzanalyse.
Die elementare Fragestellung bei Mustererkennung in Texten (string matching, pattern matching) besteht darin, zu prüfen, ob ein gegebenes Muster M in einem Text T vorkommt, und wenn ja, an welchen Stellen.
Weitere Fragen sind z.B.:
- gesucht werden mehrere Muster in einem Text
- welches ist der längste Teiltext eines Textes T, der wiederholt in dem Text T vorkommt?
- welches ist der längste Teiltext, der sowohl in dem Text T als auch in dem Text T' vorkommt?
- wie löst man derartige Fragen, wenn fehlerhafte oder unvollständige Informationen vorliegen?
- wie lassen sich die Ideen auf zweidimensionale Mustererkennung übertragen?
In dem Seminar werden die wichtigsten Ideen und Verfahren zur Lösung dieser Fragen behandelt. Alle Studierenden, die für das Seminar ausgewählt werden, bekommen bei der Vorbesprechung ihr konkretes Thema.
Termine
Di 29.4., 6.5., 13.5., 20.5. und 27.5. von 16 bis 18 Uhr, Amalienstr. 73A, Raum 118
Personen
Dozent
Übungsleitung
Materialien
- Vorlagen für den Vortrag: PowerPoint-Vorlage, OpenOffice-Vorlage
- Vorlagen für die Ausarbeitung: Latex-Vorlage, PDF der Vorlage, Beispielausarbeitung
Bewertungskriterien
Vortrag
- Inhalt: Motivation und Einführung, Gliederung, Argumentationskette, Abstraktionsniveau, Vollständigkeit
- Form: Form der Folien (Schriftgröße, Diagramme, Folien nicht überladen), freie Rede, sprachliche Verständlichkeit (deutliche Sprechweise, Wortwahl), Einhalten der Zeit
- Beantwortung von Fragen
Ausarbeitung
- Darstellung: Klarheit des Textes, sprachliche Gewandtheit, äußere Form, Rechtschreibung, Quellenangaben, sinnvolle Darstellung von Abbildungen
- Hinführung: Abstract, Einleitung und Motivation
- Hauptteil: Argumentationskette, Darstellung der Hauptresultate
- Abschluss: Schlussbewertung und Zusammenfassung, Ausblick
Hörerkreis
Benötigte Vorkenntnisse
Grundlegende Kenntnisse der Informatik genügen, allerdings wird erwartet, dass die Teilnehmer Interesse an Ihrem Thema zeigen und dem korrekten Referenzieren von verwendeten Quellen nicht abgeneigt sind.
Literatur
Dan Gusfield: Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology, 1997
und weitere Quellen