Humboldt-Universität zu Berlin - Mathematisch-Naturwissenschaftliche Fakultät - Wissensmanagement in der Bioinformatik

Text Analytics

Halbkurs im Sommersemester 2008
Professor Ulf Leser

Der Halbkurs "Text Analytics" behandelt Methoden zur computergestützten Analyse von Texten. Themen reichen vom Information Retrieval (Suchmaschinen, Anfragesprachen, Indexierung, PageRank) über die Computerlinguistik (Kollokationen, Sprachmodelle, Tagging, Disambiguierung) bis zum Text Mining (Dokumentklassifikation und -clustering, Informationsextraktion, Plagiaterkennung). Dabei werden sowohl algorithmische Grundlagen, speziell im Bereich des Maschinellen Lernens, als auch Anwendungen behandelt.

Der Halbkurs wird durch ein Praktikum begleitet. Dieses vertieft die im Halbkurs gelernten Methoden durch praktische Umsetzung. In Gruppen werden verschiedene Probleme des Text Mining unter Benutzung existierende Frameworks gelöst.

Voraussetzungen

Voraussetzung für den Besuch sind grundlegende Kenntnisse in Algorithmen und gute Kenntnisse in Java.

Prüfungen

Prüfungen sind mündlich. Die Vorlesung ist als Halbkurs der praktischen Informatik anrechenbar.

Literatur zur Vorlesung

  • Manning / Schütze: „Foundations of Statistical Natural Language Processing”, MIT Press, 1999. (At google books)
  • Baezo-Yates / Ribeiro-Neto: "Modern Information Retrieval", Addison-Wesley, 1999.
  • Weitere Literatur und Links

Themen und Termine im Einzelnen

(Folien sind hier jeweils vor der Vorlesung als PDF verfügbar. Änderungen möglich. All slides are English, but the course will be held in German).

Weitere Materialien

Ergänzende Literatur