Skip to content

peasypi/SatzReduktion

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Satz-Reduktion

Installation

  • pip install satzreduktion

Ausführung

  • satzreduktion in Terminal eingeben. Prompt fragt nach Pfad des einzulesenden Textes

Final

  • Script ist fertig

Weiteres Vorgehen

Deadline 26.02.19

  • Report fertigstellen
  • Zahlenangaben besser intergrieren
    • Recherche - Tools, die das besser können
  • Vernünftige Laufzeitübersicht erstellen

Deadline 30.01.19

  • Präsentation fertigstellen
    1. Wer hält den Vortag?
    2. Ersetzungsquote + Zeit pro 1000 Sätzw
    3. Git aufräumen
    4. Gute/Schlechte Sätze als Beispiele für Präsentationsfolie
    5. Probleme erklären
  • Report schreiben

Deadline 24.01.19

  • Vera schreibt Programm für Person- und Organisationsersetzung
  • Pia bereitet die Präsentation vor
  • Marie beginnt den Report zu schreiben
  • Nils schreibt Programm für Zeitersetzung

Deadline 17.01.19

  • Pia, Marie und Nils arbeiten sich in Flair ein
  • Marie fertigt F Test für Flair an
  • Michael und Vera überlegen sich Regeln zur späteren Implementierung -
    1. Person -> irgendwer/irgendwem
    2. Ort -> irgendwo
    3. Organisation -> ?
  • F-Test nochmal mit allen Tools durchgehen?
  • Definition: Named-entity recognition:

Named-entity recognition (NER) oder Eigennamenerkennung ist eine Aufgabe in der Informationsextraktion und bezeichnet die automatische Identifikation und Klassifikation von Eigennamen. Ein Eigenname ist eine Folge von Wörtern, die eine real existierende Entität beschreibt, wie z. B. ein Firmenname

falscher F-Test da Nicht-Named-Entities als richtig gezählt? (zB. Schule, Straße,...)

Abschlusspräsentation

Report

Beschreibung

Reduktion / Vereinfachung von Sätze, z. B.: Ersetzung von

  • Zeitangaben durch irgendwann
  • Ortsangaben durch irgendwo (/ da / dort)
  • Personen etc. durch irgendwer (/ jemand)
  • irgendwem, irgendwas, ...

Aufgaben

  1. Definieren sinnvoller Ersetzungsschritte, -regeln und Abbruchkriterien
  2. Erkennung typischer Ersetzungsmuster
  3. Ansätze zur Vereinfachung von Teilsätzen, Relativsätze?
  4. Evaluierung der Reduktion (Genauigkeit, Schwachstellen, Lösungsansätze)

Betreuer

Erik Körner, koerner@informatik.uni-leipzig.de (Raum P906)

Hinweise

  • Anforderungen laut: http://asv.informatik.uni-leipzig.de/de/courses/257
  • Projekt-/Zeitplan (Gruppenmitglieder, Emails, Matrikelnr., Aufgaben, Aufgabenaufteilung, vorläufige Zeitplan, mögliche Zwischenergebnisse/-ziele)
  • Sauberer Code, Ziel: Verständlichkeit für andere
  • Accounts werden nach Anfrage erstellt, Details in extra Email

Links

Stanford NER-Tool

GermaNER

SpaCy

Flair

Verzeichnisse Zeiten, Präpositionen usw.

Listen zur Erweiterung der Tools

Fragen

  • Was unterscheidet beispielsweise I-MISC und O-MISC? I / O

Beginning, Inside, End, Single (jeweils Anfangsbuchstaben) bei flair

  • Wie sollen die NER-Tools verglichen werden?
  1. Features des jeweiligen Tools überprüfen. Wie variabel ist es einzusetzen? Welche Funktionen bringt es mit sich?
  2. standardisiert (F-Test)
  • Gibt es ein Limit für das GIT? Kann ich es auch als Dropbox benutzen?

We recommend repositories be kept under 1GB each. This limit is easy to stay within if large files are kept out of the repository. If your repository exceeds 1GB, you might receive a polite email from GitHub Support requesting that you reduce the size of the repository to bring it back down.

  • Kann man Regex nutzen für Datumsbestimmung?

Mögliche Schwierigkeiten

  • Satzstellung: Erkennung von Subjekt/Objekt Austausch durch Irgendwer/Irgendwem

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages