Git Product home page Git Product logo

infovis2's Introduction

Informationsvisualisierung

Frank Hasenbalg, 571087

Visualisierung von Wikipediatexten

Installation

sudo apt-get install python3-setuptools python3-dev build-essential

sudo easy_install3 pip

sudo pip3 install -U nltk

python3 >>> import nltk >>> nltk.download() >>> l >>> all

sudo pip3 install flask

sudo pip3 install Flask-WTF

sudo pip3 install HTMLparser

getestet mit Ubuntu 16.04 LTS

Benutzung

cd ...interface

python3 main.py

Texttheorie

Textfunktion

  • Informationsfunktion( zb. kein appell)[104pp]

Struktur

Deskriptive Themenentfaltung:

  • Teil-Ganzes- oder Enthaltensein-Struktur

  • Beschreibung wesentlicher Merkmale (auch Quantitative Merkmale)

  • Durchgehende Wiederaufnahmestruktur [Brinker, Linguistische Textanalyse, 63pp, 3.Auflage, 1992]

  • Wiederaufnahme kann expliziet(Elefant) und implizit(aus dem Kontext) sein(zb. er)[27pp]

  • Text ist zusammenhaengend ueber Wiederaufnahmestruktur

  • Thema ist der Gegendstand eines Textes (Referenztraeger) und was darueber ausgesagt wird[54pp]

  • Wiederaufnahmestruktur spiegelt dominierende Referenztraeger wieder

Aeussere Stuktur

Texte

  • besteht aus Teiltexten (Ueberschriften-Absaetzgefuege)
  • Teiltext, Kapitel, Paragraphe, Abschnitte und Absaetze
  • Teiltext -> Subthema
  • linear aufgebaut(im Gegensatz zu hypertext)
  • Thema kann Baumstruktur haben, der Text nicht

Absaetze

  • Strukturieren den Text Sinneinheitsweise
  • Strukturieren den Text optisch

Saetze

  • bringen Referenztraeger in Zusammenhang.

  • Geschlossene Einheit

  • Satz ist nicht unbedingt das, was zwischen 2 Punkten steht.(Nebensaetze)

Woerter

  • werden durch leer- oder Satzzeichen voneinander getrennt

  • Worstamm Affixe: Prefix Suffix Circumfix Duplifix Infix Interfix Transfix Simulfix Suprafix Disfix

  • Eigenstaendige bedeutung

  • Besteht aus Silben

  • Ich suche dominante Referenztraeger(Hochfrequenz), mit expliziter Wiederaufnahme.

Vorgehensweise

  • text.html runterladen

  • Javascript raus

  • Titel finden und merken

  • Tokens fuer Absatzenden setzen

  • alle Tags raus

  • alle Fussnoten raus

  • alle HTML-Kommentare raus

  • Tokenizer "Natural Language Toolkit" Author: Steven Bird

  • Position von Absaetzen und Satzenden .(!?)

  • Satzzeichen und Tokens raus aus Tokenizerliste

  • Lemmatizer/Stemmer

  • Stopwords raus

Affix Example Schema Description
Prefix un-do prefix-stem Appears before the stem
Suffixoid[1]/semi-suffix[2] cat-like stem-suffixoid Appears after the stem, but is only partially bound to it
Infix Minne⟨fecking'⟩sota st⟨infix⟩em Appears within a stem — common in Borneo-Philippines languages
Circumfix en⟩light⟨en circumfix⟩stem⟨circumfix One portion appears before the stem, the other after
Interfix speed-o-meter stema-interfix-stemb Links two stems together in a compound
Duplifix money~shmoney stem~duplifix Incorporates a reduplicated portion of a stem (may occur before, after, or within the stem)
Transfix Maltese: k⟨i⟩t⟨e⟩b "he wrote" (compare root ktb "write") s⟨transfix⟩te⟨transfix⟩m A discontinuous affix that interleaves within a discontinuous stem
Simulfix mouse → mice stem\simulfix Changes a segment of a stem
Suprafix produce (noun)produce (verb) stem\suprafix Changes a suprasegmental feature of a stem
Disfix Alabama: tipli "break up" (compare root tipasli "break") st⟩disfix⟨m The elision of a portion of a stem
  • Die populaersten Worter (Referenztraegen) werden mit idf ausgegeben(Histogram)

  • Die Saetze(nltk.sent_tokenize) werden auf gemeinsames Vorkommen von Referenztraegen untersucht(Force Diagram)

  • Dispersion Plot(Referaenztraegerverteilung) -> Zeight Positionen der Woerter auf einer Art Landkarte

  • Daraus folgt minimap (Verteilung der Dominanten Referenztraeger)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.