Git Product home page Git Product logo

proyectotid's People

Contributors

josehdez2 avatar

Watchers

 avatar  avatar  avatar  avatar

proyectotid's Issues

Listar los posibles objetivos del trabajo

Este issue servirá para listar los posibles objetivos que tendrá el análisis de datos en el proyecto.

La adición de nuevos posibles objetivos se realizará a modo de comentarios sobre este issue.

Mostrar los nombres de los tropes en el archivo Weka

Esto es opcional y de fácil solución.
Consiste en que los nombres de los atributos en el archivo Weka sean los nombres de los tropes y no "trope1, trope2, ..., trope12345".
Sólo hay que pasar por parámetro la lista maestra en vez de el número de tropes total, en la función createWekaFile(),
y modificar la línea que coloca los nombres "trope1, trope2" para que vaya cogiendo los String de la lista maestra.

Guardar la informacion de las series en disco

Teniendo #3, almacenar la informacion de las series como archivos.

Esto es para evitar realizar todo el proceso de parseado y de procesamiento de tropes cada vez que vayamos a consultar los datos.

Idealmente, solo volveremos a parsear los HTML en caso de que cambiemos la(s) expresiones regulares que vayamos a usar, y solo volveremos a procesar los datos cuando nos interese observar la información de formas diferentes.

Eliminar tropes duplicadas

Existen tropes duplicadas en la lista maestra, debido a problemas de capitalización (por ejemplo, YoyoPlotPoint vs YoyoPlotpoint).
El único intento de solucionar esto fue "aplanar" los tropes antes de introducirlos en el HashSet temporal que se crea en la funcion createMasterList(), quedando así solo "yoyoplotpoint" en la lista, pero por alguna razón esto produjo problemas más tarde en la ejecución.
De todas formas parece un problema fácil de solucionar.

Arreglar nueva expresion regular

La nueva expresión regular "(?<=/)[^]+?/[^']*?(?='>[^<]+:)" da error cuando se pasa como argumento a Pattern.compile().
En cambio, la expresión regular antigua "<.+?>((\w|\s)+?):" sí compila de forma correcta.

Asignar los tropes a las series correspondientes como enums.

Teniendo la lista maestra descrita en #2 , guardar los tropes correspondientes como números en las series (que seguirán en memoria).
Al final cada serie tendrá un Array de números equivalentes a los tropes que contenía dicha serie.

Por ejemplo, si en la lista el trope "Antagonista" es el trope 23 en la lista maestra, guardar un 23 en cada serie en la que aparezca la misma.

El objetivo de esto es aumentar la eficiencia tanto en el espacio de almacenamiento de los datos de las series como en la eficiencia a la hora de procesarlos.

Error al ejecutar el programa (con nueva y antigua expresión regular).

Error.

  • Al ejecutar el programa en eclipse da los siguietes fallos:
    Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 0, Size: 0
    at java.util.ArrayList.rangeCheck(ArrayList.java:653)
    at java.util.ArrayList.get(ArrayList.java:429)
    at useful.regex.RegexFilenameHelper.getFilename(RegexFilenameHelper.java:13)
    at tvtropes_data_mining.TropesParser.parsePage(TropesParser.java:34)
    at tvtropes_data_mining.Main.main(Main.java:18)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.