proyectotid's People
proyectotid's Issues
Listar los posibles objetivos del trabajo
Este issue servirá para listar los posibles objetivos que tendrá el análisis de datos en el proyecto.
La adición de nuevos posibles objetivos se realizará a modo de comentarios sobre este issue.
Guardar los tropes como una lista maestra
Teniendo las series con sus respectivos tropes en memoria, guardarlas en un archivo de texto que hara de "lista maestra" de tropes.
Completar ColeccionSerie.java
Los pasos 4 y 5 estan incompletos.
Comprobar luego que la clase funciona correctamente.
Clasificar los tropes en géneros
Hacer uso de páginas de géneros de tropes, donde se listan los tropes pertenecientes a un género, para clasificar los tropes.
Mostrar los nombres de los tropes en el archivo Weka
Esto es opcional y de fácil solución.
Consiste en que los nombres de los atributos en el archivo Weka sean los nombres de los tropes y no "trope1, trope2, ..., trope12345".
Sólo hay que pasar por parámetro la lista maestra en vez de el número de tropes total, en la función createWekaFile(),
y modificar la línea que coloca los nombres "trope1, trope2" para que vaya cogiendo los String de la lista maestra.
Guardar la informacion de las series en disco
Teniendo #3, almacenar la informacion de las series como archivos.
Esto es para evitar realizar todo el proceso de parseado y de procesamiento de tropes cada vez que vayamos a consultar los datos.
Idealmente, solo volveremos a parsear los HTML en caso de que cambiemos la(s) expresiones regulares que vayamos a usar, y solo volveremos a procesar los datos cuando nos interese observar la información de formas diferentes.
Eliminar tropes duplicadas
Existen tropes duplicadas en la lista maestra, debido a problemas de capitalización (por ejemplo, YoyoPlotPoint vs YoyoPlotpoint).
El único intento de solucionar esto fue "aplanar" los tropes antes de introducirlos en el HashSet temporal que se crea en la funcion createMasterList(), quedando así solo "yoyoplotpoint" en la lista, pero por alguna razón esto produjo problemas más tarde en la ejecución.
De todas formas parece un problema fácil de solucionar.
Arreglar nueva expresion regular
La nueva expresión regular "(?<=/)[^]+?/[^']*?(?='>[^<]+:)" da error cuando se pasa como argumento a Pattern.compile().
En cambio, la expresión regular antigua "<.+?>((\w|\s)+?):" sí compila de forma correcta.
Asignar los tropes a las series correspondientes como enums.
Teniendo la lista maestra descrita en #2 , guardar los tropes correspondientes como números en las series (que seguirán en memoria).
Al final cada serie tendrá un Array de números equivalentes a los tropes que contenía dicha serie.
Por ejemplo, si en la lista el trope "Antagonista" es el trope 23 en la lista maestra, guardar un 23 en cada serie en la que aparezca la misma.
El objetivo de esto es aumentar la eficiencia tanto en el espacio de almacenamiento de los datos de las series como en la eficiencia a la hora de procesarlos.
Error al ejecutar el programa (con nueva y antigua expresión regular).
Error.
- Al ejecutar el programa en eclipse da los siguietes fallos:
Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 0, Size: 0
at java.util.ArrayList.rangeCheck(ArrayList.java:653)
at java.util.ArrayList.get(ArrayList.java:429)
at useful.regex.RegexFilenameHelper.getFilename(RegexFilenameHelper.java:13)
at tvtropes_data_mining.TropesParser.parsePage(TropesParser.java:34)
at tvtropes_data_mining.Main.main(Main.java:18)
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.