Git Product home page Git Product logo

cdsb2019's People

Contributors

amedina-liigh avatar areyesq89 avatar kant avatar lcolladotor avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar  avatar

Forkers

kant

cdsb2019's Issues

SMILES

Simplified Molecular Input Line Entry Specification
Una paqueteria que permita descargar el formato SMILES de fármacos desde https://pubchem.ncbi.nlm.nih.gov/, a partir de una lista de ChemID (Chemical Identifiers). Esto es útil ya que en http://www.swissadme.ch/ se pueden acceder esta lista de SMILES para obtener sus propiedad y saber si atraviesan barrera hematoencefalica.

GENERACION DE CLUSTERS Y CROSS VALIDATION

Actualmente trabajo con herramientas genomicas y por medio de las caracteristicas genomicas de los pacientes intento agruparlos en categorias. Para ello realizo pruebas y graficos como los heatmap, PCA, regresiones logisticas, LDA, t-SNE, curvas ROC y cross-validation. Cada una de estas pruebas da resultados y modelos diferentes, ademas se tienen que hacer con paquetes separados en R. En este sentido propongo realizar un paquete en R que ayude a analizar los datos probando los diferentes analisis y validando cada uno de los modelos que proponga para poder obtener cual es la prueba a emplear que mejor ayude a agrupar nuestros datos con los resultados de las validaciones. Esto no solo podria servir para mi area, si no que podria ser utilizada en otras areas, como ejemplo en la industria para saber quien va a comprar un producto y quien no va a comprar basandose en las caracteristicas de las personas.

Generador de presencia en línea (online presence generator)

ES

Podríamos hacer un paquete de R que contenga un par de templados de rmarkdown y/o pagedown para que cualquier miembro de la CDSB pueda hacer su página web y su CV en línea de una forma rápida.

La motivación viene detrás de los requisitos para solicitar la beca para ir a BioC2019. En esa solicitud, pedían que la persona pidiendo apoyo tuviera una página web y/o un CV disponible en línea.

Ejemplos de páginas web (2/3 hechas con rmarkdown):

Tutorial relacionado: http://www.emilyzabor.com/tutorials/rmarkdown_websites_tutorial.html

Ejemplos de CV con pagedown:

Yo creo que es más fácil modificar los archivos que crean una página web que empezar desde cero. Digamos que sería algo equivalente al sitio web de ejemplo que viene en https://themes.gohugo.io/theme/academic/.

EN

We could make an R package that contains a few rmarkdown and/or pagedown templates that any CDSB member could use to make their website and the CV in a quick way.

The motivation behind this idea is that the BioC2019 travel scholarship required that the person asking for the scholarship had an online presence in the form or a website and/or a CV available online.

Website examples (2/3 made with rmarkdown):

Related tutorial: http://www.emilyzabor.com/tutorials/rmarkdown_websites_tutorial.html

CV examples made with pagedown:

I think that it's easier to modify the files that create a website than it is to start from scratch. This could be similar in spirit to the example website that is included in https://themes.gohugo.io/theme/academic/.

RenewingGOplot

GOplot (https://wencke.github.io/) es un paquete que te permite graficar enriquecimientos funcionales con términos de ontología de genes (GO terms). Peeero, no es perfecto y puede mejorar, el trabajo consistirá en renovar algunas funciones que permitan que mas usuarios puedan acceder al paquete, generar algunas pruebas unitarias para dichas funciones y errores amigables para mejorar la experiencia del usuario.

Sismos en México, heatmap de donde se han localizado a lo largo de los años

Hacer una paqueteria que nos permita enlazar los datos del servicio sismologico nacional de la UNAM, y poder hacer un gráfico que nos permita ver donde han sucedido a lo largo de los años.
Intentar hacer una regresion que nos pueda permitir predecir o estimar la maginutud del sismo dada su latitud, logitud, profundidad y tipo de suelo.

p.d.(no tengo idea como hacer el grafico en un mapa)

Ilustraciones y tal vez videos automáticos del código de conducta (illustrations and maybe auto-videos for the code of conduct)

ES

La sociedad americana de estadística acaba de publicar su reporte sobre acoso sexual https://magazine.amstat.org/blog/2019/07/01/asataskforce/ y un estudio reciente examinó los diferentes códigos de conducta que se usan en congresos https://www.pnas.org/content/early/2019/07/02/1819409116. También existe el código de conducta de los Carpentries https://docs.carpentries.org/topic_folders/policies/code-of-conduct.html, el del R Consortium https://wiki.r-consortium.org/view/R_Consortium_and_the_R_Community_Code_of_Conduct, rOpenSci https://ropensci.org/code-of-conduct/, BioC2019 https://bioc2019.bioconductor.org/code_of_conduct, R Ladies https://rladies.org/code-of-conduct/, ONA https://journalists.org/ona-event-code-of-conduct/ entre otros incluyendo el nuestro https://comunidadbioinfo.github.io/codigo-de-conducta/.

Básicamente, los códigos de conducta son más comunes hoy en día en diferentes conferencias y eventos. Sin embargo, siento que luego la gente no los lee bien, en especial cuando son más extensos.

  • Recientemente un amigo del doctorado publicó un paquete de R que crea imagenes sobre la reproducibilidad de proyectos https://cran.r-project.org/web/packages/scifigure/vignettes/Visualizing_Scientific_Replication.html. Una opción sería hacer algo similar para los diferentes componentes de códigos de conducta.
  • Otra opción sería hacer una serie de ilustraciones con funciones que les agreguen texto (como hacer un meme, pero para que el texto pueda ir en diferentes lenguajes). El usuario podría usar esas imagenes en sus diapositivas cuando quiera explicar el código de conducta en un evento/congreso. Las ilustraciones podrían ayudar para que no queden malentendidos basados en la comprensión del lenguaje usado en la versión escrita del código de conducta.
  • Otra opción sería tomar las imagenes de la anterior función y volverlas videos automatizados usando https://cran.r-project.org/web/packages/ari/index.html.

EN

The American Statistical Association (ASA) recently published their report on sexual harassment and assault https://magazine.amstat.org/blog/2019/07/01/asataskforce/ and a recent study examined different codes of conduct used in meetings https://www.pnas.org/content/early/2019/07/02/1819409116. There's also the Carpentries code of conduct https://docs.carpentries.org/topic_folders/policies/code-of-conduct.html, the R Consortium one https://wiki.r-consortium.org/view/R_Consortium_and_the_R_Community_Code_of_Conduct, rOpenSci's code of conduct https://ropensci.org/code-of-conduct/, BioC2019's https://bioc2019.bioconductor.org/code_of_conduct, R Ladies' https://rladies.org/code-of-conduct/, ONA's https://journalists.org/ona-event-code-of-conduct/ among others including ours https://comunidadbioinfo.github.io/codigo-de-conducta/.

Basically, codes of conduct are more common nowadays in different conferences and meetings. However, I feel like most people don't read them well, specially when they are long.

  • Recently, a grad school friend published this R package that creates images showcasing the reproducibility of projects https://cran.r-project.org/web/packages/scifigure/vignettes/Visualizing_Scientific_Replication.html. One option would be to make something similar for the different components of a code of conduct.
  • Another option would be to make a series of illustrations with a function that adds text to them (like making a meme, such that the text can be changed and translated easily). The user could then use the resulting images in their slides when they explain their conference/meeting code of conduct. The illustrations could also help ensure that there are no misunderstandings due to the language used in the written version of the code of conduct (particularly when you have non-native speakers at the event).
  • Another option would be to take the images from the previous function and make them automatic videos using ari https://cran.r-project.org/web/packages/ari/index.html.
    `

Scientific software developer impact

¿Cuál es el impacto de tu software? Podríamos hacer un paquetito que reporte el impacto de un investigador. Por ejemplo, dado el perfil de google scholar, el twitter handle y el github profile, el paquete podría generar métricas de qué tantas citas han tenido sus publicaciones, su presencia online basado en número de tweets y qué tanto impacto tiene el software que escribe. Podríamos definir modos de ver cómo estas variables están relacionadas.

PCA con ggrepel

Existen varios paquetes para hacer Análisis de componentes principales (PCA), como vegan o ade4. Sin embargo su visualización no es muy atractiva.

con ggplot se han hecho muchas visualizaciones y existe un paquete llamado
ggord donde visualiza de forma amigable los PCA. Sin embargo no incluye la función #repel del paquete ggrepel. Por lo que se hizo esta función

https://github.com/APonce73/PCARepel

HiCimport

En el análisis de datos de HiC, HiChip y varios *C, existen varios pipelines para alinear los datos contra un genoma de referencia que normalmente generan archivos bam, además de otros formatos específicos para cada pipeline. Supongamos que queremos hacer un "peak calling" para identificar "loops" o "TADs" en el genoma. Podríamos usar Juicer, cLoops, etc. Sin embargo, estos softwares usan diferentes formatos de entrada, específicos de cada pipeline, por lo que se tiene que invertir tiempo en reformatear los datos. Podríamos escribir un paquete con dos funciones, import y export, que permita transformar rápidamente de un formato a otro.

Predecir el resultado de partidos internacionales

FiveThirtyEight tiene un ranking de clubes de futbol a nivel internacional. Lo llaman SPI por "soccer power index" y la liga es esta. Podríamos desarrollar un paquetito para explorar estos datos, por ejemplo hacer plots de la distribución de SPI por país, etc. Ahora, si suponemos que Argentina va a jugar contra Brasil. ¿Podríamos predecir quién va a ganar usando simplemente el SPI del club de donde juega cada jugador?

Hacer un bot para la Red Mexicana de Bioinformática

Podríamos hacer un Twitter bot (tipo https://twitter.com/chirunconf) siguiendo los pasos de https://github.com/unconf-toolbox/unconf-bot y https://github.com/unconf-toolbox/unconf-bot/blob/master/tweeting/retweetRstats.R para los tweets que mencionen a https://twitter.com/RBioinformatica

Tal vez se pueda hacer búsquedas más complejas donde los tweets que mencionen "bioinformática" y "México" (o el emoji de la bandera) sean re-tweeteados

Algo así.

La función para hacer el bot la podríamos poner en un paquete de R.

Diversidad de creadores de paquetes de R/Bioconductor (BioC/R package maintainer diversity)

ES

Alejandro Reyes @areyesq89 creó un mapa del mundo donde mostraba de donde vienen los creadores de paquetes de Bioconductor que está disponible vía https://comunidadbioinfo.github.io/post/a-recap-of-cdsb-2018-the-start-of-a-community/. Un posible paquete de R podría tener una función que cree este mapa usando los datos más recientes. El paquete también podría ser un paquete de datos para explorar como ha ido cambiando la información a través de los años (gganimate? https://github.com/thomasp85/gganimate). Podría ser útil para obtener imagenes actualizadas y mostrar el crecimiento en Latinoamérica. Para hacerlo más general, el paquete podría también examinar los paquetes de CRAN.

En fin, no sé que tanto de esto se pueda o no automatizar.

EN

Alejandro Reyes @areyesq89 created a world map image with the number of Bioconducotr package maintainers that is available at https://comunidadbioinfo.github.io/post/a-recap-of-cdsb-2018-the-start-of-a-community/. Une posible R package could have a function to re-make this image using the latest data. The package could also store the summary data through different years, such that one could examine this data through time (gganimate? https://github.com/thomasp85/gganimate). I think that it could be useful to get updated map images and use them to show the growth in Latin America. To make the package more general, it could also look at CRAN packages.

However, I don't know much of this could be automated or not.

Un paquete para dar formato a archivos FASTA y GFF

Estudios de genómica comparativa suelen incluir el análisis de cientos o miles de genomas de diferentes especies. A menudo, la información de estos genomas se obtiene de diferentes bases de datos, cada una generando sus propios identificadores para los diferentes locus en sus respectivos archivos FASTA y GFF (dependiendo del proceso de anotación). En consecuencia, cuando el análisis está terminado el análisis de la información se complica. Por ejemplo, si tienes un árbol filogenético con miles de hojas y cada una tiene identificadores como ‘1923819’, ‘scaffold_91292’ o ‘supercontig01920’, se hace más difícil saber a qué especie pertenece cada uno. Para hacer más fácil la interpretación, se suelen colocar abreviaturas específicas acompañadas de códigos de colores al inicio de cada identificador, algo así como AthP_Scaffold1 (Arabidopsis thaliana, Planta - verde) o MmuM_embl1029201 (Mus musculus, Mamífero - café). Uno se podría pasar algún tiempo en la terminal generando las abreviaturas para cada especie (las cuales deberían ser únicas) y modificando los archivos fasta y gff para que los nombres coincidan. Además haría falta la generación de archivos de metadatos, incluyendo tamaño de los genomas, nivel de ploidía, las claves de colores etc. De ahí la propuesta de generar un paquete en R que ayude a dar formato a los archivos de una manera más eficiente. Por ejemplo, generando las abreviaturas y facilitando su mapeo a cada archivo GFF y FASTA.

statistics based on distribution

Podriamos realizar una funcion en la que especifiques un set de datos, el numero de grupos y la variable que determina los grupos y a partir de estas caracteristicas la funcion analice la distribucion de los datos y a partir de el resultado seleccione en automatic la pruebas estadistica que se debe de utilizar y si es necesario, realice las pruebas posthoc en automatic. La podriamos llamar mean_comparision

Posible función para secuencias similares

La idea es que existen secuencias paralógas y ortólogas en bases de datos, y ha estas secuencias posiblemente se les puede asignar alguna función (x) para no repetir el proceso en R. La asignación de la posible función u funciones a estas secuencias podrían basarse de bases de datos como Gene Ontology.....

No sé como se podría realizar....

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.