comunidadbioinfo / cdsb2019 Goto Github PK

View Code? Open in Web Editor NEW

1.0 4.0 1.0 58.5 MB

Taller CDSB 2019: Cómo Crear y Ordenar Herramientas 'Tidy' (CDSB Workshop 2019: How to Build and Create Tidy Tools )

Home Page: https://comunidadbioinfo.github.io/post/building-tidy-tools-cdsb-runconf-2019/

R 0.75% HTML 99.25%

rstats rstatses workshop taller tidyverse usethis unconf runconf ropensci

cdsb2019's Introduction

Taller CDSB 2019: Cómo Crear y Ordenar Herramientas 'Tidy' (CDSB Workshop 2019: How to Build and Create Tidy Tools )

ES

Estos detalles serán enviados por correo electrónico a los participantes registrados en el taller de la CDSB 2019 y están basados en el taller que impartió Charlotte Wickham durante rstudio::conf(2019).

EN

These details will be email to registered CDSB 2019 workshop participants and they are based on Charlotte Wickham's rstudio::conf(2019) "Building Tidy Tools Workshop". We are publicly posting this information in case our Spanish translation is also useful to others.

Horario (schedule)

ES

El taller de la CDSB 2019 será de 9 am a 5:30 pm todos los días excepto viernes (termina a las 2pm) con los siguientes descansos:

10:30 - 11:00 am descanso en la mañana 14:00 - 15:30 pm comida

Para más detalles favor de revisar el horario en esta página.

EN

The CDSB 2019 workshop will run from 9 am to 5:30 pm each day except Friday (ends at 2pm) with the following breaks:

10:30 - 11:00 am morning break 14:00 - 15:30 pm lunch

For details on the schedule check this page.

Instructores (instructors)

ES

Este taller será impartido por Alejandro Reyes, Alejandra Medina-Rivera, María Teresa Ortiz y Leonardo Collado-Torres. Leonardo será el instructor principal dado que él estuvo presente en el taller que enseño Charlotte Wickham y en rOpenSci unconf18.

EN

This workshop will be taught by Alejandro Reyes, Alejandra Medina-Rivera, María Teresa Ortiz and Leonardo Collado-Torres. Leonardo will be the main instructor given that he attended Charlotte Wickham's workshop and rOpenSci unconf18.

Lectura recomendada (recommended reading)

ES

Revisaremos parte de los fundamentos de R, pero les recomendamos que revisen un poco los siguientes capítulos de los libros de "Advanced R" y de "R for Data Science" antes del curso.

Funciones http://r4ds.had.co.nz/functions.html (versión traducida por la comunidad en español: https://es.r4ds.hadley.nz/funciones.html)
Vectores https://adv-r.hadley.nz/vectors-chap.html (versión similar en español https://es.r4ds.hadley.nz/vectores.html)
Subconjuntos https://adv-r.hadley.nz/subsetting.html (versión similar en español https://es.r4ds.hadley.nz/vectores.html#subsetting-subdivision-o-creacion-de-subconjuntos-vector-subsetting-subdivision-de-vectores)

Si no conocen las bases de markdown, por favor hagan el tutorial de 10 minutes en https://www.markdowntutorial.com/.

El primer día del curso les compartiremos las diapositivas, código y datos del taller.

EN

We'll start day one with some review of foundations, but we'd recommend you at least skim the following chapters of "Advanced R" and "R for Data Science" before you come:

Functions, http://r4ds.had.co.nz/functions.html (Spanish version translated by the community: https://es.r4ds.hadley.nz/funciones.html)
Vectors, https://adv-r.hadley.nz/vectors-chap.html (similar version translated to Spanish: https://es.r4ds.hadley.nz/vectores.html)
Subsetting, https://adv-r.hadley.nz/subsetting.html (similar version translated to Spanish: https://es.r4ds.hadley.nz/vectores.html#subsetting-subdivision-o-creacion-de-subconjuntos-vector-subsetting-subdivision-de-vectores)

If you're not already familiar with the basics of markdown, please do the 10 minute tutorial at https://www.markdowntutorial.com.

On the first day of the course, we'll share all the slides, code and data with you.

Requisitos de R (R setup)

ES

En este taller tu escribirás código, así que necesitarás una computadora portátil con una versión reciente de R (idealmente R 3.6) que puedes obtener vía CRAN.

Adicionalmente, necesitarás los siguientes paquetes de R instalados:

install.packages(c(
  "devtools", "testthat", "covr", 
  "roxygen2", "lobstr", "vctrs",
  "purrr", "stringr", "ggplot2", "dplyr", 
  "tidyverse", "repurrrsive", "rmarkdown", "nycflights13",
  "sloop", "available", "usethis", "BiocManager"
))
BiocManager::install("BiocCheck")

Les recomendamos ampliamente que instalen la última versión de RStudio (mínimo la 1.1) que pueden descargar e instalar desde https://www.rstudio.com/products/rstudio/download/#download

Si tienes problemas con la instalación de los paquetes o de RStudio, por favor llega un poco temprano y te ayudaremos a configurar tu equipo.

¡No olvides el cargador de tu laptop!

EN

The course is hands on, so you'll need a laptop with a recent version of R (ideally R 3.6) which you can get from CRAN.

In addition, run the following to get the required packages:

install.packages(c(
  "devtools", "testthat", "covr", 
  "roxygen2", "lobstr", "vctrs",
  "purrr", "stringr", "ggplot2", "dplyr", 
  "tidyverse", "repurrrsive", "rmarkdown", "nycflights13",
  "sloop", "available", "usethis", "BiocManager"
))
BiocManager::install("BiocCheck")

We highly recommend that you install the latest version of RStudio (at least version 1.1) which you can download and install from https://www.rstudio.com/products/rstudio/download/#download

If you have problems with your setup or RStudio, please get a little early and we'll help you configure your machine.

Don't forget your power cable!

Proyectos colaborativos (collaborative projects)

ES

En los días 4 y 5 del taller trabajaremos en proyectos colaborativos al estilo de rOpenSci unconf. Todos los proyectos en la porción de unconf serán determinados por las personas en el taller. Así que si hay algún proyecto en el que quieras trabajar, o una idea que quieras sugerir, un tema que quieras aprender, o simplemente encontrar algún proyecto al cual unirte, por favor utiliza la página de issues (cuestiones) que está disponible en https://github.com/ComunidadBioInfo/cdsb2019/issues. Si necesitas inspiración, nosotros creamos unos ejemplos en la página de issues y también te invitamos a revisar https://github.com/ropensci/unconf17/issues y https://github.com/ropensci/unconf18/issues.

La página de issues está ahí para facilitar la discusión y recolectar las ideas antes del taller. No hay presión por sugerir nada o si se te ocurre alguna idea hasta que estemos en Cuernavaca. Muchas personas escogen proyectos en cuales trabajar después de conocer a otros participantes de eventos unconf. Si tienes alguna duda sobre el componente de unconf, por favor contactanos directamente (principalmente a Leonardo o a la cuenta de email de la CDSB).

EN

During days 4 and 5 of the workshop we will work on collaborative projects at the rOpenSci unconf style. All projects that happen at the unconf portion of the workshop are decided by the attendees. So if there’s a project you’d like to work on, an idea you’d like to suggest, a new topic you’d like to learn, or just find interesting projects to join, drop by the issue tracker for the unconf https://github.com/ComunidadBioInfo/cdsb2019/issues. If you need some inspiration, we created a few examples on the issues page and we also invite you to check https://github.com/ropensci/unconf17/issues and https://github.com/ropensci/unconf18/issues.

The issue tracker is meant to facilitate some discussion and to collect ideas before the workshop. There is no pressure to suggest anything or decide on a project until you’re in Cuernavaca. Many people pick entirely new projects to work on after meeting other participants. If you have any questions about the unconf component of the workshop, please reach out of us directly (mainly contact Leonardo or to CDSB's email account).

Partes del texto presentado aquí fueron tomadas y adaptadas de https://community.rstudio.com/t/information-for-building-tidy-tools-workshop-2019/ y de correos personales intercambiados con Stefanie Butland de rOpenSci

Parts of the text presented here were taken and adapted from https://community.rstudio.com/t/information-for-building-tidy-tools-workshop-2019/ and personal communications with Stefanie Butland from rOpenSci

cdsb2019's People

Contributors

Stargazers

Watchers

Forkers

kant

cdsb2019's Issues

Sismos en México, heatmap de donde se han localizado a lo largo de los años

Hacer una paqueteria que nos permita enlazar los datos del servicio sismologico nacional de la UNAM, y poder hacer un gráfico que nos permita ver donde han sucedido a lo largo de los años.
Intentar hacer una regresion que nos pueda permitir predecir o estimar la maginutud del sismo dada su latitud, logitud, profundidad y tipo de suelo.

p.d.(no tengo idea como hacer el grafico en un mapa)

PCA con ggrepel

Existen varios paquetes para hacer Análisis de componentes principales (PCA), como vegan o ade4. Sin embargo su visualización no es muy atractiva.

con ggplot se han hecho muchas visualizaciones y existe un paquete llamado
ggord donde visualiza de forma amigable los PCA. Sin embargo no incluye la función #repel del paquete ggrepel. Por lo que se hizo esta función

https://github.com/APonce73/PCARepel

Ilustraciones y tal vez videos automáticos del código de conducta (illustrations and maybe auto-videos for the code of conduct)

ES

La sociedad americana de estadística acaba de publicar su reporte sobre acoso sexual https://magazine.amstat.org/blog/2019/07/01/asataskforce/ y un estudio reciente examinó los diferentes códigos de conducta que se usan en congresos https://www.pnas.org/content/early/2019/07/02/1819409116. También existe el código de conducta de los Carpentries https://docs.carpentries.org/topic_folders/policies/code-of-conduct.html, el del R Consortium https://wiki.r-consortium.org/view/R_Consortium_and_the_R_Community_Code_of_Conduct, rOpenSci https://ropensci.org/code-of-conduct/, BioC2019 https://bioc2019.bioconductor.org/code_of_conduct, R Ladies https://rladies.org/code-of-conduct/, ONA https://journalists.org/ona-event-code-of-conduct/ entre otros incluyendo el nuestro https://comunidadbioinfo.github.io/codigo-de-conducta/.

Básicamente, los códigos de conducta son más comunes hoy en día en diferentes conferencias y eventos. Sin embargo, siento que luego la gente no los lee bien, en especial cuando son más extensos.

Recientemente un amigo del doctorado publicó un paquete de R que crea imagenes sobre la reproducibilidad de proyectos https://cran.r-project.org/web/packages/scifigure/vignettes/Visualizing_Scientific_Replication.html. Una opción sería hacer algo similar para los diferentes componentes de códigos de conducta.
Otra opción sería hacer una serie de ilustraciones con funciones que les agreguen texto (como hacer un meme, pero para que el texto pueda ir en diferentes lenguajes). El usuario podría usar esas imagenes en sus diapositivas cuando quiera explicar el código de conducta en un evento/congreso. Las ilustraciones podrían ayudar para que no queden malentendidos basados en la comprensión del lenguaje usado en la versión escrita del código de conducta.
Otra opción sería tomar las imagenes de la anterior función y volverlas videos automatizados usando https://cran.r-project.org/web/packages/ari/index.html.

EN

The American Statistical Association (ASA) recently published their report on sexual harassment and assault https://magazine.amstat.org/blog/2019/07/01/asataskforce/ and a recent study examined different codes of conduct used in meetings https://www.pnas.org/content/early/2019/07/02/1819409116. There's also the Carpentries code of conduct https://docs.carpentries.org/topic_folders/policies/code-of-conduct.html, the R Consortium one https://wiki.r-consortium.org/view/R_Consortium_and_the_R_Community_Code_of_Conduct, rOpenSci's code of conduct https://ropensci.org/code-of-conduct/, BioC2019's https://bioc2019.bioconductor.org/code_of_conduct, R Ladies' https://rladies.org/code-of-conduct/, ONA's https://journalists.org/ona-event-code-of-conduct/ among others including ours https://comunidadbioinfo.github.io/codigo-de-conducta/.

Basically, codes of conduct are more common nowadays in different conferences and meetings. However, I feel like most people don't read them well, specially when they are long.

Recently, a grad school friend published this R package that creates images showcasing the reproducibility of projects https://cran.r-project.org/web/packages/scifigure/vignettes/Visualizing_Scientific_Replication.html. One option would be to make something similar for the different components of a code of conduct.
Another option would be to make a series of illustrations with a function that adds text to them (like making a meme, such that the text can be changed and translated easily). The user could then use the resulting images in their slides when they explain their conference/meeting code of conduct. The illustrations could also help ensure that there are no misunderstandings due to the language used in the written version of the code of conduct (particularly when you have non-native speakers at the event).
Another option would be to take the images from the previous function and make them automatic videos using ari https://cran.r-project.org/web/packages/ari/index.html.
`

Scientific software developer impact

¿Cuál es el impacto de tu software? Podríamos hacer un paquetito que reporte el impacto de un investigador. Por ejemplo, dado el perfil de google scholar, el twitter handle y el github profile, el paquete podría generar métricas de qué tantas citas han tenido sus publicaciones, su presencia online basado en número de tweets y qué tanto impacto tiene el software que escribe. Podríamos definir modos de ver cómo estas variables están relacionadas.

Predecir el resultado de partidos internacionales

FiveThirtyEight tiene un ranking de clubes de futbol a nivel internacional. Lo llaman SPI por "soccer power index" y la liga es esta. Podríamos desarrollar un paquetito para explorar estos datos, por ejemplo hacer plots de la distribución de SPI por país, etc. Ahora, si suponemos que Argentina va a jugar contra Brasil. ¿Podríamos predecir quién va a ganar usando simplemente el SPI del club de donde juega cada jugador?

Generador de presencia en línea (online presence generator)

ES

Podríamos hacer un paquete de R que contenga un par de templados de rmarkdown y/o pagedown para que cualquier miembro de la CDSB pueda hacer su página web y su CV en línea de una forma rápida.

La motivación viene detrás de los requisitos para solicitar la beca para ir a BioC2019. En esa solicitud, pedían que la persona pidiendo apoyo tuviera una página web y/o un CV disponible en línea.

Ejemplos de páginas web (2/3 hechas con rmarkdown):

Tutorial relacionado: http://www.emilyzabor.com/tutorials/rmarkdown_websites_tutorial.html

Ejemplos de CV con pagedown:

Yo creo que es más fácil modificar los archivos que crean una página web que empezar desde cero. Digamos que sería algo equivalente al sitio web de ejemplo que viene en https://themes.gohugo.io/theme/academic/.

EN

We could make an R package that contains a few rmarkdown and/or pagedown templates that any CDSB member could use to make their website and the CV in a quick way.

The motivation behind this idea is that the BioC2019 travel scholarship required that the person asking for the scholarship had an online presence in the form or a website and/or a CV available online.

Website examples (2/3 made with rmarkdown):

CV examples made with pagedown:

I think that it's easier to modify the files that create a website than it is to start from scratch. This could be similar in spirit to the example website that is included in https://themes.gohugo.io/theme/academic/.

Un paquete para dar formato a archivos FASTA y GFF

Estudios de genómica comparativa suelen incluir el análisis de cientos o miles de genomas de diferentes especies. A menudo, la información de estos genomas se obtiene de diferentes bases de datos, cada una generando sus propios identificadores para los diferentes locus en sus respectivos archivos FASTA y GFF (dependiendo del proceso de anotación). En consecuencia, cuando el análisis está terminado el análisis de la información se complica. Por ejemplo, si tienes un árbol filogenético con miles de hojas y cada una tiene identificadores como ‘1923819’, ‘scaffold_91292’ o ‘supercontig01920’, se hace más difícil saber a qué especie pertenece cada uno. Para hacer más fácil la interpretación, se suelen colocar abreviaturas específicas acompañadas de códigos de colores al inicio de cada identificador, algo así como AthP_Scaffold1 (Arabidopsis thaliana, Planta - verde) o MmuM_embl1029201 (Mus musculus, Mamífero - café). Uno se podría pasar algún tiempo en la terminal generando las abreviaturas para cada especie (las cuales deberían ser únicas) y modificando los archivos fasta y gff para que los nombres coincidan. Además haría falta la generación de archivos de metadatos, incluyendo tamaño de los genomas, nivel de ploidía, las claves de colores etc. De ahí la propuesta de generar un paquete en R que ayude a dar formato a los archivos de una manera más eficiente. Por ejemplo, generando las abreviaturas y facilitando su mapeo a cada archivo GFF y FASTA.

statistics based on distribution

Podriamos realizar una funcion en la que especifiques un set de datos, el numero de grupos y la variable que determina los grupos y a partir de estas caracteristicas la funcion analice la distribucion de los datos y a partir de el resultado seleccione en automatic la pruebas estadistica que se debe de utilizar y si es necesario, realice las pruebas posthoc en automatic. La podriamos llamar mean_comparision

Diversidad de creadores de paquetes de R/Bioconductor (BioC/R package maintainer diversity)

ES

Alejandro Reyes @areyesq89 creó un mapa del mundo donde mostraba de donde vienen los creadores de paquetes de Bioconductor que está disponible vía https://comunidadbioinfo.github.io/post/a-recap-of-cdsb-2018-the-start-of-a-community/. Un posible paquete de R podría tener una función que cree este mapa usando los datos más recientes. El paquete también podría ser un paquete de datos para explorar como ha ido cambiando la información a través de los años (gganimate? https://github.com/thomasp85/gganimate). Podría ser útil para obtener imagenes actualizadas y mostrar el crecimiento en Latinoamérica. Para hacerlo más general, el paquete podría también examinar los paquetes de CRAN.

En fin, no sé que tanto de esto se pueda o no automatizar.

EN

Alejandro Reyes @areyesq89 created a world map image with the number of Bioconducotr package maintainers that is available at https://comunidadbioinfo.github.io/post/a-recap-of-cdsb-2018-the-start-of-a-community/. Une posible R package could have a function to re-make this image using the latest data. The package could also store the summary data through different years, such that one could examine this data through time (gganimate? https://github.com/thomasp85/gganimate). I think that it could be useful to get updated map images and use them to show the growth in Latin America. To make the package more general, it could also look at CRAN packages.

However, I don't know much of this could be automated or not.

SMILES

Simplified Molecular Input Line Entry Specification
Una paqueteria que permita descargar el formato SMILES de fármacos desde https://pubchem.ncbi.nlm.nih.gov/, a partir de una lista de ChemID (Chemical Identifiers). Esto es útil ya que en http://www.swissadme.ch/ se pueden acceder esta lista de SMILES para obtener sus propiedad y saber si atraviesan barrera hematoencefalica.

Hacer un bot para la Red Mexicana de Bioinformática

Podríamos hacer un Twitter bot (tipo https://twitter.com/chirunconf) siguiendo los pasos de https://github.com/unconf-toolbox/unconf-bot y https://github.com/unconf-toolbox/unconf-bot/blob/master/tweeting/retweetRstats.R para los tweets que mencionen a https://twitter.com/RBioinformatica

Tal vez se pueda hacer búsquedas más complejas donde los tweets que mencionen "bioinformática" y "México" (o el emoji de la bandera) sean re-tweeteados

Algo así.

La función para hacer el bot la podríamos poner en un paquete de R.

HiCimport

En el análisis de datos de HiC, HiChip y varios *C, existen varios pipelines para alinear los datos contra un genoma de referencia que normalmente generan archivos bam, además de otros formatos específicos para cada pipeline. Supongamos que queremos hacer un "peak calling" para identificar "loops" o "TADs" en el genoma. Podríamos usar Juicer, cLoops, etc. Sin embargo, estos softwares usan diferentes formatos de entrada, específicos de cada pipeline, por lo que se tiene que invertir tiempo en reformatear los datos. Podríamos escribir un paquete con dos funciones, import y export, que permita transformar rápidamente de un formato a otro.

Versión con frases en español de praise

Puede ser un objeto con palabras en español que sea compatible con el paquete que ya existe.
Ejemplo:
"Te mereces unos tacos!"
https://github.com/rladies/praise

Posible función para secuencias similares

La idea es que existen secuencias paralógas y ortólogas en bases de datos, y ha estas secuencias posiblemente se les puede asignar alguna función (x) para no repetir el proceso en R. La asignación de la posible función u funciones a estas secuencias podrían basarse de bases de datos como Gene Ontology.....

No sé como se podría realizar....

GENERACION DE CLUSTERS Y CROSS VALIDATION

Actualmente trabajo con herramientas genomicas y por medio de las caracteristicas genomicas de los pacientes intento agruparlos en categorias. Para ello realizo pruebas y graficos como los heatmap, PCA, regresiones logisticas, LDA, t-SNE, curvas ROC y cross-validation. Cada una de estas pruebas da resultados y modelos diferentes, ademas se tienen que hacer con paquetes separados en R. En este sentido propongo realizar un paquete en R que ayude a analizar los datos probando los diferentes analisis y validando cada uno de los modelos que proponga para poder obtener cual es la prueba a emplear que mejor ayude a agrupar nuestros datos con los resultados de las validaciones. Esto no solo podria servir para mi area, si no que podria ser utilizada en otras areas, como ejemplo en la industria para saber quien va a comprar un producto y quien no va a comprar basandose en las caracteristicas de las personas.

RenewingGOplot

GOplot (https://wencke.github.io/) es un paquete que te permite graficar enriquecimientos funcionales con términos de ontología de genes (GO terms). Peeero, no es perfecto y puede mejorar, el trabajo consistirá en renovar algunas funciones que permitan que mas usuarios puedan acceder al paquete, generar algunas pruebas unitarias para dichas funciones y errores amigables para mejorar la experiencia del usuario.

comunidadbioinfo / cdsb2019 Goto Github PK

cdsb2019's Introduction

Taller CDSB 2019: Cómo Crear y Ordenar Herramientas 'Tidy' (CDSB Workshop 2019: How to Build and Create Tidy Tools )

ES

EN

Horario (schedule)

ES

EN

Instructores (instructors)

ES

EN

Lectura recomendada (recommended reading)

ES

EN

Requisitos de R (R setup)

ES

EN

Proyectos colaborativos (collaborative projects)

ES

EN

cdsb2019's People

Contributors

Stargazers

Watchers

Forkers

cdsb2019's Issues

ES

EN

ES

EN

ES

EN

Recommend Projects

Recommend Topics

Recommend Org