Taller para el colectivo R Ladies Guadalajara donde se explica un poco sobre cómo realizo Minería de Datos en nuestra investigación sobre la proteína Spike del virus SARS-CoV-2. En el repositorio se podrán encontrar los siguientes archivos:
Secuencias.zip
: Archivo comprimido con las secuencias en formato fastaSecuencias.csv
: Archivo con los metadatos de las secuenciasSARS-CoV-2 y Minería de Datos.ipynb
: Libreta de Jupyter que nos ayudará a ir paso por paso por el taller.SARSCoV2 y Minería de Datos.R
: Código fuente en lenguaje R que contiene las respuestas a la libreta de Jupyter.
Los primeros dos archivos fueron descargados del National Center for Biotechnology Information (NCBI) el día 7 de julio del 2021 y contienen datos de secuenciación de Estados Unidos de América.
Para poder ejecutar correctamente el código, será necesaria la paquetería seqinr
. Podemos instalarla de la isguiente manera:
install.packages("seqinr")
library(seqinr)
Base de datos adicional no utilizada en el taller: GISAID Initiative