Git Product home page Git Product logo

dt6_ciencia_de_datos_turismo's Introduction

El presente documento, Ciencia de Datos para Turismo, se enmarca en el proyecto de Armonización de las Estadísticas de Turismo en las Provincias de la Dirección Nacional de Mercados y Estadística de la Subsecretaría de Desarrollo Estratégico del Ministerio de Turismo y Deportes. El objetivo general de este proyecto es contribuir con propuestas metodológicas para los sistemas de estadísticas de turismo provinciales que orienten a producir indicadores provinciales básicos y comparables.

Además de este, se encuentra disponible una serie de documentos técnicos que abordan otras problemáticas vinculadas a la producción de estadística de turismo:

Documento Técnico Nº6 - Resumen

La ciencia de datos es una disciplina que ha brindado nuevas y maravillosas posibilidades a muchas industrias por medio de la explotación de datos. Junto con estas posibilidades, también ha traído consigo cambios y desafíos constantes. La industria del turismo no es una excepción.

En este documento técnico realizaremos una introducción al concepto de ciencia de datos y su proceso. Introduciremos el lenguaje de programación R como la caja de herramientas principales para poder llevar adelante cada tarea y etapa de este proceso.

El documento se divide en 11 capítulos con ejemplos prácticos y ejercicios (desafíos) para introducir y practicar los conceptos mencionados.

dt6_ciencia_de_datos_turismo's People

Contributors

eliocamp avatar jpruiznicolini avatar paocorrales avatar tuqmano avatar yabellini avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

Forkers

some-forks

dt6_ciencia_de_datos_turismo's Issues

Pipa nativa y notación lambda

¿Les parece que convenga agregar algo de la pipa nativa y la notación lambda para crear funciones (\(x))?

Siento que está bueno agregarlo porque va siendo parte de la sintaxis moderna de R, pero todavía no está totalmente formada (todavía no acepta el placeholder y no se sabe si en el futuro va a acpetar, por ejemplo) y usarlas en el código hace que el mismo no se pueda correr en versiones de R que no son tan viejas.

Agregar glosario

Deberíamos agregar un glosario al final del documento. Algunas palabras a definir:

CRAN
GitHub

Podríamos usar el paquete Glosario.

Guía de estilo

Tendríamos que ponernos de acuerdo con el estilo que vamos a usar.

Una cosa que ya veo es que algunas partes están escritas en segunda persona singular ("... hace tus análisis más ordenados y reproducibles...", "Hacé click en el menú...") y otras en segunda persona plural ("...posiblemente tengan un script...") y otras en primera persona plural ("... podemos graficar histogramas con geom_histogram()...").

¿Qué estilo nos gusta más? Las otras guías tienen un tono bien impersonal; nunca le hablan al lector.

Escribir cada oración en su línea

Trabajando en un paper con mi co-director de tesis descrubrí que es mucho más fácil seguir los cambios de un PR si cada oración está en tu propia línea.

Rehacer el video de tabla dinámica

Hay que grabar el video en img/pivot-vid.webm pero con los datos de datos/turistas_edad.xlsx. @yabellini ¿vos tenés un Office más o menos actualizado para que se vea una interfaz más conocida para les estudiantes?

Sección de cómo descargar datos programáticamente

Si vamos a usar la base de datos del ministerio, les parece agregar una sección de cómo descargar esos datos desde R? Por lo que ví son todos csv, así que en realidad no hay mucho para hacer. Poner read_csv(url) y agregar que es mejor hacer un download.file() condicional a que no exista el archivo para no depende de tener internet y para no estar descargando el mismo archivo una y otra vez.

Hacer que compilar no dependa de yvera

Estoy resolviendo otro problema pero el libro no compila porque yvera está caido y hay varios chunks que bajan los datos de ahí. Lo que habría que hacer es descargar los datos y leerlos localmente. Si queremos, podemos dejar el código que lee desde yvera pero sin evaluarlo y esconcder el que lee localmente.

(el problema de esto es que hay que esperar que yvera esté de nuevo disponible para descargar los datos xD)

Arreglar formato de fecha

Ahora la fecha se ve así:

image

El problema es que el código que genera eso es

format(Sys.Date(), format = '%d de %B de %Y')

Y %B da el nombre del mes en el locale de la máquina, que claramente es inglés. Habría que cambiarlo a Español. Aunque si cambiamos el locale a Español, los mensajes y errores van a quedar en Español. ¿Queremos eso?

Bases de dato para usar

Hay que encontrar un par de tablas de la base de datos del ministerio que nos sirva para ejemplos. Me encontré con esta, que es bastante horrenta, pero nos puede servir para mostrar pivot_longer():

Serie de tiempo - Trimestral
Evolución de los principales indicadores producidos por la Encuesta de Viajes y Turismo de los Hogares (EVyTH) - Ministerio de > Turismo y Deporte, desde el año 2014 a la última actualización.

url <- "http://datos.yvera.gob.ar/dataset/945e10f1-eee7-48a2-b0ef-8aff11df8814/resource/873f216b-131b-4d43-b136-b232fff1e44e/download/serie-tiempo-turismo-interno-trimestral.csv"

dplyr::glimpse(readr::read_csv(url))
#> Rows: 36 Columns: 66
#> ── Column specification ────────────────────────────────────────────────────────
#> Delimiter: ","
#> chr  (1): indice_tiempo
#> dbl (65): destino_destino_destino_destino_caba, destino_destino_destino_dest...
#> 
#> ℹ Use `spec()` to retrieve the full column specification for this data.
#> ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
#> Rows: 36
#> Columns: 66
#> $ indice_tiempo                                                                    <chr> …
#> $ destino_destino_destino_destino_caba                                             <dbl> …
#> $ destino_destino_destino_destino_cordoba                                          <dbl> …
#> $ destino_destino_destino_destino_cuyo                                             <dbl> …
#> $ destino_destino_destino_destino_litoral                                          <dbl> …
#> $ destino_destino_destino_destino_norte                                            <dbl> …
#> $ destino_destino_destino_destino_patagonia                                        <dbl> …
#> $ destino_destino_destino_destino_gba                                              <dbl> …
#> $ destino_destino_destino_destino_partidos_del_gba                                 <dbl> …
#> $ edad_edad_edad_edad_menores_de_14                                                <dbl> …
#> $ edad_edad_edad_edad_x14_a_29                                                     <dbl> …
#> $ edad_edad_edad_edad_x30_a_44                                                     <dbl> …
#> $ edad_edad_edad_edad_x45_a_59                                                     <dbl> …
#> $ edad_edad_edad_edad_x60_o_mas                                                    <dbl> …
#> $ motivo_motivo_motivo_motivo_vacaciones_ocio                                      <dbl> …
#> $ motivo_motivo_motivo_motivo_visita_a_familiares_y_amigos                         <dbl> …
#> $ motivo_motivo_motivo_motivo_trabajo_negocios                                     <dbl> …
#> $ motivo_motivo_motivo_motivo_otros                                                <dbl> …
#> $ origen_origen_origen_origen_caba                                                 <dbl> …
#> $ origen_origen_origen_origen_cordoba                                              <dbl> …
#> $ origen_origen_origen_origen_cuyo                                                 <dbl> …
#> $ origen_origen_origen_origen_litoral                                              <dbl> …
#> $ origen_origen_origen_origen_norte                                                <dbl> …
#> $ origen_origen_origen_origen_patagonia                                            <dbl> …
#> $ origen_origen_origen_origen_gba                                                  <dbl> …
#> $ origen_origen_origen_origen_partidos_del_gba                                     <dbl> …
#> $ quintil_quintil_quintil_quintil_quintiles_1_y_2                                  <dbl> …
#> $ quintil_quintil_quintil_quintil_quintiles_3_y_4                                  <dbl> …
#> $ quintil_quintil_quintil_quintil_quintil_5                                        <dbl> …
#> $ sexo_sexo_sexo_sexo_mujer                                                        <dbl> …
#> $ sexo_sexo_sexo_sexo_varon                                                        <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_segunda_vivienda                 <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_casa_de_familiares_y_amigos      <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_alquiler_por_temporada           <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_camping                          <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_hotel_1_2_y_3_estrellas          <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_hotel_4_y_5_estrellas            <dbl> …
#> $ alojamiento_alojamiento_alojamiento_alojamiento_otros                            <dbl> …
#> $ transporte_transporte_transporte_transporte_auto                                 <dbl> …
#> $ transporte_transporte_transporte_transporte_omnibus                              <dbl> …
#> $ transporte_transporte_transporte_transporte_avion                                <dbl> …
#> $ transporte_transporte_transporte_transporte_otros                                <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_caba             <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_cordoba          <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_cuyo             <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_litoral          <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_norte            <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_patagonia        <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_gba              <dbl> …
#> $ pernocataciones_pernocataciones_pernocataciones_pernocataciones_partidos_del_gba <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_caba                             <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_cordoba                          <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_cuyo                             <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_litoral                          <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_norte                            <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_patagonia                        <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_gba                              <dbl> …
#> $ gasto_medio_gasto_medio_gasto_medio_gasto_medio_partidos_del_gba                 <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_caba                     <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_cordoba                  <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_cuyo                     <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_litoral                  <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_norte                    <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_patagonia                <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_gba                      <dbl> …
#> $ estadia_media_estadia_media_estadia_media_estadia_media_partidos_del_gba         <dbl> …

Created on 2021-09-18 by the reprex package (v2.0.0)

Agregar algo de fechas (lubridate)

Esto viendo las bases de datos y hay series temporales "trimestrales" donde la fecha está codificada como caracter en formato "año-mes". Considerando que seguro hay mucho análisis estacional, necesitaríamos agregar algo de cómo convertir estas cosas en fechas de verdad y cómo hacer alguna manipulación.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.