La Ciencia de Datos comienza, casi como cualquier ciencia, motivada por un deseo de curiosidad. En este caso preguntas que hacerle a los datos.
Es posible que los datos no contengan la respuesta, pero el deseo de preguntar junto con el entendimiento de la naturaleza de los mismos nos puede ayudar a obtener respuestas y descubrimientos.
Los tipos de análisis de datos que se pueden hacer podrían clasificarse como
- Descriptivo
- Exploratorio
- Inferencial
- Predictivo
- Casual
- Mecanístico
Algo básico para cualquier persona que comience en este área es entender que hay que evitar caer en los siguientes errores
- Correlación no implica causalidad
- Sobreajuste: interpretar un análisis exploratorio como predictivo
- Análisis descriptivo que no se puede inferir
- Interpretar un análisis exploratorio como inferencial
Por otra parte hemos aprendido a preparar nuestro entorno de trabajo con R usando R-Studio y dejar nuestras cuentas de Github listas para empezar a trabajar.
Este primer curso está planificado en cuatro semanas pero la verdad es que ha resultado bastante fácil avanzar ya que queda todo en el ámbito introductorio. A la espera de que me evalúen el primer ejercicio me he apuntado al segundo curso de la especialización: R Programming (seguro que éste sí requiere de más tiempo).
Lecturas recomendas para el comienzo del curso