Diario de la Excelencia | Del análisis estadístico a la ciencia de datos
11647
post-template-default,single,single-post,postid-11647,single-format-standard,mkd-core-1.0.3,ajax_fade,page_not_loaded,,mkd-theme-ver-1.3,smooth_scroll,wpb-js-composer js-comp-ver-4.12.1,vc_responsive

Del análisis estadístico a la ciencia de datos

Si usted trabaja en estadística debe poner atención a los avances de la ciencia de datos, y reconocer que ambas ramas no significan los mismo. La ciencia de datos hace uso del análisis estadístico pero no se limita a este campo. En este blog vamos a describir algunas de las habilidades que usted debe revisar y actualizar para entrar de lleno a esta fascinante disciplina.

La estadística trata de la toma y análisis de datos, mientras que la ciencia de datos se refiere al “tratamiento” de enormes bases de datos que crecen y crecen sin intervención del analista.

Veamos un ejemplo. La cantidad de tweets en el mundo (mensajes en Twitter) por día alcanza los quinientos millones, lo que significa doscientos mil millones por año (esto actualizado al año 2013). Puede ver cuántos tweets se han escrito hoy aquí.

estadistica

Desde el punto de vista de tecnología de información y comunicación no hay mucho problema en adquirir y almacenar tal cantidad de datos, sin embargo la capacidad de hardware y software para su tratamiento es otra historia. ¿Qué hago con doscientos mil millones de tweets?, ¿Qué estoy buscando o analizando?, cuando encuentre “algo” ¿Qué reporto? Es aquí donde necesitamos la convergencia de tres tecnologías: La administración de grandes bases de datos, que llamamos big data; el uso de machine learning (una forma de inteligencia artificial que le da a las computadoras la habilidad de aprender sin ser explícitamente programadas); Y la capacidad de hacer predicciones de valor en mercados, comportamiento de consumidores, reconocimiento de imágenes, reconocimiento de voz, detección de riesgo, y otros campos altamente intensivos en datos.

El científico de datos desarrolla tres grupos de habilidades:

  1. Una combinación de métodos estadísticos tradicionales y machine learning – para evitar confundir correlación con causalidad. Ionica Smeets en el TEDx del siguiente video, muestra varios ejemplos de correlación versus causalidad.
  1. Capacidad para programar y generar código que permita tratar datos “sin pies ni cabeza” utilizando herramientas y ambientes especializados como R. De R hablaremos posteriormente en otros artículos, por ahora baste decir que ante la duda de un buen amigo sobre si R está validado como herramienta estadística por el FDA para empresas médicas, la respuesta es sí como se puede ver en este paper.

  1. La capacidad para visualizar y resumir los datos y sus análisis de forma que sea de valor para alguien menos versado en matemáticas y ciencias pero que es finalmente el responsable de las decisiones finales. En otras palabras, tener la “malicia” para filtrar, limpiar y resumir datos, y presentar patrones y comportamientos con significado práctico.

run-app

Así que si usted trabaja con información actualice sus conocimientos de teoría estadística, dele énfasis a la estadística Bayesiana y estadística multi-variada, y aprenda a programar en R. Lo que sepa de Excel le va a servir mucho, especialmente si aprende a sobrepasar la limitación de 1,048,576 líneas con herramientas como Delimit que permite manejar archivos .csv de hasta dos mil millones de filas por dos millones de columnas.

Si hay algo que mi vida profesional me ha enseñado es que los conocimientos hay que re-evaluarlos y actualizarlos prácticamente a cada momento. Esas herramientas que le ayudaron a llegar a dónde está hoy, no le van a servir mucho mañana. Bienvenidos a la era de la Ciencia de Datos.

EdwinGarro
Edwin Garro
edwin@pxsglobal.com

Director General PXS Fellow ASQ I’m part of the ASQ Influential Voices program. While I receive an honorarium from ASQ for my commitment, the thoughts and opinions expressed on my blog are my own.