¿Qué hacer con “Big Data”?

Un nuevo término está invadiendo la jerga gerencial, y como todo nuevo término debemos ser muy cuidadosos para no “glorificar” incorrectamente su introducción a nuestras operaciones. Nos referimos a “Big Data”. Lo vamos a definir como la manipulación práctica de miles de millones de datos generados en los movimientos y transacciones de empresas, instituciones y organizaciones de servicios, manufactura, gobierno, entretenimiento, etc. Lo interesante es que al buscar quién es el profesional idóneo para el procesamiento de las grandes bases de datos nos damos cuenta que es una combinación de estadístico, matemático, black belt, economista, informático, y no le caería mal ser físico y biólogo. Veamos primero algunos conceptos sobre “grandes datos” y luego regresemos a su procesamiento y quién debería hacerlo.

De acuerdo con un artículo de IBM (What is Big Data), en el año 2012 cada día se crearon alrededor de 2.5 trillones (2.5 x 10¹⁸) de bytes de datos. Cada día se crean 12 terabytes de información solamente en Tweeter. Pero el volumen es solamente una de las dimensiones de importancia, velocidad, variedad y veracidad son también significativas.

Piense por ejemplo en su ruta hacia el trabajo en el tráfico de la mañana, usted va retrasado y consulta su servicio de mapas y GPS de su celular para obtener la ruta de menor tiempo. La predicción del mejor trayecto ha requerido miles de cálculos, la comunicación con servidores a miles de kilómetros de su posición actual y usted de manera transparente recibe la indicación “en 800 metros tome la segunda salida a la derecha”. Este tipo de procesamiento se llama “nowcasting”, predicción en el corto plazo (minutos, horas) para la toma de decisiones inmediatas. Un excelente ejemplo es el trabajo de Domenico Giannone, Jasper McMahon y el resto del equipo de trabajo de www.now-casting.com que permite llevar la información del Producto Interno Bruto de los países más grandes del mundo en tiempo real. Nota no confundir con www.nowcasting.com un servicio de “casting” de Hollywood.

En cuanto a variedad piense en todas las formas de generación de datos. Por ejemplo cada minuto se suben 100 horas de video a www.youtube.com. Datos de sensores, texto, transacciones bancarias, compras por internet, fotos, correos (contenido y adjuntos), audio, satélites, búsquedas por internet, etc. se agregan a miles de bases de datos. Es necesario comprender cómo analizar toda esa variedad de información.

Y por último la veracidad. Las bases de datos deben ser filtradas para buscar, entender y eliminar “outliers”, buscar las “señales entre el ruido” y así ofrecer resultados en los que se pueda confiar. Un ejemplo reciente es el trabajo de Nate Silver. Silver insistía en una victoria fácil del presidente Barack Obama sobre su contendor republicano Mitt Romney. La mayoría de los medios vaticinaban un resultado cercano y reñido, y en particular los medios de derecha como Fox News daban ganador a Romney. El grupo de investigadores de Silver se concentró en Big Data con una gran dosis de Teorema de Bayes y no en encuestas parciales para modelar, y luego predecir, el resultado electoral en los 50 estados de los Estados Unidos. Muchos colegas que siguieron el mismo método llegaron al mismo resultado logrando predecir correctamente 48 de los 50 estados, sin embargo los medios prefirieron utilizar firmas de estadística tradicionales, sus propias fuentes, y por sobre todo sus propias interpretaciones pseudocientíficas, que resultaron incorrectas al final.

En su libro The Signal and the Noise. Why so many predictions fail but some don´t, Nate Silver no proclama que su método sea infalible, pero sí explica con humildad cómo es posible una nueva forma de análisis de información y mejores predicciones basada en probabilidad, estadística, matemática y el uso del estado del arte de la ciencia y la tecnología. También puede escuchar un podcast del 26 de junio de 2013 sobre este mismo tema con este mismo autor.

Hay una gran oportunidad para el profesional responsable de convertir todo este volumen y variedad de datos en información veraz y veloz. Estamos hablando de un perfil que no existía hace dos o tres años, y que muy probablemente evolucionará constantemente en el futuro. Este informático, estadístico, matemático, economista, ingeniero, analista de riesgo, director de proyectos, black belt está apenas en incubación. Tal vez lo más parecido es el profesional en ciencias actuariales, según se ve en el programa de bachillerato y licenciatura de la Universidad de Costa Rica pero no le caería mal más computación. Por sobre todo está la aceptación de este profesional más allá de seguros, banca y riesgo, y su inmersión en otras empresas de todo tipo, ayunas de procesamiento estadístico matemático que siguen dependiendo de “criterio experto” sin fundamento.

Un mal sistema siempre vencerá a un buen empleado

Tres Metodologías para Desarrollar Proyectos: Cascada, Ágiles y Mejora Continua

UNA CONVERSACIÓN SOBRE CALIDAD DE DATOS CON BLAS PASCAL

¿Qué hacer con “Big Data”?

Te invitamos a leer sobre:

Un mal sistema siempre vencerá a un buen empleado

Tres Metodologías para Desarrollar Proyectos: Cascada, Ágiles y Mejora Continua

UNA CONVERSACIÓN SOBRE CALIDAD DE DATOS CON BLAS PASCAL