Ciclo de Desarrollo de Ciencia De Datos
El manejo de datos y la conversión de estos datos en flujos accionables por los usuarios, es una de las actividades fundamentales en las ciencias de la computación, la informática, la biblioteconomía y ciencias de la información y la ciencia de datos. En este artículo listaré algunas de las metodologías o conceptos necesarios para ir comprendiendo mejor estos temas de flujo de la información.
Estos conceptos son: el ciclo de la información, el segundo es la tipología de niveles de información y el tercero es el ciclo de desarrollo o metodología de la ciencia de datos.
El ciclo de información
Se refiere a la manera en la que la información es procesada y distribuida a través del tiempo y de una organización, proyecto o aplicación. Incluye las siguientes fases:
- Entrada: Incluye fases de adquisición, validación y preprocesamiento
- Procesamiento: Transformación de la información para su uso o almacenamiento posterior
- Almacenamiento: Puede incluir su carga en un sistema de archivos, base de datos e incluye la indexación y catalogación para su posterior consulta
- Salidas: Consultas interactivas, reportes de rutina, reportes ad hoc
Como podemos ver, estas fases son suficientemente generales para ser empleadas en flujos manuales, semiautomatizados o completamente automatizados, ya que no especifica ningún tipo de procedimiento o herramienta específica. Es un marco conceptual que nos permite aplicarlo a cualquier proceso en el que exista un flujo de información, ya sea que el procesamiento lo lleve a cabo un humano o una máquina. El tipo de procesamiento, la cantidad de datos generados y los tipos de salidas nos ayudan a definir el siguiente punto.
Tipología de la madurez de la ciencia de datos en una organización
Esta tipología es una medida de que tan centrada en los datos y evidencias es una organización y que tan integrados están los datos y modelos dentro de las operaciones de la organización, esto quiere decir que son los datos los que muestran las áreas de oportunidad, los que definen o redefinen procesos y los que ayudan a la toma de decisiones, las cuales involucran evidencias diversas y son fundamentadas en los datos. En las organizaciones mas maduras, los datos ayudan a planear el futuro con modelos y proyecciones del mercado, la competencia, los clientes y los empleados dentro de la misma organización.
Esta tipología consta de 5 etapas:
- Reportes de negocios
- Inteligencia de negocios
- Análisis ad hoc
- Equipos de datos híbridos y centralizados
- Análisis predictivo y aprendizaje máquina
A continuación revisaremos en que consiste cada una de las etapas.
1. Reportes de negocios
Esta etapa es el inicio de todas las compañías dentro de su viaje a generar una cultura de datos y a la madurez en volverse una organización centrada en datos. Aqui se reconoce la necesidad de colectar y almacenar datos pero no se han construido estructuras para hacer un análisis serio de los datos, probablemente porque no hay necesidad. En general los datos se tienen en un silo como Salesforce o Marketo, en las computadoras de la gente de contabilidad y en las de la gente de operaciones pero, no se integran a una plataforma para hacer análisis interdepartamental o análisis integrados.
algunas de las características del manejo de datos en esta etapa son:
- Los registros están en silos por departamento
- Los reportes se generan de manera manual o semiautomática
- La información se conjunta en hojas de cálculo o no está integrada
- Las reglas de negocio son consistentes dentro de cada silo, pero no entre silos
- Trata exclusivamente con datos del pasado y los análisis son descriptivos
2. Inteligencia de negocios
En esta etapa, las compañías han reunido todos sus datos dentro de un sólo repositorio, se hacen preguntas mas integrales que combinan la información de varios departamentos y cuya información se refresca mas rápido, lo que permite acelerar los ciclos de análisis y lanzamiento. En el tratamiento de los conjuntos de datos, estos se encuentran estandarizados y todo el reporteo se genera en una sola fuente. La lógica de negocio se encuentra dentro del reporte (o de la base de datos), si existe un volumen grande de datos hay ETL y warehousing programados. Aunque todavía no existe una infraestructura dedicada completamente a la creación de modelos predictivos. Las características de esta etapa son:
- Conjuntos de datos estandarizados
- Reporteo integrado
- La cadencia de refresco de información es mas rápida (idealmente on-line)
- Las fuentes de ventas y mercadeo están conectadas e integradas
- La lógica de negocio reside en los reportes o la base (si es un procedimiento)
- ETL y warehousing dependiendo del volumen de datos
- Trata exclusivamente con datos retrospectivos
3. Análisis ad hoc
En esta etapa las compañías comienzan a tener mas autonomía en el proceso de generación de preguntas y respuestas analíticas, ahora pueden generar respuestas de sus propias fuentes. En esta etapa existe ya un grupo interno de científicos de datos o analistas que saben usar Excel, dashboards y además SQL y python o R para crear sus propios modelos. Tambien, las compañías comienzan a tener conversaciones sobre la democratización de los datos para expandir el alcance de los insights.
- El reporteo es suficientemente sofisticado para análisis investigativo y desarrollo rápido de modelos
- Los datos están conectados a través de sus fuentes, los ambientes de análisis se abstraen de las tablas de origen
- Se mantiene la habilidad de hacer consultas a través de datos modelados y no modelados
- Se utilizan data warehouses y se comienza a investigar la implementación de data lakes
- Se comienza el análisis diagnóstico de ventas, marketing y operaciones para analizar las causas de los eventos
4. Equipos de datos híbridos y centralizados
En este momento el análisis de datos es suficientemente sofisticado que es una parte regular de las operaciones rutinarias de de cualquier equipo en la compañía. La demanda de datos es alta y los equipos centralizados de científicos y analistas siguen existiendo pero cambia su rol a generar y validar modelos para la alta gerencia, mientras que algunos elementos son destinados a equipos en otras áreas encargados de resolver preguntas específicas de esa área o línea de negocios. En este momento en la organización existen cambios de cultura, de personal e incluso en el manejo de los datos, con problemas de governancia de los datos e ingeniería para ponerlos a disposición de los equipos que antes no existían Las características en esta fase son:
- Las reglas de negocio se encuentran administradas y versionadas
- Equipos centrales definen los sistemas y métodos mientras que analistas embebidos proveen valor específico
- El modelo de negocio de la compañía depende de datos armonizados entre las áreas de producción, ventas, marketing y operaciones.
- El equipo de datos tiene representación en la alta gerencia (CDO)
- Se comienzan a generar análisis predictivos
5. Análisis predictivo y aprendizaje máquina
La etapa final en la escala de madurez es cuando está totalmente incorporado el análisis predictivo y la detección y seguimiento adecuado de tendencias antes que la competencia. Las áreas de oportunidad se detectan de manera temprana y se proyectan en todos los ámbitos de la empresa, ya sea en recursos humanos, en las operaciones productivas, en ventas, en marketing y en la administración. Es muy importante notar que la inversión de tiempo y recursos para alcanzar y mantener esta etapa son mucho mayores y que el retorno sobre la inversión toma mas tiempo en reflejarse, porque involucra un cambio cultural en la manera de hacer negocios, donde todos los responsables de equipos llevan a cabo experimentos y tienen ciclos rápidos de mejora continua basados en detección de áreas de oportunidad con evidencia cuantitativa, predicción de oportunidades y retos con modelos analíticos, y optimización de procesos con experimentos, esto involucra un adecuado manejo de los datos a todos los niveles y conocimientos de estadística (al menos en un nivel fundamental) desde la gerencia mas baja hasta la C-suite.
Características:
- Las proyecciones de operaciones y la planeación operan en datos proyectados
- Los modelos en tiempo real (online) tienen impactos en las operaciones de negocios y de producción
- Se usan modelos fuera de línea para manejar y mitigar dinámicas de negocio negativas
- Se requiere el uso de data lakes
- Se usan modelos predictivos y prescriptivos de manera rutinaria para la toma de desiciones
El ciclo de desarrollo de la ciencia de datos
Los proyectos de ciencia de datos son un proceso iterativo, como en general debe ser cualquier producto de software o de investigación. donde las filosofías son de mejora y refinamiento contínuo. Además, al ser de naturaleza fundamentalmente interdisciplinaria, necesitamos la retroalimentación tanto de los usuarios, como de los dueños de la información, como de las partes interesadas en la respuesta. Para esto, John Rollins de IBM definió una metodología para el desarrollo de proyectos en la cual los interesados se encuentran en cada una de las partes del proyecto y cada una tiene diferentes responsables. Para definir esto correctamente vamos a listar a los actores y los pasos del ciclo.
Actores:
- Dueños de los datos
- Dueños del problema
- Dueños de la infraestructura
- Desarrolladores
- Diseñadores
- Ingeniero de datos
- Científico de datos
- Usuarios
En esta descripción he decidido separar a los dueños de los datos, la infraestructura, el problema y a los usuarios porque en el peor de los casos (como es el caso de una organización grande) así es en la realidad los administradores de los servidores no necesariamente administran las bases de datos, los usuarios son una de las áreas de la empresa y el dueño del problema o de quien surgió la inquietud es la gerencia general. Además en este caso hipotético el problema no es un estudio aislado, va a pasar de ser resuelto con un ejemplo o muestra a producción (por lo que necesita a los ingenieros de datos para optimizar los algoritmos) y a los desarrolladores que van a insertar la solución dentro del ecosistema de software de la organización (como una aplicación más en su entorno de red, o un aplicativo).
Entonces, los pasos en orden son:
- Entendimiento del negocio
- Acercamiento analítico
- Requerimiento de datos
- Recolección de datos
- Comprensión de los datos
- Preparación de los datos
- Modelado
- Evaluación
- Envío a producción
- Retroalimentación
A continuación listaremos los detalles y en que consiste cada una de las etapas, es importante recordar que cada una de las etapas es parte de un ciclo, y requiere retroalimentación de los involucrados.
Entendimiento del negocio
Todo proyecto de ciencia de datos debe comenzar con el entendimiento del problema de negocio que se quiere resolver, y sabiendo en que fase de madurez de ciencia de datos se pueden definir mas claramente los alcances y posiblilidades de la solución. Los dueños del negocio juegan un papel crítico al delfinir el problema, definir los objetivos y los requerimientos de la solución desde una perspectiva de negocios. La primera etapa funda los cimientos de una solución exitosa y satisfactoria del problema de negocios. Para ayudar a garantizar el éxito del proyecto, los dueños del negocio deben estar involucrados a lo largo de todo el proceso para proveer experiencia y dominio del negocio, revisar los hallazgos intermedios y asegurar que el trabajo se mantiene en la dirección adecuada para generar la solución deseada.
Acercamiento analítico
Una vez que el problema de negocio ha sido claramente definido, el equipo de datos puede definir un acercamiento analítico al problema. Esta etapa consiste en expresar el problema y su solución en el contexto de las técnicas de la estadística, visualización y aprendizaje máquina, para que la organización pueda identificar la técnica mas adecuada para cumplir el objetivo. Por ejemplo, si el objetivo es predecir una respuesta como “si” o “no”, el acercamiento analítico puede ser definido como construir, probar e implementar un modelo de clasificación.
Requerimiento de datos
El acercamiento analítico elegido determina el requerimiento de los datos. Específicamente, los métodos analíticos que serán utilizados requieren cierto contenido de datos, formatos y representaciones, guiados por el dominio del problema. En esta fase, los expertos de negocio, los dueños de los datos y los científicos de datos se reúnen a decidir los factores mas importantes, que se utilizan para resolver el problema actualmente, los datos disponibles, su formato y las transformaciones necesarias.
Recolección de datos
En la fase de recolección inicial de los datos, los dueños de los datos, los científicos de datos y los dueños del negocio identifican y reunen las fuentes de datos disponibles, ya sean estructuradas, no estructuradas y semiestructuradas relevantes para el dominio del problema. Tipicamente, debe hacerse la elección de invertir en datos que son menos accesibles. Puede ser mejor diferir esta desición hasta que se conoce mas sobre los datos y el modelo, pòr lo que en el ciclo típico, se regresa a esta etapa varias veces en la vida del proyecto. Si existen huecos en la recolección, el científico de datos y los dueños deben revisar los requerimientos y alcances, o recolectar mas datos.
Aunque el muestreo y el generar subconjuntos es importante, las capacidades actuales permiten (en la medida de lo posible) utilizar conjuntos de datos mas grandes que pueden incluir todos los datos, lo cual puede ayudar a mejorar la predicción de eventos raros o infrecuentes.
Comprensión de los datos
En esta etapa, se generan reportes estadísticos y visualizaciones para comprender las propiedades de los datos y tener descubrimientos iniciales, esta fase comprende 3 pasos:
- Análisis de calidad
- Análisis estadístico
- Mejora de la calidad
- Reporteo y visualización
Esta es una de las fases mas tardadas y junto a l preparación de los datos es un proceso iterativo que llega a consumir hasta el 80% del tiempo del proyecto. Muchas veces se puede decidir tener que regresar a la recolección de mas datos antes de poder seguir adelante.
Preparación de los datos
La fase de preparación de los datos abarca todas las actividades que se realizarán para generar el conjunto de datos que se utilizará en la generación de los modelos. Las actividades de preparación siguen siendo las mismas, análisis, limpieza, transformación, combinación de fuentes y conciliación. Aquí puede haber una fase de creación de variables (feature engineering).
Modelado
Con la primera versión del conjunto de datos, se desarrollan los modelos predictivos o descriptivos, se generan descriptores y se mejoran tanto los datos como los modelos en un proceso iterativo en que intervienen los dueños del problema, los de los datos y los científicos de datos. En este punto es importante que los alcances que se definieron al principio, se revisen y se mantengan lo mas posibles alineados con la etapa de la cultura de datos de la organización.
Evaluación
Esta parte va fuertemente ligada a la anterior y es parte de un subciclo de iteraciones, de evalución y mejora de los modelos o visualizaciones. Si el modelo es predictivo, entonces esta parte se puede liberar de manera limitada en la organización para evaluarla en el mundo real.
Envío a producción
Una vez que se ha desarrollado un modelo, se envía a producción, esto puede ser tan sencillo como redactar un reporte, poner el dashboard en linea con las fuentes de datos, o realmente ponerlo a disposición de los usuarios.
Retroalimentación
Al recolectar datos de la implementación se comienza a juzgar la efectividad del modelo. Esto puede tomar diferentes formas, como tasas de respuesta, efectividad de recomendaciones para los clientes recabadas con encuestas de satisfacción, o alguna otra forma de evaluar los KPIs asociados. Desspués de un cierto tiempo se puede decidir como mejorar los modelos y regresar a la parte de los datos con la información adicional.
Conclusiones
Como podemos ver, el ciclo de desarrollo de ciencia de datos es una parte mas del proceso de flujo de la información, y los alcances de cada proyecto deben estar afianzados en el nivel de madurez de la organización, ya que es sumamente complicado conseguir apoyo de los dueños de los datos si no se encuentran seguros y cómodos dentro de la etapa en la que están.