La reproducibilidad es la capacidad de obtener los mismos resultados o inferencias en base a los datos crudos y programas provistos por los investigadores. En sistemas de recolección de datos es fundamental poder reproducir los procesos de manipulación y gestión de datos con el fin de poder verificar resultados previos o extraer nueva información. Muchas veces estos procesos son manuales y difíciles de repetir. En esta charla presentamos Docker como una solución a dicho problema y lo hacemos extensivo a otras ramas de la ciencia que enfrentan dificultades similares.
7. 50 PB
Volumen estimado por el CERN para 2018
(tras limpiar el 99% de los datos colectados)
8. Reproducibilidad: capacidad de recomputar
mismos resultados con los datos originales
(dentro del lab).
Replicabilidad: posibilidad de que otros
experimentadores obtengan resultados
consistentes (entre labs).
Crisis de
Reproducibilidad
9. 1. Disponibilidad de los datos crudos de los experimentos
2. Código y documentación para repetir los análisis (*)
3. Capacidad de analizar correctamente los datos
Solución a la Crisis de Reproducibilidad
11. Ciencia de Datos
Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o
información de datos en diversas formas (estructurados o no).
Objetivo: un producto de software capaz de automatizar tareas de análisis complejas,
ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de
datos)
14. ● Compilación o instalación fallidas por falta de
dependencias o documentación incorrecta
● Evolución/Erosión del software
● Barreras para la adopción y el reuso
Desafíos para reproducir análisis
COMUNES AL DESARROLLO DE SOFTWARE
21. CI para flujo de
datos
Se puede programar el flujo en el motor de
integración continua con pipeline as code.
22. Pachyderm.io
Pachyderm lets you deploy and manage
multi-stage, language-agnostic data pipelines
while maintaining complete reproducibility and
provenance.