Ciencia de Datos Reproducible

•

4 gostaram•855 visualizações

La reproducibilidad es la capacidad de obtener los mismos resultados o inferencias en base a los datos crudos y programas provistos por los investigadores. En sistemas de recolección de datos es fundamental poder reproducir los procesos de manipulación y gestión de datos con el fin de poder verificar resultados previos o extraer nueva información. Muchas veces estos procesos son manuales y difíciles de repetir. En esta charla presentamos Docker como una solución a dicho problema y lo hacemos extensivo a otras ramas de la ciencia que enfrentan dificultades similares.

Dados e análise

Ciencia de Datos Reproducible
Edgardo Hames
Gabriel Miretti

https://www.wallpaperup.com/193472/landscapes_Egypt_digital_art_pyramids_night_sky.html
Ciencia Experimental: Observaciones

50 PB
Volumen estimado por el CERN para 2018
(tras limpiar el 99% de los datos colectados)

Reproducibilidad: capacidad de recomputar
mismos resultados con los datos originales
(dentro del lab).
Replicabilidad: posibilidad de que otros
experimentadores obtengan resultados
consistentes (entre labs).
Crisis de
Reproducibilidad

1. Disponibilidad de los datos crudos de los experimentos
2. Código y documentación para repetir los análisis (*)
3. Capacidad de analizar correctamente los datos
Solución a la Crisis de Reproducibilidad

Ciencia de Datos
Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o
información de datos en diversas formas (estructurados o no).
Objetivo: un producto de software capaz de automatizar tareas de análisis complejas,
ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de
datos)

ML
Extracción de
Atributos
Infraestructura
Herramientas de
Análisis
Verificación
Monitoreo
Configuración
Gestión de
Proceso
Recursos
Computacionales
Recolección de
Datos
https://youtu.be/vdG7uKQ2eKk?t=107
Producto de Software

Pipeline de datos
Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Datos
Crudos
Verifica
ción
Estructuración, manejo de duplicados, errores, etc
Visualización, cálculos estadísticos, correlaciones, etc
Descripción matemática de los datos y sus relaciones

● Compilación o instalación fallidas por falta de
dependencias o documentación incorrecta
● Evolución/Erosión del software
● Barreras para la adopción y el reuso
Desafíos para reproducir análisis
COMUNES AL DESARROLLO DE SOFTWARE

¿Cómo resolverlo?
Notebook en Docker
Modelo como servicio REST

Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Limpieza Modelo
Datos
Crudos
Verifica
ción
Construcción
Prueba
Data Science & Software Pipelines

Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Limpieza Modelo
Datos
Crudos
Verifica
ción
Construcción
Prueba
Múltiples Modelos en Producción
Modelado
Modelo
Modelado
Modelo

CI para flujo de
datos
Se puede programar el flujo en el motor de
integración continua con pipeline as code.

Pachyderm.io
Pachyderm lets you deploy and manage
multi-stage, language-agnostic data pipelines
while maintaining complete reproducibility and
provenance.

Debemos alinear la
Ciencia de Datos
con las prácticas
de Ingeniería de
Software.

Edgardo Hames
ehames@bitlogic.io
Gabriel Miretti
about.me/gmiretti
Gracias!

Mais conteúdo relacionado

Último

Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera

SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan

LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfFranyeskaMagallanes

Mapa de riesgos de un taller mecánico 405rodrimarxim

ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfDaniloAstoVeliz

la-antigua-Grecia, datos y curiosidades mas relevantesalvarojosephyucracol

PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom

PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom

PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom

El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27

CONTROLES Y EXPERIMENTACION presentacionJosueVallejo10

Presentación del Mapa del Talento Cotec-Ivie 2023Ivie

MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2

Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera

4958documentodeaptitud_PUENTE PIEDRA.pdfcristianojedac11

2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptxceliajessicapinedava

PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom

15-04-24-Dispositivos de Procesamiento.pptxmgm & asociado

TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1

Civilizacióne Precolonbinas Resumen pdf.gpoiquicuellar

Destaque

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Destaque (20)

2024 State of Marketing Report – by Hubspot

Everything You Need To Know About ChatGPT

Product Design Trends in 2024 | Teenage Engineerings

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Ciencia de Datos Reproducible

1. Ciencia de Datos Reproducible Edgardo Hames Gabriel Miretti

2. Paradigmas de la Ciencia

3. https://www.wallpaperup.com/193472/landscapes_Egypt_digital_art_pyramids_night_sky.html Ciencia Experimental: Observaciones

4. Ciencia Teórica: Modelos

5. Ciencia Computacional: Simulaciones

6. eCiencia: Teoría + Experimentos +

7. 50 PB Volumen estimado por el CERN para 2018 (tras limpiar el 99% de los datos colectados)

8. Reproducibilidad: capacidad de recomputar mismos resultados con los datos originales (dentro del lab). Replicabilidad: posibilidad de que otros experimentadores obtengan resultados consistentes (entre labs). Crisis de Reproducibilidad

9. 1. Disponibilidad de los datos crudos de los experimentos 2. Código y documentación para repetir los análisis (*) 3. Capacidad de analizar correctamente los datos Solución a la Crisis de Reproducibilidad

10. Ciencia de Datos

11. Ciencia de Datos Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o información de datos en diversas formas (estructurados o no). Objetivo: un producto de software capaz de automatizar tareas de análisis complejas, ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de datos)

12. ML Extracción de Atributos Infraestructura Herramientas de Análisis Verificación Monitoreo Configuración Gestión de Proceso Recursos Computacionales Recolección de Datos https://youtu.be/vdG7uKQ2eKk?t=107 Producto de Software

13. Pipeline de datos Limpieza Análisis Entrena miento Modelado Modelo Datos Crudos Verifica ción Estructuración, manejo de duplicados, errores, etc Visualización, cálculos estadísticos, correlaciones, etc Descripción matemática de los datos y sus relaciones

14. ● Compilación o instalación fallidas por falta de dependencias o documentación incorrecta ● Evolución/Erosión del software ● Barreras para la adopción y el reuso Desafíos para reproducir análisis COMUNES AL DESARROLLO DE SOFTWARE

15. Aproximación Sistemática

16. ¿Cómo resolverlo? Notebook en Docker Modelo como servicio REST

17. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Data Science & Software Pipelines

18. DEMO

19. Otras Consideraciones

20. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Múltiples Modelos en Producción Modelado Modelo Modelado Modelo

21. CI para flujo de datos Se puede programar el flujo en el motor de integración continua con pipeline as code.

22. Pachyderm.io Pachyderm lets you deploy and manage multi-stage, language-agnostic data pipelines while maintaining complete reproducibility and provenance.

23. Debemos alinear la Ciencia de Datos con las prácticas de Ingeniería de Software.

24. Edgardo Hames ehames@bitlogic.io Gabriel Miretti about.me/gmiretti Gracias!

Ciencia de Datos Reproducible

Recomendados

Recomendados

Mais conteúdo relacionado

Último

Último (20)

Destaque

Destaque (20)

Ciencia de Datos Reproducible