SlideShare uma empresa Scribd logo
1 de 10
Baixar para ler offline
Minería y Modelado de Datos
Junio 2017 - año 10 Nro. 79
Herramientas para el
Análisis de Negocios
Minería y Modelado de Datos
por Sergio Salimbeni
Junio 2017
Basado en el “A GUI D E TO T H E BUS I N ES S A N A LYS I S BODY O F KNOWL EDGE ® v.3”
2 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
Introducción
La toma de decisiones precisa de conocimiento, el
cual proviene de la información que el centro
decisor posea. Dicha información surge del
análisis de datos específicos y necesarios. La
minería o exploración de datos es la etapa de
análisis de "Knowledge Discovery in Databases" o
KDD); es un campo de la estadística y las ciencias
de la computación, y se refiere al proceso de
detección de patrones en grandes volúmenes de
datos.
Minería de datos
1. Propósito
La minería de datos se utiliza para mejorar la toma
de decisiones mediante la búsqueda de patrones
útiles y conocimientos a partir de datos.
2. Descripción
La minería de datos es un proceso analítico que
examina grandes cantidades de datos desde
diferentes perspectivas y los resume de tal manera
que se descubren patrones y relaciones útiles.
Los resultados de las técnicas de minería de datos
son generalmente modelos matemáticos o
ecuaciones que describen patrones y relaciones
subyacentes. Estos modelos se pueden
implementar para la toma de decisiones a través de
tableros e informes visuales, o para sistemas de
toma de decisiones automatizados a través de
sistemas de administración de reglas de negocio o
despliegues en bases de datos.
La minería de datos puede ser utilizada en
investigaciones supervisadas o no supervisadas.
En una investigación supervisada, los usuarios
pueden plantear una pregunta y esperar una
respuesta que pueda impulsar su toma de decisión.
Una investigación no supervisada, es un ejercicio
puro de descubrimiento de patrones en el que se
permite que emerjan y luego se los considere para
las decisiones empresariales.
La minería de datos es un término general que
abarca técnicas descriptivas, de diagnóstico y
predictivas:
• Descriptivas: como el agrupamiento, el que facilita
ver los patrones en un conjunto de datos, como por
ejemplo las similitudes entre los clientes.
• de Diagnóstico: como los árboles de decisión o la
segmentación; puede existir un patrón como las
3 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
características de los clientes más rentables de una
organización.
• Predictivas: como la regresión o las redes
neuronales. que pueden mostrar la probabilidad de
que algo sea cierto en el futuro, como predecir que
la probabilidad de que una demanda particular sea
fraudulenta.
En todos los casos es importante considerar el
objetivo del ejercicio de minería de datos, y estar
preparado para un esfuerzo considerable para
asegurar el tipo, volumen, y calidad adecuados de
los datos con los que se va a trabajar.
3. Elementos
3.1. Elicitación de los requisitos
La meta y el alcance de la minería de datos se
establece, ya sea, en términos de requisitos de
decisión para una importante decisión empresarial
identificada, o en términos de un área funcional,
donde se extraerán datos relevantes para el
descubrimiento de patrones específicos de dominio.
Esta estrategia de minería descendente versus una
ascendente, permite a los analistas elegir el
conjunto correcto de técnicas de minería de datos.
Las técnicas de modelado de decisiones formales
(véase a continuación Modelado de Decisiones) se
utilizan para definir los requisitos para los ejercicios
de minería de datos de arriba hacia abajo.
Para los ejercicios de abajo hacia arriba de
descubrimiento de patrones, es útil si la visión
descubierta puede colocarse en los modelos de
decisión existentes, lo que permite un uso rápido y
el desarrollo de la visión.
Los ejercicios de minería de datos son productivos
cuando se administran como un entorno ágil.
Ayudan a la iteración rápida, la confirmación, y el
despliegue, al tiempo que proporcionan los
controles del proyecto.
3.2. Preparación de datos: Conjunto de datos
analíticos
Las herramientas de minería de datos funcionan en
un conjunto de datos analíticos. Esto se forma
generalmente mediante la fusión de registros de
varias tablas o fuentes en un conjunto de datos
único y amplio.
Los grupos de repetición suelen incorporarse en
varios conjuntos de campos. Los datos pueden
extraerse físicamente en un archivo real o puede
ser un archivo virtual que se deja en la base de
datos o almacén de datos para que pueda ser
analizado.
Los conjuntos de datos analíticos se dividen en un
conjunto que se utiliza para el análisis, un conjunto
completamente independiente para confirmar que
el modelo desarrollado funciona sobre datos no
4 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
utilizados para su desarrollo, y un conjunto de
validación para la confirmación final.
Los volúmenes de datos pueden ser muy grandes,
resultando a veces en la necesidad de trabajar con
muestras o trabajar en el almacén de datos para
que ellos no tengan que moverse.
3. 3. Análisis de datos
Una vez que los datos están disponibles se los
analiza. Se suele aplicar una amplia variedad de
medidas estadísticas y se utilizan herramientas de
visualización para ver cómo se distribuyen los
valores de los datos, cuáles faltan, y cómo se
comportan las diversas características calculadas.
Este paso es a menudo el más extenso y más
complejo en un trabajo de minería de datos, y es
cada vez más el foco de la automatización.
Gran parte del trabajo de la minería de datos viene
típicamente de la identificación de características
útiles en los mismos. Por ejemplo, una característica
puede ser el número de veces que un cliente ha
visitado un comercio en los últimos 80 días. En este
ejemplo, determinar que el recuento de los últimos
80 días es más útil que el recuento de los últimos 70
o 90 es clave.
3.4. Técnicas de Modelado
Hay una gran variedad de técnicas de minería de
datos. Algunos ejemplos de técnicas de minería de
datos son:
• árboles de clasificación y regresión (CART), C5 y
otros árboles de decisión de técnicas de análisis,
• regresión lineal y logística,
• redes neuronales,
• máquinas del sector de apoyo, y
• tablas predictivas de puntuación (aditivas).
El conjunto de datos analíticos y las características
calculadas se introducen en estos algoritmos que
son no supervisados (el usuario no sabe lo que
están buscando) o supervisados (el usuario está
tratando de encontrar o predecir algo específico).
A menudo se utilizan técnicas múltiples para ver
cuál es más eficaz. Algunos datos se conservan del
modelo y se utilizan para confirmar que el resultado
se pueda replicar con datos que no se utilizaron en
la creación inicial.
3.5. Implementación
Una vez que un modelo ha sido construido, debe
ser utilizado y desplegado para ser de utilidad.
Los modelos de minería de datos se pueden
implementar de varias maneras, ya sea para apoyar
5 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
a un tomador de decisiones humano o para apoyar
los sistemas automatizados de toma de decisiones.
Para los usuarios humanos, los resultados de
minería de datos pueden presentarse utilizando
metáforas visuales o como simples campos de
datos.
Muchas técnicas de minería de datos identifican las
posibles reglas de negocio que se pueden
implementar utilizando un sistema de gestión de
reglas empresariales. Tales reglas ejecutables de
negocios se pueden ajustar en un modelo de
decisión junto con reglas de expertos según sea
necesario.
Algunas técnicas de minería de datos,
especialmente las descriptas como técnicas
analíticas predictivas, dan como resultado fórmulas
matemáticas.
Pueden ser también implementadas como reglas de
ejecución de negocios, o pueden ser utilizadas para
generar SQL o código para la implementación. Una
gama cada vez más amplia de opciones de
despliegue en la base de datos permite que tales
modelos se integren en la infraestructura de datos
de una organización.
4. Consideraciones de uso
4.1. Puntos fuertes
• Revelar patrones ocultos y crear información útil
durante el análisis, ayudando a determinar qué
datos pueden ser útiles para capturar o cuántas
personas podrían verse afectadas por sugerencias
específicas.
• Puede integrarse en un diseño de sistema para
aumentar la precisión de los datos.
• Puede usarse para eliminar o reducir el sesgo
humano, usando los datos para determinar los
hechos.
4.2. Limitaciones
• La aplicación de algunas técnicas, sin una
comprensión de cómo funcionan, puede dar lugar a
correlaciones erróneas y una conclusión incorrecta.
• El acceso a Big Data y a conjuntos de
herramientas y software sofisticados de minería de
datos, puede conducir a un uso indebido accidental.
• Muchas técnicas y herramientas requieren
conocimientos especializados para trabajar.
• Algunas técnicas utilizan matemáticas avanzadas
en el fondo y algunas de las partes interesadas
pueden no tener una visión directa de los
resultados. Una falta de transparencia percibida
puede provocar resistencia de algunas partes
interesadas.
6 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• Los resultados de la extracción de datos pueden
ser difíciles de implementar si la toma de decisiones
a la que pretenden influir es poco comprendida.
Modelado de datos
1. Finalidad
Un modelo de datos describe las entidades, clases u
objetos de datos relevantes para un dominio, los
atributos que se utilizan para describirlos y las
relaciones entre ellos para proporcionar un
conjunto común de semántica para el análisis y la
implementación.
2. Descripción
Un modelo de datos usualmente toma la forma de
un diagrama que es apoyado por descripciones
textuales. Representa visualmente los elementos
que son importantes para el negocio (por ejemplo,
personas, lugares, cosas y transacciones
comerciales), los atributos asociados a esos
elementos y las relaciones significativas entre ellos.
Los modelos de datos se usan con frecuencia en la
elaboración y análisis de requisitos y diseño, así
como para apoyar la implementación y la mejora
continua.
Hay varios modelos de datos:
• Modelo de datos conceptual: es independiente de
cualquier solución o tecnología, y se puede utilizar
para representar cómo la empresa recibe su
información. Se puede utilizar para ayudar a
establecer un vocabulario consistente que describe
la información del negocio y las relaciones dentro
de esa información.
• Modelo de datos lógicos: es una abstracción del
modelo conceptual de datos que incorpora reglas
de normalización para administrar formalmente la
integridad de los datos y las relaciones. Se asocia
con el diseño de una solución.
• Modelo de datos físicos: es utilizado por expertos
en la materia de implementación para describir
cómo se organiza físicamente una base de datos. Se
trata de ocupaciones como rendimiento,
concurrencia y seguridad.
Los modelos de datos conceptuales, lógicos y
físicos, se desarrollan para diferentes propósitos y
pueden ser significativamente diferentes, incluso
cuando se representa el mismo dominio.
7 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
En el nivel conceptual, es probable que las
diferentes notaciones de modelado de datos
produzcan resultados ampliamente similares y
puedan considerarse como una sola técnica (tal
como se presenta aquí).
Los modelos de datos lógicos y físicos, incluyen
elementos específicos de las soluciones que
soportan y generalmente son desarrollados por
partes interesadas con experiencia en la
implementación de soluciones técnicas particulares.
Por ejemplo, se utilizarían diagramas de entidad y
relación físicos y físicos (ERD) para implementar una
base de datos relacional, mientras que un diagrama
de clase física o lógica sería utilizado para soportar
el desarrollo de software orientado a objetos.
Los diagramas de objetos se pueden utilizar para
ilustrar instancias particulares de entidades de un
modelo de datos. Pueden incluir valores reales de
muestra para los atributos, haciendo que los
diagramas de objetos sean más concretos y más
fáciles de entender.
3. Elementos
3.1. Entidad o Clase
En un modelo de datos la organización los mantiene
sobre entidades (o clases u objetos de datos). Una
entidad puede representar algo físico, como un
almacén, algo de organización, como por ejemplo
una superficie de venta, algo abstracto, como una
línea de productos, o un evento, como una cita.
Una entidad contiene atributos y tiene relaciones
con otras entidades en el modelo.
En un diagrama de clases, las entidades se
denominan clases. Como una entidad en un modelo
de datos, una clase contiene atributos y tiene
relaciones con otras clases. Una clase también
contiene operaciones o funciones que describen lo
que se puede hacer con la clase, como generar una
factura o abrir una cuenta bancaria.
Cada instancia de una entidad o clase tendrá un
identificador único que lo distingue de otras
instancias.
3.2. Atributo
Un atributo define una determinada pieza de
información asociada con una entidad, incluyendo
cuánta información puede capturarse en ella, sus
valores permitidos y el tipo de información que
representa.
Los atributos se pueden describir en un diccionario
de datos. Los valores permitidos se pueden
especificar a través de reglas empresariales.
Los atributos pueden incluir valores tales como:
8 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• Nombre: un nombre único para el atributo. Otros
nombres utilizados por los interesados pueden ser
capturados como alias.
• Valores / Significados: una lista de valores
aceptables para el atributo. Esto puede expresarse
como una lista enumerada o como una descripción
de los formatos permitidos para los datos
(incluyendo información tal como el número de
caracteres). Si los valores están abreviados esto
incluirá una explicación del significado.
• Descripción: definición del atributo en el contexto
de la solución.
3.3. Relación o Asociación
Las relaciones entre entidades proporcionan una
estructura para el modelo de datos, indicando
específicamente qué entidades se relacionan con
qué otros y cómo.
Las especificaciones para una relación indican en
general el número de ocurrencias mínimas y
máximas permitidas en cada lado de esa relación
(por ejemplo, cada cliente está relacionado
exactamente con un área de ventas, mientras que
un área de ventas puede estar relacionada con cero,
uno o muchos clientes).
El término “cardinalidad” se usa para referirse al
número mínimo y máximo de ocurrencias a las que
una entidad puede estar relacionada. Los valores
típicos de cardinalidad son cero, uno y muchos.
La relación entre dos entidades se puede leer en
cualquier dirección, usando este formato:
Cada ocurrencia (de esta entidad) está relacionada
con (mínimo, máximo) (de esta otra entidad).
En un modelo de clase, el término asociación se usa
en lugar de relación y la multiplicidad se utiliza en
lugar de cardinalidad.
Figura 10.15.1: Diagrama Entidad-Relación (Notación de Pie de Cuervo)
9 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
3.4. Diagramas
Tanto los modelos de datos como los modelos de
clase pueden tener uno o más diagramas que
muestren entidades, atributos y relaciones.
El diagrama en un modelo de datos se denomina
diagrama entidad-relación (ERD). En un modelo de
clase, el diagrama se denomina diagrama de clases.
Figura 10.15.2: Diagrama de clases (UML®)
3.5. Metadatos
Un modelo de datos contiene opcionalmente
metadatos que describen lo que las entidades
representan, cuándo y por qué fueron creados o
modificados, cómo deben ser utilizados, con qué
frecuencia se utilizan, cuándo y por quién. Podrían
existir restricciones en su creación o uso, así como
restricciones de seguridad, privacidad y auditoría en
entidades específicas o grupos enteros de
entidades.
4. Consideraciones de uso
4.1. Puntos fuertes
• Puede utilizarse para definir y comunicar un
vocabulario coherente utilizado por expertos en
materia de dominio y expertos en la materia de
implementación.
• La revisión de un modelo lógico de datos ayuda a
garantizar que el diseño lógico de los datos
persistentes representa correctamente la necesidad
del negocio.
• Proporciona un enfoque consistente para analizar
y documentar los datos y sus relaciones.
• Ofrece la flexibilidad de diferentes niveles de
detalle, lo que proporciona suficiente información
para el público respectivo.
10 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• El modelado formal de la información en poder de
la empresa puede exponer nuevos requisitos a
medida que se identifican inconsistencias.
4.2. Limitaciones
• Siguiendo las normas de modelado de datos con
demasiada rigurosidad, puede conducir a modelos
que no son familiares a las personas sin experiencia
en TI.
• Puede extenderse a través de múltiples áreas
funcionales de la organización y, por lo tanto, más
allá de la base de conocimientos de negocios de las
partes interesadas individuales.
Sergio Salimbeni
sds@activus.com.ar

Mais conteúdo relacionado

Mais procurados

Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data MiningAndres Eyherabide
 
La Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisLa Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisMundo Contact
 
Modelos De Data Mining
Modelos De Data MiningModelos De Data Mining
Modelos De Data Miningbrobelo
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datossaibelr
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I ufrj
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?Scoremind
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenSoftware Guru
 

Mais procurados (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data Mining
 
La Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisisLa Minería de Datos y herramientas de análisis
La Minería de Datos y herramientas de análisis
 
Modelos De Data Mining
Modelos De Data MiningModelos De Data Mining
Modelos De Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data Mining
Data MiningData Mining
Data Mining
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Nociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de DatosNociones Básicas de la Minería de Datos
Nociones Básicas de la Minería de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?¿Qué es un modelo predictivo y para qué vale?
¿Qué es un modelo predictivo y para qué vale?
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 

Semelhante a Mineria y modelado de datos

Semelhante a Mineria y modelado de datos (20)

Session01.pptx
Session01.pptxSession01.pptx
Session01.pptx
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Power-BI-básico.pdf
Power-BI-básico.pdfPower-BI-básico.pdf
Power-BI-básico.pdf
 
Arquitectura de datos empresariales actividad 2
Arquitectura de datos empresariales   actividad 2Arquitectura de datos empresariales   actividad 2
Arquitectura de datos empresariales actividad 2
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Entregable final
Entregable finalEntregable final
Entregable final
 
Desayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & AnalyticsDesayuno Data science - Aplicaciones en métricas & Analytics
Desayuno Data science - Aplicaciones en métricas & Analytics
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Gestión del conocimientos y tecnologías emergentes de la
Gestión del conocimientos y tecnologías  emergentes de laGestión del conocimientos y tecnologías  emergentes de la
Gestión del conocimientos y tecnologías emergentes de la
 

Mais de Sergio Salimbeni

Service 4.0 - La Industria 4.0 aplicada a servicios
Service 4.0 - La Industria 4.0 aplicada a serviciosService 4.0 - La Industria 4.0 aplicada a servicios
Service 4.0 - La Industria 4.0 aplicada a serviciosSergio Salimbeni
 
Digitisation, Digitalisation, Digital Transformation & Industry 4.0
Digitisation, Digitalisation, Digital Transformation & Industry 4.0Digitisation, Digitalisation, Digital Transformation & Industry 4.0
Digitisation, Digitalisation, Digital Transformation & Industry 4.0Sergio Salimbeni
 
Industria 4.0 Semántica e Inteligencia Artificial-webinar
Industria 4.0 Semántica e Inteligencia Artificial-webinarIndustria 4.0 Semántica e Inteligencia Artificial-webinar
Industria 4.0 Semántica e Inteligencia Artificial-webinarSergio Salimbeni
 
La incorporación de Cobots en líneas de producción - Webinar
La incorporación de Cobots en líneas de producción - WebinarLa incorporación de Cobots en líneas de producción - Webinar
La incorporación de Cobots en líneas de producción - WebinarSergio Salimbeni
 
Método KT para el análisis de problemas
Método KT para el análisis de problemasMétodo KT para el análisis de problemas
Método KT para el análisis de problemasSergio Salimbeni
 
Industry 4.0 Quality 4.0 and New Product Development
Industry 4.0 Quality 4.0 and New Product DevelopmentIndustry 4.0 Quality 4.0 and New Product Development
Industry 4.0 Quality 4.0 and New Product DevelopmentSergio Salimbeni
 
Capability Map - Análisis de Capacidades
Capability Map - Análisis de CapacidadesCapability Map - Análisis de Capacidades
Capability Map - Análisis de CapacidadesSergio Salimbeni
 
Process perfomance management v.3
Process perfomance management  v.3Process perfomance management  v.3
Process perfomance management v.3Sergio Salimbeni
 
Los 7 pasos de la planificacion
Los 7 pasos de la planificacionLos 7 pasos de la planificacion
Los 7 pasos de la planificacionSergio Salimbeni
 
Dinámica de sistemas caso bicisendas
Dinámica de sistemas   caso bicisendasDinámica de sistemas   caso bicisendas
Dinámica de sistemas caso bicisendasSergio Salimbeni
 
Gestión estratégica 2da edición
Gestión estratégica   2da ediciónGestión estratégica   2da edición
Gestión estratégica 2da ediciónSergio Salimbeni
 

Mais de Sergio Salimbeni (20)

Service 4.0 - La Industria 4.0 aplicada a servicios
Service 4.0 - La Industria 4.0 aplicada a serviciosService 4.0 - La Industria 4.0 aplicada a servicios
Service 4.0 - La Industria 4.0 aplicada a servicios
 
Digitisation, Digitalisation, Digital Transformation & Industry 4.0
Digitisation, Digitalisation, Digital Transformation & Industry 4.0Digitisation, Digitalisation, Digital Transformation & Industry 4.0
Digitisation, Digitalisation, Digital Transformation & Industry 4.0
 
Management 4.0
Management 4.0Management 4.0
Management 4.0
 
Industria 4.0 Semántica e Inteligencia Artificial-webinar
Industria 4.0 Semántica e Inteligencia Artificial-webinarIndustria 4.0 Semántica e Inteligencia Artificial-webinar
Industria 4.0 Semántica e Inteligencia Artificial-webinar
 
La incorporación de Cobots en líneas de producción - Webinar
La incorporación de Cobots en líneas de producción - WebinarLa incorporación de Cobots en líneas de producción - Webinar
La incorporación de Cobots en líneas de producción - Webinar
 
Método KT para el análisis de problemas
Método KT para el análisis de problemasMétodo KT para el análisis de problemas
Método KT para el análisis de problemas
 
Industry 4.0 Quality 4.0 and New Product Development
Industry 4.0 Quality 4.0 and New Product DevelopmentIndustry 4.0 Quality 4.0 and New Product Development
Industry 4.0 Quality 4.0 and New Product Development
 
Seminario RASTI - USAL
Seminario RASTI - USALSeminario RASTI - USAL
Seminario RASTI - USAL
 
Calidad 4.0 - 2019
Calidad 4.0  - 2019Calidad 4.0  - 2019
Calidad 4.0 - 2019
 
Quality 4.0
Quality 4.0Quality 4.0
Quality 4.0
 
Capability Map - Análisis de Capacidades
Capability Map - Análisis de CapacidadesCapability Map - Análisis de Capacidades
Capability Map - Análisis de Capacidades
 
Procesos y procedimientos
Procesos y procedimientosProcesos y procedimientos
Procesos y procedimientos
 
Process perfomance management v.3
Process perfomance management  v.3Process perfomance management  v.3
Process perfomance management v.3
 
Process intelligence ed.2
Process intelligence ed.2Process intelligence ed.2
Process intelligence ed.2
 
Los 7 pasos de la planificacion
Los 7 pasos de la planificacionLos 7 pasos de la planificacion
Los 7 pasos de la planificacion
 
Dinámica de sistemas caso bicisendas
Dinámica de sistemas   caso bicisendasDinámica de sistemas   caso bicisendas
Dinámica de sistemas caso bicisendas
 
Infografía PMBoK 6ta ed
Infografía PMBoK 6ta edInfografía PMBoK 6ta ed
Infografía PMBoK 6ta ed
 
Gestión estratégica 2da edición
Gestión estratégica   2da ediciónGestión estratégica   2da edición
Gestión estratégica 2da edición
 
Liderazgo Blake - Mouton
Liderazgo Blake - MoutonLiderazgo Blake - Mouton
Liderazgo Blake - Mouton
 
Gestión de la PyME
Gestión de la PyMEGestión de la PyME
Gestión de la PyME
 

Último

Actividad 2 sociología de las organizaciones formales y no formales
Actividad 2 sociología de las organizaciones formales y no formalesActividad 2 sociología de las organizaciones formales y no formales
Actividad 2 sociología de las organizaciones formales y no formalesBrainner1
 
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptx
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptxTEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptx
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptxCristianCambranis
 
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdf
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdfEspejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdf
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdfaespejos
 
Seguridad vial OSC TELECOMS Seguridad vial OSC TELECOMS
Seguridad vial OSC TELECOMS  Seguridad vial OSC TELECOMSSeguridad vial OSC TELECOMS  Seguridad vial OSC TELECOMS
Seguridad vial OSC TELECOMS Seguridad vial OSC TELECOMSJorgeContreras580838
 
3-5-usac-manuales-administrativos-2017.ppt
3-5-usac-manuales-administrativos-2017.ppt3-5-usac-manuales-administrativos-2017.ppt
3-5-usac-manuales-administrativos-2017.pptConsultorSinergia
 
Técnicas de Planeación y control 2.pptx
Técnicas de  Planeación y control 2.pptxTécnicas de  Planeación y control 2.pptx
Técnicas de Planeación y control 2.pptxkarlapatriciagaona
 
Practica de Evaluacion de tarea crisis de liderazgo
Practica de Evaluacion de tarea crisis de liderazgoPractica de Evaluacion de tarea crisis de liderazgo
Practica de Evaluacion de tarea crisis de liderazgooscramcon
 
Mentoría para Empresarios Oxford Group L.pdf
Mentoría para Empresarios Oxford Group L.pdfMentoría para Empresarios Oxford Group L.pdf
Mentoría para Empresarios Oxford Group L.pdfOxford Group
 

Último (9)

Actividad 2 sociología de las organizaciones formales y no formales
Actividad 2 sociología de las organizaciones formales y no formalesActividad 2 sociología de las organizaciones formales y no formales
Actividad 2 sociología de las organizaciones formales y no formales
 
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptx
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptxTEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptx
TEORÍAS CONTEMPORÁNEAS DE LA ADMINISTRACIÓN.pptx
 
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdf
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdfEspejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdf
Espejo Salamanca Cuadro Sinoptico Decreto 2649 1993.pdf
 
Seguridad vial OSC TELECOMS Seguridad vial OSC TELECOMS
Seguridad vial OSC TELECOMS  Seguridad vial OSC TELECOMSSeguridad vial OSC TELECOMS  Seguridad vial OSC TELECOMS
Seguridad vial OSC TELECOMS Seguridad vial OSC TELECOMS
 
3-5-usac-manuales-administrativos-2017.ppt
3-5-usac-manuales-administrativos-2017.ppt3-5-usac-manuales-administrativos-2017.ppt
3-5-usac-manuales-administrativos-2017.ppt
 
Técnicas de Planeación y control 2.pptx
Técnicas de  Planeación y control 2.pptxTécnicas de  Planeación y control 2.pptx
Técnicas de Planeación y control 2.pptx
 
FORO DE INICIATIVAS A CANDIDATOS A LA PRESIDENCIA 2024-v01.pdf
FORO DE INICIATIVAS A CANDIDATOS A LA PRESIDENCIA 2024-v01.pdfFORO DE INICIATIVAS A CANDIDATOS A LA PRESIDENCIA 2024-v01.pdf
FORO DE INICIATIVAS A CANDIDATOS A LA PRESIDENCIA 2024-v01.pdf
 
Practica de Evaluacion de tarea crisis de liderazgo
Practica de Evaluacion de tarea crisis de liderazgoPractica de Evaluacion de tarea crisis de liderazgo
Practica de Evaluacion de tarea crisis de liderazgo
 
Mentoría para Empresarios Oxford Group L.pdf
Mentoría para Empresarios Oxford Group L.pdfMentoría para Empresarios Oxford Group L.pdf
Mentoría para Empresarios Oxford Group L.pdf
 

Mineria y modelado de datos

  • 1. Minería y Modelado de Datos Junio 2017 - año 10 Nro. 79 Herramientas para el Análisis de Negocios Minería y Modelado de Datos por Sergio Salimbeni Junio 2017 Basado en el “A GUI D E TO T H E BUS I N ES S A N A LYS I S BODY O F KNOWL EDGE ® v.3”
  • 2. 2 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 Introducción La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos. Minería de datos 1. Propósito La minería de datos se utiliza para mejorar la toma de decisiones mediante la búsqueda de patrones útiles y conocimientos a partir de datos. 2. Descripción La minería de datos es un proceso analítico que examina grandes cantidades de datos desde diferentes perspectivas y los resume de tal manera que se descubren patrones y relaciones útiles. Los resultados de las técnicas de minería de datos son generalmente modelos matemáticos o ecuaciones que describen patrones y relaciones subyacentes. Estos modelos se pueden implementar para la toma de decisiones a través de tableros e informes visuales, o para sistemas de toma de decisiones automatizados a través de sistemas de administración de reglas de negocio o despliegues en bases de datos. La minería de datos puede ser utilizada en investigaciones supervisadas o no supervisadas. En una investigación supervisada, los usuarios pueden plantear una pregunta y esperar una respuesta que pueda impulsar su toma de decisión. Una investigación no supervisada, es un ejercicio puro de descubrimiento de patrones en el que se permite que emerjan y luego se los considere para las decisiones empresariales. La minería de datos es un término general que abarca técnicas descriptivas, de diagnóstico y predictivas: • Descriptivas: como el agrupamiento, el que facilita ver los patrones en un conjunto de datos, como por ejemplo las similitudes entre los clientes. • de Diagnóstico: como los árboles de decisión o la segmentación; puede existir un patrón como las
  • 3. 3 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 características de los clientes más rentables de una organización. • Predictivas: como la regresión o las redes neuronales. que pueden mostrar la probabilidad de que algo sea cierto en el futuro, como predecir que la probabilidad de que una demanda particular sea fraudulenta. En todos los casos es importante considerar el objetivo del ejercicio de minería de datos, y estar preparado para un esfuerzo considerable para asegurar el tipo, volumen, y calidad adecuados de los datos con los que se va a trabajar. 3. Elementos 3.1. Elicitación de los requisitos La meta y el alcance de la minería de datos se establece, ya sea, en términos de requisitos de decisión para una importante decisión empresarial identificada, o en términos de un área funcional, donde se extraerán datos relevantes para el descubrimiento de patrones específicos de dominio. Esta estrategia de minería descendente versus una ascendente, permite a los analistas elegir el conjunto correcto de técnicas de minería de datos. Las técnicas de modelado de decisiones formales (véase a continuación Modelado de Decisiones) se utilizan para definir los requisitos para los ejercicios de minería de datos de arriba hacia abajo. Para los ejercicios de abajo hacia arriba de descubrimiento de patrones, es útil si la visión descubierta puede colocarse en los modelos de decisión existentes, lo que permite un uso rápido y el desarrollo de la visión. Los ejercicios de minería de datos son productivos cuando se administran como un entorno ágil. Ayudan a la iteración rápida, la confirmación, y el despliegue, al tiempo que proporcionan los controles del proyecto. 3.2. Preparación de datos: Conjunto de datos analíticos Las herramientas de minería de datos funcionan en un conjunto de datos analíticos. Esto se forma generalmente mediante la fusión de registros de varias tablas o fuentes en un conjunto de datos único y amplio. Los grupos de repetición suelen incorporarse en varios conjuntos de campos. Los datos pueden extraerse físicamente en un archivo real o puede ser un archivo virtual que se deja en la base de datos o almacén de datos para que pueda ser analizado. Los conjuntos de datos analíticos se dividen en un conjunto que se utiliza para el análisis, un conjunto completamente independiente para confirmar que el modelo desarrollado funciona sobre datos no
  • 4. 4 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 utilizados para su desarrollo, y un conjunto de validación para la confirmación final. Los volúmenes de datos pueden ser muy grandes, resultando a veces en la necesidad de trabajar con muestras o trabajar en el almacén de datos para que ellos no tengan que moverse. 3. 3. Análisis de datos Una vez que los datos están disponibles se los analiza. Se suele aplicar una amplia variedad de medidas estadísticas y se utilizan herramientas de visualización para ver cómo se distribuyen los valores de los datos, cuáles faltan, y cómo se comportan las diversas características calculadas. Este paso es a menudo el más extenso y más complejo en un trabajo de minería de datos, y es cada vez más el foco de la automatización. Gran parte del trabajo de la minería de datos viene típicamente de la identificación de características útiles en los mismos. Por ejemplo, una característica puede ser el número de veces que un cliente ha visitado un comercio en los últimos 80 días. En este ejemplo, determinar que el recuento de los últimos 80 días es más útil que el recuento de los últimos 70 o 90 es clave. 3.4. Técnicas de Modelado Hay una gran variedad de técnicas de minería de datos. Algunos ejemplos de técnicas de minería de datos son: • árboles de clasificación y regresión (CART), C5 y otros árboles de decisión de técnicas de análisis, • regresión lineal y logística, • redes neuronales, • máquinas del sector de apoyo, y • tablas predictivas de puntuación (aditivas). El conjunto de datos analíticos y las características calculadas se introducen en estos algoritmos que son no supervisados (el usuario no sabe lo que están buscando) o supervisados (el usuario está tratando de encontrar o predecir algo específico). A menudo se utilizan técnicas múltiples para ver cuál es más eficaz. Algunos datos se conservan del modelo y se utilizan para confirmar que el resultado se pueda replicar con datos que no se utilizaron en la creación inicial. 3.5. Implementación Una vez que un modelo ha sido construido, debe ser utilizado y desplegado para ser de utilidad. Los modelos de minería de datos se pueden implementar de varias maneras, ya sea para apoyar
  • 5. 5 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 a un tomador de decisiones humano o para apoyar los sistemas automatizados de toma de decisiones. Para los usuarios humanos, los resultados de minería de datos pueden presentarse utilizando metáforas visuales o como simples campos de datos. Muchas técnicas de minería de datos identifican las posibles reglas de negocio que se pueden implementar utilizando un sistema de gestión de reglas empresariales. Tales reglas ejecutables de negocios se pueden ajustar en un modelo de decisión junto con reglas de expertos según sea necesario. Algunas técnicas de minería de datos, especialmente las descriptas como técnicas analíticas predictivas, dan como resultado fórmulas matemáticas. Pueden ser también implementadas como reglas de ejecución de negocios, o pueden ser utilizadas para generar SQL o código para la implementación. Una gama cada vez más amplia de opciones de despliegue en la base de datos permite que tales modelos se integren en la infraestructura de datos de una organización. 4. Consideraciones de uso 4.1. Puntos fuertes • Revelar patrones ocultos y crear información útil durante el análisis, ayudando a determinar qué datos pueden ser útiles para capturar o cuántas personas podrían verse afectadas por sugerencias específicas. • Puede integrarse en un diseño de sistema para aumentar la precisión de los datos. • Puede usarse para eliminar o reducir el sesgo humano, usando los datos para determinar los hechos. 4.2. Limitaciones • La aplicación de algunas técnicas, sin una comprensión de cómo funcionan, puede dar lugar a correlaciones erróneas y una conclusión incorrecta. • El acceso a Big Data y a conjuntos de herramientas y software sofisticados de minería de datos, puede conducir a un uso indebido accidental. • Muchas técnicas y herramientas requieren conocimientos especializados para trabajar. • Algunas técnicas utilizan matemáticas avanzadas en el fondo y algunas de las partes interesadas pueden no tener una visión directa de los resultados. Una falta de transparencia percibida puede provocar resistencia de algunas partes interesadas.
  • 6. 6 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • Los resultados de la extracción de datos pueden ser difíciles de implementar si la toma de decisiones a la que pretenden influir es poco comprendida. Modelado de datos 1. Finalidad Un modelo de datos describe las entidades, clases u objetos de datos relevantes para un dominio, los atributos que se utilizan para describirlos y las relaciones entre ellos para proporcionar un conjunto común de semántica para el análisis y la implementación. 2. Descripción Un modelo de datos usualmente toma la forma de un diagrama que es apoyado por descripciones textuales. Representa visualmente los elementos que son importantes para el negocio (por ejemplo, personas, lugares, cosas y transacciones comerciales), los atributos asociados a esos elementos y las relaciones significativas entre ellos. Los modelos de datos se usan con frecuencia en la elaboración y análisis de requisitos y diseño, así como para apoyar la implementación y la mejora continua. Hay varios modelos de datos: • Modelo de datos conceptual: es independiente de cualquier solución o tecnología, y se puede utilizar para representar cómo la empresa recibe su información. Se puede utilizar para ayudar a establecer un vocabulario consistente que describe la información del negocio y las relaciones dentro de esa información. • Modelo de datos lógicos: es una abstracción del modelo conceptual de datos que incorpora reglas de normalización para administrar formalmente la integridad de los datos y las relaciones. Se asocia con el diseño de una solución. • Modelo de datos físicos: es utilizado por expertos en la materia de implementación para describir cómo se organiza físicamente una base de datos. Se trata de ocupaciones como rendimiento, concurrencia y seguridad. Los modelos de datos conceptuales, lógicos y físicos, se desarrollan para diferentes propósitos y pueden ser significativamente diferentes, incluso cuando se representa el mismo dominio.
  • 7. 7 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 En el nivel conceptual, es probable que las diferentes notaciones de modelado de datos produzcan resultados ampliamente similares y puedan considerarse como una sola técnica (tal como se presenta aquí). Los modelos de datos lógicos y físicos, incluyen elementos específicos de las soluciones que soportan y generalmente son desarrollados por partes interesadas con experiencia en la implementación de soluciones técnicas particulares. Por ejemplo, se utilizarían diagramas de entidad y relación físicos y físicos (ERD) para implementar una base de datos relacional, mientras que un diagrama de clase física o lógica sería utilizado para soportar el desarrollo de software orientado a objetos. Los diagramas de objetos se pueden utilizar para ilustrar instancias particulares de entidades de un modelo de datos. Pueden incluir valores reales de muestra para los atributos, haciendo que los diagramas de objetos sean más concretos y más fáciles de entender. 3. Elementos 3.1. Entidad o Clase En un modelo de datos la organización los mantiene sobre entidades (o clases u objetos de datos). Una entidad puede representar algo físico, como un almacén, algo de organización, como por ejemplo una superficie de venta, algo abstracto, como una línea de productos, o un evento, como una cita. Una entidad contiene atributos y tiene relaciones con otras entidades en el modelo. En un diagrama de clases, las entidades se denominan clases. Como una entidad en un modelo de datos, una clase contiene atributos y tiene relaciones con otras clases. Una clase también contiene operaciones o funciones que describen lo que se puede hacer con la clase, como generar una factura o abrir una cuenta bancaria. Cada instancia de una entidad o clase tendrá un identificador único que lo distingue de otras instancias. 3.2. Atributo Un atributo define una determinada pieza de información asociada con una entidad, incluyendo cuánta información puede capturarse en ella, sus valores permitidos y el tipo de información que representa. Los atributos se pueden describir en un diccionario de datos. Los valores permitidos se pueden especificar a través de reglas empresariales. Los atributos pueden incluir valores tales como:
  • 8. 8 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • Nombre: un nombre único para el atributo. Otros nombres utilizados por los interesados pueden ser capturados como alias. • Valores / Significados: una lista de valores aceptables para el atributo. Esto puede expresarse como una lista enumerada o como una descripción de los formatos permitidos para los datos (incluyendo información tal como el número de caracteres). Si los valores están abreviados esto incluirá una explicación del significado. • Descripción: definición del atributo en el contexto de la solución. 3.3. Relación o Asociación Las relaciones entre entidades proporcionan una estructura para el modelo de datos, indicando específicamente qué entidades se relacionan con qué otros y cómo. Las especificaciones para una relación indican en general el número de ocurrencias mínimas y máximas permitidas en cada lado de esa relación (por ejemplo, cada cliente está relacionado exactamente con un área de ventas, mientras que un área de ventas puede estar relacionada con cero, uno o muchos clientes). El término “cardinalidad” se usa para referirse al número mínimo y máximo de ocurrencias a las que una entidad puede estar relacionada. Los valores típicos de cardinalidad son cero, uno y muchos. La relación entre dos entidades se puede leer en cualquier dirección, usando este formato: Cada ocurrencia (de esta entidad) está relacionada con (mínimo, máximo) (de esta otra entidad). En un modelo de clase, el término asociación se usa en lugar de relación y la multiplicidad se utiliza en lugar de cardinalidad. Figura 10.15.1: Diagrama Entidad-Relación (Notación de Pie de Cuervo)
  • 9. 9 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 3.4. Diagramas Tanto los modelos de datos como los modelos de clase pueden tener uno o más diagramas que muestren entidades, atributos y relaciones. El diagrama en un modelo de datos se denomina diagrama entidad-relación (ERD). En un modelo de clase, el diagrama se denomina diagrama de clases. Figura 10.15.2: Diagrama de clases (UML®) 3.5. Metadatos Un modelo de datos contiene opcionalmente metadatos que describen lo que las entidades representan, cuándo y por qué fueron creados o modificados, cómo deben ser utilizados, con qué frecuencia se utilizan, cuándo y por quién. Podrían existir restricciones en su creación o uso, así como restricciones de seguridad, privacidad y auditoría en entidades específicas o grupos enteros de entidades. 4. Consideraciones de uso 4.1. Puntos fuertes • Puede utilizarse para definir y comunicar un vocabulario coherente utilizado por expertos en materia de dominio y expertos en la materia de implementación. • La revisión de un modelo lógico de datos ayuda a garantizar que el diseño lógico de los datos persistentes representa correctamente la necesidad del negocio. • Proporciona un enfoque consistente para analizar y documentar los datos y sus relaciones. • Ofrece la flexibilidad de diferentes niveles de detalle, lo que proporciona suficiente información para el público respectivo.
  • 10. 10 www.activus.com.ar info@activus.com.ar Focus Groups Mayo 2017 • El modelado formal de la información en poder de la empresa puede exponer nuevos requisitos a medida que se identifican inconsistencias. 4.2. Limitaciones • Siguiendo las normas de modelado de datos con demasiada rigurosidad, puede conducir a modelos que no son familiares a las personas sin experiencia en TI. • Puede extenderse a través de múltiples áreas funcionales de la organización y, por lo tanto, más allá de la base de conocimientos de negocios de las partes interesadas individuales. Sergio Salimbeni sds@activus.com.ar