El documento trata sobre herramientas para el análisis de negocios como la minería y modelado de datos. Explica que la minería de datos es el proceso de analizar grandes cantidades de datos para descubrir patrones y relaciones útiles. También describe los elementos clave de la minería de datos como la preparación de datos, técnicas de modelado y la implementación de los modelos. Por otro lado, explica que el modelado de datos crea representaciones de las entidades y relaciones de datos de un negocio.
1. Minería y Modelado de Datos
Junio 2017 - año 10 Nro. 79
Herramientas para el
Análisis de Negocios
Minería y Modelado de Datos
por Sergio Salimbeni
Junio 2017
Basado en el “A GUI D E TO T H E BUS I N ES S A N A LYS I S BODY O F KNOWL EDGE ® v.3”
2. 2 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
Introducción
La toma de decisiones precisa de conocimiento, el
cual proviene de la información que el centro
decisor posea. Dicha información surge del
análisis de datos específicos y necesarios. La
minería o exploración de datos es la etapa de
análisis de "Knowledge Discovery in Databases" o
KDD); es un campo de la estadística y las ciencias
de la computación, y se refiere al proceso de
detección de patrones en grandes volúmenes de
datos.
Minería de datos
1. Propósito
La minería de datos se utiliza para mejorar la toma
de decisiones mediante la búsqueda de patrones
útiles y conocimientos a partir de datos.
2. Descripción
La minería de datos es un proceso analítico que
examina grandes cantidades de datos desde
diferentes perspectivas y los resume de tal manera
que se descubren patrones y relaciones útiles.
Los resultados de las técnicas de minería de datos
son generalmente modelos matemáticos o
ecuaciones que describen patrones y relaciones
subyacentes. Estos modelos se pueden
implementar para la toma de decisiones a través de
tableros e informes visuales, o para sistemas de
toma de decisiones automatizados a través de
sistemas de administración de reglas de negocio o
despliegues en bases de datos.
La minería de datos puede ser utilizada en
investigaciones supervisadas o no supervisadas.
En una investigación supervisada, los usuarios
pueden plantear una pregunta y esperar una
respuesta que pueda impulsar su toma de decisión.
Una investigación no supervisada, es un ejercicio
puro de descubrimiento de patrones en el que se
permite que emerjan y luego se los considere para
las decisiones empresariales.
La minería de datos es un término general que
abarca técnicas descriptivas, de diagnóstico y
predictivas:
• Descriptivas: como el agrupamiento, el que facilita
ver los patrones en un conjunto de datos, como por
ejemplo las similitudes entre los clientes.
• de Diagnóstico: como los árboles de decisión o la
segmentación; puede existir un patrón como las
3. 3 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
características de los clientes más rentables de una
organización.
• Predictivas: como la regresión o las redes
neuronales. que pueden mostrar la probabilidad de
que algo sea cierto en el futuro, como predecir que
la probabilidad de que una demanda particular sea
fraudulenta.
En todos los casos es importante considerar el
objetivo del ejercicio de minería de datos, y estar
preparado para un esfuerzo considerable para
asegurar el tipo, volumen, y calidad adecuados de
los datos con los que se va a trabajar.
3. Elementos
3.1. Elicitación de los requisitos
La meta y el alcance de la minería de datos se
establece, ya sea, en términos de requisitos de
decisión para una importante decisión empresarial
identificada, o en términos de un área funcional,
donde se extraerán datos relevantes para el
descubrimiento de patrones específicos de dominio.
Esta estrategia de minería descendente versus una
ascendente, permite a los analistas elegir el
conjunto correcto de técnicas de minería de datos.
Las técnicas de modelado de decisiones formales
(véase a continuación Modelado de Decisiones) se
utilizan para definir los requisitos para los ejercicios
de minería de datos de arriba hacia abajo.
Para los ejercicios de abajo hacia arriba de
descubrimiento de patrones, es útil si la visión
descubierta puede colocarse en los modelos de
decisión existentes, lo que permite un uso rápido y
el desarrollo de la visión.
Los ejercicios de minería de datos son productivos
cuando se administran como un entorno ágil.
Ayudan a la iteración rápida, la confirmación, y el
despliegue, al tiempo que proporcionan los
controles del proyecto.
3.2. Preparación de datos: Conjunto de datos
analíticos
Las herramientas de minería de datos funcionan en
un conjunto de datos analíticos. Esto se forma
generalmente mediante la fusión de registros de
varias tablas o fuentes en un conjunto de datos
único y amplio.
Los grupos de repetición suelen incorporarse en
varios conjuntos de campos. Los datos pueden
extraerse físicamente en un archivo real o puede
ser un archivo virtual que se deja en la base de
datos o almacén de datos para que pueda ser
analizado.
Los conjuntos de datos analíticos se dividen en un
conjunto que se utiliza para el análisis, un conjunto
completamente independiente para confirmar que
el modelo desarrollado funciona sobre datos no
4. 4 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
utilizados para su desarrollo, y un conjunto de
validación para la confirmación final.
Los volúmenes de datos pueden ser muy grandes,
resultando a veces en la necesidad de trabajar con
muestras o trabajar en el almacén de datos para
que ellos no tengan que moverse.
3. 3. Análisis de datos
Una vez que los datos están disponibles se los
analiza. Se suele aplicar una amplia variedad de
medidas estadísticas y se utilizan herramientas de
visualización para ver cómo se distribuyen los
valores de los datos, cuáles faltan, y cómo se
comportan las diversas características calculadas.
Este paso es a menudo el más extenso y más
complejo en un trabajo de minería de datos, y es
cada vez más el foco de la automatización.
Gran parte del trabajo de la minería de datos viene
típicamente de la identificación de características
útiles en los mismos. Por ejemplo, una característica
puede ser el número de veces que un cliente ha
visitado un comercio en los últimos 80 días. En este
ejemplo, determinar que el recuento de los últimos
80 días es más útil que el recuento de los últimos 70
o 90 es clave.
3.4. Técnicas de Modelado
Hay una gran variedad de técnicas de minería de
datos. Algunos ejemplos de técnicas de minería de
datos son:
• árboles de clasificación y regresión (CART), C5 y
otros árboles de decisión de técnicas de análisis,
• regresión lineal y logística,
• redes neuronales,
• máquinas del sector de apoyo, y
• tablas predictivas de puntuación (aditivas).
El conjunto de datos analíticos y las características
calculadas se introducen en estos algoritmos que
son no supervisados (el usuario no sabe lo que
están buscando) o supervisados (el usuario está
tratando de encontrar o predecir algo específico).
A menudo se utilizan técnicas múltiples para ver
cuál es más eficaz. Algunos datos se conservan del
modelo y se utilizan para confirmar que el resultado
se pueda replicar con datos que no se utilizaron en
la creación inicial.
3.5. Implementación
Una vez que un modelo ha sido construido, debe
ser utilizado y desplegado para ser de utilidad.
Los modelos de minería de datos se pueden
implementar de varias maneras, ya sea para apoyar
5. 5 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
a un tomador de decisiones humano o para apoyar
los sistemas automatizados de toma de decisiones.
Para los usuarios humanos, los resultados de
minería de datos pueden presentarse utilizando
metáforas visuales o como simples campos de
datos.
Muchas técnicas de minería de datos identifican las
posibles reglas de negocio que se pueden
implementar utilizando un sistema de gestión de
reglas empresariales. Tales reglas ejecutables de
negocios se pueden ajustar en un modelo de
decisión junto con reglas de expertos según sea
necesario.
Algunas técnicas de minería de datos,
especialmente las descriptas como técnicas
analíticas predictivas, dan como resultado fórmulas
matemáticas.
Pueden ser también implementadas como reglas de
ejecución de negocios, o pueden ser utilizadas para
generar SQL o código para la implementación. Una
gama cada vez más amplia de opciones de
despliegue en la base de datos permite que tales
modelos se integren en la infraestructura de datos
de una organización.
4. Consideraciones de uso
4.1. Puntos fuertes
• Revelar patrones ocultos y crear información útil
durante el análisis, ayudando a determinar qué
datos pueden ser útiles para capturar o cuántas
personas podrían verse afectadas por sugerencias
específicas.
• Puede integrarse en un diseño de sistema para
aumentar la precisión de los datos.
• Puede usarse para eliminar o reducir el sesgo
humano, usando los datos para determinar los
hechos.
4.2. Limitaciones
• La aplicación de algunas técnicas, sin una
comprensión de cómo funcionan, puede dar lugar a
correlaciones erróneas y una conclusión incorrecta.
• El acceso a Big Data y a conjuntos de
herramientas y software sofisticados de minería de
datos, puede conducir a un uso indebido accidental.
• Muchas técnicas y herramientas requieren
conocimientos especializados para trabajar.
• Algunas técnicas utilizan matemáticas avanzadas
en el fondo y algunas de las partes interesadas
pueden no tener una visión directa de los
resultados. Una falta de transparencia percibida
puede provocar resistencia de algunas partes
interesadas.
6. 6 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• Los resultados de la extracción de datos pueden
ser difíciles de implementar si la toma de decisiones
a la que pretenden influir es poco comprendida.
Modelado de datos
1. Finalidad
Un modelo de datos describe las entidades, clases u
objetos de datos relevantes para un dominio, los
atributos que se utilizan para describirlos y las
relaciones entre ellos para proporcionar un
conjunto común de semántica para el análisis y la
implementación.
2. Descripción
Un modelo de datos usualmente toma la forma de
un diagrama que es apoyado por descripciones
textuales. Representa visualmente los elementos
que son importantes para el negocio (por ejemplo,
personas, lugares, cosas y transacciones
comerciales), los atributos asociados a esos
elementos y las relaciones significativas entre ellos.
Los modelos de datos se usan con frecuencia en la
elaboración y análisis de requisitos y diseño, así
como para apoyar la implementación y la mejora
continua.
Hay varios modelos de datos:
• Modelo de datos conceptual: es independiente de
cualquier solución o tecnología, y se puede utilizar
para representar cómo la empresa recibe su
información. Se puede utilizar para ayudar a
establecer un vocabulario consistente que describe
la información del negocio y las relaciones dentro
de esa información.
• Modelo de datos lógicos: es una abstracción del
modelo conceptual de datos que incorpora reglas
de normalización para administrar formalmente la
integridad de los datos y las relaciones. Se asocia
con el diseño de una solución.
• Modelo de datos físicos: es utilizado por expertos
en la materia de implementación para describir
cómo se organiza físicamente una base de datos. Se
trata de ocupaciones como rendimiento,
concurrencia y seguridad.
Los modelos de datos conceptuales, lógicos y
físicos, se desarrollan para diferentes propósitos y
pueden ser significativamente diferentes, incluso
cuando se representa el mismo dominio.
7. 7 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
En el nivel conceptual, es probable que las
diferentes notaciones de modelado de datos
produzcan resultados ampliamente similares y
puedan considerarse como una sola técnica (tal
como se presenta aquí).
Los modelos de datos lógicos y físicos, incluyen
elementos específicos de las soluciones que
soportan y generalmente son desarrollados por
partes interesadas con experiencia en la
implementación de soluciones técnicas particulares.
Por ejemplo, se utilizarían diagramas de entidad y
relación físicos y físicos (ERD) para implementar una
base de datos relacional, mientras que un diagrama
de clase física o lógica sería utilizado para soportar
el desarrollo de software orientado a objetos.
Los diagramas de objetos se pueden utilizar para
ilustrar instancias particulares de entidades de un
modelo de datos. Pueden incluir valores reales de
muestra para los atributos, haciendo que los
diagramas de objetos sean más concretos y más
fáciles de entender.
3. Elementos
3.1. Entidad o Clase
En un modelo de datos la organización los mantiene
sobre entidades (o clases u objetos de datos). Una
entidad puede representar algo físico, como un
almacén, algo de organización, como por ejemplo
una superficie de venta, algo abstracto, como una
línea de productos, o un evento, como una cita.
Una entidad contiene atributos y tiene relaciones
con otras entidades en el modelo.
En un diagrama de clases, las entidades se
denominan clases. Como una entidad en un modelo
de datos, una clase contiene atributos y tiene
relaciones con otras clases. Una clase también
contiene operaciones o funciones que describen lo
que se puede hacer con la clase, como generar una
factura o abrir una cuenta bancaria.
Cada instancia de una entidad o clase tendrá un
identificador único que lo distingue de otras
instancias.
3.2. Atributo
Un atributo define una determinada pieza de
información asociada con una entidad, incluyendo
cuánta información puede capturarse en ella, sus
valores permitidos y el tipo de información que
representa.
Los atributos se pueden describir en un diccionario
de datos. Los valores permitidos se pueden
especificar a través de reglas empresariales.
Los atributos pueden incluir valores tales como:
8. 8 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• Nombre: un nombre único para el atributo. Otros
nombres utilizados por los interesados pueden ser
capturados como alias.
• Valores / Significados: una lista de valores
aceptables para el atributo. Esto puede expresarse
como una lista enumerada o como una descripción
de los formatos permitidos para los datos
(incluyendo información tal como el número de
caracteres). Si los valores están abreviados esto
incluirá una explicación del significado.
• Descripción: definición del atributo en el contexto
de la solución.
3.3. Relación o Asociación
Las relaciones entre entidades proporcionan una
estructura para el modelo de datos, indicando
específicamente qué entidades se relacionan con
qué otros y cómo.
Las especificaciones para una relación indican en
general el número de ocurrencias mínimas y
máximas permitidas en cada lado de esa relación
(por ejemplo, cada cliente está relacionado
exactamente con un área de ventas, mientras que
un área de ventas puede estar relacionada con cero,
uno o muchos clientes).
El término “cardinalidad” se usa para referirse al
número mínimo y máximo de ocurrencias a las que
una entidad puede estar relacionada. Los valores
típicos de cardinalidad son cero, uno y muchos.
La relación entre dos entidades se puede leer en
cualquier dirección, usando este formato:
Cada ocurrencia (de esta entidad) está relacionada
con (mínimo, máximo) (de esta otra entidad).
En un modelo de clase, el término asociación se usa
en lugar de relación y la multiplicidad se utiliza en
lugar de cardinalidad.
Figura 10.15.1: Diagrama Entidad-Relación (Notación de Pie de Cuervo)
9. 9 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
3.4. Diagramas
Tanto los modelos de datos como los modelos de
clase pueden tener uno o más diagramas que
muestren entidades, atributos y relaciones.
El diagrama en un modelo de datos se denomina
diagrama entidad-relación (ERD). En un modelo de
clase, el diagrama se denomina diagrama de clases.
Figura 10.15.2: Diagrama de clases (UML®)
3.5. Metadatos
Un modelo de datos contiene opcionalmente
metadatos que describen lo que las entidades
representan, cuándo y por qué fueron creados o
modificados, cómo deben ser utilizados, con qué
frecuencia se utilizan, cuándo y por quién. Podrían
existir restricciones en su creación o uso, así como
restricciones de seguridad, privacidad y auditoría en
entidades específicas o grupos enteros de
entidades.
4. Consideraciones de uso
4.1. Puntos fuertes
• Puede utilizarse para definir y comunicar un
vocabulario coherente utilizado por expertos en
materia de dominio y expertos en la materia de
implementación.
• La revisión de un modelo lógico de datos ayuda a
garantizar que el diseño lógico de los datos
persistentes representa correctamente la necesidad
del negocio.
• Proporciona un enfoque consistente para analizar
y documentar los datos y sus relaciones.
• Ofrece la flexibilidad de diferentes niveles de
detalle, lo que proporciona suficiente información
para el público respectivo.
10. 10 www.activus.com.ar info@activus.com.ar
Focus Groups
Mayo 2017
• El modelado formal de la información en poder de
la empresa puede exponer nuevos requisitos a
medida que se identifican inconsistencias.
4.2. Limitaciones
• Siguiendo las normas de modelado de datos con
demasiada rigurosidad, puede conducir a modelos
que no son familiares a las personas sin experiencia
en TI.
• Puede extenderse a través de múltiples áreas
funcionales de la organización y, por lo tanto, más
allá de la base de conocimientos de negocios de las
partes interesadas individuales.
Sergio Salimbeni
sds@activus.com.ar