Saltar la navegación
Logotipo de la Universidad Pontifica Comillas

¿Qué es el Análisis con Datos Simbólicos?


El análisis de datos simbólicos (SDA) es un nuevo campo de investigación que se sitúa en la frontera entre la Estadística, la Minería de Datos y la Informática. Fundamentalmente consiste en extraer la información de datos complejos y masivos para entender, analizar y tomar decisiones sobre el sistema que los genera.

Se puede considerar el SDA como una extensión de las técnicas estándar de análisis de datos, tales como la reducción de la información, el clustering o la predicción, aplicados a los datos simbólicos. En este tipo de datos, las variables pueden ser categóricas o cuantitativas, pudiendo tomar cada variable diferentes valores, en contraste con el enfoque clásico, donde cada variable sólo puede tomar un valor numérico o categórico. Esto hace que resulte más propicio para modelar mejor problemas y situaciones de la vida real (el modelo que varía en el tiempo por ejemplo, descripciones de clase, datos inciertos o inexactos, etc) y resumir conjuntos de datos masivos de un modo eficiente.

Un ejemplo elemental de una tabla de datos simbólicos se muestra en Tabla 1, donde cada unidad representa una clase de una universidad dada. Las unidades son descritas por variables simbólicas. `Edades´ es una variable multivalorada que representa las listas de los años de los estudiantes en cada grupo. `Idiomas extranjeros´ es una variable modal multivalorada que representa los idiomas hablados (fuera del aula) en cada grupo y la proporción de estudiantes que los hablan (no es necesario que sumen 1). Las variables modales permiten establecer frecuencias, probabilidades o pesos asociados a cada valor específico. `Alturas´ es una variable de tipo intervalo que muestra el rango de alturas (un rasgo cuantitativo) en cada grupo. Finalmente, `Pesos´ es una variable de tipo histograma que muestra la distribución de frecuencias de los pesos en cada grupo. Una variable de tipo histograma es un caso particular de una variable valorada por intervalo modal en el que los intervalos no se solapan y los pesos suman 1.

Como Ward, Peng & Wang (2004) señalan, hoy en día los conjuntos de datos sufren cada vez más el problema de la escala, en términos del número de variables o el número de registros. A menudo es deseable reducir tanto como sea posible el tamaño de aquellos datos cuyas características principales son iguales o muy parecidas. Esta reducción puede ser realizada de forma manual, podando el conjunto de datos basándose en algún conocimiento del dominio, probando, o por métodos de reducción de dimensionalidad como el análisis de la componente principal y el escalamiento multidimensional, o por métodos de agregación/resumen, como el clustering o la división. El análisis de datos simbólicos es una nueva alternativa para tratar este problema. Esto ofrece un acercamiento comprensivo que consiste en resumir el conjunto de datos mediante variables simbólicas, creando un conjunto de datos más pequeño y más manejable que conserva la información esencial, y su análisis subsecuente mediante métodos simbólicos.

Bock and Diday (2000) presentan una revisión excelente del campo, donde métodos estadísticos como la estadística descriptiva, el análisis principal componente, clustering, y técnicas de discriminación son descritos y los ejemplos ilustrativos de este acercamiento, principalmente de la estadística oficial, son presentados. Sin embargo, Billard and Diday (2003) señala la enorme necesidad que existe de desarrollar metodologías que traten con datos simbólicos.

Clase
Idiomas Extranjeros
Edades (años)
Alturas (cms)
Pesos (kg)
1
{Español,0.5; Francés;0.4}
{20,21,25}
[162,80]
{(40,50],.1;(50,60],.15;(60,70],.25;(70,80],.2;(80,90],.3}
2
{Alemán, 0.8; Chino, 0.2}
{22, 23, 30}
[160,195]
{(60,70],.1;(70,80],.2;(80,90],.2;(90,100],.25;(100,110],.25}
3
{Francés, 0.7; Aleman, 0.4}
{18, 19}
[165,205]
{(40,50],.13;(50,60],.4;(60,70],.07;(70,80],.2;(80,90],.2}
4
{Alemán, 0.8; Chino, 0.1}
{18,19,21}
[175,205]
{(50,60],.45;(60,70],.35;(80,90],.1;(100,110],.1;(100,110],.1}
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Tabla 1. Tabla elemental de datos simbólicos

Referencias

  • Billard, L., and Diday, E (2003),'From the Statistics of Data to the Statistics of Knowledge: Symbolic Data Analysis',Journal of the American Statistical Association,98,991-999.
  • Bock, H. -H., and Diday, E. (eds.)(2000),Analysis of Symbolic Data: Exploratory Methods for Extracting Statistical Information From Complex Data'.1st ed.Berlin.Springer-Verlag.
  • Ward, M., Peng, W., and Wang, X. (2004),'Hierarchical Visual Data Mining for Large-Scale Data', Computational Statistics, 19, 147-158.

DownloadDescargar(PDF)

© Universidad Pontificia Comillas
C/ Alberto Aguilera 23 - 28015 Madrid - Tlf. (34) 91 542 28 00