¿Qué es la Predicción para Datos Simbólicos?
Debido a la implantación de la informática en casi todas las áreas de la
actividad humana, hoy en día, existe una tendencia a almacenar grandes
cantidades de datos. En muchos casos, bajo estos datos subyace un conocimiento o
una información que puede resultar muy valiosa ya que nos puede ayudar a
comprender mejor algunos fenómenos o nos puede orientar en futuras tomas de
decisiones. Sin embargo, el gran volumen de datos hace que extraerla sea una
tarea complicada. Existe, por tanto, una necesidad creciente de capacidad de
análisis de datos. En estos casos, resulta crucial disponer de herramientas que
permitan resumir esa información de forma eficiente para extraer el
conocimiento, como han puesto de manifiesto Berthold et al. (2004) al indicar
que el obtener buenas aproximaciones y resultados en el análisis de grandes
conjuntos de datos continúa siendo de dramática importancia para muchas
aplicaciones del mundo real.
Los datos simbólicos, que reciben ese nombre por estar estructurados y contener
variación interna, son un nuevo paradigma que surge para satisfacer esta
necesidad. El análisis de datos simbólicos (ADS), es un área muy reciente que
surge en 1988 con la ponencia de E. Diday (1988) en la conferencia de la
International Federation of Classification Societies (IFCS). Desde entonces se
ha desarrollado y difundido enormemente con los estudios de Diday y de otros
grupos de investigación de diversos países (Francia, Brasil, Italia, Japón,
España...), sentándose las bases que permitan realizar análisis fiables sobre
datos de naturaleza simbólica. Existiendo incluso un proyecto del European
Esprit sobre este tema, Symbolic Official Data Análisis System (SODAS). Bock
(2000) y Bock and Diday (2000) han desarrollado los principios del ADS, así como
varios métodos para analizarlos y visualizarlos.
Según Clements (2003), la literatura reciente sobre predicción está poniendo el
énfasis en proporcionar una descripción más completa de la incertidumbre sobre
la tendencia central de la variable que va a ser pronosticada y sobre las
técnicas de evaluar algunas aproximaciones como predicciones de intervalo y de
densidad. Una predicción de densidad de la realización de una variable aleatoria
en algún instante de tiempo futuro es una estimación de la distribución de
probabilidad de los valores futuros posibles de esa variable. Se trata de un
área bien conocida en economía y finanzas (Granger et al. (1989), Diebold et al.
(1998), Stay and Wallis (1999), Timmermann (2000)). La predicción de densidad y
las predicciones de intervalo (recientemente destacadas en Christoffersen (1999)
y Clements (2003)) se podrían considerar relacionadas con la predicción con
datos simbólicos. Sin embargo, en el área de la predicción no se ha
desarrollado, hasta la fecha, una teoría que siente las bases para elaborar
modelos de predicción usando datos simbólicos. Por el contrario, la teoría de la
predicción para datos clásicos, que tiene su origen en la década de los 50, se
trata de un área madura y muy consolidada, en la que ya se han realizado avances
teóricos muy importantes y se ha probado empíricamente su eficiencia en
múltiples áreas. Por ejemplo, Abraham and Ledolter (1983), O`Donovan (1983), Box
et. al. (1994), Hamilton (1994), Makridakis et al. (1998), Armstrong (2001),
Peña et al. (2001) y Tsay (2002); conforman un buen cuerpo de conocimientos
sobre predicción para datos clásicos. En lengua española la mayoría de las
referencias que no son traducciones están vinculadas a la Econometría, entre las
que podemos citar Aznar y Trívez (1993), Otero (1993) o Uriel (1995).
En esta misma línea es importante resaltar los desarrollos realizados en el área
de la Inteligencia Artificial (IA), donde el tratamiento de datos simbólicos en
el proceso de extracción de conocimiento e inferencia lleva siendo investigado
desde la segunda mitad del siglo XX bajo distintas perspectivas. Entre estas
últimas cabe destacar la lógica borrosa (Mamdani (1977), Zadeh (1965, 1988 y
1989)), como ejemplo de solución a la representación del conocimiento con
incertidumbre, y cuya extensión al tratamiento de datos simbólicos se propone
abordar en esta propuesta. Otro paradigma de procesamiento de información nacido
en el seno de la IA son las Redes Neuronales Artificiales (RNA) (en Hertz et al.
(1991) puede hallarse una buena introducción a estos modelos). A diferencia de
la lógica borrosa, que permite representar directamente el conocimiento en
términos simbólicos, las RNA permiten modelar procesos utilizando como única
fuente de información conjuntos de datos numéricos. Estas arquitecturas se han
convertido en modelos de referencia para procesos dinámicos no lineales,
especialmente adecuados para su aplicación a la predicción de series temporales
si se dispone de un volumen de información suficiente (Elman (1990), Horne y
Giles (1995), Jordan (1986), Moody (1998), Mozer (1994), Weigend y Gershenfeld
(1994)). En esta propuesta se propone investigar la extensión de estos modelos
al caso de datos simbólicos, mediante el remuestreo de modelos ajustados con
datos numéricos.
Referencias
- Abraham, B. and Ledolter, J. (1983), 'Statistical Methods for Forecasting'. John
Wiley & Sons. New York.
- O`Donovan, T. M. (1983), 'Short Term Forecasting. An Introduction to the
Box-Jenkins Approach'. John Wiley & Sons. New York.
- Makridakis, S. Wheelwright, S.C. and Hyndman, R.J. (1998), 'Forecasting: Methods
and Applications'. Third Edition. John Wiley & Sons. New York.
- Peña, D., Tiao, G. C. and Tsay, R. S. (2001), 'A Course in Time Series
Analysis'. John Wiley & Sons. New York.
- Box, G. E. P., Jenkins, G. M., and Reinsel, G. C. (1994), 'Time Series Analysis,
Forecasting and Control'. Third edition. Prentice-Hall, Inc. Englewood Cliffs,
New Jersey.
- Tsay, R. S. (2002), 'Analysis of Financial Time Series'. John Wiley & Sons.
New York.
- Diebold, F. X. (1998), 'Elements of Forecasting'. South-Western College
Publishing. Cincinanti.
Descargar(PDF)