Uso de modelos autorregresivos de media móvil integrada para el análisis de series temporales de datos observacionales

Es frecuente el análisis de series temporales de indicadores de fenómenos de salud, como casos de una enfermedad en la población, nivel de mortalidad o consumo de antibióticos. Pero si deseamos describir los patrones de evolución a lo largo del tiempo o pronosticar valores más allá del período de observación, es necesario tener en cuenta cómo los valores actuales pueden depender de valores anteriores, la existencia de tendencias en los datos o las posibles variaciones estacionales. Los modelos ARIMA permiten tener en cuenta todas estas características para una mejor descripción y eventual predicción a partir del análisis temporal. British Medical Journal, 20 de diciembre de 2023.

Datos de series temporales

Gran parte de los datos que recopilamos sobre el mundo que nos rodea (precios de acciones, tasas de desempleo, identificación partidista) se miden repetidamente a lo largo del tiempo. Al no tener en cuenta la naturaleza vinculada y dependiente del tiempo de estos datos, las técnicas analíticas comunes pueden tergiversar su estructura interna. Si deseamos describir patrones a lo largo del tiempo o pronosticar valores más allá del período de observación, debemos tener en cuenta cómo los valores actuales pueden depender de valores anteriores, pueden existir tendencias en los datos o los datos pueden variar estacionalmente. Para visualizar esto, considere un electrocardiograma. Las lecturas esperadas en un momento dado dependen no sólo de los valores anteriores sino también de la posición dentro del ciclo completo. Por ejemplo, después de la onda P, esperaríamos ver el complejo QRS. La suposición de que cada lectura no se ve afectada por los valores anteriores sería válida sólo en las circunstancias más angustiosas (es decir, durante la fibrilación o después de la muerte).

Descripción del modelo ARIMA

Para incorporar esta naturaleza compleja de los datos de series de tiempo en los modelos, Box y Jenkins introdujeron el modelo de media móvil integrada autorregresiva (ARIMA). Como su nombre lo indica, este modelo contiene tres componentes diferentes: un componente autorregresivo (AR), un componente de diferenciación por estacionalidad (I) y un componente de media móvil (MA). El primer componente permite que el resultado en un momento dado dependa de valores anteriores del resultado. Como este modelo requiere una serie de tiempo con propiedades que no varían a lo largo del tiempo (es decir, una serie de tiempo estacionaria), el segundo componente del modelo (integrado) permite a los investigadores restar observaciones anteriores para obtener una serie de tiempo estacionaria, si es necesario. El tercer componente (media móvil) modela el término de error como una combinación de términos de error anteriores y contemporáneos.

Box y Jenkins propusieron un proceso iterativo de modelado de datos de series de tiempo que contiene tres pasos. La primera etapa (“identificación”) implica transformar los datos si es necesario, obtener una serie de tiempo estacionaria mediante diferenciación y examinar los datos, las autocorrelaciones y las autocorrelaciones parciales para determinar las especificaciones potenciales del modelo (es decir, el orden de los procesos autorregresivo, integrado y componentes de media móvil). El segundo paso (“estimación”) estima el modelo de series de tiempo con los conjuntos de parámetros potenciales del modelo y luego selecciona el mejor modelo. Por ejemplo, en el artículo vinculado (doi:10.1136/bmj-2023-077437), utilizamos el criterio de información bayesiano y el criterio de información de Akaike para seleccionar el modelo que mejor se ajusta entre los modelos candidatos. El modelo que mejor se ajustaba a los datos, un modelo ARIMA(1,1,1), tenía orden uno para cada término (autoregresivo, integrado y promedio móvil). Esto significa que modelamos el cambio en las ventas entre la semana t y la semana t-1, una primera diferencia. El modelo también incluye el valor de la semana anterior como predictor de este cambio (orden autorregresivo 1) y un término de error que se compone de los errores de la semana contemporánea y de la semana anterior (orden de media móvil 1). Especificaciones alternativas para el modelo ARIMA corresponderían al número de diferencias necesarias para construir un modelo de serie temporal estacionario, el número de valores previos a incluir como predictores o la combinación de errores previos incluidos en el error de una observación determinada. El tercer paso (“verificación de diagnóstico”) examina el modelo en busca de posibles deficiencias y, si se encuentran, reinicia el proceso. Aunque no está exento de críticas, este enfoque de modelización sigue siendo popular en la actualidad. Los textos de campos específicos pueden proporcionar una introducción útil al tema para la mayoría de los lectores. Por ejemplo, encontramos útil un texto de Becketti en la preparación del artículo vinculado.

El modelo y el proceso descritos anteriormente permiten a los investigadores explorar el cambio en un resultado a lo largo del tiempo. Pero, ¿qué pasa si cree que alguna otra variable está afectando el resultado de su interés? En muchos paquetes informáticos modernos, las estimaciones a partir del modelo ARIMA descrito anteriormente se pueden ajustar con un conjunto de variables X exógenas que también varían a lo largo del tiempo. El modelo resultante a menudo se denomina regresión con errores ARIMA, ya que la regresión estimada incluye un término de error que es un proceso ARIMA.

Cuándo y por qué utilizar el modelo ARIMA

Los modelos ARIMA se han utilizado anteriormente para explorar procesos dependientes del tiempo en la salud de la población. Por ejemplo, trabajos recientes han utilizado modelos ARIMA para explorar el diagnóstico o los resultados de enfermedades y la demanda de servicios médicos. Los modelos ARIMA o, más generalmente, las regresiones con errores ARIMA se utilizan comúnmente para datos de series temporales por algunas razones clave. En primer lugar, el modelo nos permite incorporar relaciones entre observaciones. Por ejemplo, la propagación de una enfermedad infecciosa a través de una población probablemente dependa de recuentos previos de infección en la población.

En consecuencia, cientos, si no miles, de artículos aplicaron modelos ARIMA a los recuentos de infección o muerte por la pandemia de covid-19, rastreando la propagación de la enfermedad a lo largo del tiempo en entornos de todo el mundo. Permitir que los datos incorporen dependencias en términos de rezagos o estacionalidad permite a los investigadores ajustarlos mejor. El segundo beneficio clave de estimar regresiones con errores ARIMA es que nos permite explorar cambios relativos a las tendencias de fondo subyacentes en los datos. En nuestro caso, las ventas de anticonceptivos de emergencia con levonorgestrel han aumentado con el tiempo en los Estados Unidos. Un modelo básico que explora las ventas semanales en función de los indicadores dicotómicos de las festividades podría no diferenciar correctamente el aumento de las ventas después del Año Nuevo de ese aumento de fondo.

Limitaciones

El modelado ARIMA sigue siendo popular hoy en día, aunque los investigadores deben reconocer algunas limitaciones. En primer lugar, estos modelos pueden requerir series temporales relativamente largas, siendo la regla general al menos 50, o preferiblemente 100, observaciones para estimar los componentes estacionales. Aunque esto no supone un desafío para los valores medidos con frecuencia o las series temporales de larga duración, puede limitar la aceptabilidad de los modelos ARIMA en algunos casos. En segundo lugar, el proceso de estimación del modelo descrito ajusta la forma del modelo, específicamente el orden de los términos autorregresivos y de media móvil, a los datos observados. Aunque es útil para describir la tendencia temporal observada, ajustar el modelo ARIMA de esta manera puede limitar su utilidad para describir tendencias en otros contextos. Finalmente, como ocurre con todos los modelos, los modelos ARIMA deben examinarse como un modelo posible. En algunos casos, los modelos alternativos pueden ajustarse mejor a los datos observados, por lo que el examen de los datos y las especificaciones del modelo es esencial antes de seleccionar un enfoque de modelado.

Conclusión

Las regresiones con errores ARIMA pueden ser herramientas útiles para comprender datos de series temporales. Al incorporar vínculos entre observaciones y explorar los cambios a lo largo del tiempo, estos modelos pueden describir tendencias y explorar cómo estas varían con los predictores de interés.

El artículo original:
 Wagner B, Cleland K. Using autoregressive integrated moving average models for time series analysis of observational data BMJ 2023; 383 :p2739 doi:10.1136/bmj.p2739 
Disponible en: https://n9.cl/slut6

Compartir