Psicothema was founded in Asturias (northern Spain) in 1989, and is published jointly by the Psychology Faculty of the University of Oviedo and the Psychological Association of the Principality of Asturias (Colegio Oficial de Psicología del Principado de Asturias).
We currently publish four issues per year, which accounts for some 100 articles annually. We admit work from both the basic and applied research fields, and from all areas of Psychology, all manuscripts being anonymously reviewed prior to publication.
Psicothema, 2006. Vol. Vol. 18 (nº 2). 293-299
Guillermo Vallejo y Luis M. Lozano
Universidad de Oviedo
En las investigaciones sociales, conductuales y de la salud resulta frecuente realizar mediciones a lo largo del tiempo de dos o más grupos de participantes en múltiples variables dependientes. El análisis de tales datos es bastante complicado por la existencia de correlación, tanto entre las medidas tomadas en puntos diferentes a tiempo, como entre las variables de respuesta. Aunque diversos enfoques permiten realizar el análisis de estos datos, en la práctica, un modelo mixto multivariado o un modelo doblemente multivariado son comúnmente usados. Ambos enfoques requieren normalidad conjunta multivariada, homogeneidad de las matrices de dispersión, independencia entre las observaciones de distintos participantes, ausencia de desgaste de muestra y covariantes independientes del tiempo. Bajo desviaciones de uno o más de los supuestos referidos dichos enfoques no controlan de manera adecuada las tasas de error de Tipo I, afectando con ello la validez y precisión de las inferencias. Por este motivo, en el presente artículo se discutirán algunas soluciones que superan parcial o totalmente los problemas referidos. También se presentan varios programas para efectuar correctamente los análisis mediante el módulo Proc Mixed del SAS.
Multivariate repeated measures designs. In the social, behavioral, and health researches it is a common strategy to collect data along time on more than one group of participants on multiple dependent variables. To analyse this kind of data is very complicated due to the correlations between the measures taken in different points of the time, and between the answers. Usually to analyse these data the multivariate mixed model, or the doubly multivariate model, are the most frequent approaches. Both of them require combined multivariate normality, equal covariance matrices, independence between the observations of different participants, complete measurements on all subjects, and time-independent covariates. When one ore more of these assumptions are not accomplished these approaches do not control in the correct way the Type I error, and this affects the validity and the accuracy of the inferences. In this paper some solutions that solve the problems with the error Type I will be shown. Several programs for a correct realization of the analyses through the SAS Proc Mixed procedure are presented.
Los estudios longitudinales y de medidas repetidas juegan un papel destacado en las investigaciones psicológicas para comparar las tasas de cambio de n participantes distribuidos en p grupos a lo largo q sucesivas mediciones en el tiempo (o bajo q condiciones experimentales). Diversas pruebas son aplicables a los datos provenientes de estos estudios. Cuando el supuesto de esfericidad (la varianza de las diferencias entre pares de medidas repetidas se mantiene constante a lo largo del tiempo) es satisfecho, resulta apropiado utilizar el análisis de la varianza (ANOVA) propuesto por Scheffé. Si la propiedad de esfericidad no se mantiene, pero las matrices de covarianzas (dispersión) son homogéneas, se puede optar por utilizar el enfoque ANOVA con los grados de libertad corregidos mediante alguno de los múltiples correctores tipo Box existentes (para detalles véase, por ejemplo, Blanca, 2004) o por utilizar el clásico enfoque del análisis multivariado de la varianza (MANOVA). Sin embargo, ambos enfoques son típicamente inválidos cuando las matrices de dispersión son heterogéneas, especialmente cuando los datos se desvían de la normalidad y el tamaño de los grupos no está convenientemente equilibrado (Algina y Oshima, 1994; Olson, 1974).
Para vencer el impacto negativo que la heterogeneidad de las matrices covarianzas ejerce sobre la robustez de los enfoques referidos, se han propuesto diversas soluciones alternativas. Unas, se basan en corregir los valores críticos para la desviación del patrón de esfericidad y para la heterogeneidad de las matrices de covarianzas. Otras, en modelar la forma de matrices correspondientes a la variabilidad entre sujetos y dentro de los mismos. Al tiempo que tampoco faltan las centradas en derivar la distribución muestral empírica del estadístico de interés remuestreando repetidamente con reposición desde los datos disponibles. Keselman, Algina y Kowalchuk (2002) proporcionan una revisión exhaustiva de los modelos de análisis aplicables a datos univariados de medidas repetidas, así como de las referencias relacionadas con este tópico.
Cuando los datos pertenecen a una muestra de n participantes distribuidos en p grupos acerca de r variables dependientes a lo largo de q períodos de observación se tiene un diseño multivariado de medidas repetidas. El análisis de este tipo de datos es más complicado que en el caso univariado, ya que a la dependencia existente entre las medidas tomadas en diferentes puntos temporales hay que añadir la probable correlación entre las variables de respuesta. Aunque existen varios enfoques para analizar datos doblemente multivariados, la selección de un determinado procedimiento es compleja, pues depende de múltiples factores. Además de contemplarse los supuestos relativos a la distribución de probabilidad de los términos de error, en este trabajo se defiende que la elección debería estar condicionada, al menos parcialmente, a la especificación que el investigador efectúe en relación con la forma de la matriz de covarianzas de las respuestas de cualquier participante. Por este motivo, el propósito de este artículo se centra en mostrar los problemas analíticos que rodean a los diseños multivariados de medidas repetidas, dependiendo de si los datos satisfacen o no el supuesto de homogeneidad de las matrices de dispersión.
Enfoques que asumen matrices de dispersión homogéneas
En la literatura estadística dos enfoques convencionales son comúnmente recomendados para analizar datos doblemente multivariados, a saber: el modelo mixto multivariado (MMM) (Boik, 1991; Naik y Rao, 2001) y el modelo doblemente multivariado (DMM). Ambas pruebas constituyen extensiones del enfoque MANOVA y su correcta aplicación requiere satisfacer los supuestos de normalidad conjunta multivariada, independencia entre las mediciones de los diferentes participantes y homogeneidad de las matrices de dispersión.
El enfoque DMM no efectúa ninguna asunción acerca de la estructura de la matriz de dispersión (todas las varianzas y covarianzas entre las observaciones pueden tomar cualquier valor numérico), excepto que sea definida positiva (esta propiedad se cumple siempre que el número de participantes dentro de cada grupo de tratamiento sea igual o mayor que el producto de q x r). El enfoque MMM asume que la matriz de dispersión satisface la condición de esfericidad multivariada. Este supuesto implica que las diferencias entre los datos obtenidos en las distintas ocasiones de medida tienen una varianza común para todas las variables dependientes. Es decir, para cada una de las r variables dependientes la matriz de contrastes normalizados entre las q-1 medidas repetidas debe ser proporcional a una matriz de identidad. Cuando los supuestos de esfericidad y normalidad multivariada son satisfechos, la robustez del enfoque MMM es similar a la del enfoque DMM; sin embargo, su sensibilidad para captar diferencias es ligeramente superior (Boik, 1991). Por el contrario, cuando se viola el supuesto de esfericidad multivariada, el enfoque MMM tiene un comportamiento excesivamente liberal y, por ende, puede inducirnos a concluir con más frecuencia de la debida que un tratamiento resulta eficaz cuando de hecho no lo es.
Al igual que sucede en el contexto univariado, para vencer los problemas que se derivan del rechazo incorrecto de la hipótesis nula, diversos correctores tipo Box están disponibles; no obstante, sólo uno propuesto por Boik (1991) resulta efectivo, y no en todos los casos. De acuerdo con Vallejo, Fidalgo y Fernández (1998), el procedimiento de Boik controla adecuadamente las tasas de error cuando la matriz de dispersión tiene la forma de un producto de Kronecker, esto es, cuando es igual al producto de la matriz de covarianzas entre las r variables dependientes por la matriz de covarianzas entre las q ocasiones de medida. Conforme la matriz de dispersión se desvía de la estructura multiplicativa reseñada, el enfoque MMM ajustado sugerido por Boik no es aconsejable, ya que se vuelve excesivamente conservador. Por su parte, el enfoque DMM mantiene la tasa de error al nivel estipulado con independencia de la forma de la matriz de dispersión. Por consiguiente, salvo que la matriz de covarianzas satisfaga la muy rigurosa condición de esfericidad multivariada y el tamaño de muestra sea demasiado pequeño, el enfoque DMM debería ser la opción preferida por los investigadores. De hecho, es el procedimiento comúnmente adoptado cuando no existe desgaste de muestra (Khattree y Naik, 2003; Lix y Hinds, 2005).
Siguiendo la tipología descrita por Little y Rubin (1987), el mecanismo de pérdida puede ser caracterizado como sigue: datos perdidos completamente al azar (MCAR), datos perdidos al azar (MAR) y datos no ignorables o informativos (NI). En el primer caso, el mecanismo responsable de los datos faltantes es independiente de todas las variables y covariables, manifiestas o latentes, presentes en el estudio. Es decir, el desgaste de muestra ocurre al azar y no depende ni de las variables del modelo ni de las características de los participantes. Por lo tanto, se puede aceptar que el conjunto de las observaciones registradas constituye una muestra restringida, pero completamente aleatoria, de la prevista inicialmente. Ejemplos de lo dicho acontecen en aquellas situaciones en las que los aparatos y los sistemas de recogida de información fallan casualmente, o bien los participantes abandonan el estudio por causas ajenas a la investigación. En el segundo caso, el mecanismo responsable de la pérdida es independiente de las respuestas dadas, aunque se relaciona sistemáticamente con alguna de las características observadas en el estudio. Datos MAR acontecen cuando los fallos en los aparatos dependen del grupo al que pertenecen las unidades, de la ocasión en la que se realiza la medición o de las características de los participantes. Por último, si el mecanismo responsable de los datos faltantes o perdidos se relaciona sistemáticamente con respuestas dadas previamente, se dice que el desgaste de muestra no se produce al azar. Por ejemplo, el proceso NI se correspondería con el abandono del tratamiento por parte de algunos pacientes al alcanzar un valor por debajo o por encima de un umbral (por ejemplo, pérdida de peso en el caso de un obeso o ganancia en el caso de un anoréxico). En los contextos experimentales los problemas asociados con la pérdida de datos son relativamente fáciles de solventar. Sin embargo, en los ámbitos aplicados los problemas son más difíciles de solucionar.
No obstante lo anterior, es importante destacar que el enfoque DMM es muy sensible a la heterogeneidad de las matrices de dispersión, sobre todo cuando los grupos tienen distinto tamaño y las respuestas no se distribuyen normalmente (Keselman y Lix, 1997). En las investigaciones psicológicas y educativas de carácter aplicado, resulta usual que se incumpla el supuesto de homogeneidad de las matrices de dispersión. Cuando suceda lo dicho, lo aconsejable es utilizar modelos que permitan trabajar con matrices de covarianzas heterogéneas. Aunque las alternativas disponibles son diversas, en lo que resta del presente trabajo nos centraremos en dos de las más novedosas. En concreto, en la extensión multivariada del procedimiento de Brown y Forsythe (BF) (1974) desarrollada por Vallejo, Fidalgo y Fernández (2001) y Vallejo y Ato (en prensa) y en un método de regresión multivariado que permite modelar la estructura de covarianzas correspondiente a las medidas repetidas.
Enfoques que no asumen matrices de dispersión homogéneas
Cuando se incumpla el supuesto de homogeneidad de las matrices dispersión, se pueden ajustar y evaluar modelos lineales multivariados utilizando pruebas basadas en dos principios de estimación general. Esencialmente, métodos de estimación basados en el principio de los mínimos cuadrados ordinarios (OLS) versus métodos de estimación basados en el principio de máxima verosimilitud.
A partir del trabajo de Nel y van der Merwe (1986), Vallejo et al (2001) abordan el problema de encontrar una aproximación a la distribución de las matrices sumas de cuadrados y productos cruzados (SS&CP) debidas a la hipótesis y al error, respectivamente, cuando las covarianzas son heterogéneas. Básicamente, el denominado enfoque BF utiliza el criterio OLS y se basa en un modelo en el cual los efectos aleatorios son tratados como fijos y los parámetros de la matriz de dispersión como arbitrarios. Además, la matriz SS&CP correspondiente al error se estima usando un enfoque similar al denominado estimador Sandwich, utilizado comúnmente con el método de ecuaciones de estimación generalizada propuesto por Liang y Zeger (1986), para acomodar la dependencia serial propia de los estudios longitudinales. Esta forma de construir la matriz SS&CP debida al error, asegura que bajo hipótesis nula su valor esperado coincida con el de la matriz SS&CP referida a hipótesis.
Aunque son varias las conclusiones que se pueden extraer de los estudios numéricos realizados por Vallejo et al (2001), dos son de especial interés para nuestro objetivo actual. En primer lugar, el enfoque BF controlaba satisfactoriamente las tasas de error Tipo I cuando el interés se centra en los efectos principales. En segundo lugar, el enfoque BF resultaba conservador cuando el interés se centraba en detectar si los grupos exhibían tasas de cambio diferentes a lo largo del tiempo, particularmente cuando las matrices de covarianzas y el tamaño de los grupos se relacionaban negativamente. Resultados similares han sido encontrados por Lix, Algina y Keselman (2003) y Lix, Keselman y Hinds (2005) utilizando estimadores robustos basados en medias recortadas y matrices de covarianzas Winsorizadas.
Recientemente, Vallejo y Ato (en prensa) han mostrado que es posible obtener pruebas robustas para la interacción modificando el enfoque BF (en adelante MBF). En concreto, con pequeños y moderados tamaños de muestra, Vallejo y Ato han encontrado que la prueba MBF era típicamente robusta bajo las mismas condiciones en las que el enfoque BF no lo era. Para lograr esta meta, los autores utilizan una aproximación a la distribución de las matrices del error y de la hipótesis basada en el trabajo de Krishnamoorthy y Yu (2004). Esta nueva solución, además de ser menos vulnerable a la violación de los supuestos distribucionales de homogeneidad y normalidad multivariada que la propuesta por Vallejo et al (2001), también evidencia otras dos ventajas adicionales. Por un lado, los grados de libertad aproximados, tanto para la matriz del error como para la matriz de la hipótesis, son invariantes bajo cualquier transformación lineal de las variables dependientes y, por otro lado, los grados de libertad son siempre positivos, aspecto éste que no quedaba del todo claro en la solución original.
Por consiguiente, el enfoque MBF solventa alguno de los problemas que plantea el enfoque DMM cuando las matrices de dispersión son heterogéneas; sin embargo, otros permanecen, e inclusive, surge uno que no existía. Existen cinco inconvenientes a la hora de implementar el enfoque MBF en contextos donde el control experimental sea limitado. En primer lugar, el enfoque MBF puede ser difícil de implementar en situaciones donde exista desgaste de muestra, bien sea por la pérdida de participantes, de ocasiones de medida o de valores en alguna de las ocasiones de medida. Por ejemplo, se puede desear investigar cómo afectan las características de las escuelas al desarrollo cognitivo de los niños a lo largo de tres cursos escolares. Obviamente, las pruebas tan sólo se podrán aplicar a los niños que permanezcan en los centros durante el desarrollo de la investigación. En este caso el analista puede confinar su atención en los vectores de datos completos. También cabe la posibilidad de generar los datos faltantes mediante imputación múltiple. Este método se encuentra disponible en varios paquetes estadísticos (por ejemplo, SAS, SOLAS, AMELIA) y se pueden utilizar con cualquier tipo de datos y con cualquier tipo de técnica analítica (Allison, 2000). En segundo lugar, el enfoque MBF sólo puede utilizarse en aquellas situaciones en las cuales el número de ocasiones en que se realizan las mediciones sea menor que el número de participantes. En tercer lugar, el enfoque MBF no permite manejar covariadas cambiantes. Sin embargo, en determinadas investigaciones longitudinales es fundamental describir y predecir los patrones de cambio que muestran los sujetos a lo largo del tiempo, pero también resulta crítico explicar los cambios en términos de algunas peculiaridades del estudio. Ahora bien, algunas de estas características pueden manifestarse estables durante el tiempo que dura la investigación (por ejemplo, el género de los sujetos), mientras que otras pueden sufrir modificaciones (por ejemplo, el estado de ánimo de los participantes). En cuarto lugar, el enfoque MBF puede resultar ineficiente cuando la estructura de la matriz de dispersión requiera estimar un número reducido de parámetros. Por último, a diferencia de lo que sucede con el enfoque DMM, el enfoque MBF no está incorporado en los programas comerciales de carácter genérico (SAS, SPSS, S-PLUS, STATA o MINITAB). Se excusa decir que de los cuatro primeros inconvenientes también participa el enfoque DMM.
Cuando se aplica el enfoque MBF u otros modelos lineales multivariados, tales como el enfoque Welch-James desarrollado por Johansen (WJ, 1980) o el de regresión aparentemente no relacionada formulado inicialmente por Zellner (MSUR, 1962), el principal foco de interés se centra en contrastar hipótesis relacionadas con la estructura de medias sin asumir ninguna forma especial para la estructura de covarianzas. Sin embargo, cuando sea razonable asumir que la matriz de dispersión sigue algún patrón determinado, resulta ventajoso adoptar una extensión del modelo de la regresión clásico (esencialmente, un modelo de regresión de coeficientes mixtos o un modelo lineal mixto), sobre manera cuando la dimensión de la matriz de covarianzas sea relativamente grande en relación con el tamaño de muestra. El procedimiento resultante, además de permitir modelar la estructura de medias y la estructura de covarianzas de las medidas repetidas, combina las ventajas ofrecidas por el tradicional enfoque ANOVA para manejar efectos fijos, aleatorios y mixtos, con las proporcionadas por el análisis de la regresión para conducirse con datos faltantes y con predictores discretos y continuos.
Para medidas repetidas, el modelo de efectos mixtos ha sido descrito por numerosos autores (por ejemplo, Jennrich y Schluchter, 1986; Laird y Ware, 1982) y la información disponible acerca de su comportamiento es considerable. No obstante, con la finalidad de hacer hincapié en un problema ligado a la estimación asintótica, se considera oportuno efectuar un breve comentario acerca de este enfoque. Cuando la estructura de covarianzas de la variable de respuesta en el tiempo (Ω) resulte conocida, las inferencias referidas al modelo de medias se pueden obtener usando el estimador de mínimos cuadrados generalizados [ß^= (X’Ω-1X)- X'Ωy] y su correspondiente matriz de covarianzas [Var (ß^)= (X’Ω-1X)-1]; aquí X denota la matriz de diseño e y el vector de datos. En la práctica, se tendrá que seleccionar el patrón de covarianza que mejor modele los datos, pues la estructura de la matriz de dispersión raramente resultará conocida a priori. Una vez que la matriz de covarianzas haya sido seleccionada y sus parámetros convenientemente estimados, generalmente usando el método de máxima verosimilitud (ML) o el de máxima verosimilitud restringida (REML), se está en condiciones de proceder a contrastar los efectos del modelo con tan sólo reemplazar Ω por su estimador Ω^ en Β^ y Var (Β^), respectivamente. El estimador resultante se denomina estimador de mínimos cuadrados generalizado empírico (EGLS) y la Var (ß~) matriz de covarianzas estimada.
Si el tamaño de muestra es reducido, las inferencias basadas en la verosimilitud deben ser interpretadas con suma cautela, pues la matriz de covarianzas estimada (Var (ß~)) infraestima la variabilidad muestral del estimador EGLS (ß~). Para conducirse con los efectos del sesgo en la estimación asintótica de los errores estándar se han desarrollado diferentes soluciones (Elston, 1998; Fai y Cornelius, 1996; Kenward y Roger, 1997), algunas ya han sido incorporadas dentro del procedimiento Mixed del gigantesco programa SAS (2004). Este módulo permite a los investigadores examinar más de una treintena de estructuras diferentes a la hora de modelar la matriz de covarianzas de las medidas repetidas. Es más, con un poco de ingenio Proc Mixed permite ajustar modelos sustancialmente más complejos que los reseñados en la documentación. Por ejemplo, los modelos autorregresivo y de media móvil integrados de primer orden [ARI (1,1) e IMA (1,1)] pueden ajustarse aplicando las estructuras autorregresivas de primer orden [AR (1)] y Toeplitz de segundo orden [TOEP (2)], respectivamente, si las observaciones originales se expresan en diferencias de orden uno (Núñez-Antón y Zimmerman, 2001).
Cuando se modela correctamente la estructura de covarianza de los datos, el modelo lineal de efectos mixtos es más potente que los reseñados anteriormente. Conviene advertir, sin embargo, que cuando el ajuste de la estructura de covarianza resulte incorrecto (existen serias discrepancias entre la matriz de covarianzas seleccionada y la matriz de covarianzas empírica), las inferencias relativas a los efectos fijos del diseño tenderán a desviarse más de su nivel de significación nominal que cuando la matriz de dispersión sea especificada adecuadamente. Según los datos de Valderas, Schaalje y Fellingham (2005) y Vallejo y Livacic-Rojas (2005), la robustez del enfoque queda puesta en entredicho cuando la muestra es reducida y el tamaño de los grupos está inversamente relacionado con el de las matrices de dispersión. Kowalchuck, Keselman, Algina y Wolfinger (2004) han descubierto que el enfoque del modelo mixto se comporta aceptablemente cuando se asume que los datos se acomodan a un patrón de covarianza no estructurado. A pesar de lo esperanzador que pueda resultar este descubrimiento, aventuramos que su alcance se reduce a diseños con un número de medidas repetidas pequeño (por ejemplo, q < 6). Por consiguiente, los investigadores interesados en utilizar este enfoque deberán formular el modelo comenzando por la fase de identificación.
En la actualidad, existen múltiples procedimientos para facilitar la especificación de un modelo parsimonioso. Por ejemplo, para elegir entre modelos anidados se puede utilizar el contraste de razón de verosimilitudes completas o residuales, dependiendo de si existen o no cambios en los efectos que definen la estructura de medias (véase Singer, 2002, para una justificación detallada de este tópico). Mientras que para elegir entre modelos no anidados se pueden utilizar diversos criterios de información, incluyendo el criterio de información de Akaike (AIC) (Akaike, 1974), el bayesiano de Schwarz (BIC) (Schwarz, 1978), el AIC corregido (CAIC) (Bozdogan, 1987) o el de Hannan y Quinn (HQIC) (Hannan y Quinn, 1979).
Por lo que respecta al análisis de datos doblemente multivariados con el enfoque de la regresión de efectos mixtos, resaltar que, hasta la fecha, la información disponible es bastante limitada (Chinchilli y Carter, 1984; Reinsel, 1982). Las investigaciones realizadas se han centrado, básicamente, en asumir que el patrón de covarianzas para las observaciones de cualquier sujeto es convenientemente caracterizado por el producto de dos procesos separados; uno para las variables dependientes y otro para las ocasiones de medida (Boik, 1991; Chaganty y Naik, 2002; Galecki, 1994; Naik y Rao, 2001). Esta función producto ofrece diversas ventajas en relación con la estructura general asumida por otros enfoques multivariados (por ejemplo, DMM, MBF, MSUR, WJ). En primer lugar, dado que resulta conocido que los datos de medidas repetidas suelen ajustarse relativamente bien a patrones de covarianza relativamente sencillos (Crowder y Hand, 1990), entonces es posible acomodar algún patrón (autorregresivo, de media móvil, simetría compuesta, Huynh-Feldt, Toeplitz, antedependiente, coeficientes aleatorios lineales o Wiener) dentro de la matriz de covarianzas correspondiente a las medidas repetidas. Por lo que respecta a la matriz de dispersión de las variables dependientes, se asume un patrón no estructurado. En segundo lugar, el número de parámetros a estimar cuando se asume el modelo más parsimonioso es sustancialmente más pequeño. En concreto, el número total de parámetros cuando se acepta una estructura multiplicativa es q(q+1)/2+r(r+1)/2-1, mientras que si se admite una estructura general es qr(qr+1)/2. Por último, la estructura de Kronecker permite a los investigadores solucionar de manera más efectiva los problemas relativos al desgaste de muestra. Actualmente, los investigadores disponen de varias pruebas para verificar si una matriz tiene la forma específica de un producto directo o si, por el contrario, se acomoda a una estructura arbitraria (Mitchell, Genton y Gumpertz, 2003; Naik y Rao, 2001; Roy y Khattree, 2005). Además, Boik (1991) describe un procedimiento que sirve para expresar en una escala de cero a uno el grado de desviación de una matriz de la estructura de Kronecker.
Enfoques flexibles para modelar medidas repetidas están incluidos dentro de programas de ordenador ampliamente disponibles. En particular, el módulo Proc Mixed del SAS puede ser una herramienta muy útil para analizar datos doblemente multivariados, y ello a pesar de no estar diseñada para ajustar datos de medidas repetidas bajo dos o más variables dependientes. Sin embargo, en muchas ocasiones es posible reformular el modelo de la regresión multivariado de coeficientes mixtos como uno univariado utilizando álgebra matricial apropiado. Una vez que los datos multivariados son expresados en formato univariado se aplica Proc Mixed con una estructura de covarianzas seleccionada por el investigador. El truco básico consiste en tener una variable indicador para cada una de las variables dependientes del modelo. En el apéndice se ilustra lo dicho. Las elecciones disponibles en la versión actual del módulo Proc Mixed para esta nueva situación se limitan a tres procesos, a saber: simetría compuesta, autorregresivo de primer orden y no estructurado.
Para concluir, resaltar que un modelo de la regresión multivariado de coeficientes mixtos que no descanse en el supuesto de normalidad multivariada también puede ser utilizado para contrastar los efectos de los tratamientos que el investigador considere de interés. Cuando sea razonable asumir que las observaciones han sido muestreadas desde algún miembro de la familia exponencial de distribuciones distinta de la normal (por ejemplo, binomial, Poisson, gamma), entonces un modelo que utilice ecuaciones de estimación generalizadas para dar cuenta de la correlación existente entre las medidas y entre las variables dependientes puede ser la solución adecuada (Gray y Brookmeyer, 2000; Rochon, 1996). El macro Glimmix permite realizar este análisis con el programa SAS. Sin embargo, cuando la falta de normalidad se deba a la existencia de valores atípicos cabría pensar en la posibilidad de utilizar estimadores robustos en conjunción con el modelo mixto multivariado.
Consideraciones finales
El modelo doblemente multivariado (DMM) suele ser el procedimiento preferido por los investigadores para analizar datos de medidas repetidas registrados en dos o más variables dependientes. Sin embargo, este enfoque carece de robustez cuando se incumple el supuesto de homogeneidad de las matrices dispersión. Aunque diversas alternativas han sido propuestas, en este trabajo nos hemos centrado en el enfoque MBF y en modelo de la regresión multivariada de efectos mixtos. Ambos procedimientos difieren en cuanto a la caracterización que realizan de la estructura de covarianzas y en lo referido al método de estimación de los parámetros. El modelo lineal de coeficientes mixtos usa el enfoque EGLS para estimar la estructura de medias y el enfoque ML/REML para estimar los componentes de varianza. Este enfoque permite a los investigadores seleccionar el patrón de covarianza que en teoría mejor describe sus datos, y con ello les da la oportunidad de encontrar un equilibrio entre los criterios de flexibilidad y parsimonia. Como hemos tratado de poner de manifiesto, un modelo excesivamente flexible (por ejemplo, DMM, MBF, MSUR o WJ) puede producir estimaciones ineficientes, mientras un modelo excesivamente parsimonioso (por ejemplo, MMM) puede producir pruebas sesgadas. Por su parte, el denominado enfoque MBF usa computación OLS basada en un modelo en el cual los efectos aleatorios y los coeficientes de la matriz de dispersión son tratados como fijos y arbitrarios, respectivamente.
Como detalle final queremos señalar dos cosas. Por un lado, que actualmente es posible con el módulo Proc Mixed reproducir puntualmente los resultados obtenidos con el módulo Proc Glm al analizar datos doblemente multivariados. Para ello tan sólo hay que especificar un modelo completamente parametrizado siguiendo los pasos que se especifican en el apéndice. Por otro lado, cabe esperar, al menos en teoría, que en aquellas situaciones donde ambos procedimientos controlen adecuadamente las tasas de error, el enfoque de regresión de efectos mixtos resulte más potente que el MBF para los efectos referidos al modelo de medias, sobre manera si la estructura de covarianzas juega un papel importante en la estimación. En estos casos, los errores estándar de los estimadores del modelo lineal de coeficientes mixtos son más pequeños que los del enfoque MBF, lo cual no es extrañar, ya que este enfoque pierde muchos grados de libertad en la estimación de la matriz de dispersión no estructurada.
Nota
Los autores agradecen los comentarios realizados por el Dr. Jaime Arnau, cuyas sugerencias nos han permitido mejorar sustancialmente la calidad del manuscrito. Este trabajo ha sido financiado mediante el proyecto de investigación del MEC, ref.: SEJ-2005-01883.
Un ejemplo descrito por López y Ato (1994) será utilizado para ilustrar el ajuste de un conjunto de datos doblemente multivariado mediante el enfoque del modelo mixto lineal general implementado en el módulo Proc Mixed del programa SAS. Según estos autores, 18 pacientes depresivos distribuidos en dos grupos de tratamiento del mismo tamaño fueron medidos tres veces a lo largo de nueve meses en dos variables dependientes diferentes. Para ejecutar el programa se asume que los registros se incorporan como un conjunto de datos SAS denominado lopato con formato multivariado. En concreto,
Data lopato; input id trp y1B y6; cards;
(Formula 1) (Formula 2)Donde id denota el paciente específico, trp el tratamiento terapéutico recibido e y1-y6 las medidas efectuadas; repárese que los tres niveles del factor tiempo se hallan anidados dentro cada una de las dos variables de respuesta. Antes de pasar a modelar los datos se requiere alterar el formato multivariado en uno univariado. Para alcanzar dicho cometido se puede hacer uso de los códigos SAS que siguen:
Data lopato; set lopato;
array v{6} y1-y6;
k=1;
do var = 1 to 2;
do time =1 to 3;
y = v {k};
output;
k = k + 1;
end;
end;
keep var id trp time y k;
Run;
A continuación, se efectúa el análisis de la regresión multivariado ajustando la estructura de covarianza mediante alguno de los dos programas (u otros similares) que siguen:
Proc Mixed data = lopato method = reml;
Class id trp var time;
Model y = var var _ trp var _ time var _ trp _ time / noint ddfm = KR;
Repeated var time / type = un @ cs sub = id (trp);
Run;
Proc Mixed data = lopato method = reml;
Class id trp var time;
Model y = var var _ trp var _ time var _ trp _ time/ noint ddfm = KR; Repeated var time / type = un @ ar(1) sub = id (trp) group = trp;
Run;
En el primer conjunto de sentencias se admite que los datos satisfacen el supuesto de esfericidad multimuestral, mientras que en el segundo, además de aceptarse que las matrices de dispersión son heterogéneas, se asume que dentro de cada variable de respuesta la correlación entre los registros decrece a medida que aumenta el tiempo de separación entre ellos.
Finalmente, cuando las matrices de dispersión sean homogéneas resulta factible reproducir los resultados generados por el módulo Proc Glm al analizar datos doblemente multivariados mediante el programa
Proc Glm;
Class trp;
Model y1-y6 = trp / nouni;
Repeated response 2 identity, time 3;
Run;
efectuando tres breves operaciones en los códigos SAS Proc Mixed declarados anteriormente como sigue: (a) incluir una variable k que contenga q - r niveles, (b) sustituir la sentencia * Repeated var time / type = un @ ar(1) sub = id (trp)+ por* Repeated k / type = un sub = id (trp)+ y (c) suprimir group = trp. Como resultado, el nuevo programa adoptaría la forma que sigue:
Proc Mixed data = lopato method = reml;
Class id trp var time k;
Model y = var var _ trp var _ time var _ trp _ time / noint ddfm = KR;
Repeated k / type = un sub = id (trp);Run;
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on automatic Control, AC-19, 716-723.
Algina, J. y Oshima, T.C. (1994). Type I error rates for Huynh’s general approximation and improved general approximation tests. British Journal of Mathematical and Statistical Psychology, 47, 151-165.
Allison, P.D. (2000). Multiple imputation for missing data: a cautionary tale. Sociological Methods & Research, 28, 301-309.
Blanca, M.J. (2004). Alternativas de análisis estadístico en los diseños de medidas repetidas. Psicothema, 16, 509-518.
Boik, R.J. (1991). Scheffé’s mixed model for multivariate repeated measures: a relative efficiency evaluation. Communication in Statistics-Theory and Methods, 20, 1.233-1.255.
Bozdogan, H. (1987). Model selection and Akaike’s Information Criterion (AIC): the general theory and its analytical extensions. Psychometrika, 52, 345-370.
Brown, M.B. y Forsythe, A.B. (1974). The small sample behavior of some statistics which test the equality of several means. Technometrics, 16, 129-132.
Chaganty, N.R. y Naik D.N. (2002). Analysis multivariate longitudinal data using quasi-least squares. Journal of Statistical Planning and Inference, 103, 421-436.
Chinchilli, V.M. y Carter, W.H. (1984). A likelihood ratio test for a patterned covariance matrix in a multivariate growth curve model. Biometrics, 40, 151-156.
Crowder, M.J. y Hand, D.J. (1990). Analysis of repeated measures. New York: Chapman & Hall.
Elston, D.A. (1998). Estimation of denominator degrees of freedom of F-distributions for assessing Wald statistics for fixed-effect factors in unbalanced mixed models. Biometrics, 54, 1.085-1.096.
Fai, A.H.T. y Cornelius, P.C. (1996). Approximate F-tests of multiple degree of freedom hypotheses in generalized least squares analyses of unbalanced split-plot experiments. Journal of Statistical Computation and Simulation, 54, 363-378.
Galecki, A.T. (1994). General class of covariance structures for two or more repeated factors in longitudinal data analysis. Communications in Statistics-Theory and Methods, 23, 3.105-3.119.
Gray, S.M. y Brookmeyer, R. (2000). Multidimensional longitudinal data: estimating a treatment effect from continuous, discrete, or time-to-even response variables. Journal of the American Statistical Association, 95, 396-404.
Hannan, E.J. y Quinn, B.G. (1979). The determination of the order o an autoregression. Journal of the Royal Statistical Society, Series B, 41, 190-195.
Jennrich, R.I. y Schluchter, M.D. (1986). Unbalanced repeated-measures models with structured covariance matrices. Biometrics, 42, 805-820.
Johansen, S. (1980). The Welch-James approximation of the distribution of the residual sum of squares in weighted linear regression. Biometrika, 67, 85-92.
Khattree, R. y Naik, D.N. (2003). Applied multivariate statistics with SAS® software (2nd Ed.). Cary, NC: SAS Institute Inc.
Kenward, M.G. y Roger, J.H. (1997). Small sample inference for fixed effects from restricted maximum likelihood. Biometrics, 53, 983-997.
Keselman, H.J., Algina, J. y Kowalchuk, R.K. (2002). A comparison of data analysis strategies for testing omnibus effects in higher-order repeated measures designs. Multivariate Behavioral Research, 37, 331-357.
Keselman, H.J. y Lix, L.M. (1997). Analysing multivariate repeated measures designs when covariance matrices are heterogeneous. British Journal of Mathematical and Statistical Psychology, 50, 319-338.
Kowalchuk, R.K., Keselman, H.J., Algina, J. y Wolfinger, R.D. (2004). The analysis of repeated measurements with mixed-model adjusted F tests. Educational and Psychological Measurement, 64, 224-242.
Krishnamoorthy, K. y Yu, J. (2004). Modified Nel and Van der Merwe test for the multivariate Behrens-Fisher problem. Statistics & Probability Letters, 66, 161-169.
Laird, N.M. y Ware, J.H. (1982). Random-effects models for longitudinal data. Biometrics, 38, 963-974.
Liang, K.R. y Zeger, S. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73, 13-22.
Little, R.J.A. y Rubin, D.B. (1987). Statistical analysis with missing data. New York: John Wiley.
Lix, L.M., Algina, J. y Keselman, H.J. (2003). Analysing multivariate repeated measures designs: a comparison of two approximate degrees of freedom procedures. Multivariate Behavioral Research, 38, 403-431.
Lix, L.M. y Hinds, A.M. (2004). Multivariate contrasts for repeated measures designs under assumptions violations. Journal of Modern Applied Statistical Methods, 3, 333-343.
Lix, L.M., Keselman, H.J. y Hinds, A.M. (2005). Robust tests for the multivariate Behrens-Fisher problem. Computer Methods and Programs in Biomedicine, 77, 129-139.
López, J. y Ato, M. (1994). Procedimientos analíticos para el ajuste de diseños multivariantes de medidas repetidas. Psicothema, 6, 447-463.
Mitchell, M.W., Genton, M.G. y Gumpertz, M.L. (2003). A likelihood ratio test for separability of covariances. Paper presented at the meeting of the American Statistical Association, August, San Francisco, CA.
Naik, D.N. y Rao, S.S. (2001). Analysis of multivariate repeated measures data with a Kronecker product structured covariance matrix. Journal of Applied Statistics, 28, 91-105.
Nel, D.G. y van der Merwe, C.A. (1986). A solution to the multivariate Behrens-Fisher problem. Communications in Statistics-Theory and Methods, 15, 3.719-3.735.
Núñez-Antón, V. y Zimmerman, D.L. (2001). Modelización de datos longitudinales con estructuras de covarianza no estacionarias: modelos de coeficientes aleatorios frente a modelos alternativos. Qüestiió, 25, 225-262.
Olson, C.L. (1974). Comparative robustness of six tests in multivariate analysis of variance. Journal of the American Statistical Association, 69, 894-908.
Reinsel, G. (1982). Multivariate repeated-measurement of growth curve models with multivariate random-effects covariance structure. Journal of the American Statistical Association, 77, 190-195.
Rochon, J. (1996). Analyzing bivariate repeated measures for discrete and continuous outcome variables. Biometrics, 52, 740-750.
Roy, A. y Khattree, R. (2005). Testing the hypothesis of a Kronecker product covariance matrix in multivariate repeated measures data. Proceedings of the Thirty Annual SAS® Users Group International (SUGI) Conference, Philadelphia, Pennsylvania, April 10-13.
SAS Institute Inc. (2004). SAS/STAT Software: Version 9.1 (TS2M0). Cary, NC: SAS Institute Inc.
Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
Singer, D.J. (2002). Fitting individual growth models using SAS PROC MIXED. En D.S. Moskowitz y S.L. Hershberger (eds.): Modeling intraindividual variability with repeated measures data: methods and applications (pp. 135-170). Mahwah, NJ: Lawrence Erlbaum Associates.
Valderas, E., Schaalje, G.B. y Fellingham, G.W. (2005). Performance of the Kenward-Roger method when the covariance structure is selected using AIC and BIC. Communications in Statistics: Simulation and Computation, 34, 377-392.
Vallejo, G. y Ato, M. (en prensa). Modified Brown-Forsythe for testing interaction effects in split-plot designs. Multivariate Behavioral Research.
Vallejo, G., Fidalgo, A.M. y Fernández, M.P. (1998). Efectos de la no esfericidad en el análisis de diseños multivariados de medidas repetidas. Anales de Psicología, 14, 249-268.
Vallejo, G., Fidalgo, A.M. y Fernández, P. (2001). Effects of covariance heterogeneity on three procedures for analysing multivariate repeated measures designs. Multivariate Behavioral Research, 36, 1-27.
Vallejo, G. y Livacic-Rojas, P. (2005). A comparison of two procedures for analyzing small sets of repeated measures data. Multivariate Behavioral Research, 40, 179-205.
Zellner, A. (1962). An efficient method of estimating unrelated regressions and tests for aggregation bias. Journal of the American Statistical Association, 57, 348-368.