Psicothema was founded in Asturias (northern Spain) in 1989, and is published jointly by the Psychology Faculty of the University of Oviedo and the Psychological Association of the Principality of Asturias (Colegio Oficial de Psicología del Principado de Asturias).
We currently publish four issues per year, which accounts for some 100 articles annually. We admit work from both the basic and applied research fields, and from all areas of Psychology, all manuscripts being anonymously reviewed prior to publication.
Psicothema, 1995. Vol. Vol. 7 (nº 2). 401-418
Guillermo Vallejo e Ignacio A. Menéndez
Universidad de Oviedo
El supuesto de independencia de las observaciones parece una asunción razonable cuando se hace uso del diseño experimental de grupos al azar con el propósito de examinar datos de corte transversal. Sin embargo, en la práctica dicho supuesto raramente es verificado. Por este motivo, pretendemos determinar mediante el conocido método de Monte Carlo las tasas de error Tipo I y II cometidas al utilizar diversos procedimientos de comparación múltiple en presencia de correlación dentro de los grupos.
Multiple comparisons in cross-sectionals designs with dependent data. The assumption of independence of observations may seem like a reazonable assumption in examinimi data cross-sectional using experimental designs of single-factor. The assumption of independence, however is seldom verified by the investigators. By this reason we pretend to examine the relationship between true Types I and II error probabilities under the effects of departures from independence assumptions on hypothesis testing in six multiple comparison procedures.
Son muchos los experimentos diseñados con el propósito de poder determinar si algún efecto de los tratamientos está presente. Por regla general, en el caso de que una prueba de significación conduzca al rechazo de una hipótesis nula, la atención del investigador se dirige a explorar los datos en orden a descubrir tales efectos. Para tal fin diversos métodos han sido propuestos. Con todo, la elección de un procedimiento para comparar múltiples pares de medias no es precisamente una tarea sencilla, pues en la actualidad existen diversos procedimientos, y en opinión de Kirk (1990) la lista de opciones disponibles continúa incrementándose. Afortunadamente, durante los últimos veinte años varios investigadores (Petrinovich y Hardyck, 1969; Carmer y Swanson, 1973; Einot y Gabriel, 1975; Ramsey, 1978; Martin, Toothaker y Nixon, 1989; Seeman, Levin y Serlin, 1991) han llevado a cabo una serie de trabajos de carácter empírico en los que se han examinado las tasas de error Tipo I y Tipo II cometidos al utilizar los procedimientos de comparaciones múltiples más corrientes (Fisher, Fisher-Hayter, Dunn-Bonferon, Holm, Shaffer, Tukey, Newman-Keuls, Ryan-Welsch, Peritz, Scheffé, etc). En la mayor parte de los trabajos reseñados, además de manipularse el tamaño de la muestra, el número de grupos y en ocasiones la forma de las distribuciones, se examinaron una gran cantidad de configuraciones de medias (rango máximo, rango mínimo, e igualmente espaciadas), diversas conceptualizaciones de la tasa de error (tasa de error por comparación. apc; tasa de error por experimento, aPE y tasa de error por experimento concreto, aEW) y varias operativizaciones de la potencia de las pruebas (potencia de cualquier par de comparaciones, potencia de todos los pares y potencia por comparación). A continuación, con el fin de enmarcar adecuadamente el problema que va a constituir nuestro objeto de estudio, comentaremos algunos de los descubrimientos que a nuestro juicio resultan más notorios.
Los resultados de estos experimentos ponen de relieve que cuando la unidad conceptual de error adoptada por los investigadores es la tasa de error por comparación y la hipótesis nula es globalmente verdadera la usual prueba de t controla la tasa de error al nivel del umbral estipulado. El resto de los procedimientos seleccionados para efectuar comparaciones múltiples manifiestan un control de la tasa de error por debajo del a estipulado. A su vez, cuando la hipótesis nula es globalmente verdadera, pero la unidad conceptual para la tasa de error adoptada por el investigador es la aew la usual prueba t arroja estimaciones empíricas de a que oscilan entre 0.25 cuando el número de grupos es igual a 5 (p=5) y 0.85 (p=20); resultados similares, aunque menos acentuados, proporciona la prueba de Duncan, en este caso a oscila entre 0.18 (p=5) y 0.60 (p=20). Por su parte el método LSD de Fisher mantiene la tasa de error controlada al nivel estipulado para la prueba F global. Los métodos de HSD de Tukey y de Newman-Keuls (en adelante NK) controlan la tasa de error al nivel estipulado. Unicamente el procedimiento de Scheffé manifiesta un control de la tasa de error por debajo del umbral elegido. Por último, cuando la hipótesis nula es parcialmente verdadera, la unidad conceptual que se adopta para la tasa de error es la aew y el valor de p es igual a tres (p=3) todos los procedimientos posthoc controlan aceptablemente la tasa de error, además los métodos LSD y NK resultan ser muy poderosos. Sin embargo, cuando p>3 los procedimientos LSD y NK son inaceptables en lo que al control de la aew se refiere, pues arrojan tasas de error empíricas que oscilan entre 0.11 (p=5) y 0.46 (p=20). En los restantes procedimientos el valor empírico de a se aproxima al a teórico, o bien resulta ser algo más pequeño dependiendo de la configuración de las medias manipulada por el investigador.
Por lo que a la potencia se refiere (solamente nos vamos a referir a la potencia por comparación), decir que cuando la hipótesis nula es parcialmente verdadera y la configuración de las medias es de rango mínimo las modificaciones efectuadas en el procedimiento LSD por Hayter (1986) y en el procedimiento NK por Ryan (1960), Einot y Gabriel (1975) y Welsch (1977), conlleva que éstos se muestren muy poderosos. El procedimiento de Tukey se encuentra en una posición intermedia y el de Scheffé en el extremo opuesto. Resultados similares aparecen cuando las medias están espaciadas igualmente. Sin embargo, cuando las medias tienen una configuración de rango máximo, el procedimiento de Tukey se manifiesta como un método enormemente poderoso. Por su parte, el de Sheffé continua siendo poco poderoso. En términos generales, podemos decir que el procedimiento de Fisher-Hayter y el de Tukey son alrededor de un 2% y 6%, respectivamente, menos poderosos que el procedimiento más poderoso, de acuerdo con estos estudios el honor de ser la prueba más poderosa le corresponde al método de Peritz, pero con la ventaja añadida de su enorme simplicidad computacional. (Un programa escrito en Fortrán para ejecutar comparaciones múltiples haciendo uso del método Q de Peritz aparece en el n° 21 de la revista Behavior Research Methods, Instruments and Computers).
En lo que a la robustez se refiere, comentar que la investigación empírica tan sólo se ha dirigido al incumplimiento de las suposiciones de normalidad y homogeneidad. Por lo que respecta a la ausencia de normalidad los trabajos de Petrinovich y Hardick, ya citados, Keselman y Rogan (1978), Dunnett (1982) y Ringland (1983) ponen de relieve, como cuando el número de unidades experimentales dentro de cada grupo es el mismo y las varianzas son homogéneas la forma de la distribución tiene poco que ver en la protección que estas pruebas nos ofrecen frente a la probabilidad de cometer uno o más errores de tipo I, tan sólo la potencia se incrementa ligeramente en el caso de que p sea elevado (p>10). Unicamente, si la distribución presenta un apuntamiento excesivo o varias puntuaciones extremas los procedimientos de Tukey y de Scheffé se vuelven ligeramente conservadores (en los trabajos de los autores citados y en lo referido a la robustez de los PCM los investigadores se han centrado principalmente en los procedimientos de Dunn, Bechhofer-Dunnett, Tukey y Scheffé). A su vez, por lo que respecta al incumplimiento del supuesto de homogeneidad resaltar que los distintos PCM también se comportan honestamente, sobre todo, cuando el número de unidades experimentales dentro de cada grupo es el mismo y sólo se efectúan comparaciones entre pares de medias. Más aún, en aquellas situaciones en que la heterogeneidad es muy acentuada (1: 50) la mayoría de las pruebas ofrecen un adecuado control del error tipo I. A destacar entre las mencionadas la de Scheffé, la cual raramente ofrece un valor que va más allá del a = 0.06; en estos casos la menos robusta resulta ser la Q de Peritz.
Como se puede apreciar de lo dicho, sorprende que no se haya realizado ninguna investigación de carácter empírico destinada a analizar el comportamiento de los procedimientos más comúnmente utilizados para efectuar comparaciones múltiples cuando se incumple el supuesto de independencia. Más aún si cabe, si se tiene presente que derivaciones analíticas recientes (Pavur, 1988, Scariano y Davenport, 1987) han puesto de relieve la incidencia que el incumplimiento de dicho supuesto tiene sobre las tasas de error de la mayor parte de las pruebas de significación existentes, sobre todo, de las clásicas pruebas de t y F. Obviamente, este aspecto contrasta con la aceptable robustez de estas pruebas cuando los supuestos de normalidad y/o homogeneidad no se satisfacen; sobre manera, cuando el diseño se encuentra perfectamente balanceado y tan sólo se practican comparaciones entre pares de medias.
En nuestra opinión el que esto sea así se debe a que el supuesto de independencia de las observaciones en datos de sección cruzada parece un supuesto razonable y, por ende, raramente es verificado. Para comprobar lo dicho bastaría con echar una ojeada a la mayoría de los textos que sobre diseño existen. En estas obras todos los autores están de acuerdo que el incumplimiento de la suposición de independencia es la peor enfermedad que pueden presentar los datos, sin embargo, sólo en textos muy específicos se presentan pruebas para comprobar este supuesto. Por el contrario, no deja de ser paradójico que al tiempo que se relativiza la importancia del incumplimiento de las suposiciones de normalidad y/o de homogeneidad, se presenten numerosas pruebas para su verificación e inclusive pruebas denominadas robustas que no requieren ni tan siquiera verificarlas. En relación con el tópico que nos ocupa, esto es, el incumplimiento del supuesto de independencia, cabe suponer que los investigadores confian que el acto físico de la aleatorización asegure la independencia de las observaciones. Con todo, al margen de la propia forma de conducir el experimento (por ejemplo, trabajar todos juntos en grupos, medir a los sujetos más de una vez. etc), bien puede ocurrir que el proceso de aleatorización no sea todo lo correcto que debiera por no contar con un adecuado tamaño de muestra, e inclusive que éste no se llegue a efectuar.
Objetivos e hipótesis
A raíz de lo expuesto en el apartado anterior, resulta obvio que se necesitan nuevas investigaciones con el propósito de poder determinar de la manera más clara que nos sea posible los tres objetivos que siguen:
1.-Comprobar empíricamente el comportamiento de los procedimientos LSD de Fisher (1935), FH de Fisher (1935) y Hayter (1986), NK de Newman (1939) y Keuls (1952), REGW de Ryan (1960), Einot y Gabriel (1975) y Welsch (1977), HSD de Tukey (1953) y S de Scheffé (1959) a la hora de llevar a cabo comparaciones de medias bajo el incumplimiento del la supuesto de independencia con datos de sección cruzada. Pues, aunque usualmente este supuesto se da por sentado, puede ocurrir que no se satisfaga; bien sea por deficiencias en el propio proceso de aleatorización o bien por la propia forma de conducir el experimento.
2.-Verificar si los datos se comportan conforme a lo que cabría esperar a partir de las derivaciones teóricas efectuadas desde los trabajos de Pavur (1988) y de Scariano y Davenport (1987), entre otros.
3.-Comprobar hasta que punto, una vez que las puntuaciones están infectadas por la presencia de correlación, el método que nos proponemos desarrollar para corregir la falta de independencia proporciona resultados coincidentes con los resultados obtenidos por otros investigadores (Lames y Serlin, 1991, Klockars y Hancock, 1994, y Seaman y otros, 1991) cuando se cumplen los supuestos del módelo; haciendo uso, claro está, de los mismos procedimientos de comparaciones múltiples y manipulando variables similares.
De este modo, consideramos la posibilidad de aportar un modelo de análisis para los datos obtenidos desde diseños experimentales de corte transversal en presencia de dependencia dentro de los grupos y/o a través de los grupos. Nosotros en el presente trabajo tan sólo nos centraremos en la primera, no obstante, el modelo matemático que vamos a desarrollar se generaliza fácilmente a diseños con datos correlacionados tanto dentro como a través de los grupos. Con ello, pensamos; que además de contribuir al desarrollo de nuevas técnicas de análisis más apropiadas para esta clase de datos (que sin ningún genero de dudas hasta el momento han sido insuficientemente probados), también resolvemos, en parte, uno de los principales problemas que afectan a la investigación, cómo es decidir ¿cuál de los diferentes procedimientos propuestos para llevar a cabo comparaciones múltiples es más adecuado?, tanto cuando se da correlación en los datos, como cuando dicha correlación ha sido corregida. Todo ello a la luz de la tasa de error tipo I y de la potencia de prueba para cada uno de los dos procedimientos de análisis.
A su vez, por lo que respecta a las hipótesis, en la tabla 1 presentamos un cuadro resumen derivado analíticamente por nosotros para esta ocasión con las probabilidades de error tipo I teóricas que esperamos encontrar con la prueba de Scheffé en el caso de que H0 sea globalmente verdadera. Dicha tabla esta configurada en función de la correlación existente (r) del número de unidades experimentales dentro de cada grupo (n), del número de niveles de la variable (p) y de los valores c1 y c2 que definiremos en el próximo apartado; y a través de ella estamos en condiciones de poder predecir una serie de acontecimientos que esperamos que ocurran en la investigación empírica. En concreto, a partir de la tabla 1 podemos observar como a medida que la correlación se incrementa la probabilidad de cometer, al menos un error de tipo I, crece dramáticamente. Además, contrariamente a lo que cabría esperar, la tasa de error guarda una relación directa con el tamaño de la muestra y con el número de grupos. Similarmente, a partir de esta derivación teórica y, en base al trabajo de Pavur también cabe esperar que los procedimientos más conservadores no serán en el caso que nos ocupa los que nos ofrecen mayor protección frente a la probabilidad de cometer errores tipo I.
Corrección de la correlación
Considérese el siguiente modelo de diseño experimental de un sólo factor
y = x β + ε
donde
y es el vector de observaciones de orden Nx1
X es la matriz de diseño de orden Nx(p+1) la cual adopta la forma que sigue:
b es el vector de parámetros del modelo de orden (p+1)x1.
e es el vector de errores aleatorios de orden Nx1 con E(e) = 0 y V(e) = σ2eU
σ2e es la varianza de cada componente del vector de observaciones y U es una matriz de correlaciones.
Si asumimos que N=pn, entonces el número de observaciones dentro de cada uno de los grupos que componen el diseño será el mismo. b’ = [m, b1, b2,...,bp], donde m es la media general y b1, b2,...., bp son los efectos de los p grupos bajo investigación. Con el fin de poder estimar los parámetros desconocidos del modelo asumimos que
La estructura de correlación que vamos a considerar entre las puntuaciones del vector y' = [y11, y12,..., y1n, y21, y22..., yp1, yp2,..., ypn] es una en la cual la correlación dentro de los grupos r ≠ 0 y entre los grupos r = 0. De esta manera U es una matriz diagonal de bloques de orden NxN cuya forma general puede ser representada como sigue:
donde 0 es una matriz de ceros de orden nxn y A es una matriz que presenta simetría combinada de orden nxn. Por consiguiente, la matriz de varianzas-covarianza V puede expresarse como
Siguiendo el trabajo de Pavur y Lewis (1983), si definimos
la matriz de correlación U puede escribirse como
donde c1, c2 y c3 son constantes positivas que guardan la siguiente relación
Por tanto, si r (0 < r < 1), c1 = 1 + p (n-1), c2 = (1 - r) y c3 = c1. Como nos señalan Scariano y Davenport (1987), si c1 = c2 = c3 entonces U = IN.
Establecidas las asunciones sobre el modo de alcanzar las observaciones en el modelo, debemos pasar a obtener el vector de coeficientes b. Para ello, es bien conocido que el estimador mínimo cuadrático generalizado de Aitken puede ser utilizado
Obtener este estimador puede resultar bastante trabajoso dado que V es una matriz de orden NxN. Sin embargo, si una matriz de transformación P puede ser descubierta, de modo que la matriz de varianzas-covarianzas de los residuales filtrados esté libre de correlación, el procedimiento se simplifica enormemente, pues el estimador b puede lograse utilizando el método de los mínimos cuadrados ordinarios con la matriz yvector de variables X e y transformados por P.
Para la construcción de la matriz de transformación existen varios procedimientos, nosotros en una publicación relativamente reciente (Vallejo y Fernández, 1990), desarrollamos dos de estos métodos. Sin embargo, en el trabajo que nos ocupa, una vez que tenemos construida la matriz U conforme al procedimiento descrito por Pavur y Lewis, la forma más rápida de descubrir P de modo que se cumpla
P'P = U-1
PUP' = I
es el ofrecido por Pavur (1988). De acuerdo con este investigador P viene dada por
En consecuencia, al multiplicar la ecuación y = Xb + e por P se obtiene
Py = PXb + Pe
haciendo y=Py, X=PX y e=Pe tenemos y = Xb + e, Donde están distribuidos N(0, s2I), y el estimador b que cumple con las propiedades del teorema Gauss-Markov es:
La prueba estadística para llevar cabo las comparaciones múltiples la podemos expresar como sigue
donde CMe*yi son
Cn e y ya han sido definidos y c'ij es un vector de orden px1 cuyos ponentes son todos ceros excepto los que ocupan las posiciones ith y jth que valen respectivamente 1/n y -1/n.
Método
Si bien es cierto que algunos resultados pueden derivarse analíticamente, no es menos cierto, que la complejidad y el excesivo número de variables hacen esta tarea prácticamente prohibitiva. Por tanto, en orden a evaluar los objetivos que nos hemos marcado en el apartado anterior diseñamos un experimento de simulación Monte Carlo en base a cuatro áreas de interés: Tipo de hipótesis (hipótesis nula global y parcialmente verdadera), configuración de las medias (configuración de rango mínimo, máximo e igualemente espaciadas), número de unidades experimentales dentro de cada grupo (n= 10, 15, 19) y grado de correlación dentro de los grupos (r = 0.00, 0.05, 0.10, 0.15, 0.20 y 0.30).
Los patrones de diferencias de medias que serán estudiados han sido tomados desde Seaman, Levin y Serlin (1991), la razón para ello es que, además de adaptarse perfectamente a las características de nuestra investigación, nos van a permitir ver el grado de coincidencia existente entre sus resultados y los nuestros con aquellos casos en los cuales r = 0, claro está, para aquellas pruebas que sean coincidentes en ambos estudios; en concreto, la de Fisher-Hayter, la de Tukey y la de Scheffé. El patrón de medias elegido para el estudio Monte Carlo es el que se muestra en la tabla 2.
Los valores especificados en la tabla 2 fueron elegidos de modo que cuando n=10, n=15 y n=19 la potencia de prueba fuese aproximadamente 1-b = 0.60, 1-b = 0.80 y 1-b = 0.90 al a = 0.05 y 1-b = 0.32, 1-ó = 0.56 y 1-b = 0.74 al a = 0.01 siendo la varianza de cada población igual a la unidad.
Procedimiento
En orden a evaluar los objetivos expuestos, en una primera fase desde distribuciones normales, extraemos múltiples conjuntos de vectores pseudoaleatorios yi = [Yi1, Yi2,....,Yip] con vector de medias m'= [m1, m2,...., mp] y la matriz de varianza-covarianza V Las observaciones son obtenidas mediante la descomposición triangular de V (frecuentemente referida como factorización de Cholesky o método de la raíz cuadrada, Harman, 1967), esto es,
yi = μ + Tzi
donde T es una matriz triangular inferior que satisface la igualdad V=TT' y zi es un vector de puntuaciones normal e independientemente distribuidas con m=0 y s2 = 1, generados de acuerdo al algoritmo propuesto por Kinderman y Ramage (1976).
Dos probabilidades han sido calculadas, la tasa de error por comparación y la potencia por comparación (probabilidad promedio de detectar una diferencia verdadera a lo largo de todas las comparaciones).
Para cada una de las 72 condiciones existentes (4 patrones de medias x 3 tamaños de muestras x 6 estructuras de correlación diferentes) se han efectuado 10.000 replicaciones adoptando los niveles de significación a=0.10, 0.05 y 0.01.
En una segunda fase procederemos a eliminar la dependencia que con anterioridad introdujimos en los datos que configuran nuestros grupos. Para ello, cada una de las series será transformada mediante el procedimiento descrito con anterioridad para corregir la correlación; de este modo, la matriz de varianza-covarianza del error será un escalar, satisfaciendo así las asunciones del modelo mínimo cuadrático. Al contar con series de puntuaciones en las cuales la correlación dentro de los grupos es nula (r=0) y series de datos en los cuales existe distinto grado de correlación (r ≠ 0).
Estamos en una disposición inmejorable para comprobar, no sólo cómo afectan las diferentes estructuras de correlación a las tasas de error, sino también para verificar si una vez corregida la correlación las probabilidades de cometer errores Tipo I y Tipo II se mantienen similares entre aquellas situaciones en las cuales r=0 y entre aquellas otras en las cuales r ≠ 0, pero ha sido corregido.
Por último, reseñar que para llevar a cabo los cálculos descritos anteriormente, hemos desarrollado un programa en Gauss (v. 2.0).
Resultados
Antes de comenzar a exponer los resultados hallados, queremos resaltar dos cuestiones. Por un lado, el análisis de las comparaciones múltiples ha sido realizado tanto cuando el análisis de la variancia resultó significativo como cuando no lo fue. Por otro lado, dado que el número de niveles de la variable tratamiento es de 3 (p=3), los resultados que obtendríamos por los procedimientos LSD y FH serían idénticos, lo mismo ocurriría con los resultados obtenidos mediante los procedimientos NK y REGW; de ahí que en las tablas que siguen tan sólo aparezcan los acronimos LSD y NK.
En el comentario de los resultados empezaremos detallando como afecta la dependencia de los datos al análisis de varianza, para posteriormente centrarnos en las comparaciones de medias.
Análisis de varianza
Cuando la hipótesis nula es globalmente verdadera encontramos que la tasa de error Tipo I se dispara al ir aumentando la correlación, como se puede encontrar en la tabla 3. Este aumentó de la tasa de error, una vez que hay dependencia en los datos, es directamente proporcional al tamaño de muestra y a.
Con respecto a la potencia encontramos como esperabamos que para α=0.05 ésta es aproximadamente 0.6, 0.8 y 0.9 para n=10, n=15 y n=19 respectivamente. Observamos que la potencia es mayor cuando aumenta la dependencia y cuando crece el tamaño de muestra. A lo apuntado en último lugar hay que hacer una salvedad, la potencia no aumenta e incluso disminuye ligeramente, aún en el caso de que se incremente r cuando la potencia es mayor de 0.85.
Comparaciones de medias
Es importante resaltar que la realización o no del análisis de varianza tan sólo modifica los resultados para los procedimientos LSD y FH; en el resto de los procedimientos de comparaciones de medias, se obtienen los mismos resultados tanto si se realiza el AVAR como si no.
Como se puede comprobar en las tablas 4 y 5 podemos ordenar los procedimientos según sea su tasa de error por comparación de menor a mayor: S, HSD, NK y REGW, y LSD y FH. Por otra parte también podemos ordenarlos según su potencia de mayor a menor: LSD y FH, NK y REGW, HSD y S (estos resultados se encuentran en las tablas 6 y 7).
Los resultados obtenidos cuando la hipótesis nula es verdadera, nos indican que la tasa de error crece peligrosamente al incrementarse la dependencia. Volvemos a encontrar que la tasa de error aumenta (en presencia de correlación) al aumentar el tamaño de muestra y a La única diferencia encontrada entre realizar o no el AVAR es como se comentó con anterioridad para los procedimientos LSD y FH; si no realizamos el AVAR su tasa de error Tipo I se mantiene al nivel nominal elegido cuando r=0, mientras que si se hace un AVAR la tasa de error es aproximadamente la mitad.
Si analizamos los resultados hallados con respecto a la potencia de prueba, encontramos que los procedimientos que presentan una mayor potencia per se (cuando no hay, dependencia) son los que menos la incrementan, porcentualmente, al aumentar la dependencia entre las puntuaciones. Las tasas más altas de potencia por comparación para todos los PCM se encuentran en la configuración de rango mínimo, encontrándose unos resultados muy similares entre la de rango máximo y la de medias igualmente espaciadas. En todos los casos se encuentra que la potencia aumenta al incrementarse el tamaño de muestra. Al igual que ocurría para el error Tipo I, en el caso de la potencia también se encuentran diferencias entre los procedimientos LSD y FH si se realiza el AVAR o no, ya que ambos procedimientos presentan mayor potencia caso de no realizarse el AVAR.
Corrección de la dependencia
Hemos podido comprobar que la violación de la suposición de independencia es la peor enfermedad que pueden presentar los datos. Como indicamos anteriormente, Pavur (1988) presenta un procedimiento de corrección de la dependencia, que es el seguido en este trabajo. Los resultados hallados, se presentan respectivamente, en las tablas 8 y 9 para los errores Tipo I por comparación, y en las tablas 10 y 11 para la potencia por comparación.
Cuando la hipótesis nula es globalmente verdadera, comprobamos como la corrección de la dependencia del error, mantiene la tasa de error tipo I controlada al nivel nominal elegido para todos los PCM evaluados. No obstante, cuando la configuración de las medias es de rango mínimo, únicamente los procedimientos desarrollados por Scheffé y Tukey logran controlar adecuadamente la tasa de error. El resto de los procedimientos no logran controlar la tasa de error indistintamente de la configuración que presenten las medias.
Sin embargo, no podemos afirmar lo mismo con respecto a la potencia de prueba, ya que la corrección de la dependencia la infraestima notablemente sea cual sea la configuración de nuestras medias.
Discusión
Para terminar, y de una manera muy breve vamos a proceder a realizar una comparación entre los resultados que presentamos en este trabajo y los hallados por otros autores, obviamente, en aquellas situaciones en que se hayan utilizado diseños y procedimientos similares.
Los resultados presentados por Scariano y Davenport (1987) acerca de los efectos del incumplimiento del supuesto de independencia en el AVAR, coinciden con los reseñados por nosotros, claro está, cuando las variables implicadas son las mismas.
En otra publicación, Seaman, Levin y Serlin (1991) muestran la diferencia entre diversos procedimientos de comparación múltiple. Nuevamente, encontramos una coincidencia con nuestros resultados cuando las variables manejadas (patrones de medias, tamaños de muestra y r=0) por estos autores son las mismas que las nuestras; en concreto, para el caso de potencia por comparación en ausencia de dependencia para los procedimientos HSD y LSD.
Con respecto a la tabla 1, donde se presentaban las verdaderas probabilidades de error tipo I de la prueba de Scheffé bajo H0, hemos de decir que los resultados producto de la simulación presentan una tasa de error menor que los de la derivación analítica.
Por último, queremos resaltar que la presencia de dependencia en los datos es lo peor que le puede ocurrir a un investigador, ya que si bien bajo hipótesis nula verdadera el procedimiento desarrollado para corregir la correlación parece comportarse honradamente, no podemos afirmar lo mismo cuando la hipótesis alternativa es la verdadera; esto es, cuando las medias presentan configuración de rango mínimo, máximo e igualmente espaciadas.
Referencias
Carmer, S.G. y Swanson, M.R. (1973). An evaluation of ten multiple comparison procedures by Monte Carlo methods. Journal of the American Statistical Association, 68, 66-74.
Dunnett, C.W. (1982). Robust multiple comparisons. Communications in Statistics, Simulation and Computation, 11, 2611-2624.
Einot, I, y Gabriel, K.R. (1975). A study of the power of several methods of multiple comparisons. Journal of the American Statistical Association, 70, 574-583.
Fisher, R.A. (1935). The Design of Experiments. Edinburgh and London: Oliver and Boyd.
Gauss (1988). Washington: Aptech Systems. Inc.
Hayter, A.J. (1986). The maximun familywise error rate of Fisher's least significant diference test. Journal of the American Statistical Association, 81, 1000-1004.
Hochberg, Y. y Tamhane, A.C. (1987), Multiple Comparison Procedures. Nesv York. NY: John Wiley.
Keselman. H.J. y Rogan, J.C. (1978). A comparison of modified-Tukey and Scheffé methods of multiple comparisons for pairwise contrasts. Journal of the American Statistical Association, 73, 47-51.
Keuls, M. (1952). The use of the 'Studentized range in connection with and analysis of variance. Euphtyca, 1, 112-122.
Kinderman, A.J. y Ramage, J.G. (1976). Computer generation of normal random numbers. Journal of the American Statistical Association, 71, 893-896.
Kirk, S.A. (1990). Multiple comparisons: From Fisher to the future. Paper presented at the annual meeting of the American Educational Research Association. Boston.
Klockars, A.J. y Hancock, G.R. (1994). Per experiment error rates: The hidden costs of several multiple comparison procedures. Educational and Psychological Measurement, 54, 292-298.
Newman, D. (1939). The distribution of the range in samples from a normal population expressed in terms of an independent estimate of standard desviation. Biometrika, 31, 20-30.
Pavur, R. (1988).Type I error rates for multiple comparison procedures with dependent data, American Statistician, 42, 171-174.
Pavur, R. y Lewis, T.D. (1983),. Unbiassed F test for factorial experiments for correlated data, Communications in Statistics, Theory and Methods, 12, 829-840.
Petrinovich, L.E y Hardyck, C.D. (1969). Error rates for multiple comparison methods. Psychological Bulletin, 71, 43-54.
Ramsey, P.H. (1978a). Power differences between pairwise multiple comparisons. Journal of the American Statistical Association, 73, 479-485.
Ramsey, P.H. (1978b). Rejoinder to comment on power differences between pairwise multiple comparisons. Journal of the American Statistical Association, 73, 487.
Ringland, J.T. (1983). Robust multiple comparisons. Journal of the American Statistical Association, 78, 145-151.
Ryan, T.A. (1959), Multiple comparisons in psychological research. Psychological Bulletin, 56, 26-47.
Scariano, S.M. y Davenport, J.M. (1987). The effects of violations of independence assumptions in the one-way ANOVA. American Statistician, 41, 123-129.
Scheffé, H. (1959). The Analysis of Variance, New York: John Wiley and Sons.
Seaman, M.A., Levin, J.R. y Serlin, R.C. (1991). New developments in pairwise multiple comparisons: Some powerful and practicable procedures. Psychological Bulletin, 110, 577-586.
Toothaker, L.E. (1991). Multiple Comparisons for Researchs. Newbory Park. CA: Sage Publications.
Tukey, V.W. (1953). The Problem of Multiple Comparisons. Mimeographed Monograph. Princeton University.
Vallejo, G. y Fernández, P. (1990). Diseños de medidas repetidas con errores autocorrelacionados. Psicothema, 2, 189-209.
Welsch, R.E. (1977). Stepwise multiple comparison procedures. Journal of the American Statistical Association, 72, 566-575.