Psicothema was founded in Asturias (northern Spain) in 1989, and is published jointly by the Psychology Faculty of the University of Oviedo and the Psychological Association of the Principality of Asturias (Colegio Oficial de Psicología del Principado de Asturias).
We currently publish four issues per year, which accounts for some 100 articles annually. We admit work from both the basic and applied research fields, and from all areas of Psychology, all manuscripts being anonymously reviewed prior to publication.
Psicothema, 2002. Vol. Vol. 14 (nº 3). 665-668
Horacio Félix Attorresi, María Silvia Galibert y María Ester Aguerri
Universidad de Buenos Aires
El objetivo del presente trabajo es desarrollar en forma rigurosa y abstracta la fundamentación del modelo lineal de puntuaciones verdaderas de la teoría clásica de tests. Se intenta superar así tanto la imprecisión que frecuentemente se advierte en la literatura psicométrica respecto del carácter aleatorio o fijo de las componentes del modelo cuanto la notación engorrosa para su lectura y comprensión. Se presentan los axiomas del modelo, sus propiedades básicas y los resultados fundamentales de la confiabilidad y validez destacando la importancia de definirlos en términos de la componente no observable de la medición. Se consideró de interés desarrollar una presentación abstracta del modelo para que éste pudiera ser aplicado en otros contextos –no necesariamente psicológicos– donde los fenómenos involucren también variables no observables como son los puntajes verdaderos de la teoría clásica de tests.
A model of non observable component measurement. A formal presentation of the axiomatic formulation of the classical test theory. The aim of this paper is to develop in a strict and abstract way the basis of the linear-true score model in the classical test theory. Its purpose is to overcome both the inaccuracy that is frequently seen in the psychometric literature with regard to the aleatory or fixed nature of the model components and its confusing writing down for its reading and understanding. The axioms of the model, their basic properties and their main results about reliability and validity are introduced pointing out the importance of defining them taking into account the non observable component of the measurement. The importance of an abstract presentation for the model lies in the interest of being able to apply it in other contexts –not necessarily of psychological nature– where the events also involve non observable variables as the true scores in the classical test theory.
En este trabajo se intenta desarrollar una fundamentación rigurosa y abstracta del modelo lineal del puntaje verdadero de la teoría clásica de tests. Este trabajo se inscribe, por tanto, en una de las líneas de trabajo mencionadas por Muñiz (1998): la correspondiente al desarrollo de la TCT, cuyos inicios más rigurosos se ubican en el modelo lineal clásico propuesto por Spearman. Ya Novick (1966) había notado cierta imprecisión en las propiedades que fundamentan esta teoría desde su formulación detallada en Gulliksen (1950) y se propuso asentarla sobre bases firmes. Sin embargo, subsiste algo de imprecisión en torno a la dimensionalidad del dominio de las componentes del modelo, la cual se agrava por una notación que resulta engorrosa para la lectura y comprensión. Lord y Novick (1968) utiliza subíndices y una explicación coloquial para hacer referencia a diversos dominios de variación de dichas componentes y para indicar respecto de cuál de ellos considera la esperanza matemática. De ese modo no queda claro que las variables aleatorias estén definidas sobre el mismo espacio muestral, lo cual es necesario para que tenga sentido plantear su aditividad en el modelo. En todo ese desarrollo hay una idea de condicionar los puntajes a las unidades experimentales que se expresa a través de los subíndices. La presentación del modelo se simplificaría definiendo todas las variables sobre un único espacio muestral más sencillo y utilizando la esperanza condicional entre las mismas. Aun cuando algunos autores intentan una presentación axiomática moderna, no se ven del todo libres del problema del carácter por momentos fijo y por momentos aleatorios del puntaje verdadero (Allen y Yen, 1979) o de la restricción del modelo a espacios finitos para hacerlo más accesible a especialistas de formación no matemática (Crocker y Algina, 1986). Mientras en el presente artículo se fueron desarrollando los fundamentos del modelo, se vio la utilidad de darle una formulación más abstracta para que pudiera ser aplicado en otros contextos –no necesariamente psicológicos– donde los fenómenos involucren también variables no observables como son los puntajes verdaderos de la teoría clásica de tests.
Construcción del modelo de medición
Se dice que M es una medición si es un vector aleatorio bidimensional definido en un espacio de probabilidad ( Ω,A,P), donde Ω designa un espacio muestral, A una σ- álgebra y P una función de probabilidad sobre A.
M: Ω → R2
Considérense las proyecciones a las primera y segunda coordenadas P1 y P2.
Sean las variables aleatorias:
T= P1o M que se denominará componente no observable.
ε= P2o M que se denominará error.
X= T + ε que se denominará componente observable.
Explícitamente:
T(ω)= P1(M(ω))= P1(t,e)= t con ω Є Ω
ε(ω)= P2(M(ω))= P2(t,e)= e
X(ω)= X((t,e))= t + e
Definición
Se dice que dos mediciones M1 y M2 están asociadas si cumplen los siguientes axiomas:
E(ε2/T1)= E(ε1/T2)= 0 (1)
Cov(ε1,ε2)= 0 si M1 ≠ M2 (2)
Donde E( / ) designa la esperanza condicional, Cov la covarianza y 0 la función nula.
Nótese que la relación de mediciones asociadas es simétrica.
Definición
Se dice que una familia de mediciones M es un modelo de medición aditivo de componente no observable si VM1ЄM, y VM2ЄM se cumple que M1 está asociada con M2.
Nótese que la relación de mediciones asociadas es reflexiva en M.
Proposición
E(ε/T)= 0 si M Є M (3)
Es inmediato de la reflexividad y de la definición de medidas asociadas.
Definición
Se dice que dos mediciones en M son equivalentes si cumplen los siguientes axiomas:
T= T’ (4)
Var(ε)= Var(ε’) (5)
Donde Var designa la varianza.
Nótese que la relación de mediciones equivalentes es de equivalencia.
Propiedades básicas del modelo
E(X/T)= T (6)
E(X/T)= E(T+ε / T)= E(T/T) + E(ε/T )=
Por (3)= T + 0= T
E(ε)= 0 (7)
Por propiedad de esperanza condicional,
E(ε)= E(E(ε/T))=
Por (3)= E(0)= 0
Cov (T,ε)= 0 (8)
Cov(T,ε)= E{[T-E(T)].[ε-E(ε)]}=
Por (7)= E[(T-E(T)).ε]= E{E[(T-E(T)).ε / T ] }= E[(T-E(T)).E(e /T)]=
Por (3)= E[(T-E(T)).0]= E(0)= 0
Cov (X,T)= Var(T) (9)
Cov(X,T)= Cov(T+ε,T)= Cov(T,T) + Cov(ε,T)=
Por (8)= Var(T)
Cov (X,ε)= Var(ε) (10)
Cov(X,ε)= Cov(T+ε,e)= Cov(T,ε) + Cov(ε,e)= 0 + Var(ε)= Var(ε)
E(X)= E(T) (11)
E(X)= E(E(X/T))
Por (6)= E(T)
Var(X)= Var(T) + Var(ε) (12)
Var(X)= Var(T + ε)= Var(T) + Var(ε) + 2Cov(T,ε)=
Por (8)= Var(T) + Var(ε)
ρ2(X,T)= Var(T) / Var(X)= 1 - Var(ε) / Var(X) (13)
ρ2(X,T)= Cov2(X,T) / Var(X).Var(T)= Cov2(T+ε,T) / Var(X).Var(T)= [Cov(T,T) + Cov(ε,T)] 2 / Var(X).Var(T)= Var2(T) / Var(X).Var(T)= Var(T) / Var(X)=
Por (12)= [Var(X) - Var(ε)] / Var(X)= 1 - Var(ε) / Var(X)
ρ2(X,ε)= Var(ε) / Var(X) (14)
ρ2(X,ε)= Cov2(X,ε) / Var(X).Var(ε)
Por (10)= Var2(ε) / Var(X).Var(ε)= Var(ε) / Var(X)
ρ2(X,T) + ρ2(X,ε)= 1 (15)
Es inmediato de (13) y (14)
Cov(T1,ε2)= Cov(T2,ε1)= 0 si M1 y M2 Є M (16)
Cov(T1,ε2)= E{[T1- E(T1)].[ε 2 - E(ε2)]}=
Por (7)= E[(T1- E(T1)).ε2]= E{E[(T1- E(T1)).ε2 / T1] }= E[(T1- E(T1)).E(ε2 /T1)]=
Por (1)= E[(T1- E(T1)).0]= E(0)= 0
Cov(X1,X2)= Cov(T1,T2) si M1 ≠ M2 (17)
Cov(X1,X2)= Cov(T1+ε1,T2+ε2) = Cov(T1,T2) + Cov(T1,ε2) + Cov(ε1,T2) + Cov(ε1,ε2) =
Por (16) y (2)= Cov(T1,T2)
ρ(T1,T2)= ρ(X1,X2) / [ρ(X1,T1) . ρ(X2,T2)] si M1 ≠ M2 (18)
ρ(X1,X2) / [ρ(X1,T1) . ρ (X2,T2)]=
Por (9) Cov(X1,T1)= Var(T1) y Cov(X2,T2)= Var(T2)
Reemplazando en (19) y por (17) se obtiene que:
ρ(X1,X2) / [ρ(X1,T1) . ρ (X2,T2)]=
Simplificando se sigue:
E(X)= E(X’) si M y M’ son equivalentes (21)
E(X)= E(T + ε)= E(T) + E(ε)= E(T)
E(X’)= E(T’ + ε’)= E(T’) + E(ε’)= E(T’)
Por (4) T =T’; por tanto
E(X) = E(X’)
Var(X)= Var(X’) si M y M’ son equivalentes (22)
Por (12) Var(X)= Var(T) + Var(ε) y Var(X’)= Var(T’) + Var(ε’)
Por (4) y (5) T= T’ y Var(ε)= Var(ε’),
Luego Var(X)= Var(X’)
Resultados fundamentales del modelo
ρ(X,X’)= ρ2(X,T) si M y M’ son equivalentes, M ≠ M’ (23)
= [Cov(T,T’) + Cov(T,ε’) + Cov(ε,T’) + Cov(ε,e’)] / Var(X)=
Por (16) y (2)
= Cov(T,T’) / Var(X)=
Como T=T’
= Var(T)/Var(X) =
Por (13)= ρ2(X,T)
si M1 y M2 son mediciones asociadas diferentes y M1, M’1 y M2, M’2, son pares de mediciones equivalentes diferentes. (24)
La demostración es inmediata de (18) y (23).
ρ2(X,T) ≥ 2 { 1 – [Var (X1)+Var(X2)] / Var(X) } si M = M1 + M2 donde M, M1 y M2 Є M (25)
Por la desigualdad de Cauchy - Schwartz
Por transitividad
Var(T1) + Var(T2) ≥ 2 |Cov(T1,T2)| ≥ 2 Cov(T1,T2)
Como T= T1 + T2, sumando 2Cov(T1,T2) a ambos extremos de la desigualdad se obtiene:
Var(T) = Var(T1) + Var(T2) + 2 Cov(T1,T2) ≥ 4 Cov(T1,T2)
Dividiendo los extremos de la desigualdad por Var(X)
Var(T)/Var(X) ≥ 2 . 2Cov (T1,T2) / Var(X)
Por (13) y (17) resulta:
ρ2(X,T) ≥ 2.2Cov (X1,X2) / Var(X)= 2 [Var(X) -Var (X1) - Var (X2)] / Var(X)= 2 { 1 – [Var (X1)+Var(X2)] / Var(X) }
Las demostraciones de las propiedades antedichas suponen que las varianzas y covarianzas existen y que las varianzas no son nulas.
Interpretación en la teoría clásica de tests
La medición M se considera como el resultado de administrar una prueba psicométrica a un individuo de una población Ω.
La medición M le asigna a cada individuo un par de puntajes: el puntaje verdadero y el error de medición. El puntaje empírico del sujeto es la suma del puntaje verdadero más el error de medición.
Así surgen naturalmente los significados de las variables aleatorias T –componente no observable– como el puntaje verdadero, ε el error de medición y X –componente observable– como el puntaje empírico.
De esta aplicación del modelo se siguen las conocidas interpretaciones de la teoría clásica de tests para las propiedades básicas. Surge, sin embargo, una interpretación algo diferente respecto del puntaje verdadero. Bajo el enfoque de Lord y Novick (1968) el puntaje verdadero queda fijado al elegir un sujeto pero no el error de medición ni, consecuentemente, el puntaje observado que permanecen como variables aleatorias. Con ese enfoque, el puntaje verdadero se interpreta como el promedio de las puntuaciones empíricas del individuo a lo largo de infinitas administraciones del mismo test. Con la presente formulación, al fijar el sujeto quedan fijos los valores de las tres componentes y cada puntaje verdadero se interpreta como el promedio de todas las puntuaciones empíricas de los sujetos que tienen el mismo puntaje verdadero. En efecto, esta interpretación se sigue directamente de (6), ya que resulta E(X/T= t)= t. Ésta es una forma de ver a todos los individuos que tienen el mismo puntaje verdadero como una replicación de un mismo individuo, lo cual es correcto teniendo en cuenta que, en el modelo de medición, el objetivo está en la estimación de dicho puntaje y no en la unidad experimental.
Las medidas asociadas representan a variables de criterio para una prueba específica. En la familia M no se distingue una de la otra en virtud de la propiedad simétrica; aunque en la práctica del estudio de validación de una prueba se jerarquiza otra medición de M como variable criterio.
Las medidas equivalentes corresponden a lo que se denomina en la literatura psicométrica medidas paralelas.
El resultado (23) vincula el índice de confiabilidad con el coeficiente de confiabilidad y el resultado (24) corresponde a la conocida fórmula de atenuación del coeficiente de validez. Ambos son resultados esenciales de la teoría porque permiten expresar correlaciones con una variable no observable en términos de variables observables, lo que hace posible su estimación. Si bien tradicionalmente se ha definido la validez como la correlación entre las puntuaciones empíricas entre una medición y un criterio, parece más razonable definirla como la correlación entre las puntuaciones verdaderas y expresarla en términos de variables observables por la llamada fórmula de atenuación que no tendría ya que llevar este nombre. Esto le daría sentido al hecho de introducir como componente fundamental del modelo a los puntajes verdaderos, más aun teniendo en cuenta que uno de los nombres de la teoría es el de «modelo lineal del puntaje verdadero».
Finalmente, el resultado (25) es la desigualdad obtenida por Guttman (1945) para dos componentes, donde el segundo miembro es el coeficiente α de Cronbach (1951). Dicho resultado es de sencilla generalización a n componentes y permite dar una cota inferior para la confiabilidad de un instrumento cuando se dispone de una sola prueba.
Implicancias teórico-prácticas de una formulación axiomática
Entre los beneficios que, según Cámara Sánchez (2000), la formalización matemática aporta a la metodología económica están la explicitación de supuestos y premisas, concisión y precisión. Es claro que dichos aportes no se restringen al ámbito particular de la economía, sino que son generales. Los siguientes puntos resumen algunas de las ventajas de la formalización axiomática vacía de un contenido específico para el presente modelo de medición.
Ganancia en claridad al evitar la ambigüedad propia del lenguaje natural
Cuando se presenta el modelo lineal clásico en la literatura psicométrica suele decirse que el puntaje verdadero es el valor esperado de los puntajes observados y que a su vez su correlación con los errores es nula. La primera afirmación supone que el puntaje verdadero es un valor fijo, mientras que la segunda tiene sentido sólo si se trata de una variable aleatoria. El problema deriva de cierta ambigüedad respecto de las expresiones «puntaje verdadero» y «valor esperado». Suele hablarse de puntaje verdadero para designar una variable aleatoria al mismo tiempo que cada uno de sus posibles valores en particular; asimismo en dicha propiedad se dice «valor esperado» cuando en realidad se quiere hacer referencia a la esperanza condicional. Los enunciados formalmente correctos de estas propiedades se hallan en (6), (8) y (11).
Desarrollo del modelo en una adecuada estructura lógica
Consiste en explicitar y jerarquizar correctamente las relaciones que se definen en el modelo. Por ejemplo, al establecer los axiomas que definen las «medidas asociadas» y las «medidas equivalentes» surge como consecuencia inmediata que las medidas paralelas, por su naturaleza formal, son un caso particular de las variables criterio. El ordenamiento en una estructura lógica permite, además, identificar qué propiedades de la teoría se necesitan proponer como axiomas y cuáles pueden ser deducidas. Bajo la presente formulación axiomática no es necesario suponer que la Cov (T,ε)= 0; esta propiedad, fundamental en la teoría, puede deducirse con sólo suponer que E(ε/T)= 0. Lord y Novick (1968) consideran dicha propiedad como un axioma del modelo.
Generalización del modelo y de sus aplicaciones
El hecho de que la formalización axiomática no está ligada a un contenido específico facilita la aplicación del modelo a contenidos muy diversos mientras respondan a la misma estructura. Son muchas las disciplinas que trabajan en problemas donde se hace necesario conocer el valor de variables que no se pueden observar directamente. Este tipo de problemas abunda en psicología, economía y sociología, pero también se hallan frecuentemente en las ciencias naturales como las ciencias agrarias (mejoramiento animal) y físicas (mecánica cuántica), entre otras. Además de la variedad de aplicaciones del mismo modelo, la claridad formal en la presentación de los axiomas facilita posibles generalizaciones propiamente dichas del modelo en cuestión, ya sea por relajar o por restringir el conjunto de axiomas. Así, por ejemplo, Meliá (2000) hace referencia a los intentos de aportar métodos débiles para determinar si dos medidas son paralelas y discute las posibilidades y limitaciones de este concepto como fundamento de la fiabilidad.
Agradecimientos
Esta investigación fue realizada en el marco del Proyecto UBACyT P054/00 y con los siguientes subsidios: Universidad de Buenos Aires (UBACyT TP02/97), del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET PIP 4423/96), y de la Agencia Nacional de Promoción Científica y Tecnológica (PICT 4704/98).
Allen, M.J. y Yen, W.M. (1979). Introduction to Measurement Theory. California: Brooks/Cole Publishing Company.
Cámara Sánchez, A. (2000). Aportaciones de la matemática a la metodología económica. Psicothema, 12, supl. 2, 103-107.
Crocker, L. y Algina, J. (1986). Introduction to Classical and Modern Test Theory. Florida: Harcourt Brace Jovanovich College Publishers.
Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.
Gulliksen, H. (1950). Theory of mental tests. New York: John Wiley.
Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10, 255-282.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental tests scores. Reading, Mass: Addison - Wesley Pub. Co.
Meliá, J. (2000). La cuestión de las medidas paralelas. Psicothema, 12, supl. 2, 386-388.
Muñiz, J. (1998). La medición de lo psicológico. Psicothema, 10 (1), 1-21.
Novick, M.R. (1966). The Axioms and Principal Results of Classical Test Theory. Journal of Mathematical Psychology, 3, 1-18.
Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3, 271-295.