Psicothema

Psicothema, 1991. Vol. Vol. 3 (nº 2). 443-451

RELACIÓN ENTRE ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO Y ANÁLISIS DE COMPONENTES PRINCIPALES

Teresa RIVAS^* y Rosario MARTINEZ ARIAS^*^*

*Departamento de Psicología Básica, Psicobiología y Metodología Facultad de Filosofía y Ciencias de la Educación, Universidad de Málaga. ** Facultad de Psicología , Universidad Complutense.

Se explican las relaciones fundamentales entre el escalamiento multidimensional métrico (MDS-M) y el análisis de componentes principales (ACP). Para los dos modelos se describen las matrices sobre las que trabajan, las condiciones de aplicación, procedimientos de cálculo, soluciones y resultado. Se hace especial hincapié en que el análisis de componentes principales (ACP) debe considerarse como una técnica R, que opera sobre matrices de covarianza, mientras que el escalamiento multidimensional métrico (MDS) es una técnica Q, aplicable a matrices de coeficientes de asociación entre objetos o individuos. Se concluye estableciendo que es una falsa creencia considerar la existencia de una identidad fundamental entre los dos modelos, puesto que su parecido radica únicamente en que usan los mismos teoremas para llegar a la solución.

Palabras Clave: escalamiento multidimensional métrico, análisis de componentes principales, técnicas-Q, técnicas-R.

ABSTRACT

Relation between metric multidimensional scaling and principal component analysis. The fundamental relations between metric multidimensional scaling (MDS-M) and principal component analysis (PCA) are explained. Both models are described in terms of type of data matrix analyzed, fundamental assumptions made, computational procedures, solutions and results. It is emphasized that the principal component analysis (ACP) is considered a R-technique, operating on covariance matrices, whereas the metric multidimensional scaling (MDSM) is a Q-technique which deal on matrices consisting of association taken to be a fundamental identity between the two models is shown to be merely the employment of the same theorems to arrive the solution.

Key Words: Metric multidimensional scaling, principal component analysis, Q-technique, R-technique.

INTRODUCCION

En la investigación psicológica, frecuentemente se dispone de información en p variables para un conjunto de n sujetos, dispuesta en una matriz de datos X (n x p). Matrices como ésta son el punto de partida para la operación de un cierto número de técnicas de Análisis Multivariante, como el Análisis de Componentes Principales (ACP) y el Análisis Factorial (AF). Una situación diferente es la que se presenta cuando se dispone de una matriz D (nxn), de proximidades entre n objetos, estímulos o individuos, típica de los procedimientos de Escalamiento Multidimensional (MDS). A pesar de estas diferencias en lo referente al tipo de datos sobre los que se aplica el análisis, existen numerosas analogías en lo que concierne a los procedimientos de cálculos y soluciones.

En este articulo se analizan las semejanzas y diferencias entre los métodos de Escalamiento Multidimensial Métrico y Análisis de Componentes Principales, en lo que se refiere a datos, objetivos, hipótesis, procedimientos de cálculo y soluciones, teniendo en cuenta que el primero puede considerarse representación de las denominadas técnicas-Q, (a partir de matices nxn, de estímulos), mientras que el segundo lo es de las técnicas-R ( a partir de matrices pxp, de variables). Para ello, se describen en primer lugar las características fundamentales de cada uno de estos métodos independientemente.

A fin de poder establecer las conexiones entre ambos modelos, consideramos la versión métrica del MDS (Torgerson, 1958), entendiendo con el término métrico que la escala de medida de los datos es al menos de nivel de intervalo.

TÉCNICA-R: EL ANALISIS DE COMPONENTES PRINCIPALES (ACP)

En el ACP, el conjunto de datos viene dado generalmente por una matriz X de n individuos sobre p variables o atributos. A partir de X se construye una matriz de covarianzas, S(pxp), sobre la que opera el procedimiento denominado R-técnica, que se describe brevemente a continuación. Sea:

que recoge observaciones de n individuos sobre p variables. El ACP se propone obtener un conjunto de combinaciones lineales estandarizadas que tienen sucesivamente varianza máxima, a fin de resumir la información original contenida en un conjunto de p variables en otro conjunto menor de k nuevas variables, denominadas componentes, de forma que se pierda en el proceso la menor información posible, con objeto de lograr una mayor interpretabilidad de los datos.

En síntesis, si entre las p variables originales existiesen ciertas relaciones estocásticas de ependencia, éstas podrían aprovecharse para condensar la información en k nuevas variables incorrelacionadas, combinación lineal de las originales, que explicasen la variación del sistema eliminando toda información redundante.

Bajo esta perspectiva, la muestra se considera como n puntos, P_i, en un espacio de dimensión p, cuyas coordenadas referidas a los ejes rectangulares son (x_i1, x_i2, ...., x_ip). El conjunto de filas de la matriz X constituye una nube de n puntos. Se intenta representar esta nube en un espacio de dimensión inferior k. Se comienza con el menor posible, buscando una recta que sea la que mejor se adapte a la nube, según el criterio de mínimos cuadrados ortogonales. Sea esta recta y₁ y sea además v₁ el vector unitario del subespacio considerado, tal que:

En la figura 1 puede observarse el ajuste a dicha recta.

Consideremos un punto de la representación anterior, por ejemplo M_i, con una longitud que representamos por medio de un vector OM_i. La proyección OH_i de dicho punto sobre la recta y₁, con el vector unitario v_i es el producto escalar de OM_i por y₁ o suma de los productos término a término de los elementos de OM_i y de y₁.

Si se establecen estas proyecciones para cada una de las filas de la matriz X, el producto matricial Xy₁ es una matriz columna de n elementos que representa las proyecciones de cada objeto sobre y₁. El objetivo del análisis es maximizar dichas proyecciones al cuadrado y₁'X'Xy₁, que es equivalente a minimizar las distancias al cuadrado. Una exposición más detallada del proceso puede encontrarse en Martínez y Batista (1989).

El problema no es más que un caso de cálculo de valores extremos condicionados, que nos da como solución:

El desarrollo de la expresión anterior conduce a la ecuación característica, que permite obtener el valor λI, que sustituido en el sistema:

proporciona el vector y₁ que es el autovector asociado a λ₁.

Posteriormente, se busca un segundo vector, Y₂ perpendicular al primero, tal que haga mínima la suma de cuadrados de las perpendiculares sobre el plano que definen y_l y y₂. La suma de cuadrados en esta nueva dirección es el segundo autovalor. Continuando en este sentido se encuentran propiedades similares, para los autovalores sucesivos.

En síntesis, dada una matriz de datos X, caracterizada por su vector de medias x y matriz de covarianzas S, el ACP se propone encontrar un vector v₁ que hace máxima la expresión:

siendo X_c la matriz de datos centrada en la media y sujeto a la restricción:

es decir, que está normalizado.

De esta forma, ninguna otra combinación lineal de las p variables originales tendrá varianza mayor que ésta denotada λ₁. Posteriormente, se trata de encontrar un segundo vector v₂, que verifique (2) y (3) y que sea ortogonal a v₁, es decir:

Continuando este proceso, se obtiene una matriz V, cuyas columnas, ortogonales, son los p autovectores (v_i) asociados a los p autovalores (λ_i) de la matriz S, de modo que, siendo:

con elementos tales que:

Esta diagonalización se lleva a cabo aplicando el Teorema de la descomposición espectral (véase Mardia et al. 1979; Batista y Martínez, 1989) a la matriz S. Como es sabido, diagonalizar S equivale a referirla a una nueva base de autovectores normalizados, elementos de V, que van a permitir construir las componentes que eliminan la información redundante de las variables originales.

En forma matricial, las componentes, Y, se pueden expresar:

Donde:

la matriz de puntuaciones centradas en la media, siendo u el vector unidad de orden n.

La ortogonalidad de V permite transformar en otra matriz Y del mismo orden, cuya matriz de covarianzas viene dada por:

es decir, la matriz de centrado.

Las columnas de la matriz Y son ortogonales, siendo la varianza de las variables y_i o componentes:

Esta transformación en componentes principales permite expresar la puntuación del r-ésimo individuo en términos de las nuevas variables y_i como:

En la práctica, se espera resumir la variabilidad que hay en los datos, usando sólo las componentes principales con varianza más alta, es decir, reduciendo la dimensionalidad. Puede justificarse esta reducción bien porque la matriz de covarianzas tenga un rango k < p o porque los p-k autovalores restantes correspondan a valores muy pequeños que contribuyen poco a las distancias entre las coordenadas originales. En resumen, el ACP pretende explicar la mayor varianza posible de las variables originales con el menor número de componentes.

La obtención de las componentes podría haberse conseguido análogamente considerando la representación geométrica de las variables aleatorias en Rⁿ y diagonalizando la matriz XX'. El criterio en este caso hubiese sido el de maximizar las proyecciones de los vectores representativos de las variables originales o varianza explicada. El conjunto de autovectores que se obtendrían de esta forma están directamente relacionados con los anteriores y los autovalores coinciden.

TECNICA-Q : ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO

Consideremos ahora el modelo de escalamiento multidimensional métrico en el que el conjunto de datos son relaciones percibidas entre los elementos de un conjunto de objetos o estímulos.

El concepto que subyace en este modelo es que existe un isomorfismo entre los objetos y sus medidas de proximidad de un lado, y el conjunto de puntos del espacio euclídeo y sus medidas de distancia por otro.

Dado un conjunto de n objetos se dispone en una matriz simétrica A(nxn), la similaridad o disimilaridad percibida entre cada par (de objetos i y j, δ_ij. Tales medidas se denominan medidas de proximidad, y representan (di)similaridades entre objetos. El escalamiento multidimensional opera sobre matrices A para transformarlas en matrices de distancias euclídeas, transformando las proximidades, que pueden considerarse distancias con origen arbitrario, en distancias absolutas.

Entre los distintos métodos MDS que realizan un ajuste euclídeo, nos restringimos al MDS Métrico (Torgerson, 1958).

El MDS métrico tiene como fin construir una configuración de los n puntos a partir de la información de las n(n-1)/2 distancias entre pares de n objetos. El propósito es obtener una representación gráfica en un espacio de dimensión mínima, que permita extraer la información significativa acerca de las relaciones entre los objetos. La estructura de este espacio es análoga a la del "espacio perceptivo" que utilizan los individuos al emitir sus juicios sobre la (di)similaridad entre los objetos. Es decir, se espera inferir de la estructura del espacio, los atributos más importantes que caracterizan a los objetos y que utilizan los individuos al emitir sus juicios sobre aquellos.

Dada una matriz Δ = (Si;) de (di)similaridades entre los pares de n objetos, se trata de encontrar n puntos Pi (i= 1,2_.,n) en un espacio de dimensión mínima k (k < n), con matriz de coordenadas X*y con distancias D* _ (δ_ij).

Se trata por tanto de hallar las coordenadas de estos puntos en un espacio de dimensión k (R^k, d*). Para ello, el primer paso consiste en transformar las (di)similaridades δ_ij en distancias absolutas, que cumplan la desigualdad triangular en Rⁿ, D = (d_ij) (Torgerson, 1958). A partir de D se construye una matriz A =(a_ij) de coeficientes de asociación entre objetos, con elementos definidos como:

A continuación se construye una matriz B simétrica de productos escalares, cuyos elementos vienen dados por:

b_ii= a_ij –a_i.-a_j.+ a.. (10)

Donde:

a_i.. :media de los elementos de la fila iésima de A

a._j : media de los elementos de la columna j-ésima de A

a.. : media de todos los elementos de A

La matriz B va a proporcionar una representación de los n objetos en un espacio euclídeo de dimensión h (k ≤ h ≤ n), para ello, es condición necesaria y suficiente que sea semidefinida positiva de rango h (mardia et al. 1979). Obsérvese que aún no se ha conseguido la dimensionalidad mínima requerida.

En estas condiciones, se calculan los autovalores de B, λ_r (r = 1,2,...,h), cuyos autovectores asociados son las columnas de una matriz X, cuya fila i-ésima contiene el punto P_i de coordenadas x_ij(j = 1...... h). Estos puntos constituyen una solución MDS en un espacio R^h: La r-ésima columna de X es el autovector correspondiente a λ_r

contiene los autovectores normalizados de B, de forma que la suma de cuadrados de un autovector x_jes el autovalor correspondiente λ_j. Por el teorema de la descomposición espectral B se puede expresar como:

La expresión (12) representa la matriz de productos escalares de la configuración de objetos en R^h. Dado que X (nxh) representa dicha configuración de objetos en R^h (h < n), si tratamos sus columnas como variables, se puede aplicar el ACP para reducir la dimensión a un espacio R^h. Sea S (hxh) la matriz de covarianzas calculada a partir de X (nS=X'HX, donde H es la matriz del centrado) y sea λ₁,........ λ_h, que suponemos diferentes y distintos de cero. Estos autovalores λ_jlo son también de la matriz B = HXX'H y tienen como autovectores asociados y_j.

Por el Teorema de Descomposición Singular (véase Mardia et al. 1979, p. 473) dada HX (nxh), se pueden elegir los signos de y_j y v_i, de forma que HX= VΓ’ (donde V es una matriz ortonormal por columnas nxh) y tal que:

Por ser Γ ortogonal, HXΛ = V. La proyección de las n filas de HX sobre el vector y_i proporciona los puntos sobre la i-ésima componente principal. Si además nos restringimos a las k primeras columnas de Γ, se obtienen los puntos sobre las k primeras componentes principales:

Dado que las columnas de Γ son ortogonales, V_p = _k’’ representa la proyección de X sobre un subespacio de dimensión k de R^h, denotando a la configuración de puntos que representa como X*.

Estas k dimensiones se interpretan como las características de los objetos a las cuales prestan atención los sujetos al emitir sus juicios sobre la disimilaridad de los mismos. El significado de una dimensión particular se determina observando las posiciones relativas de los objetos a lo largo de ésta.

Como puede observarse a partir de la exposición anterior, la aplicación del ACP no se hace directamente a una matriz XX', resultante de trasponer la matriz original de datos.

PROCEDIMIENTOS DE EVALUACION DE LAS SOLUCIONES

Por último, veamos la similitud de los procedimientos de evaluación de las soluciones en los dos métodos.

En MDS sea X la configuración obtenida en R^h y sean Γ₁(nxk) y Γ₂[nx(h-k], matrices ortogonales.

Sea X* = X Γ₁, una proyección de la configuración X sobre el subespacio de R^h engendrado por las columnas de Γ₁que es la configuración en un espacio de dimensión k. La distancia entre dos puntos i, j en el espacio R^h viene dada por:

Obviamente d²_ij > d^*2_ij, es decir, al proyectar una configuración disminuyen las distancias entre los puntos de la misma. Una medida de la discrepancia entre la configuración original X y la proyectada X*, viene dada por la suma de las diferencias entre ambas distancias para todos los pares de puntos:

se hace mínima cuando X se proyecta sobre las componentes principales, en tal caso, el mínimo viene dado por:

Esta es una medida del grado en que el ajuste al modelo de escalamiento no es bueno.

En ACP una medida natural de la "bondad del ajuste" viene dada por la suma de los k primeros autovalores, dividida por la suma total de ellos, es decir:

que representa la proporción de variación total explicada por las k primeras componentes principales. Esta proporción es una medida cuantitativa de la cantidad de información retenida en la reducción de p a k dimensiones. Lawley (1963) presentó un estadístico de contraste para el número de dimensiones a retener, basado en la igualdad de los autovalores λ_K+1........ λ_P.

CONCLUSIONES

A lo largo de las páginas anteriores se trataron los modelos de ACP y MDS métrico. En la exposición se han podido observar algunas semejanzas entre ambas, pero fundamentalmente marcadas diferencias.

En ambos casos, como se trata de procedimientos matemáticas y no propiamente estadísticos, no se requieren supuestos distribucionales, pudiendo aplicarse a conjuntos de datos con métrica de intervalo y distribuciones desconocidas.

Además, las dos técnicas son computacionalmente equivalentes en alguna de sus fases, puesto que en ambas el problema matemático consiste en diagonalizar una matriz, es decir, encontrar los autovalores y autovectores asociados de una matriz de productos escalares, para construir una configuración.

Ambos métodos intentan reducir la dimensionalidad inicial de una matriz de datos a una mínima, basándose en los mismos teoremas para establecerla (teorema de la descomposición espectral).

Algunos autores como Chatfield y Collins (1980) extraen más semejanzas de las que realmente existen, puesto que consideran que sobre la misma matriz de datos del análisis de componentes, X (nxp) centrada, el ACP trabaja sobre X'X, mientras que el MDS métrico lo hace sobre XX'. Realmente, este procedimiento es el que establecen Lebart et al. (1982) al representar los individuos en Rp, utilizando las componentes, pero no en el MDS métrico.

Las principales diferencias entre ambos métodos vienen de que el MDS y el ACP son casos particulares de las técnicas Q y R, respectivamente. El MDS no es más que un caso particular de la técnica Q, similar en sus procedimientos de cálculo al denominado Análisis de Coordenadas Principales (Gower, 1966), aunque con más restricciones en la matriz de datos A a analizar. En el Análisis de Coordenadas Principales, A puede ser cualquier matriz de coeficientes de asociación entre objetos, mientras que en el MDS métrico, los elementos de ésta deben ser distancias, entre objetos medidos al menos en escala de intervalo.

Un grave error frecuentemente cometido en Ciencias del Comportamiento consiste en una falsa interpretación de las denominadas técnicas Q, y es el de trasponer la matriz de datos X (nxp), para convertirla en otra X' (pxn), obteniendo covarianzas o correlaciones entre objetos o individuos y llevando a cabo sobre ella un ACP o un AF (McKeowm y Thomas, 1988), puesto que estas covarianzas no tienen sentido. Se requiere otro tipo de tratamiento de datos para obtener una matriz tipo Q de coeficientes de asociación, por ejemplo los diferentes métodos tratados en la Taxonomía Numérica (véanse Cuadras, 1981 o Coxon, 1982, para una revisión) o la técnica Q-sort, de gran tradición en Psicología (Stephenson, 1935; Brown, 1986; Mckeowm y Thomas, 1988). Si comparamos las matrices de productos escalares en ambos modelos, en MDS se obtiene a partir de la matriz simétrica de distancias entre objetos, en tanto que en el ACP se determina a partir de la matriz de covarianzas entre variables.

El objetivo de ambas técnicas también es diferente; en MDS se trata de obtener una configuración de objetos, en tanto que en el ACP, esto es sólo una parte y no la más importante del mismo. En éste, una vez determinadas las componentes y las puntuaciones de los objetos en las mismas, éstas pueden utilizarse como ejes de referencia para representar los objetos.

En MDS el espacio de objetos es análogo a un espacio perceptivo en el que las distancias entre puntos corresponden a relaciones percibidas entre objetos y sus dimensiones se interpretan como las características de los objetos a las que los sujetos prestan atención al emitir sus juicios.

En el ACP el espacio de las variables no se considera representativo del espacio perceptivo de un individuo o conjunto de individuos, sino de las relaciones subyacentes entre un conjunto de atributos con respecto a una muestra de individuos.

Las dimensiones representan los atributos hipotéticos subyacentes comunes a todas o a algunas de las variables observadas. En este sentido, las dimensiones representan características de una muestra de individuos. En MDS no existe una interpretación análoga a ésta.

En lo que respecta a los datos, el MDS analiza medidas de similaridad percibida entre objetos, obtenidas mediante diversos métodos de escalamiento, que producen medidas de intervalo: comparaciones binarias, tríadas, tétradas, etc., que requieren juicios simples por parte de los sujetos (Torgerson, 1958) y que dan lugar a matrices nxn. Además puede analizar un conjunto de medidas de proximidad emitidas por un individuo.

En el ACP se dispone de un conjunto de puntuaciones de n sujetos en p variables. Por otra parte, una observación sobre un conjunto de atributos no es suficiente en ACP ya que se necesitan múltiples observaciones para obtener las covarianzas dadas en S.

En resumen, las principales semejanzas entre ambos modelos son:

1) Ambos determinan una representación geométrica en un espacio de dimensión mínima.

2) Se basan en los mismos teoremas para determinar la dimensionalidad.

3) En una determinada etapa del procedimiento de cálculo utilizan algorítmos equivalentes, puesto que el MDS utiliza el análisis de componentes.

Las diferencias más destacables se refieren a:

1) Tipo de datos que analizan.

2) Objetivos de ambos modelos.

3) Interpretación de la solución.

En general, podemos considerar más rico el modelo de componentes, en el sentido de que permite la representación dual, mientras que el segundo no.

REFERENCIAS

Batista, J.M. y Martínez, M.R. (1989). Análisis Multivariante: Análisis en Componentes Principales. Barcelona: Hispano Europea, col. ESADE.

Brown, S.R. (1986). Q-technique and method. En W.D. Berry & M.S. Lewis-Beck (Eds.). New tools for social scientists. BeverlyHills, CA: Sage.

Cuadras, C.M. (1981). Métodos de Análisis Multivariante. Barcelona: Eunibar.

Chatfield, C. & Collins, A.J. (1980). Introduction to multivariate analysis. London: Chapman & Hall.

Gower, J.C. (1966). Some distances properties of latent root and vector methods used in multivariate analysis. Biometrika, 53, 325-338.

Lawley, D.N. (1963). On testing a set of correlation coefficients for equality. Annals of Mathematical Siatistics, 34, 149-151.

Lebart, L., Morineau, A. et Fenelon, J.P. (1982). Traitement des données statistiques. París: Dunod.

Mckeown, B. & Thomas, D. (1988). Q-Methodology. Beverly-Hills, CA: Sage.

Mardia, K.V., Kent, J.T. & Bibby, J.M. (1979). Multivariate analysis. London: Academic Press.

Stephenson, W. (1935). Technique of factor analysis. Nature, 136, 297.

Torgenson, W.S. (1958). Tehory and methods of scaling. New York: Wiley.

English

INFORMACIÓN

PSICOTHEMA

CONTACTO

RELACIÓN ENTRE ESCALAMIENTO MULTIDIMENSIONAL MÉTRICO Y ANÁLISIS DE COMPONENTES PRINCIPALES