Psicothema

Psicothema, 1998. Vol. Vol. 10 (nº 3). 583-595

EL PAPEL DE LA SÍLABA EN LA PERCEPCIÓN DEL CASTELLANO

Andreu Vigil-Colet, Jordi Pérez-Ollé y José E. García-Albea

Universidad Rovira i Virgili

Este estudio pretende examinar la naturaleza del efecto de congruencia silábica: Es decir, la detección de sonidos de habla en palabras se ve facilitada cuando coinciden con una sílaba de la misma. Este efecto ha sido considerado generalmente como pre-léxico, pero ciertos resultados recientes parecen ir en contra de esta interpretación. En castellano el efecto de congruencia silábica parece darse tan sólo con tiempos de reacción largos, pero no con tiempos de reacción cortos. Utilizando palabras y pseudopalabras y el registro de potenciales evocados en una tarea de detección de sílabas, hemos hallado la facilitación producida por el efecto de congruencia silábica tanto en los tiempos de reacción como respecto a la latencia del componente P300, aunque únicamente con las palabras. Además, dicho efecto podría encontrarse lateralizado en el hemisferio izquierdo del cerebro. En consecuencia, los resultados obtenidos parecen sugerir la posibilidad de que el efecto de congruencia silábica podría ser producido en un nivel post-léxico de procesamiento.

The role of the syllable in the perception of spanish. This study examines the nature of syllabic congruency effect: The detection of speech sounds in words is facilitated when they coincide with a syllable of the word. This effect has been viewed as pre-lexical but there are some recent results that go against this interpretation. In Spanish the syllabic effect seems to appear with long reaction times but not with faster reaction times. Using words and pseudowords and ERP recording in a syllable monitoring task, we found the syllabic congruency effect in reaction times and in the P3 component latency for words but not for pseudowords. Moreover, we find this effect lateralized in the left hemisphere of the brain. Consequently, our results suggest that syllabic congruency effect could be produced in a post-lexical level of processing.

Gran parte de la investigación realizada en el campo de la percepción del habla se ha centrado en buscar cuáles son las unidades de segmentación, y en determinar si éstas y los procesos en las que se ven implicadas, vienen moduladas por las características acústico-fonéticas de las distintas lenguas (Belinchón, Rivière & Igoa, 1992).

Entre los candidatos que han sido tomados como unidad perceptiva básica, quizás el que mayor atención ha recibido por parte de los investigadores ha sido la sílaba (Mehler, Dommergues, Fraunfelder and Seguí, 1981; Cutler, Mehler, Norris and Seguí, 1986; García-Albea, 1991; Sebastián, Dupoux, Seguí and Mehler, 1992; Bradley, Sánchez-Casas y García-Albea, 1993). Desde esta perspectiva, se ha propuesto que operaría automáticamente algún tipo de proceso que segmentaría la señal de habla en sílabas (Mehler et al., 1981).

Uno de los enfoques clásicos sobre este tema ha sido el de examinar el alcance de dicho papel a la luz de las diferencias fonotácticas y prosódicas entre las distintas lenguas, utilizando generalmente tareas de detección de sonidos de habla en palabras (Dupoux, 1993).

La viabilidad de la sílaba como unidad de segmentación encuentra apoyo en los datos acumulados en diversos campos como la evidencia translingüística que toma a la sílaba como unidad organizacional en fonología (e.g. Dauer, 1983); también hay datos que apoyan el papel de la sílaba en las primeras fases de la adquisición del lenguaje (e.g. Morais, Bertelson, Cary & Alegria, 1986); o en la investigación sobre producción del lenguaje (e.g. Levelt & Wheeldon, 1994).

En relación con el papel que juega la sílaba en la percepción del habla, la evidencia más importante a favor de la hipótesis que toma la sílaba como unidad de segmentación se concreta en los efectos de complejidad y congruencia silábica (Pallier, 1994). Puesto que nuestro trabajo se enmarca dentro de esta linea de investigación, analizaremos estos dos efectos con mayor detalle.

El efecto de complejidad silábica se observa cuando los sujetos tienen que detectar un sonido/fonema situado en el inicio de un estímulo auditivo (Seguí, Dupoux y Mehler 1990). En este caso, los tiempos de reacción están en función del número de fonemas que contenga dicha sílaba, es decir, se detecta más rápidamente un fonema en el inicio de una sílaba con una estructura CV (e.g. /p/ en /pa/) que en el inicio de una sílaba con una estructura CVC o CCV (e.g. /p/ en /pal/ o /pla/). Siguiendo el trabajo prionero de Savin y Bever (1970) la interpretación que se ha sugerido es que los fonemas no son percibidos directamente, sino que son reconocidos una vez que se ha producido la identificación de la sílaba.

El efecto de congruencia silábica se observa cuando los sujetos tienen que detectar si un estímulo contiene una determinada secuencia de fonemas (Mehler, 1981; Mehler et al., 1981). En este caso los tiempos de reacción son más rápidos cuando la secuencia de fonemas coincide con la estructura silábica del estímulo (e.g. /pa/ en /pa-loma/ o /pal/ en /pal-mera/) que cuando la secuencia de fonemas no coincide con dicha estructura (e.g. /pa/ en /pal-mera/ o /pal/ en /pa-loma/). Basándose en los resultados obtenidos en francés, Mehler et al., (1981) interpretaron este efecto de congruencia silábica como evidencia a favor de la sílaba como unidad perceptiva fundamental en la segmentación del habla.

Dada la relevancia de este resultado se intentó replicar dicho experimento en lengua inglesa (Cutler, Mehler, Norris y Seguí, 1986), observándose que los oyentes de dicha lengua no se encontraban influenciados por la estructura silábica de los estímulos de habla, es decir, detectaban con la misma rapidez /ba/ y /bal/ tanto en /balance/ como en /balcony/. Estudios posteriores demostraron que el contraste entre el francés y el inglés venía determinado por las características fonológicas de la lengua materna de los sujetos. Así, al exponer a sujetos franceses a estímulos en lengua inglesa, y a sujetos ingleses a estímulos en lengua francesa, se observó que los sujetos franceses silabificaban los estímulos en inglés, pero que los sujetos ingleses no silabificaban los estímulos en francés (Cutler et al., 1986)

Para interpretar estos resultados, Cutler et al., (1986) propusieron que los sujetos poseen unas estrategias de segmentación que dependen de su lengua materna, concluyendo que la unidad de segmentación estaba en función de las características fonológicas de cada lengua, considerando que inicialmente se dispondría de un conjunto finito de estrategias posibles y se seleccionaría para su utilización aquella que mejor se adaptara a la lengua materna de cada uno, sugiriéndose que las estrategias de procesamiento utilizadas por los hablantes de las distintas lenguas no son universales sino específicas para cada lengua. Esta interpretación hace que sea de suma importancia establecer cómo los parámetros fonológicos específicos de cada lengua pueden constreñir las posibles estrategias de segmentación.

Basándose en estas diferencias, Cutler et al., (1986) concluyeron que dado que la sílaba se encuentra claramente delimitada en idiomas como el francés, los hablantes de dicha lengua utilizarían estrategias de segmentación silábica, mientras que los hablantes de lenguas como el inglés no utilizarían esta estrategia al no disponer de límites silábicos claros, tal y como se manifiesta por la frecuente ocurrencia del fenómeno de la ambisilabicidad (Kahn, 1976; Meador & Ohala, 1993). Hay que notar sin embargo, que en holandés ha sido replicado dicho efecto, a pesar de que se trata de una lengua en donde, al igual que el inglés, se encuentra presente el fenómeno de la ambisilabicidad (Zwitserlood, Schriefers, Lahiri and Van Donselaar, 1993).

Por otra parte, en las investigaciones realizadas en castellano los resultados no son totalmente concluyentes. En el trabajo de Sebastián et al., (1992) con sujetos castellano-hablantes, la interacción característica del efecto de congruencia silábica tan sólo se observó cuando las demandas de la tarea fueron modificadas con la finalidad de ralentizar las respuestas de los sujetos. Es decir, el efecto de silabificación solamente aparecía cuando se provocaba, mediante la tarea experimental –los sujetos debían prestar atención a la relación semántica existente entre las palabras de la misma lista, ralentizándose las respuestas unos 250 mseg aproximadamente–, que las respuestas de los sujetos fueran lentas (en torno a los 610 mseg), pero no sucedía lo mismo cuando las latencias de respuesta eran relativamente rápidas (en torno a los 370 mseg).

Para interpretar estos resultados, Sebastián et al., (1992) propusieron que en las tareas de detección, cuando se debe responder muy rápidamente, los sujetos explotarían una especie de código subsilábico transitorio -hipotéticamente, las demi-sílabas propuestas por Dupoux (1989). También sugirieron que diversos parámetros, como la existencia de reducción vocálica, el valor de acento del segmento a detectar y el número de las vocales, determinarían el uso de una u otra estrategia de respuesta. A esta propiedad se la denominó transparencia acústica y guarda una relación inversa con el uso de la estrategia de silabificación. Así, al relentecer las respuestas de los sujetos con la finalidad de que estos no emplearan una estrategia de tipo acústico se comprobó nuevamente el efecto silábico encontrado en otras investigaciones. Es decir, a pesar de la transparencia acústica de la lengua castellana, los sujetos castellano-hablantes, al poseer una lengua con los límites silábicos claramente delimitados aplicarían una estrategia de segmentación silábica, de acuerdo con la teoría propuesta por Cutler et al., (1986).

El patrón de resultados obtenido por Sebastián et al., (1992) –es decir, con tiempos de reacción lentos si que aparece la interacción entre target y carrier característica del efecto de congruencia, pero no sucede lo mismo cuando los tiempos de reacción son rápidos– es similar al que muestran los resultados obtenidos por Sánchez-Casas y García-Albea (1990) y Bradley et al., (1993).

Sánchez-Casas y García-Albea (1990), en una serie de experimentos en la que manipularon el número y la composición fonémica de los ítems distractores, muestran la interacción carrier-target tan sólo en dos ocasiones, con tiempos de reacción rápidos (en torno a los 450 mseg).

Mientras que Bradley et al., (1993) con sujetos monolingües mostraron que, aunque para el material experimental en castellano si se observaba el efecto de congruencia silábica (con tiempos de reacción lentos, en torno a los 550-600 mseg), los mismos sujetos no aplicaban dicha estrategia de segmentación silábica cuando se encontraban ante estímulos en lengua inglesa, contrariamente a los sujetos franceses utilizados en el trabajo de Cutler et al., (1986).

Los autores sugieren dos posibles interpretaciones a dichos resultados. En primer lugar, podrían ser debidos a que el castellano y el francés difieren en algún aspecto crítico por lo que tendrían que especificarse qué aspectos de la fonología de ambas lenguas determinarían el uso de una rutina de análisis del input basada en la sílaba, y por qué dichos aspectos son críticos. Y en segundo lugar, la eficiencia de distintos tipos de rutinas no siempre favorece la rutina silábica sobre la fonémica, por lo que tendrían que especificarse qué propiedades del input de habla subyacen a la aplicación de una u otra.

El panorama que ofrecen los resultados obtenidos en castellano muestra que el problema principal radica en establecer cuánta diferencia, en términos de velocidad, entre los tiempos de reacción es la necesaria para cambiar la base de la respuesta.

Asimismo, cuando utilizaron sujetos españoles bilingües cuyo aprendizaje de la lengua inglesa fue bastante tardío, tampoco encontraron evidencia alguna de sensibilidad hacia la sílaba (Bradley et al., 1993). Lo cual sugiere, según los autores, que la adquisición de una segunda lengua modifica la aproximación a la representación del input, incluso en el caso de la lengua materna.

Por otra parte, en los sujetos de habla inglesa no se observó el efecto de congruencia silábica ni con los materiales en su propia lengua ni con los materiales en castellano (Bradley et al., 1993).

Resulta también interesante señalar que en el mencionado estudio de Sebastián et al. (1992) se observa la presencia del efecto de silabificación en catalán, aunque solamente cuando la primera sílaba del carrier no se encontraba acentuada.

Otro problema aparece cuando el material experimental está compuesto por palabras y pseudopalabras. Si el efecto de congruencia es pre-léxico por naturaleza, tendríamos que esperar que apareciera independientemente del estatus de los estímulos. Sin embargo, en una investigación previa, dicho efecto fue hallado únicamente para las palabras, pero no para las no palabras (Vigil & García-Albea, 1995).

Los resultados obtenidos hasta el momento en tareas de detección de sonidos ofrecen un panorama complejo, y tal como se ha podido observar, los efectos de silabificación obtenidos en castellano no son lo suficientemente consistentes como para atribuirlos a la intervención de estrategias perceptivas bien arraigadas e independientes de las condiciones de la tarea (Sebastián et al., 1992), del material lingüístico, de la disposición de respuesta y del carácter bilingüe de los sujetos (Bradley et al., 1993); mostrando además una gran variabilidad en función del patrón de acentuación de las palabras-estímulo (Sebastián et al., 1992), de la presencia o ausencia de ítems distractores (Bradley et al., 1993) y de la rapidez de los sujetos en el momento de contestar (Sánchez-Casas y García-Albea, 1990; Sebastián et al., 1992). A partir de estos resultados es cuando podría empezar a cuestionarse la validez de la sílaba como unidad en la que se segmenta el input acústico para acceder al léxico.

Una de las limitaciones de los estudios analizados es que se realizaron utilizando únicamente medidas de tiempo de reacción, con lo cual, resulta difícil conocer si estos efectos se hallan relacionados con la detección e identificación estimular o, si algunos aspectos relacionados con estadios posteriores están ocultando el efecto silábico.

Así pues, parece que los potenciales evocados podrían ofrecernos cierta evidencia convergente sobre la naturaleza de dicho efecto. La investigación psicolingüística con potenciales evocados se ha centrado principalmente en el estudio de las anomalías sintácticas y de la incongruencia semántica, dejando a un lado la investigación relativa a los estadios iniciales de procesamiento (para una revisión ver Kutas & Van Petten, 1994; Osterhout & Holcomb, 1995). A pesar de la ausencia de estudios previos, consideramos que el componente que mostrará una mayor sensibilidad hacia el efecto de congruencia silábica sería el P300, dada la relación de este componente con los estadios iniciales del procesamiento de la información y su relativa independencia de los efectos del compromiso velocidad-precisión (Duncan-Johnson, 1981; Donchin & Coles, 1988; Vigil, Ferrando & Andrés; 1992).

Asimismo, pueden hallarse algunos resultados interesantes relacionados con este componente en el dominio de la identificación y categorización estimular. Así, la latencia del componente P300 varía de acuerdo con la dificultad para discriminar una palabra en una lista de otras palabras (Kutas, McCarthy y Donchin, 1977); en discriminación entre sílabas sin sentido y palabras (Shelburne, 1972, 1973); y en la interferencia entre los códigos fonológico y ortográfico en el procesamiento de palabras (Polich, McCarthy, Wang y Donchin, 1983), por lo que esperamos que dicho componente pueda ofrecernos cierta evidencia sobre la naturaleza del efecto de congruencia.

Del mismo modo, su carácter de medida «on-line» nos permitirá una mayor exactitud en la localización y el curso de los efectos que se puedan hallar, reduciendo la posibilidad de que dichos efectos puedan ser atribuídos a artefactos experimentales. En este sentido, el grado de convergencia entre los resultados obtenidos con los indicadores cronométricos y electrofisiológicos contribuirá a esclarecer el papel de la sílaba en la percepción del castellano.

Así pues, hay tres aspectos característicos del trabajo que ahora presentamos: primero, la incorporación del registro de potenciales evocados; segundo, la utilización conjunta de palabras y pseudopalabras; y tercero, el hecho de que los sujetos experimentales tenían que producir una respuesta motora tanto en el caso de las respuestas afirmativas como de las negativas.

Confiamos en que la introducción de estas innovaciones permita ofrecer una evidencia más consistente acerca del papel de la sílaba en la percepción del habla en castellano.

Método

Sujetos

Dieciséis estudiantes universitarios (nueve mujeres y siete hombres) con una media de edad de 24:9 años, participaron como voluntarios en este estudio. Asimismo, todos eran diestros, y ninguno ellos tenía ningún tipo de déficit auditivo ni experiencia previa en estudios en los que se hubiera utilizado el registro de potenciales evocados.

Estímulos

El material experimental estaba compuesto de 48 palabras y 48 no-palabras formando 24 cuartetos. Todos los ítems eran nombres de tres sílabas, con el acento en la penúltima y con una longitud de entre 6 y 8 letras. Los ítems de cada cuarteto compartían los tres primeros fonemas, consonante-vocal-consonante (CVC), pero diferían en cuanto a su estructura silábica, según la primera sílaba fuese CV o CVC (por ejemplo, camisa, campana// camutra, cambelo). A cada ítem se le asignaban dos tipos de sonido a detectar, uno CV y otro CVC, que o bien se correspondían con la primera sílaba (por ejemplo, ca en camisa o cam en campana) o bien podían tener un fonema más (cam en camisa) o un fonema menos (ca en campana). Además de los 96 ítems experimentales se incluyeron otros 96 ítems distractores (48 palabras y 48 no-palabras) en los que no aparecía el sonido especificado previamente aunque podían o no tener la misma estructura silábica del target. De esta manera, la probabilidad de aparición del sonido era de p=0.50.

Se hicieron de forma balanceada dos bloques de 192 ensayos, de forma que cada carrier aparecía ante los sujetos de un grupo con un target CV y ante los sujetos del otro grupo con un target CVC. En el experimento, cada sujeto pasaba ante un sólo de los bloques, alternándose el orden de presentación a través de los sujetos, con 24 ensayos de práctica al principio del experimento.

Procedimiento

Se utilizó una tarea de detección de sonidos en la que los sujetos debían responder apretando un botón cuando el sonido que se especificaba en cada ensayo apareciera en la palabra o pseudopalabra que se presentaba posteriormente y apretando un botón distinto cuando el sonido especificado en el ensayo no fuera detectado, con la finalidad de que si apareciera algún efecto diferencial entre ítems experimentales y distractores en el registro de potenciales evocados, éste no pudiera atribuirse al hecho de dar o no dar una respuesta motora. En cada ensayo se procedió según la siguiente secuencia:

1. «sonido» (voz femenina). Intervalo fijo de 1.5 segs.

2. ca (target o sonido a detectar. Voz masculina). Intervalo fijo de 1.5 segs.

3. «atención» (voz femenina). Intervalo aleatorio entre 1.2 - 2.6 segs.

4. camisa (carrier, palabra o no-palabra. Voz masculina).

El experimento duraba unos 35 minuto, dándose un descanso intermedio de unos 5 minutos, y se administraba de forma individual en una cabina insonorizada, con una iluminación normal, presentado los estímulos mediante unos auriculares binaurales y estereofónicos y teniendo el sujeto los ojos abiertos ante un punto de fijación.

Diseño

El diseño experimental era un diseño factorial de medidas doblemente repetidas 2x2x2 que combinaba los factores «tipo de carrier» (CV/CVC), «tipo de target» (CV/CVC), y «estatus léxico» (palabra/no-palabra), y como variables dependientes el tiempo de reacción y la latencia del componente P300 en la localización P3.

En el caso del análisis correspondiente a los potenciales evocados hay que señalar que el número de factores se redujo ya que el bajo número de ensayos por celda (12) no permitía una razón señal/ruido lo suficientemente fiable como para identificar correctamente la latencia de los componentes. De este modo, los factores target (CV-CVC) y carrier (CV-CVC) se unieron en un sólo factor «congruencia silábica», con dos niveles, congruente (combinaciones target-carrier CV-CV y CVC-CVC) e incongruente (combinaciones target-carrier CV-CVC y CVC-CV). Con el fin de minimizar el sesgo positivo que suele producirse, se utilizó la mediana de los tiempos de reacción de cada sujeto para cada condición experimental en vez de la media aritmética.

Registro EEG

Para el registro de los potenciales evocados se utilizó un filtro de 50 Hz. para evitar las interferencias de la banda del sistema de alimentación eléctrica. La Amplificación de la señal de EEG y su procesamiento posterior se llevó a cabo mediante el amplificador SynAmps y el software Scan del sistema NeuroScan. Los electrodos de Ag/ClAg fueron fijados mediante un casco elástico (Kit ElectroCap) en las posiciones Fz, Cz, Pz, F7, F8, F3, F4, T3, T4, C3, C4, T5, T6, P3, P4, del Sistema Internacional 10-20 (Jasper, 1958), tomando como referencias los lóbulos de las orejas puenteados y con la toma de tierra en un punto situado al 50% de la distancia entre Fz y el punto medio entre FP1 y FP2. Las impedancias se mantuvieron siempre por debajo de 5 kOhm. Los movimientos oculares se registraron mediante un montaje bipolar entre la zona supraorbital del ojo derecho y el canthi externo del ojo izquierdo y cualquier ensayo que mostrara una actividad superior a 40 mV o inferior a -40 mV en dichos electrodos en una ventana de 0 a 800 mseg fue rechazado off-line.

La actividad EEG fue amplificada con filtros pasa-altos y pasa-bajos en 0.03 y 30 Hz, digitalizando la señal on-line con una tasa de muestreo de 1 medida cada 2 mseg. La ventana temporal de registro fue de -100 a 1000 mseg y se utilizaron los 100 mseg previos a la presentación del estímulo como linea base, definiéndose la latencia del componente P300 como el punto de mayor voltaje positivo en la ventana comprendida entre los 300 y los 800 mseg. Cada promediado fue realizado con una media de 20 ensayos (rango, 18-24)

Resultados

Tras un primer análisis visual sobre el gran promediado, se observaron dos componentes. Por un lado, un pico negativo alrededor de los 140 mseg que presentaba su mayor amplitud en las zonas frontales y centrales; y por otro, un componente positivo que comenzaba alrededor de los 300 mseg y retornaba a la linea base aproximadamente a los 700 mseg, mostrando una amplitud máxima en la zona parietal.

Debido al amplio rango de aparición del P300, y con el fin de descartar la posibilidad de solapamiento entre distintos componentes, se llevó a cabo un análisis de componentes principales sobre la matriz de varianzas-covarianzas seguido de una rotación varimax. Dicho análisis mostró un primer componente principal que explicaba el 68% de la varianza, situándose las saturaciones máximas en dicho componente en torno a los 340 mseg. (ver fig.1). El segundo componente extraído explicaba tan solo el 5% de la varianza de tal modo que los datos concuerdan con la posibilidad de la existencia de un componente único.

Análisis multivariado: Se realizó un MANOVA tomando como variables dependientes el tiempo de reacción y la latencia del componente P300 en el electrodo P3, debido a que la distribución del P300 en tareas auditivas muestra su máximo en la zona parietal izquierda. Los resultados muestran solamente el efecto significativo de la interacción entre los factores estatus léxico y congruencia (F[2, 14] = 6.76, p< .01). La presencia de este efecto protegerá a los posteriores análisis univariados contra el incremento de la tasa de error experimental.

Análisis univariado: Potenciales evocados. Este análisis muestra el mismo efecto significativo obtenido en el análisis multivariado relativo a la interacción entre congruencia y estatus léxico (F[1, 15] = 9.14, p< .01), produciéndose dicho efecto de facilitación silábica tan sólo para las palabras (ver tabla I y figura 2).

Posteriormente se realizó un segundo análisis introduciendo el hemisferio como nuevo factor intrasujetos (electrodos P3, Pz y P4). El efecto principal de dicho factor resultó significativo (F[2, 30] = 8.59 p< .01), mostrando latencias más lentas para el hemisferio izquierdo (ver figura 3). La prueba de esfericidad de Mauchly no fue significativa (W=.8964, p>.05). También resultó significativa la interacción entre congruencia y estatus léxico (F[1, 15] = 6.64, p< .05). Además, se realizó un análisis por separado para cada electrodo utilizando la corrección de Bonferroni con la finalidad de proteger la tasa de error experimental. De esta forma, con un α_e =.05, un efecto necesitará de una p=0.019 para ser significativa. Así pues, el efecto de interacción resulta significativo sólo en el electrodo P3 (F[1, 15] = 9.14, p< .01) pero no en P_z (F[1, 15] = 4.78, p>.019) ni en P₄ (F[1,15] = .33, p> .019).

No se halló ningún efecto significativo con respecto a la amplitud del componente P300, ni tampoco respecto a la latencia y la amplitud del componente N150.

Análisis univariado: Tiempos de reacción. El efecto de interacción entre congruencia y estatus léxico también es significativo (F[1, 15] = 5.86, p< .05) para los tiempos de reacción, siendo además, en la misma dirección que el hallado en los potenciales evocados (ver tabla II). La tasa de error fue similar en todas las condiciones experimentales (rango 2 - 5%).

Con la finalidad de obtener una mayor información sobre el efecto de congruencia, se llevó a cabo un segundo análisis en el que se subdividió el factor de congruencia en dos factores: target (CV-CVC) y carrier (CV-CVC) (ver tablas III y IV).

Los resultados obtenidos muestran el efecto significativo del factor target (F[1, 19] = 5.9, p<0.05), es decir, las respuestas de los sujetos son más rápidas para los targets con una estructura CV; y también la interacción entre target, carrier y estatus léxico característica del efecto de congruencia silábica (F[1, 19] = 9.24, p<0.01).

También fue calculada la correlación entre los tiempos de reacción y la latencia del componente P300, encontrándose correlaciones significativas entre ambas medidas (ver tabla V).

Otros resultados interesantes son los siguientes: Primero, los tiempos de reacción más lentos se producen cuando los sujetos experimentales tienen que detectar un target CVC en un carrier CV y por lo tanto, tienen que traspasar la frontera silábica. También se observa una facilitación debida al tipo de target utilizado, por la cual los targets CV son más rápidos que los targets CVC en todas las condiciones experimentales. Por último, cabe señalar que los tiempos de reacción son, en general, más lentos que los obtenidos en los estudios previos en castellano, en los cuales no se observó el efecto de congruencia silábica (Sebastián et al., 1992; en un experimento).

Discusión

Los resultados obtenidos muestran el efecto de congruencia silábica obtenido en investigaciones previas (Mehler et al., 1981; Cutler et al., 1986; Sebastián et al., 1992; Bradley et al., 1993; and Zwitserlood et al., 1993). Es decir, las respuestas de los sujetos se han visto facilitadas cuando la secuencia fonémica que tenían que detectar coincidía con la primera sílaba de la palabra utilizada como estímulo (e.g. /ca/ en /ca-misa/ y /cam/ en /cam-pana/), en contraposición con los tiempos de reacción más largos cuando no existía dicha coincidencia (e.g. /ca/ en /cam-pana/ y /cam/ en /ca-misa/). Es importante señalar la convergencia de estos resultados con los obtenidos en el registro de potenciales evocados, y más concretamente, respecto a la latencia del componente P300 en el electrodo P3.

Tal convergencia entre ambos tipos de indicadores, reflejada en el componente P300, resulta interesante en sí misma. Como se ha señalado en la introducción, dicho componente ha sido relacionado con la evaluación estimular, aunque no se ve afectado por las manipulaciones relativas a los estadios de respuesta, como por ejemplo, la compatibilidad estímulo-respuesta.

El problema principal subyace en la localización del efecto de congruencia silábica. Resulta muy importante poder determinar si la sílaba representa su papel antes del acceso léxico, tal y como han sugerido Mehler et al., (1981), o si por el contrario, la utilización de la información silábica en los procesos de percepción del habla se produce una vez que se ha accedido al lexicón interno. Al observar los resultados obtenidos, en los que el efecto de congruencia silábica tan sólo se produce en las palabras, pero no en las pseudopalabras, podemos pensar que dicho efecto no puede ubicarse en los procesos previos al acceso léxico, es decir, parece existir una mediación de tipo léxico por lo que no es producto de la aplicación de una estrategia de segmentación silábica a nivel preléxico. Otros estudios llevados a cabo en castellano también muestran datos contrarios a la naturaleza pre-léxica de la estrategia de segmentación silábica (Sánchez-Casas & García-Albea, 1990; Vigil & García-Albea, 1995).

Un análisis más detenido de los resultados obtenidos apoyaría una interpretación distinta a la que hasta ahora ha sido propuesta, sugiriéndonos tres posibilidades distintas: En primer lugar, basándonos en el hecho de que las diferencias en los tiempos de reacción de las distintas combinaciones entre carrier y target muestran su mayor magnitud -las respuestas son más lentas- en el caso en el que debe traspasarse la frontera silábica (p.e. /cam/ en /camisa). De este modo, la estructura silábica jugaría un papel similar -como un hueco o ranura con una estructura definida, por ejemplo CV, que debe ser rellenado con fonemas- al que se ha sugerido en los trabajos sobre errores espontáneos en el habla (del Viso, Igoa y García-Albea, 1991). Esta alternativa sería compatible con una interpretación léxica del efecto de congruencia. Podría plantearse, de cara a otro experimento, la comparación de otro tipo de estructuras ( e.g. CV, CVC, CVCC, VC, CVCC).

En segundo lugar, la facilitación debida al tipo de target, por la que el target CV es más rápido que el target CVC en todas las condiciones experimentales, podría sugerir que la información relevante a nivel coarticulatorio que proporciona la estructura silábica se halla disponible en estadios muy primarios del procesamiento, y que los sujetos no tienen porque utilizar una representación silábica completa para iniciar sus respuestas (Sebastián et al., 1992). La estructura CV (probablemente por su mayor frecuencia en lengua castellana y su menor longitud) desempeña algún papel importante, bien por sí misma, o bien como indicadora de una estrategia de agrupación fonémica.

En tercer lugar, derivándose de que los tiempos de reacción obtenidos son notablemente más lentos que los obtenidos en algunas investigaciones precedentes en castellano en los que no se obtenía el efecto de congruencia silábica (Sebastián et al., 1992 en uno de los experimentos). Asimismo, los TR obtenidos son similares aunque más lentos –probablemente debido a que nuestros sujetos siempre debían dar una respuesta motora– que los obtenidos en otras (Sebastián et al., 1992; Bradley et al., 1993) en los que si aparecía el citado efecto. En castellano, los resultados muestran que con tiempos de reacción cortos (alrededor de los 350 mseg.) no se observa el efecto de congruencia silábica; mientras que con respuestas más lentas (alrededor de los 600 mseg.) si que aparece el efecto de congruencia silábica, tal y como sucede en nuestro caso.

Es decir, parece que el efecto existe, pero quedaría encubierto en función de las demandas de la tarea. Se sugiere que el efecto de congruencia silábica estaría en función de algún tipo de compromiso relacionado con la velocidad-precisión de las respuestas adoptado por los sujetos, desapareciendo el citado efecto cuando primara el factor de velocidad. Con la finalidad de verificar esta propuesta, resultaría interesante realizar este experimento introduciendo la manipulación de dicho compromiso, induciendo a un grupo sujetos hacia el uso de una estrategia de velocidad y a otro grupo de sujetos hacia una estrategia de precisión. De esta forma se podría comprobar si se producen variaciones en los resultados, tanto en los tiempos de reacción como en los potenciales evocados, y poder determinar si el efecto de congruencia es fruto de una estrategia particular de procesamiento –en el caso de que el efecto de congruencia se mantuviera, independientemente del grupo de inducción al que perteneciera el sujeto– o es provocado por el tipo de tarea experimental utilizado –en el caso de que los resultados fueran distintos en función del grupo de inducción de los sujetos.

La alta correlación entre la latencia del componente P300 y el tiempo de reacción que hemos encontrado, es relativamente frecuente (Kutas et al., 1977) y es un tema polémico (Coles, Gratton & Fabiani, 1990), ya que en muchas ocasiones –aunque no en este caso– la latencia de dicho componente es superior al tiempo de reacción. También se ha observado (Kutas y Hillyard, 1983) que la correlación entre la latencia del componente P300 y el tiempo de reacción varía en gran medida en función del compromiso velocidad-precisión, siendo dicha correlación mucho mayor en las situaciones en las que se prima una estrategia de precisión, lo cual nos sugiere que los sujetos experimentales de nuestro estudio han podido utilizar una estrategia de este tipo.

Respecto a la concordancia existente entre el componente P300 y los tiempos de reacción, diversos autores afirman que el P300 puede retrasarse debido a que ciertos procesos memorísticos, distintos de los procesos perceptivos o de respuesta, aún se hallen en curso, relacionando dicho componente con la finalización de los períodos de procesamiento (Verlegel, 1988; Verlegel, Flössel & Groggel, 1993).

En relación con el análisis de las diferencias hemisféricas, los resultados parecen indicar que el efecto de congruencia silábica se produce básicamente en el hemisferio izquierdo, aún cuando este tipo de resultados deban ser interpretados con extrema cautela, ya que los potenciales evocados no son la herramienta más idónea para el estudio de las diferencias hemisféricas (Kutas & Van Petten, 1994). Este hecho es bastante frecuente en este tipo de estudios cuando se utiliza la modalidad auditiva y la tarea no es de tipo conceptual. Asimismo, la latencia de dicho componente es más corta a medida que nos alejamos de la localización P3 lo cual podría hacernos pensar en la ejecución de algún tipo de proceso específico del hemisferio izquierdo.

La ausencia de efectos relativos a la amplitud del componente P300, tanto en la medida directa como en la medida de área, sugeriría que la congruencia o incongruencia entre target y carrier no supondría una mayor demanda cognitiva para el sistema. Ello puede ser debido a que el paradigma experimental utilizado no presenta una manipulación de las variables que afectan tradicionalmente a este componente: probabilidad de aparición, expectativas, etc. y que implicarían una mayor carga de procesamiento cognitivo para el sujeto (Johnson, 1986).

Como conclusión final, y a la luz de los resultados obtenidos podemos considerar que las alternativas que se proponen dejan abiertas nuevas posibilidades explicativas sobre el papel que desempeña la sílaba en la percepción del habla en castellano.

Agradecimientos

Este trabajo ha sido posible, en parte, gracias a las ayudas DGICYT (PB93-0363) a José E. García-Albea y CIRIT (AP/95-7703) al segundo autor. Queremos agradecer muy especialmente a la Dra. Rosa Sánchez-Casas sus comentarios y sugerencias.

Bradley, D.C., Sánchez-Casas, R.M. and García-Albea, J.E. (1993). The status of the syllable in the perception of Spanish and English. Language and Cognitive Processes, 8: 197-233.

Coles, M.G.H., Gratton, G., Fabiani, M. (1990). Event-related brain potentials. In J.T. Cacioppo, L.G. Tassinary (Eds.) Principles of Psychophysiology. Cambridge, MA. Cambridge University Press.

Cutler, A., Mehler, J., Norris, D. and Seguí, J. (1986). The syllable’s differing role in the segmentation of French and English. Journal of Memory and Language. 25: 385-400.

Dauer, R.M. (1983). Stress-timing and syllable-timing reanalyzed. Journal of Phonetics. 11: 51-62.

Donchin, E., Coles, M. (1988) Is the P300 Component a Manifestarion of Context Updating?. Behavioral and Brain Sciences. 11 (3): 355-425.

Duncan-Johnson, C.C. (1981) P300 Latency: a New Metric in Information Processing. Psychophysiology. 183: 207-215.

Dupoux, E. (1989). Identification des mots parlés. Détection de phonèmes et unitè prélexicale. Tesis doctoral no publicada. EHESS, París. France.

Dupoux, E. (1993). The time-course of pre-lexical processing: The syllabic hypothesis revisited. En G. Altmann & R. Shillicock (Eds.) Cognitive models of speech processing. Hillsdale, NJ. LEA.

García-Albea, J.E. (1991). Segmentación y acceso al lèxico en la percepción del lenguage. En J. Mayor & J.L. Pinillos (Eds.) Tratado de Psicología General. Vol. 6. Comunicación y Lenguaje . Madrid. Alhambra.

Jasper, H. (1958). The 10-20 electrode system of the International Federation. Electroencephalography and Clinical Neuropsychology. 10: 371-375.

Johnson, R. (1986). A triarchic model of P300 amplitude. Psychophysiology. 23 (4): 367-384.

Kahn, D. (1976). Syllable-based generalizations in English phonology. Tesis doctoral. MIT. Publicada por Indiana University Linguistics Club, Bloomington.

Kutas, M., McCarthy, G., Donchin, E. (1977). Augmenting mental chronometry. The P300 as a measure of stimulus evaluation time. Science. 197: 792-795.

Kutas, M. & Hilliard, S.A. (1983). Event-related brain potentials to grammatical errors and semantic anomalies. Memory and Cognition. 11: 539-550.

Kutas M. & Van Petten, C. (1994). Psycholinguistics electrified: Event-related brain potential investigations. En M.A. Genrsbacher (Ed.) Handbook of Psycholinguistics. New York, NY. Academic Press.

Levelt, W.J.M., Wheeldon, L. (1994). Do speakers have acces to a mental syllabary. Cognition. 50: 239-269.

Meador, D., Ohala, D. (1993). The status of ambisyllabicity in English. Póster presentado en la Reunión Anual de la Linguistic Society of America. Los Angeles, CA.

Mehler, J., Dommergues, J.Y., Frauenfelder, U. & Segui, J. (1981). The syllable’s role in speech segmentation. Journal of Verbal Learning and Verbal Behavior. 20: 298-305.

Mehler, J. (1981). The role of syllables in speech processing: Infant and adult data. Transactions of the Royal Society. Londres, Ser, B. 295: 333-352.

Morais, J., Bertelson, P., Cary, L. & Alegria, J. (1986). Literacy training and speech segmentation. Cognition. 24: 45-64.

Osterhout, L. & Holcomb, P.J. (1990). Event-related brain potentials elicited by syntactic anomaly. En C.H.M. Brunia, A.W.K. Gaillard & A. Kok (Eds.) Psychophysiological brain research. The Netherlands. Tilburg University Press.

Pallier, C. (1994). Róle de la syllabe dans la perception de la parole: Études attentionnelles. Tesis doctoral no publicada. EHESS, París. France.

Polich, J., McCarthy, G., Wang, & Donchin, E. (1983) When words collide: ortographic and phonological interference during word processing. Biological Psychology, 16: 155-180.

Sánchez-Casas, R.M. & García-Albea, J.E. (1990). The syllable monitoring task: How do the subjects respond? Comunicación presentada en la 4ª Conferencia de la Sociedad Europea de Psicología Cognitiva. Como, Italy.

Savin, H.B., & Bever, T.G. (1970). The non-perceptual reality of the phoneme. Journal of Verbal Learning and Verbal Behavior. 9: 295-302.

Sebastián-Gallés, N., Dupoux, E., Segui, J. & Mehler, J. (1992). Contrasting syllabic effects in Catalan and Spanish. Journal of Memory and Language. 31: 18-32.

Seguí, J., Dupoux, E.; Mehler, J. (1990). The role of the syllable in speech segmentation, phoneme identification and lexical acces. En G.T.M. Altmann (Ed.) Cognitive models of speech processing: Psycholinguistic and computational perspectives. Cap. 12. Cambridge, MA. MIT Press.

Shelburne, S.A. (1972) Visual evoked resoponses to word and non-sense syllable stimuli. Electroencephalography and Clinical Neurophysiology. 32: 17-25.

Shelburne, S.A. (1973) Visual evoked responses to language stimuli in normal children. Electroencephalography and Clinical Neurophysiology. 34: 135-143.

Verlegel, R. (1988). Event-related potentials and memory: A critique of the context updating hypothesis and an alternative interpretation of P3. Behavioral and Brain Sciences, 11, 343-356.

Verleger, R., Flössel, F., Groggel, R. (1993). Effects of memory load on P3 latency: Dependent on perception and response. En H.J. Heinze, T.F. Münte & G.R. Mangun (Eds.). New developments in event-related potentials. Boston. Birkhäuser.

Vigil, A; Ferrando, P.J.; Andrés, A. (1993) Initial Stages of Information Processing and Inspection Time: Electrophysiological Correlates. Personality and Individual Differences. 14: 733-738.

Vigil, A. & García-Albea, J.E. (1995). Efectos de la congruencia silábica en los potenciales evocados. Póster presentado en el 2ª Simposium de Psicolingüística, Tarragona. Spain.

Viso, S., Igoa, J.M. & García-Albea, J.E. (1991). On the autonomy of phonological encoding: Evidence from slips of the tongue in Spanish. Journal of Psycholinguistic Research. 10: 161-185.

Zwitserlood, P., Schriefers, H., Lahiri, A. & Van Donselaar, W. (1993). The role of syllables in the perception of spoken Dutch. Journal of Experimental Psychology: Learning, Memory and Cognition. 19 (2): 260-271.

Aceptado el 2 de febrero de 1998

INFORMACIÓN

PSICOTHEMA

CONTACTO

EL PAPEL DE LA SÍLABA EN LA PERCEPCIÓN DEL CASTELLANO