EVALUACIÓN DE MODELOS
Apresián, In. D. (1975): La Lingüística Estructural Soviética.
Madrid: Akal. Pp. 257-269.
_______________________________________
Examinemos el siguiente modelo (algoritmo) de generación de textos,
realizado por el ordenador de la Universidad de Manchester. Como información de
base se utiliza un texto coherente lo suficientemente largo para que cada
palabra gramatical se utilice en él al menos dos veces. Entre las palabras gramaticales
se incluyen también los puntos. Las reglas de formación de nuevos textos son
las siguientes.
En un texto, se elige arbitrariamente cualquier palabra gramatical que
se halle inmediatamente después de un punto (es decir, la palabra inicial de
una proposición cualquiera). Se anota. Después se busca el segundo, uso de esta
palabra ,gramatical; cuando se encuentra, se extrae la primera palabra
gramatical de su derecha y se anota esta última a la derecha de la primera
palabra gramatical que se ha recogido. Seguidamente, se busca el segundo uso de
la segunda palabra gramatical y se anota la primera palabra gramatical que se
encuentra a su derecha, a la derecha de las dos ya anotadas; y así
sucesivamente hasta que se encuentre un punto. Así siguiendo estas reglas se ha
sintetizado el texto siguiente: “¡Mi pequeño tesoro!” Mi comprensible afecto
atrae maravillosamente tu tierno embeleso. Tú eres mi amante adoración, la
adoración que me inflama el pecho. Mi sentimiento fraternal apaga tu querida
impaciencia, reteniendo su soplo. La adoración de mi amor guarda tu ávido
ardor. Tu enamorado MUK».
A pesar de los aparentemente buenos resultados, este modelo no nos
inspira una gran confianza: las reglas que utiliza son demasiado primitivas y
su información de base, demasiado compleja (no construye nuevos textos a partir
de los mismos textos). Uno se puede preguntar si éste es el único modelo
posible de generación de textos y de no ser así, cómo elegir el mejor.
No es difícil responder a la primera pregunta. De lo afirmado en el
capítulo de la II parte sobre el modelo lingüístico, en tanto que aproximación
funcional al objeto, se deduce que un fenómeno lingüístico dado puede
explicarse por más de un modelo. Los diferentes modelos de un mismo fenómeno pueden
distinguirse entre sí:
1. Por
el carácter de la información inicial. Así, los sistemas fonológicos de las
lenguas naturales se pueden expresar en forma de modelos, no sólo a nivel de
fonemas sino también a nivel de sus rasgos distintivos, tal como testimonian
los trabajos de R. Jakobson y de su escuela.
2. Por el
volumen de la información de base. En esto pueden servir de ejemplo los tres tipos de modelos de
investigación que hemos citado en páginas anteriores: como información inicial,
los del primer tipo utilizan sólo el texto, los del segundo tipo, el texto y el
conjunto de frases correctas de la lengua, los del tercero el texto, el
conjunto de frases correctas y el conjunto de las invariantes semánticas.
Naturalmente la utilización de una información básica más rica, permite, cuando
las restantes condiciones permanecen idénticas, obtener una información final
más rica; en consecuencia, inevitablemente los modelos de este tipo se
distinguen unos de otros según el grado de aproximación al objeto.
3. Por los
principios de tratamiento de la información o por el carácter de las reglas
utilizadas. Hemos visto anteriormente
que las reglas pueden ser probabilistas y estrictas y que entre estas últimas
se pueden distinguir tipos distribucionales, transformacionales, etc.
4. Por la
forma de presentación. Ya hemos
discutido detalladamente las dos formas más interesantes de presentación de un
modelo ‑el cálculo y el algoritmo‑‑‑. Aunque
evidentemente ambos no agotan las posibilidades existentes en este campo.
Como, en general, un fenómeno dado puede representarse por varios
procedimientos, debemos disponer de un sistema de evaluación que nos permita
comparar entre los diferentes modelos que lo expresan y elegir el que
constituya la mejor aproximación al objeto o el que se adapte más a la resolución
de los problemas concretos. Esto es precisamente el fin de la metateoría, el
asegurar a la teoría lingüística un sistema tal de evaluaciones.
El primero en proponer un sistema de criterios de evaluación de la
teoría lingüística fue L. Hjemslev. El criterio del empirismo que preconizaba,
estipula: «La descripción debe de estar libre de contradicciones..., exhaustiva
y lo más simple posible». A estos tres criterios de coherencia, exhaustividad y simplicidad se
han añadido los de adecuación,
belleza y simetría; estos dos últimos pueden coincidir, a lo que parece, con el
criterio de simplicidad.
Entre los conceptos aquí citados el de coherencia no exige una
especial explicación, pues es evidente. Por el contrario los conceptos de
exhaustividad, adecuación, simplicidad, etcétera, no lo son lo bastante como
para ser utilizados sin definición. A este respecto, expondremos la tentativa
de I. A. Mel’chuk de formalizar estos criterios sobre la base de representaciones
elementales en el campo de la teoría de conjuntos, y algunos otros criterios de
evaluación de la calidad de los modelos lingüísticos. Observemos que los medios
que I. A. Mel’chuk propone para medir la simplicidad, la exhaustividad y otras
propiedades interesantes de los modelos, no ha sido, hasta el momento prácticamente utilizada por nadie, y en
parte porque en la lingüística contemporánea no existen suficientes
modelos escritos bajo la forma estandarizada que exige una evaluación de este
tipo, y en parte porque los criterios de I. A. Mel’chuk, tienen en gran medida
un carácter preliminar. En consecuencia, analizamos esta obra, no tanto para
ofrecer al lector un procedimiento de verificación de la cualidad de las
teorías lingüísticas, como para demostrar la posibilidad de principio de hablar
con rigor de categorías que, a primera vista, se resisten a la formalización.
Para discutir esta cuestión, necesitaremos algunos conceptos de la
teoría de conjuntos señalados en la II parte. Recordemos que por fuerza de un
conjunto (anotación ½M½) se entiende el número de
elementos que entran en él, y por intersección de dos puntos M y N, el conjunto
MÇN, en el que los elementos
pertenecen al mismo tiempo a M y a N.
Pasemos a lo esencial de las oraciones de I. A. Mel’chuk. Designemos
con la letra M al conjunto de elementos que forman el fenómeno lingüístico que
nos interesa (por ejemplo, el conjunto de las formas del verbo). Designemos con
la letra N al conjunto de los elementos (el conjunto de las formas verbales)
engendrados por el modelo. Designemos con la letra b el número (no el conjunto)
de conceptos iniciales no definidos utilizados en el modelo; designemos,
finalmente, con la letra c el número de reglas según las cuales se forman los
resultados a partir de los elementos iniciales. El número b indica la economía absoluta del modelo; cuanto más
pequeño es más económico es el modelo. El número c indica la simplicidad absoluta del modelo: cuantas
menos reglas contienen, tanto más simple es el modelo.
La exhaustividad del modelo
se mide por la fórmula:
Para explicar el sentido de esta función, examinemos dos casos
extremos (Figura 20):
En el primer caso (Figura 20,1) el modelo engendra todo el conjunto de
formas verbales: M está incluido en N. Lo que significa que la intersección M Ç N es igual a M y, en consecuencia, en este
caso:
En el segundo caso (Figura 20, 2), el modelo no engendra ninguna forma
verbal: la intersección M Ç N está vacía. En consecuencia, la fuerza de la intersección es igual
a cero y
I. A. Mel’chuk ha propuesto asimismo, utilizar
un criterio más preciso para medir la exhaustividad de un modelo. Admitamos que
necesitamos evaluar la exhaustividad de un modelo que engendra los sintagmas verbales
con un sustantivo como instrumental. Admitamos, además, que engendra los sintagmas
de los tipos más extendidos kachat’
golovoi («menear la cabeza»), pajat’
plugom («labrar con el arado»), vosiisbchat’sia
knigoi («admirar un libro»), letet’
streloi («volar como una flecha»), idti lesom
(«ir por el bosque»), znat’ rebenkom («conocer
a alguien desde la infancia»), etc., pero no los menos usuales, de hecho muy raros,
con instrumental de causa, por ejemplo, Osel
mdi glupost’iu v poslovitsu voshel («Mi asno ha pasado a la leyenda por
su necedad.») En este caso, la función va calculando no solamente el número de
tipos de sintagmas engendrados, sino también la frecuencia de cada tipo en el texto, lo que dará una evaluación más
precisa de la exhaustividad del modelo. Si el modelo hipotético que acabamos de
examinar aquí se evalúa con la ayuda de una función más precisa, sin duda
quedará lo suficientemente completo a pesar de que no engendre sintagmas de un
tipo determinado.
La adecuación de un modelo se mide mediante la fórmula:
Para
aclarar el sentido de este concepto, examinaremos dos casos extremos (Figura
21).
En el primer caso, el modelo no engendra ninguna forma «superflua» que
no pertenezca al conjunto M: N está incluido en M. Esto significa que la
intersección M Ç N es Igual a N y, en
consecuencia:
En el segundo caso, el modelo sólo engendra formas «superfluas» de las
que ninguna pertenece a M: la intersección M Ç N
está vacía. En consecuencia la fuerza de la intersección es igual a cero y:
Del aspecto de la función, resulta que un modelo puede estar completo sin
ser adecuado (ver Figura 20), o bien adecuado pero insuficientemente completo
(ver Figura 21). Un modelo está completo y es adecuado cuando el conjunto
engendrado N coincide exactamente con el conjunto real M, es decir, cuando
engendra todos los elementos de un conjunto dado y solamente estos.
La economía de un modelo se
mide mediante la fórmula:
El número de conceptos no definidos utilizados en un modelo no puede
ser inferior a uno; precisamente el modelo real que contiene b conceptos no
definidos se compara con este caso ideal «patrón». La economía de un modelo es
máxima (igual a 1) cuando b = 1; en un mismo conjunto N, cuanto mayor es b,
menor es la economía del modelo.
La simplicidad de un modelo
se mide con la fórmula:
El número de reglas según las cuales se construyen los resultados a
partir de los elementos iniciales, tampoco puede ser inferior a uno; con este
caso ideal se compara el modelo real que contiene c reglas de este tipo. La
simplicidad del modelo es máxima (igual a 1) cuando c = 1; para un mismo conjunto
|N| cuanto mayor es el número de reglas, más
complicado es el modelo.
Es evidente, atendiendo a las dos últimas fórmulas, que para medir la
economía y la simplicidad de un modelo, no es suficiente con conocer el número
absoluto de los conceptos iniciales y las reglas que les conciernen; si, por
ejemplo, dos modelos utilizan un conjunto de cinco conceptos iniciales y dos
reglas, ello no significa que sean idénticamente simples y económicos. Todo
depende de la fuerza del conjunto de
los elementos que engendran. Es fácil verificar que, para un número idéntico de
conceptos iniciales y reglas que operan sobre ellos, el modelo que engendra un
conjunto más potente de elementos será más económico y más simple.
A veces existe una dependencia inversa entre la economía y la
simplicidad: el aumento del número de conceptos básicos, permite reducir el
número de reglas y a la inversa. En tales casos, se puede elegir, en función de
las condiciones concretas de un problema, un modelo más económico aunque menos
simple (o inversamente). Así, si el ordenador que efectúa la síntesis de las
formas verbales tienen una memoria de un volumen considerable, pero de modestas
posibilidades lógicas, será razonable el elegir un algoritmo de síntesis
simple, aún cuando no sea muy económico; si la máquina posee una memoria
reducida pero de grandes posibilidades lógicas, será más ventajoso un algoritmo
económico, aunque no sea muy simple.
Generalmente, la exhaustividad y. la adecuación se consideran como justificaciones externas de una teoría, es
decir, como su conformidad con los datos experimentales, y la economía y la
simplicidad, como rasgos de su perfección
interna. Sin embargo, conviene recordar que cualquier teoría interiormente
perfecta, no sólo tiene ventajas estéticas, con relación a una teoría
desprovista no solamente de perfección interna, sino también de otras ventajas
importantes a causa de su naturaleza. En la medida en que parte de un número
restringido de premisas simples y generales, y en que no contiene suposiciones
arbitrarias que se deduzcan de ella de una manera unívoca, es capaz de
explicar, mejor que cualquier otra, la unidad real de su objeto. Por eso, muy a
menudo, la búsqueda de una teoría simple y económica se transforma en la búsqueda
de un conocimiento verdadero, mientras que la aceptación de una teoría
complicada y antieconómica significa la conciliación con una seudoexplicación
anexa y efímera. Es interesante observar que F. de Saussure llegó a la teoría
de las laringales (brillantemente confirmada por recientes descubrimientos)
tras la búsqueda de una solución simple al
problema del sistema vocálico indoeuropeo y rechazando las complicadas
construcciones de la ciencia dé su tiempo.
Los criterios anteriormente examinados constituyen el fundamento de la
evaluación experimental y de la
comparación de modelos. Para elegir el mejor entre diferentes modelos, es
necesario obtener los resultados de cada uno de ellos mediante un medio experimental
(por ejemplo, la máquina) y evaluarlos numéricamente según las fórmulas antes
indicadas. Para convencerse de la insuficiencia de un modelo dado no sólo es
necesario construirlo desde el comienzo hasta el fin, sino que además se debe tratar en él un material
cualquiera. Se plantea naturalmente la cuestión de si existe un método de
evaluación de la perfección de los modelos, que no esté ligado a la
ejecución de experiencias voluminosas. Hallamos que tal método existe: consiste
en reemplazar parcialmente las
experiencias por pruebas teóricas. Nos acercamos aquí al sector más
interesante de la metateoría y a una de las cuestiones más interesantes de la
lingüística contemporánea ‑la cuestión de la teoría de las gramáticas.
Si, por ejemplo, tenemos dos modelos que describen el mismo material,
y cuyas propiedades nos vienen dadas explícitamente, y si además, conocemos las
propiedades esenciales del material, en
principio, podemos demostrar teoremas de los que se deducirá. que, en
ciertos aspectos, uno de los modelos es más completo que el otro. Además, para
demostrar tales teoremas no es necesario disponer de modelos reales; es
suficiente con conocer las propiedades esenciales de ciertas clases de ellos,
de tal forma que, lo que se ha demostrado para una clase de modelos dada,
evidentemente será aplicable a cada uno de ellos tomados por separado.
El objeto y las dimensiones de este libro no nos permiten hablar con
más detalle de este dominio de la lingüística estructural contemporánea,
elaborado sobre todo por N. Chomsky y
tras él, por E. Bach, A. V.
Gladkiï, 0. S. Kulagina, I. I. Revzin, S. Ia. Fitialov, G.
S. Tseïtin, etc. Nos vemos obligados a limitarnos
a algunas simples aclaraciones tan sólo. Esperamos que el lector no se
desaliente por la sequedad y el carácter abstracto de los razonamientos que
siguen: tal es la especificidad del objeto del que hablaremos.
Ya hemos dicho que para la demostración de estos teoremas
lingüísticos, es preciso conocer ciertas propiedades del objeto «modelizado» y
de los modelos en sí mismos. Comenzaremos por la discusión de la primera
cuestión.
Definamos la lengua como un
conjunto de oraciones a partir de un alfabeto finito de símbolos. Como sabemos,
se puede tomar como alfabeto de símbolos bien el conjunto de fonemas, bien el
conjunto de morfemas, bien el conjunto de palabras gramaticales, o bien el
conjunto de símbolos que designan las clases de morfemas o de palabras
gramaticales. En tal lengua, las oraciones tienen el aspecto de cadenas de fonemas
(o de morfemas, de palabras gramaticales, de símbolos de clase). La lengua está
formada por su alfabeto y las reglas según las cuales se construyen las
oraciones a partir de los elementos del alfabeto.
Examinemos las dos lenguas artificiales siguientes, que se construyen
sobre los símbolos a y b, conteniendo cada una, una regla de construcción de
oraciones:
(1) aa, bb, abba, baab, aaaa, bbbb, aabbaa y
en general, todas las oraciones que consisten en una cadena X, seguida del
«reflejo del espejo» de X (es decir, por X en orden inverso) y solamente de él;
(2) aa, bb, abab, baba, aaaa, bbbb, aabaab y
en general, todas las oraciones que consisten en una cadena X (que contiene
cualquier combinación de las letras a y b) seguida exactamente por la misma cadena
X y solamente por ella.
Con todo lo primitivas que puedan parecer
estas lenguas, desde cierto punto de vista presentan un interés excepcional: de
su «material» podemos extraer y estudiar en forma «depurada» dos propiedades de
ciertas oraciones o fragmentos de oraciones, extremadamente complejas en las
lenguas naturales, a saber la repetición
directa y en espejo de los elementos de una oración.
La imagen en espejo se manifiesta cuando, para
todo elemento de la primera mitad de una cadena, se encuentra regularmente un
elemento que depende de él en la segunda cadena. Como ejemplo natural de reflejo
(«en espejo»), examinemos oraciones del tipo Esli teorik neprimenima, to nado iskat’ drugoc reshenie («Si la teoría
es inaplicable, entonces hay que buscar otra soluci6n»), oraciones del tipo Libo teorema nedokazuema, líbo neprimenima («0 bien el teorema es indemostrable,
o bien es inaplicable»), y oraciones del tipo Teorema, kotoruiu vy slormulinovali, nedokazuema («El teorema que usted
ha formulado es indemostrable.») En cada una de estas oraciones hay una pareja
de elementos que dependen uno de otro: (a) esti...
to («si... entonces»); en las oraciones de este tipo, la palabra to no puede ser reemplazada ni por la
palabra libo («o bien»), ni por cbto («que»), ni por potomu («porque»); después de la
aparición de la palabra esli en la
primera nútad de la oración, la palabra que depende de ella, to (o togda) ha de aparecer necesariamente
en la segunda, (b) libo... libo («o bien...,
o bien»); el segundo libo depende de
el primero y debe de estar situado en la segunda mitad de cualquier frase
compuesta que comience por la palabra libo;
teorema... nedokazuema; las categorías gramaticales de la palabra nedokazuema («indemostrable») ‑femenino,
singular, nominativorepiten, según las reglas de concordancia las de la palabra
teorema y no pueden ser reemplazadas
por ninguna otra categoría sin que cambie al mismo tiempo la palabra teorema.
Si se admite, tal como se ha hecho en el
capítulo 1 de la II parte, que la longitud de una oración de una lengua natural
no está, en principio, limitada, entonces podemos considerar el siguiente
proceso de construcción de una frase compuesta a partir de oraciones del tipo
señalado aquí arriba (los símbolos Si, S2 ... indican oraciones).
Esli S1,
to S2.
(Si S1, entonces S2»).
Sea S1 una oración del tipo (b): libo S3, libo S4. Entonces es posible la frase siguiente:
Esti, libo
S3, to S2.
(«Si, sea
S3 sea
S4, entonces S2»).
Sea, finalmente, S5 una frase del tipo (c) teorema, S5, nedokazuema
(«el teorema, S5,
es indemostrable»). Entonces es posible la siguiente frase: Esli, libo teorema, S5, nedokazuema, libo S4, to S2 («Si, sea el teorema, S5, es indemostrable, sea S4, entonces S2.»)
Al reemplazar los símbolos S5, S4, S2 por las oraciones reales que les corresponden en los ejemplos citados
anteriormente, obtenemos: Esli, libo
teorema, kotoruiu vy sformulirovali, nedokazuema, libo neprimenima, to nado
iskat’ drugoe reshenie («Si el teorema que usted ha formulado es, sea indemostrable,
sea inaplicable, entonces hay que buscar otra solución.»)
Es fácil observar que una parte de esta oración, totalmente correcta
aunque voluminosa, posee la propiedad de «reflejo en espejo» (cf. la cadena de
elementos esli + libo + femenino,
singular, nominativo en la primera parte de la oración y la cadena inversa de
elementos: femenino, singular, nominativo + libo + to en la segunda). Si en toda lengua natural se encuentra al
menos un ejemplo de este tipo, ello es prueba suficiente de que, en general,
las oraciones de las lenguas naturales poseen la propiedad de la «imagen en
espejo».
En las lenguas naturales se encuentran también cadenas tipo (2) con
repetición directa de los elementos de la oración. El ejemplo más común de este
tipo es el de las oraciones subordinadas compuestas en secuencias (completivas,
atributivas, etc.): On skazal, chto S1,
kotoryï S2.... kotoryï
Sn.... («He aquí al hombre que S1,
que S2, que S3.... que Sn, por ejemplo: Vot pes bez ivosta, kotoryi za shivorot
treplet kota, kotoryi pugaet i lovit sinitsu, kotoraia chasto voruet pshenitsu,
kotoraia v temnom chulane iranitsia v dome, kotoryi postroil Dzhèk («He aquí el perro sin rabo que
sacude por el cuello al gato que se aterroriza y atrapa al pájaro que roba a
menudo el trigo que se conserva en un oscuro reducto en la casa que Jack ha
construido.»)
Hemos indicado, así pues, algunas propiedades interesantes de las
lenguas naturales. Existen otras (ver las obras indicadas anteriormente) que
jamás han sido analizadas por la gramática clásica. Sin embargo, puesto que el
material aquí citado es suficiente para nuestros objetivos, pasaremos a la segunda
cuestión, es decir, al análisis de ciertas propiedades gramaticales que
representan los fenómenos lingüísticos bajo la forma de modelo. Se trata
fundamentalmente de la llamada gramática de estado finito y ‑en menor
medida de la gramática en constituyentes inmediatos, tal como han sido expuestas
por N. Chomsky (199). Algunos otros tipos de gramática serán mencionados
únicamente de pasada.
Imaginémonos un dispositivo generativo que pueda admitir un número
finito de estados internos. Poco importa la imagen que de él se haga el lector;
en el peor de los casos, se puede imaginar un radio‑receptor cuyo
regulador puede abrirse o cerrarse o dividirse en ondas cortas medias o largas.
Designemos con los símbolos E0, E1, E2 ... En
los diferentes estados del dispositivo de generación. Al pasar de un estado a
otro, el mecanismo da un cierto elemento lingüístico (por ejemplo, un fonema, o
una letra, una palabra gramatical o el símbolo de una clase de palabras
gramaticales, o un blanco entre palabras gramaticales, etc.): Ei Ej
® aij. En el
transcurso del paso de un estado E1 al estado inicial E0 se
obtiene el signo punto. La sucesión de estados que han pasado por el
dispositivo tras la recepción (un ciclo) corresponden a una cierta frase. El
conjunto de frases que engendra constituyen una lengua con un número finito de
estados y la gramática que describe tal lengua, se denomina gramática de estado finito.
Observemos la «lengua» que se compone del dístico de V. Jlebnikov
(ejemplo tomado de I. I. Revzin)
Gde kachalis’ tijo eli,
Gde shumeti zvonko eli...
(«Donde se balanceaban suavemente los abetos,
Donde zumbaban fuertemente los abetos ... »)
La gramática de esta lengua, como la de cualquier otra, puede ser
representada en forma trivial por medio de una simple enumeración de todas las
frases correctas de la lengua (una tal lista contiene implícitamente, todas las
reglas gramaticales de la lengua; y un hombre que haya aprendido de memoria
todas las frases de la lista, sabrá construir otras frases en esta lengua). Sin
embargo, incluso para esta «lengua» tan simple, es lógico que se intente
construir una gramática de forma menos trivial y más económica. Esto es lo que
hará la siguiente gramática de estado finito:
Alfabeto de símbolos: gde
(«donde») kacbalis’
(«se balanceaban»), shumeli
(«zumbaban»), tijo
(«suavemente»), zvonko
(«fuertemente»), eli («los abetos>.
Estados: E0, E1, E2, E3, E4,
E5.
Reglas gramaticales:
E0, E1, ® gde
E1, E2 ® kachlis,
E1, E3 ® shumeli
E2, E4 ® ti¡o
E3, E4 ® zvonko
E4, E5 ® eli
La generación de frases gramaticales de esta «lengua» según las reglas
de la gramática arriba formuladas, puede representarse por el diagrama
siguiente:
Para que una gramática de este tipo pueda engendrar oraciones de
cualquier longitud y para que el número de oraciones sea infinito, es
suficiente con añadirle varias reglas recursivas que le permitan volver a estados
ya pasados; en el diagrama tales flechas tienen el aspecto de flechas inversas.
Así perfeccionada, la gramática engendrará, en concreto la oración Gde kachalis’ shumeli zvonko eli («Donde se balanceaban, zumbaban fuertemente los abetos.»)
Finalmente, a cada paso de un estado a otro, se le puede atribuir una
cierta probabilidad, y el modelo de una lengua de estado finito quedará
terminado.
Pasemos a la gramática en
constituyentes inmediatos. Esta gramática se define, recordemos, por un alfabeto
de símbolos, un conjunto finito de cadenas S1, S2, S3
..., Si (tipos de oraciones) y un conjunto finito y ordenado de
reglas de sustitución f1, f2, .... fj (de
reglas de formación de oraciones).
Examinemos el siguiente ejemplo abstracto de una gramática de este
tipo. El alfabeto de símbolos es a, b. El conjunto de cadenas es S. Las reglas
de sustitución son (1) S ® ab y (2) S® aSb. Las oraciones correctas engendradas por
esta gramática son oraciones del tipo ab, aabb, aaabbb, aaaabbbb, etc. La
última oración se obtiene como resultado de una triple aplicación de la regla
(2) y de una de la regla (1):
(1) S® aSb aSb
(2) S ® aSb aaSbb
(3) S ® aSb aaaSbbb
(4) S ® ab aaaabbbb
Una sucesión de cadenas en la que cada cadena siguiente Sj
se obtiene como resultado de la aplicación a la cadena precedente Si de una
cierta regla de sustitución fk, se denomina derivación. Una derivación se considera acabada si no existe regla fj que
permita transformar su última cadena. La derivación (4) está acabada, la
derivación (3) no lo está. La última cadena de una derivación acabada se llama terminal, y a esta ya no se le pueden
aplicar ninguna de las reglas de sustitución que poseemos. En nuestro ejemplo,
la cadena aaaabbbb es terminal, mientras que la cadena precedente aaaSbbb no lo
es, dado que contiene el símbolo S al que se le pueden aplicar las dos reglas
de sustitución que tenemos aquí. El conjunto de las cadenas terminales engendradas
por una gramática de este tipo, forma el lenguaje
terminal.
En efecto, hemos estudiado algunas propiedades de la estructura
sintáctica de las oraciones de las lenguas naturales (la repetición en espejo y
la repetición directa de los elementos estructurales de la oración), dos tipos
de lenguajes (los lenguajes de estado finito y los lenguajes terminales) y dos
tipos de gramáticas (las gramáticas de estado finito y las gramáticas en
constituyentes inmediatos). Ahora podemos relacionar mediante teoremas las
propiedades de las lenguas y de las gramáticas que hemos estudiado y comparar
los diversos tipos de gramáticas desde el punto de vista de su adecuación, sin
recurrir a experiencias e incluso sin construir estas gramáticas hasta el
final. No suministraremos aquí ninguna prueba formal sino que únicamente
indicaremos el camino por el que pueden obtenerse. Las pruebas formales vienen
dadas en (202).
Teorema 1 (N. Comsky): Toda lengua de estado finito es
una lengua terminal; lo inverso es falso: existen lenguas terminales que no son lenguas de estado finito.
Se puede deducir este teorema de otros teoremas que declaran que una
lengua de estado finito no contiene cadenas «en espejo» y que, en consecuencia,
una gramática de estado finito no las engendra, mientras que, en general, un
lenguaje terminal contiene tales cadenas y una gramática de constituyentes
inmediatos puede engendrarlas.
Teorema 2: Las lenguas naturales no son lenguas de estado
finito.
Esto deriva del hecho de que en ellas se pueden encontrar oraciones
con repeticiones «en espejo» o repetición directa de los elementos
estructurales, que no se engendran en las gramáticas de estado finito. En
consecuencia estas gramáticas no son adecuadas para la estructura de las
lenguas naturales (no engendran todos los tipos posibles de oraciones). En este
sentido, las gramáticas en constituyentes inmediatos son más perfectas en la
medida en que en ellas es fácil introducir mecanismos para engendrar oraciones
de tipos «difíciles». Sin embargo, ni siquiera éstas son totalmente adecuadas a
la estructura de las lenguas naturales, pues en estas existen tipos de
oraciones que las gramáticas en constituyentes inmediatos no pueden engendrar.
Entre ellas están las que anteriormente examinamos con repetición directa de los
elementos que, como ha señalado Chomsky, sólo pueden ser engendradas por una
gramática transformacional más potente.
En estos últimos años se han demostrado algunos otros teoremas
importantes e interesantes, en particular el teorema de la equivalencia (en
determinados límites) entre dos medios muy extendidos de anotación de la
estructura sintáctica de la oración: los árboles de constituyentes inmediatos y
los árboles de dependencias.
Estas pruebas teóricas y otras semejantes son una parte necesaria de la
teoría lingüística, aún cuando, evidentemente, no suprimen la necesidad de
amplias investigaciones experimentales.