Apresián, In

EVALUACIÓN DE MODELOS

Apresián, In. D. (1975): La Lingüística Estructural Soviética. Madrid: Akal. Pp. 257-269.

_______________________________________

Examinemos el siguiente modelo (algoritmo) de generación de textos, realizado por el ordenador de la Universidad de Manchester. Como información de base se utiliza un texto coherente lo suficientemente largo para que cada palabra gramatical se utilice en él al menos dos veces. Entre las palabras gramaticales se incluyen también los puntos. Las reglas de formación de nuevos textos son las siguientes.

En un texto, se elige arbitrariamente cualquier palabra gramatical que se halle inmediatamente después de un punto (es decir, la palabra inicial de una proposición cualquiera). Se anota. Después se busca el segundo, uso de esta palabra ,gramatical; cuando se encuentra, se extrae la primera palabra gramatical de su derecha y se anota esta última a la derecha de la primera palabra gramatical que se ha recogido. Seguidamente, se busca el segundo uso de la segunda palabra gramatical y se anota la primera palabra gramatical que se encuentra a su derecha, a la derecha de las dos ya anotadas; y así sucesivamente hasta que se encuentre un punto. Así siguiendo estas reglas se ha sintetizado el texto siguiente: “¡Mi pequeño tesoro!” Mi comprensible afecto atrae maravillosamente tu tierno embeleso. Tú eres mi amante adoración, la adoración que me inflama el pecho. Mi sentimiento fraternal apaga tu querida impaciencia, reteniendo su soplo. La adoración de mi amor guarda tu ávido ardor. Tu enamorado MUK».

A pesar de los aparentemente buenos resultados, este modelo no nos inspira una gran confianza: las reglas que utiliza son demasiado primitivas y su información de base, demasiado compleja (no construye nuevos textos a partir de los mismos textos). Uno se puede preguntar si éste es el único modelo posible de generación de textos y de no ser así, cómo elegir el mejor.

No es difícil responder a la primera pregunta. De lo afirmado en el capítulo de la II parte sobre el modelo lingüístico, en tanto que aproximación funcional al objeto, se deduce que un fenómeno lingüístico dado puede explicarse por más de un modelo. Los diferentes modelos de un mismo fenómeno pueden distinguirse entre sí:

1. Por el carácter de la información inicial. Así, los sistemas fonológicos de las lenguas naturales se pueden expresar en forma de modelos, no sólo a nivel de fonemas sino también a nivel de sus rasgos distintivos, tal como testimonian los trabajos de R. Jakobson y de su escuela.

2. Por el volumen de la información de base. En esto pueden servir de ejemplo los tres tipos de modelos de investigación que hemos citado en páginas anteriores: como información inicial, los del primer tipo utilizan sólo el texto, los del segundo tipo, el texto y el conjunto de frases correctas de la lengua, los del tercero el texto, el conjunto de frases correctas y el conjunto de las invariantes semánticas. Naturalmente la utilización de una información básica más rica, permite, cuando las restantes condiciones permanecen idénticas, obtener una información final más rica; en consecuencia, inevitablemente los modelos de este tipo se distinguen unos de otros según el grado de aproximación al objeto.

3. Por los principios de tratamiento de la información o por el carácter de las reglas utilizadas. Hemos visto anteriormente que las reglas pueden ser probabilistas y estrictas y que entre estas últimas se pueden distinguir tipos distribucionales, transformacionales, etc.

4. Por la forma de presentación. Ya hemos discutido detalladamente las dos formas más interesantes de presentación de un modelo ‑el cálculo y el algoritmo‑‑‑. Aunque evidentemente ambos no agotan las posibilidades existentes en este campo.

Como, en general, un fenómeno dado puede representarse por varios procedimientos, debemos disponer de un sistema de evaluación que nos permita comparar entre los diferentes modelos que lo expresan y elegir el que constituya la mejor aproximación al objeto o el que se adapte más a la resolución de los problemas concretos. Esto es precisamente el fin de la metateoría, el asegurar a la teoría lingüística un sistema tal de evaluaciones.

El primero en proponer un sistema de criterios de evaluación de la teoría lingüística fue L. Hjemslev. El criterio del empirismo que preconizaba, estipula: «La descripción debe de estar libre de contradicciones..., exhaustiva y lo más simple posible». A estos tres criterios de coherencia, exhaustividad y simplicidad se han añadido los de adecuación, belleza y simetría; estos dos últimos pueden coincidir, a lo que parece, con el criterio de simplicidad.

Entre los conceptos aquí citados el de coherencia no exige una especial explicación, pues es evidente. Por el contrario los conceptos de exhaustividad, adecuación, simplicidad, etcétera, no lo son lo bastante como para ser utilizados sin definición. A este respecto, expondremos la tentativa de I. A. Mel’chuk de formalizar estos criterios sobre la base de representaciones elementales en el campo de la teoría de conjuntos, y algunos otros criterios de evaluación de la calidad de los modelos lingüísticos. Observemos que los medios que I. A. Mel’chuk propone para medir la simplicidad, la exhaustividad y otras propiedades interesantes de los modelos, no ha sido, hasta el momento prácticamente utilizada por nadie, y en parte porque en la lingüística contemporánea no existen suficientes modelos escritos bajo la forma estandarizada que exige una evaluación de este tipo, y en parte porque los criterios de I. A. Mel’chuk, tienen en gran medida un carácter preliminar. En consecuencia, analizamos esta obra, no tanto para ofrecer al lector un procedimiento de verificación de la cualidad de las teorías lingüísticas, como para demostrar la posibilidad de principio de hablar con rigor de categorías que, a primera vista, se resisten a la formalización.

Para discutir esta cuestión, necesitaremos algunos conceptos de la teoría de conjuntos señalados en la II parte. Recordemos que por fuerza de un conjunto (anotación ½M½) se entiende el número de elementos que entran en él, y por intersección de dos puntos M y N, el conjunto MÇN, en el que los elementos pertenecen al mismo tiempo a M y a N.

Pasemos a lo esencial de las oraciones de I. A. Mel’chuk. Designemos con la letra M al conjunto de elementos que forman el fenómeno lingüístico que nos interesa (por ejemplo, el conjunto de las formas del verbo). Designemos con la letra N al conjunto de los elementos (el conjunto de las formas verbales) engendrados por el modelo. Designemos con la letra b el número (no el conjunto) de conceptos iniciales no definidos utilizados en el modelo; designemos, finalmente, con la letra c el número de reglas según las cuales se forman los resultados a partir de los elementos iniciales. El número b indica la economía absoluta del modelo; cuanto más pequeño es más económico es el modelo. El número c indica la simplicidad absoluta del modelo: cuantas menos reglas contienen, tanto más simple es el modelo.

La exhaustividad del modelo se mide por la fórmula:

Para explicar el sentido de esta función, examinemos dos casos extremos (Figura 20):

En el primer caso (Figura 20,1) el modelo engendra todo el conjunto de formas verbales: M está incluido en N. Lo que significa que la intersección M Ç N es igual a M y, en consecuencia, en este caso:

En el segundo caso (Figura 20, 2), el modelo no engendra ninguna forma verbal: la intersección M Ç N está vacía. En consecuencia, la fuerza de la intersección es igual a cero y

I. A. Mel’chuk ha propuesto asimismo, utilizar un criterio más preciso para medir la exhaustividad de un modelo. Admitamos que necesitamos evaluar la exhaustividad de un modelo que engendra los sintagmas verbales con un sustantivo como instrumental. Admitamos, además, que engendra los sintagmas de los tipos más extendidos kachat’ golovoi («menear la cabeza»), pajat’ plugom («labrar con el arado»), vosiisbchat’sia knigoi («admirar un libro»), letet’ streloi («volar como una flecha»), idti lesom («ir por el bosque»), znat’ rebenkom («conocer a alguien desde la infancia»), etc., pero no los menos usuales, de hecho muy raros, con instrumental de causa, por ejemplo, Osel mdi glupost’iu v poslovitsu voshel («Mi asno ha pasado a la leyenda por su necedad.») En este caso, la función va calculando no solamente el número de tipos de sintagmas engendrados, sino también la frecuencia de cada tipo en el texto, lo que dará una evaluación más precisa de la exhaustividad del modelo. Si el modelo hipotético que acabamos de examinar aquí se evalúa con la ayuda de una función más precisa, sin duda quedará lo suficientemente completo a pesar de que no engendre sintagmas de un tipo determinado.

La adecuación de un modelo se mide mediante la fórmula:

Para aclarar el sentido de este concepto, examinaremos dos casos extremos (Figura 21).

En el primer caso, el modelo no engendra ninguna forma «superflua» que no pertenezca al conjunto M: N está incluido en M. Esto significa que la intersección M Ç N es Igual a N y, en consecuencia:

En el segundo caso, el modelo sólo engendra formas «superfluas» de las que ninguna pertenece a M: la intersección M Ç N está vacía. En consecuencia la fuerza de la intersección es igual a cero y:

Del aspecto de la función, resulta que un modelo puede estar completo sin ser adecuado (ver Figura 20), o bien adecuado pero insuficientemente completo (ver Figura 21). Un modelo está completo y es adecuado cuando el conjunto engendrado N coincide exactamente con el conjunto real M, es decir, cuando engendra todos los elementos de un conjunto dado y solamente estos.

La economía de un modelo se mide mediante la fórmula:

El número de conceptos no definidos utilizados en un modelo no puede ser inferior a uno; precisamente el modelo real que contiene b conceptos no definidos se compara con este caso ideal «patrón». La economía de un modelo es máxima (igual a 1) cuando b = 1; en un mismo conjunto N, cuanto mayor es b, menor es la economía del modelo.

La simplicidad de un modelo se mide con la fórmula:

El número de reglas según las cuales se construyen los resultados a partir de los elementos iniciales, tampoco puede ser inferior a uno; con este caso ideal se compara el modelo real que contiene c reglas de este tipo. La simplicidad del modelo es máxima (igual a 1) cuando c = 1; para un mismo conjunto |N| cuanto mayor es el número de reglas, más complicado es el modelo.

Es evidente, atendiendo a las dos últimas fórmulas, que para medir la economía y la simplicidad de un modelo, no es suficiente con conocer el número absoluto de los conceptos iniciales y las reglas que les conciernen; si, por ejemplo, dos modelos utilizan un conjunto de cinco conceptos iniciales y dos reglas, ello no significa que sean idénticamente simples y económicos. Todo depende de la fuerza del conjunto de los elementos que engendran. Es fácil verificar que, para un número idéntico de conceptos iniciales y reglas que operan sobre ellos, el modelo que engendra un conjunto más potente de elementos será más económico y más simple.

A veces existe una dependencia inversa entre la economía y la simplicidad: el aumento del número de conceptos básicos, permite reducir el número de reglas y a la inversa. En tales casos, se puede elegir, en función de las condiciones concretas de un problema, un modelo más económico aunque menos simple (o inversamente). Así, si el ordenador que efectúa la síntesis de las formas verbales tienen una memoria de un volumen considerable, pero de modestas posibilidades lógicas, será razonable el elegir un algoritmo de síntesis simple, aún cuando no sea muy económico; si la máquina posee una memoria reducida pero de grandes posibilidades lógicas, será más ventajoso un algoritmo económico, aunque no sea muy simple.

Generalmente, la exhaustividad y. la adecuación se consideran como justificaciones externas de una teoría, es decir, como su conformidad con los datos experimentales, y la economía y la simplicidad, como rasgos de su perfección interna. Sin embargo, conviene recordar que cualquier teoría interiormente perfecta, no sólo tiene ventajas estéticas, con relación a una teoría desprovista no solamente de perfección interna, sino también de otras ventajas importantes a causa de su naturaleza. En la medida en que parte de un número restringido de premisas simples y generales, y en que no contiene suposiciones arbitrarias que se deduzcan de ella de una manera unívoca, es capaz de explicar, mejor que cualquier otra, la unidad real de su objeto. Por eso, muy a menudo, la búsqueda de una teoría simple y económica se transforma en la búsqueda de un conocimiento verdadero, mientras que la aceptación de una teoría complicada y antieconómica significa la conciliación con una seudoexplicación anexa y efímera. Es interesante observar que F. de Saussure llegó a la teoría de las laringales (brillantemente confirmada por recientes descubrimientos) tras la búsqueda de una solución simple al problema del sistema vocálico indoeuropeo y rechazando las complicadas construcciones de la ciencia dé su tiempo.

Los criterios anteriormente examinados constituyen el fundamento de la evaluación experimental y de la comparación de modelos. Para elegir el mejor entre diferentes modelos, es necesario obtener los resultados de cada uno de ellos mediante un medio experimental (por ejemplo, la máquina) y evaluarlos numéricamente según las fórmulas antes indicadas. Para convencerse de la insuficiencia de un modelo dado no sólo es necesario construirlo desde el comienzo hasta el fin, sino que además se debe tratar en él un material cualquiera. Se plantea naturalmente la cuestión de si existe un método de evaluación de la perfección de los modelos, que no esté ligado a la ejecución de experiencias voluminosas. Hallamos que tal método existe: consiste en reemplazar parcialmente las experiencias por pruebas teóricas. Nos acercamos aquí al sector más interesante de la metateoría y a una de las cuestiones más interesantes de la lingüística contemporánea ‑la cuestión de la teoría de las gramáticas.

Si, por ejemplo, tenemos dos modelos que describen el mismo material, y cuyas propiedades nos vienen dadas explícitamente, y si además, conocemos las propiedades esenciales del material, en principio, podemos demostrar teoremas de los que se deducirá. que, en ciertos aspectos, uno de los modelos es más completo que el otro. Además, para demostrar tales teoremas no es necesario disponer de modelos reales; es suficiente con conocer las propiedades esenciales de ciertas clases de ellos, de tal forma que, lo que se ha demostrado para una clase de modelos dada, evidentemente será aplicable a cada uno de ellos tomados por separado.

El objeto y las dimensiones de este libro no nos permiten hablar con más detalle de este dominio de la lingüística estructural contemporánea, elaborado sobre todo por N. Chomsky y tras él, por E. Bach, A. V. Gladkiï, 0. S. Kulagina, I. I. Revzin, S. Ia. Fitialov, G. S. Tseïtin, etc. Nos vemos obligados a limitarnos a algunas simples aclaraciones tan sólo. Esperamos que el lector no se desaliente por la sequedad y el carácter abstracto de los razonamientos que siguen: tal es la especificidad del objeto del que hablaremos.

Ya hemos dicho que para la demostración de estos teoremas lingüísticos, es preciso conocer ciertas propiedades del objeto «modelizado» y de los modelos en sí mismos. Comenzaremos por la discusión de la primera cuestión.

Definamos la lengua como un conjunto de oraciones a partir de un alfabeto finito de símbolos. Como sabemos, se puede tomar como alfabeto de símbolos bien el conjunto de fonemas, bien el conjunto de morfemas, bien el conjunto de palabras gramaticales, o bien el conjunto de símbolos que designan las clases de morfemas o de palabras gramaticales. En tal lengua, las oraciones tienen el aspecto de cadenas de fonemas (o de morfemas, de palabras gramaticales, de símbolos de clase). La lengua está formada por su alfabeto y las reglas según las cuales se construyen las oraciones a partir de los elementos del alfabeto.

Examinemos las dos lenguas artificiales siguientes, que se construyen sobre los símbolos a y b, conteniendo cada una, una regla de construcción de oraciones:

(1) aa, bb, abba, baab, aaaa, bbbb, aabbaa y en general, todas las oraciones que consisten en una cadena X, seguida del «reflejo del espejo» de X (es decir, por X en orden inverso) y solamente de él;

(2) aa, bb, abab, baba, aaaa, bbbb, aabaab y en general, todas las oraciones que consisten en una cadena X (que contiene cualquier combinación de las letras a y b) seguida exactamente por la misma cadena X y solamente por ella.

Con todo lo primitivas que puedan parecer estas lenguas, desde cierto punto de vista presentan un interés excepcional: de su «material» podemos extraer y estudiar en forma «depurada» dos propiedades de ciertas oraciones o fragmentos de oraciones, extremadamente complejas en las lenguas naturales, a saber la repetición directa y en espejo de los elementos de una oración.

La imagen en espejo se manifiesta cuando, para todo elemento de la primera mitad de una cadena, se encuentra regularmente un elemento que depende de él en la segunda cadena. Como ejemplo natural de reflejo («en espejo»), examinemos oraciones del tipo Esli teorik neprimenima, to nado iskat’ drugoc reshenie («Si la teoría es inaplicable, entonces hay que buscar otra soluci6n»), oraciones del tipo Libo teorema nedokazuema, líbo neprimenima («0 bien el teorema es indemostrable, o bien es inaplicable»), y oraciones del tipo Teorema, kotoruiu vy slormulinovali, nedokazuema («El teorema que usted ha formulado es indemostrable.») En cada una de estas oraciones hay una pareja de elementos que dependen uno de otro: (a) esti... to («si... entonces»); en las oraciones de este tipo, la palabra to no puede ser reemplazada ni por la palabra libo («o bien»), ni por cbto («que»), ni por potomu («porque»); después de la aparición de la palabra esli en la primera nútad de la oración, la palabra que depende de ella, to (o togda) ha de aparecer necesariamente en la segunda, (b) libo... libo («o bien..., o bien»); el segundo libo depende de el primero y debe de estar situado en la segunda mitad de cualquier frase compuesta que comience por la palabra libo; teorema... nedokazuema; las categorías gramaticales de la palabra nedokazuema («indemostrable») ‑femenino, singular, nominativorepiten, según las reglas de concordancia las de la palabra teorema y no pueden ser reemplazadas por ninguna otra categoría sin que cambie al mismo tiempo la palabra teorema.

Si se admite, tal como se ha hecho en el capítulo 1 de la II parte, que la longitud de una oración de una lengua natural no está, en principio, limitada, entonces podemos considerar el siguiente proceso de construcción de una frase compuesta a partir de oraciones del tipo señalado aquí arriba (los símbolos Si, S2 ... indican oraciones).

Esli S₁, to S₂.

(Si S₁, entonces S₂»).

Sea S₁ una oración del tipo (b): libo S₃, libo S₄. Entonces es posible la frase siguiente:

Esti, libo S₃, to S₂.

(«Si, sea S₃sea S₄, entonces S2»).

Sea, finalmente, S₅ una frase del tipo (c) teorema, S₅, nedokazuema («el teorema, S₅, es indemostrable»). Entonces es posible la siguiente frase: Esli, libo teorema, S₅, nedokazuema, libo S₄, to S₂ («Si, sea el teorema, S₅, es indemostrable, sea S₄, entonces S₂.»)

Al reemplazar los símbolos S₅, S₄, S₂ por las oraciones reales que les corresponden en los ejemplos citados anteriormente, obtenemos: Esli, libo teorema, kotoruiu vy sformulirovali, nedokazuema, libo neprimenima, to nado iskat’ drugoe reshenie («Si el teorema que usted ha formulado es, sea indemostrable, sea inaplicable, entonces hay que buscar otra solución.»)

Es fácil observar que una parte de esta oración, totalmente correcta aunque voluminosa, posee la propiedad de «reflejo en espejo» (cf. la cadena de elementos esli + libo + femenino, singular, nominativo en la primera parte de la oración y la cadena inversa de elementos: femenino, singular, nominativo + libo + to en la segunda). Si en toda lengua natural se encuentra al menos un ejemplo de este tipo, ello es prueba suficiente de que, en general, las oraciones de las lenguas naturales poseen la propiedad de la «imagen en espejo».

En las lenguas naturales se encuentran también cadenas tipo (2) con repetición directa de los elementos de la oración. El ejemplo más común de este tipo es el de las oraciones subordinadas compuestas en secuencias (completivas, atributivas, etc.): On skazal, chto S₁, kotoryï S₂.... kotoryï S_n.... («He aquí al hombre que S₁, que S₂, que S₃.... que S_n, por ejemplo: Vot pes bez ivosta, kotoryi za shivorot treplet kota, kotoryi pugaet i lovit sinitsu, kotoraia chasto voruet pshenitsu, kotoraia v temnom chulane iranitsia v dome, kotoryi postroil Dzhèk («He aquí el perro sin rabo que sacude por el cuello al gato que se aterroriza y atrapa al pájaro que roba a menudo el trigo que se conserva en un oscuro reducto en la casa que Jack ha construido.»)

Hemos indicado, así pues, algunas propiedades interesantes de las lenguas naturales. Existen otras (ver las obras indicadas anteriormente) que jamás han sido analizadas por la gramática clásica. Sin embargo, puesto que el material aquí citado es suficiente para nuestros objetivos, pasaremos a la segunda cuestión, es decir, al análisis de ciertas propiedades gramaticales que representan los fenómenos lingüísticos bajo la forma de modelo. Se trata fundamentalmente de la llamada gramática de estado finito y ‑en menor medida de la gramática en constituyentes inmediatos, tal como han sido expuestas por N. Chomsky (199). Algunos otros tipos de gramática serán mencionados únicamente de pasada.

Imaginémonos un dispositivo generativo que pueda admitir un número finito de estados internos. Poco importa la imagen que de él se haga el lector; en el peor de los casos, se puede imaginar un radio‑receptor cuyo regulador puede abrirse o cerrarse o dividirse en ondas cortas medias o largas. Designemos con los símbolos E₀, E₁, E₂ ... E_n los diferentes estados del dispositivo de generación. Al pasar de un estado a otro, el mecanismo da un cierto elemento lingüístico (por ejemplo, un fonema, o una letra, una palabra gramatical o el símbolo de una clase de palabras gramaticales, o un blanco entre palabras gramaticales, etc.): E_i E_j ® a_ij. En el transcurso del paso de un estado E₁ al estado inicial E₀ se obtiene el signo punto. La sucesión de estados que han pasado por el dispositivo tras la recepción (un ciclo) corresponden a una cierta frase. El conjunto de frases que engendra constituyen una lengua con un número finito de estados y la gramática que describe tal lengua, se denomina gramática de estado finito.

Observemos la «lengua» que se compone del dístico de V. Jlebnikov (ejemplo tomado de I. I. Revzin)

Gde kachalis’ tijo eli,

Gde shumeti zvonko eli...

(«Donde se balanceaban suavemente los abetos,

Donde zumbaban fuertemente los abetos ... »)

La gramática de esta lengua, como la de cualquier otra, puede ser representada en forma trivial por medio de una simple enumeración de todas las frases correctas de la lengua (una tal lista contiene implícitamente, todas las reglas gramaticales de la lengua; y un hombre que haya aprendido de memoria todas las frases de la lista, sabrá construir otras frases en esta lengua). Sin embargo, incluso para esta «lengua» tan simple, es lógico que se intente construir una gramática de forma menos trivial y más económica. Esto es lo que hará la siguiente gramática de estado finito:

Alfabeto de símbolos: gde («donde») kacbalis’

(«se balanceaban»), shumeli

(«zumbaban»), tijo

(«suavemente»), zvonko

(«fuertemente»), eli («los abetos>.

Estados: E₀, E₁, E₂, E₃, E₄, E₅.

Reglas gramaticales:

E₀, E₁, ® gde

E₁, E₂® kachlis,

E₁, E₃ ® shumeli

E₂, E₄ ® ti¡o

E_3,E₄ ® zvonko

E_4, E₅ ® eli

La generación de frases gramaticales de esta «lengua» según las reglas de la gramática arriba formuladas, puede representarse por el diagrama siguiente:

Para que una gramática de este tipo pueda engendrar oraciones de cualquier longitud y para que el número de oraciones sea infinito, es suficiente con añadirle varias reglas recursivas que le permitan volver a estados ya pasados; en el diagrama tales flechas tienen el aspecto de flechas inversas.

Así perfeccionada, la gramática engendrará, en concreto la oración Gde kachalis’ shumeli zvonko eli («Donde se balanceaban, zumbaban fuertemente los abetos.»)

Finalmente, a cada paso de un estado a otro, se le puede atribuir una cierta probabilidad, y el modelo de una lengua de estado finito quedará terminado.

Pasemos a la gramática en constituyentes inmediatos. Esta gramática se define, recordemos, por un alfabeto de símbolos, un conjunto finito de cadenas S₁, S₂, S₃ ..., S_i (tipos de oraciones) y un conjunto finito y ordenado de reglas de sustitución f₁, f₂, .... f_j (de reglas de formación de oraciones).

Examinemos el siguiente ejemplo abstracto de una gramática de este tipo. El alfabeto de símbolos es a, b. El conjunto de cadenas es S. Las reglas de sustitución son (1) S ® ab y (2) S® aSb. Las oraciones correctas engendradas por esta gramática son oraciones del tipo ab, aabb, aaabbb, aaaabbbb, etc. La última oración se obtiene como resultado de una triple aplicación de la regla (2) y de una de la regla (1):

(1) S® aSb aSb

(2) S ® aSb aaSbb

(3) S ® aSb aaaSbbb

(4) S ® ab aaaabbbb

Una sucesión de cadenas en la que cada cadena siguiente S_j se obtiene como resultado de la aplicación a la cadena precedente Si de una cierta regla de sustitución f_k, se denomina derivación. Una derivación se considera acabada si no existe regla f_j que permita transformar su última cadena. La derivación (4) está acabada, la derivación (3) no lo está. La última cadena de una derivación acabada se llama terminal, y a esta ya no se le pueden aplicar ninguna de las reglas de sustitución que poseemos. En nuestro ejemplo, la cadena aaaabbbb es terminal, mientras que la cadena precedente aaaSbbb no lo es, dado que contiene el símbolo S al que se le pueden aplicar las dos reglas de sustitución que tenemos aquí. El conjunto de las cadenas terminales engendradas por una gramática de este tipo, forma el lenguaje terminal.

En efecto, hemos estudiado algunas propiedades de la estructura sintáctica de las oraciones de las lenguas naturales (la repetición en espejo y la repetición directa de los elementos estructurales de la oración), dos tipos de lenguajes (los lenguajes de estado finito y los lenguajes terminales) y dos tipos de gramáticas (las gramáticas de estado finito y las gramáticas en constituyentes inmediatos). Ahora podemos relacionar mediante teoremas las propiedades de las lenguas y de las gramáticas que hemos estudiado y comparar los diversos tipos de gramáticas desde el punto de vista de su adecuación, sin recurrir a experiencias e incluso sin construir estas gramáticas hasta el final. No suministraremos aquí ninguna prueba formal sino que únicamente indicaremos el camino por el que pueden obtenerse. Las pruebas formales vienen dadas en (202).

Teorema 1 (N. Comsky): Toda lengua de estado finito es una lengua terminal; lo inverso es falso: existen lenguas terminales que no son lenguas de estado finito.

Se puede deducir este teorema de otros teoremas que declaran que una lengua de estado finito no contiene cadenas «en espejo» y que, en consecuencia, una gramática de estado finito no las engendra, mientras que, en general, un lenguaje terminal contiene tales cadenas y una gramática de constituyentes inmediatos puede engendrarlas.

Teorema 2: Las lenguas naturales no son lenguas de estado finito.

Esto deriva del hecho de que en ellas se pueden encontrar oraciones con repeticiones «en espejo» o repetición directa de los elementos estructurales, que no se engendran en las gramáticas de estado finito. En consecuencia estas gramáticas no son adecuadas para la estructura de las lenguas naturales (no engendran todos los tipos posibles de oraciones). En este sentido, las gramáticas en constituyentes inmediatos son más perfectas en la medida en que en ellas es fácil introducir mecanismos para engendrar oraciones de tipos «difíciles». Sin embargo, ni siquiera éstas son totalmente adecuadas a la estructura de las lenguas naturales, pues en estas existen tipos de oraciones que las gramáticas en constituyentes inmediatos no pueden engendrar. Entre ellas están las que anteriormente examinamos con repetición directa de los elementos que, como ha señalado Chomsky, sólo pueden ser engendradas por una gramática transformacional más potente.

En estos últimos años se han demostrado algunos otros teoremas importantes e interesantes, en particular el teorema de la equivalencia (en determinados límites) entre dos medios muy extendidos de anotación de la estructura sintáctica de la oración: los árboles de constituyentes inmediatos y los árboles de dependencias.

Estas pruebas teóricas y otras semejantes son una parte necesaria de la teoría lingüística, aún cuando, evidentemente, no suprimen la necesidad de amplias investigaciones experimentales.