Estudio comparativo de métodos de transcripción para corpus orales: el

caso del español

Comparative study of transcription methods for spoken corpus: the case

of Spanish

Marimar Rufino Morales

Université de Montréal, Canadá

Mdm.rufino.morales@umontreal.ca

RESUMEN

Los avances tecnológicos han propulsado la metodología de investigación en transcripción. Los

programas para corpus lingüísticos basados en modelos estadísticos y de aprendizaje profundo han

mejorado las fases de alineación y anotación. En cambio, cuando se trata de transcribir el material,

la carga interpretativa y la propia naturaleza de las conversaciones obstaculizan la automatización

del proceso. De esta manera, la transcripción de entrevistas destinadas al estudio de la lengua oral

se sigue haciendo con un reproductor y un teclado, y puede convertirse en uno de los aspectos más

largos del procesamiento de datos. Sin embargo, en otros contextos profesionales, el reconocimiento

automático del habla se emplea para transcribir de forma eficaz gracias a la colaboración humano-

computadora. Las técnicas y estrategias difieren, pero todas tienen en común que estabilizan las

fluctuaciones de las herramientas informáticas y son más rápidas que otros métodos. En este estudio

se ha utilizado una de ellas, el rehablado off-line con las entrevistas del Corpus oral de la lengua

española en Montreal. Se ha medido el tiempo empleado, así como la precisión y se ha comparado

con el reconocimiento automático del habla y con la mecanografía. El rehablado off-line ha permitido

el uso de un programa automático de dictado en su estado actual como herramienta para potenciar

la transcripción de entrevistas en menos tiempo y con menos errores.

Palabras clave: rehablado, transcripción, reconocimiento automático del habla, programa de dictado, corpus

oral

ABSTRACT

Technological advances have propelled the research methodology in transcription. Language corpus

tools based on statistical models and deep learning have improved the alignment and annotation

phases. However, when it comes to transcribing the material, the conversation’s interpretive load

and nature themselves hinder automation of the process. That is why interviews used for studying

spoken language are still transcribed with a player and keyboard, which can constitute one of the

most time-consuming aspects of data processing. In other professional contexts, automatic speech

recognition is used to transcribe effectively through human-computer collaboration. The techniques

Revista Nebrija de Lingüística Aplicada a la Enseñanza de Lenguas (RNAEL) ISSN 1699-6569

Vol. 14 Núm. 29 (2020) doi: 10.26378/rnlael1429406

Recibido: 5/07/2020 / Aprobado: 12/10/2020

Publicado bajo licencia de Creative Commons Reconocimiento Sin Obra Derivada 4.0 Internacional

and strategies may differ, but they all stabilize fluctuations in computing tools and are faster than

other methods. In this study, the off-line respeaking method was used to transcribe the interviews

of the Spoken Corpus of the Spanish Language in Montreal. Transcription times and accuracy were

measured and compared with automatic speech recognition and typing. Off-line respeaking, using

automatic speech-to-text software in its current state, proved to be the fastest and most error-free

method for transcribing interviews.

Keywords: respeaking, transcription, automatic speech recognition, speech-to-text software, spoken corpus

1. INTRODUCCIÓN

Los avances tecnológicos de las últimas décadas han propulsado la metodología de

investigación en todos los ámbitos. También en lingüística, los corpus orales, herramienta

esencial para el estudio del lenguaje humano, han aligerado las ineludibles fases previas de

recopilación, transcripción y almacenaje de material. Alentados por el rendimiento que

ofrecen numerosos ingenios de uso diario, no pocos investigadores han sometido las

grabaciones de las entrevistas a uno o varios programas automáticos de dictado para llevar

a cabo su transcripción. La gran oferta de programas para corpus lingüísticos donde se

amalgaman transcripción, alineación, anotación (Kreuz y Riordan, 2018), identificación y

análisis de patrones fomenta la expectativa de automatizar la transcripción ortográfica del

material.

La Inteligencia Artificial y el aprendizaje profundo han mejorado, de manera insólita, la

precisión de aquellos primeros programas de dictado que comenzaron a inundar nuestros

mercados a principios de los 90. Su aplicación en el reconocimiento automático del habla

(RAH) propulsó, a finales de 2016, un punto de ruptura: la paridad con el humano (Xiong

et al., 2016). En este proceso de reconocimiento automático, basado en las redes

neuronales artificiales, la voz se convierte en texto de forma casi instantánea y, sin

embargo, intervienen innumerables operaciones de tratamiento del lenguaje natural. Es

preciso analizar la señal, procesarla, codificarla, sintetizarla (Li Deng y Yang Liu, 2018). Sin

el desarrollo de la microelectrónica (que aumentó la potencia y miniaturización de

procesadores y memorias) y de la informática (que favoreció la expansión de las técnicas

de comunicación y la interconectividad de las redes), nada hubiera sido posible (Mariani,

2002). Casi un siglo de numerosos experimentos e ingentes esfuerzos de colaboración

internacional separan a los asistentes virtuales como Siri o Cortana del vocoder, aquel

sintetizador de voz creado en los laboratorios de Bell (Dudley, 1958) y presentado en la

Exposición Universal de Nueva York en 1939.

Unos datos tan prometedores merecen ser aclamados, pero también han de ponerse en

perspectiva; de hecho, las transcripciones destinadas al estudio de la lengua hablada las

siguen haciendo los humanos (Durand, 2017). A las numerosas decisiones que hay que

tomar durante el proceso de transcripción, y que lo alejan de un acto puramente mecánico

(Ochs, 1979), se suman las limitaciones propias de esta tecnología de RAH. Por una parte,

el entrenar modelos acústicos con aprendizaje profundo nos proporciona datos falsamente

reales (Saon et al., 2017). Por ejemplo, si en el laboratorio 'enseñamos' a un programa de

RAH abasteciéndolo con cuarenta entrevistas semidirigidas extraídas de un corpus que

contiene sesenta, realizadas todas ellas por la misma persona, quien a su vez ha formulado

siempre más o menos las mismas preguntas, probablemente que la transcripción de las

veinte entrevistas restantes con ese mismo programa una vez entrenado, sea excelente.

Por otra, a pesar de que muchos científicos trabajan intensamente para mejorar las

tecnologías del habla (Zweigenbaum et al., 2020), ante la conversación espontánea o la

variación, los programas de RAH aún no son estables (Ravanelli et al., 2018). En definitiva,

la transcripción automática de la lengua hablada sigue enfrentándose a las limitaciones de

la tecnología. Programas tales como Transana, Soundscriber, Transcriber o Audacity

funcionan bien como herramientas para etiquetar la transcripción, pero para transcribir,

todavía no han suplantado al humano (Revuelta Domínguez y Sánchez Gómez 2005). Los

de mayor utilidad son aquellos que, basados en modelos estadísticos y de aprendizaje

profundo, ayudan en las fases de alineación y anotación de corpus (Yadav et al. 2018).

También en español estos programas se ocupan menos del primer nivel de representación,

la transcripción ortográfica, si bien automatizan con éxito la codificación, por ejemplo, de

características suprasegmentales de la prosodia, tales como la entonación para la

transcripción fonética (Elvira-García et al., 2015).

Y, sin embargo, tenemos constancia del uso eficiente y eficaz de la tecnología de RAH

y de los programas de dictado automático, para transcribir, en varios contextos

profesionales donde, desde hace dos décadas, se han venido desarrollando métodos

basados en la colaboración humano-computadora. Las técnicas y estrategias de dictado

difieren según el contexto, pero todas tienen en común que estabilizan las fluctuaciones de

las herramientas informáticas empleadas. Nos hemos centrado en el rehablado, que se usa

en televisión (Romero-Fresco, 2011), por el paralelismo entre la oralidad que está presente

en la mayoría de los escenarios o situaciones de los medios audiovisuales y la que

caracteriza los datos que se recopilan para crear un corpus de la lengua hablada. Hemos

empleado los programas de dictado con una adaptación del rehablado, logrando, al igual

que en televisión, optimizar el proceso de transcripción (Rufino Morales, 2020).Para abordar

la cuestión, hemos confrontado el rehablado con los otros métodos de transcripción de

corpus orales para la investigación lingüística. Presentamos aquí los resultados de los datos

recopilados durante el primer taller de rehablado off-line que se organizó el pasado mes de

enero en la Sección de estudios hispánicos de la Universidad de Montreal. Se ha comparado

el rehablado con el reconocimiento automático del habla (RAH) y con la mecanografía, en

cuanto al tiempo empleado, así como la precisión resultante al transcribir entrevistas del

Corpus oral de la lengua española en Montreal (COLEM), (Pato dir.). Es un corpus fruto de

una serie de entrevistas semidirigidas grabadas en entorno natural, de una hora de duración

aproximadamente y estructuradas en función de un protocolo de encuesta común. El estilo

que recoge el COLEM es el conversacional y familiar (habla espontánea). Refleja la situación

del español en la Región Metropolitana Montreal, única en el mundo, por el contacto

mantenido con el francés y el inglés, pero también por el contacto de todas las variedades

del español, sin que una se imponga sobre las demás. En este contexto se encuentra,

además, la mayor concentración de latinoamericanos de todo Canadá (Pato, 2017).

Este trabajo forma parte de una investigación cuyo objetivo es describir el perfil ad hoc

del rehablador off-line para optimizar la transcripción de grabaciones, al menos hasta que

los programas informáticos de reconocimiento automático del habla permitan cederles el

testigo. Primero revisaremos en qué ámbitos se transcribe de forma eficaz con ayuda de

programas de dictado; comprobaremos que la investigación cualitativa también ha

intentado usarlos sin llegar a adoptarlos; finalmente, ofreceremos una prueba de que es

posible utilizarlos para potenciar la transcripción de corpus orales de la lengua hablada

siempre y cuando se empleen las estrategias adecuadas. De seguro, las aproximaciones de

este manuscrito retendrán la atención de otros investigadores que trabajan con textos

orales.

2. TRANSCRIPCIÓN CON UN PROGRAMA DE DICTADO

Convertir la voz a texto es una necesidad presente en todas las épocas y en distintas esferas

de la actividad humana, ya sea de forma intralingüística o interlingüística. No obstante,

desde el punto de vista diatópico, las herramientas (o la forma de usarlas) difieren. Si

optamos por un método al alcance de todos, un reproductor y un teclado, nos enfrentaremos

al desfase entre la velocidad del habla y la de la escritura. “La velocidad de habla o tempo

de elocución es la rapidez con que una persona articula las palabras a lo largo de su discurso.

Para determinar la velocidad, se computa la cantidad de palabras que emite en un periodo

de tiempo. El resultado se expresa, generalmente, en palabras por minuto; en español se

calcula que una velocidad normal oscila entre las ciento cincuenta y las doscientas palabras

por minuto” (AA.VV. 2008).

La velocidad óptima de producción oral se sitúa entre ciento setenta y ciento noventa

palabras por minuto (Rodero Antón, 2016), pero el habla espontánea no se ciñe a este

canon, pudiendo ser más elevada. En cuanto a la velocidad de escritura, alguien sin

formación teclea entre quince y veinticinco palabras por minuto (Ainsworth, 1988); la media

de una persona experimentada se sitúa entre ochenta y noventa palabras por minuto (Moro

Vallina, 2010: 7). Además de esta diferencia entre la velocidad a la que hablamos y la

velocidad a la que escribimos, al transcribir una grabación habrá que detenerla, retroceder,

volver a ponerla en marcha, escuchar de nuevo, etc.

Podemos sustituir el teclado por el RAH, lo que además restará subjetividad a la

transcripción (Tatham y Morton, 2005: 372). Pero entonces, tendremos que enfrentarnos a

los errores provocados por las variantes geográficas (Winata et al., 2020) o

sociodemográficas; también habrá que borrar y reescribir una representación más cercana

a la actuación del hablante cada vez que el programa de dictado le haya atribuido una

correspondencia que figura en su léxico a palabras fragmentadas, mal pronunciadas,

solapadas o inexistentes. De manera que la automatización del proceso termina siendo más

tediosa que la clásica transcripción mecanografiada, sobre todo si sumamos el tiempo que

puede tomar aprender las nociones básicas de la herramienta que haya decidido emplearse.

La comunidad científica es unánime: fuera del laboratorio, la tecnología de RAH aún no está

a punto para convertir con exactitud la voz en texto en situaciones reales, donde, por ende,

los ruidos y la reverberación afectan a la calidad de la señal de voz emitida por el hablante

(Lu et al., 2020).

Una forma de estabilizar los resultados del RAH consiste en utilizar estrategias de

repetición que, emulando el modo de corrección privilegiado en el diálogo humano-humano

(Brinton et al., 1986), pero aplicado a la comunicación humano-computadora, consiguen

optimizar la transcripción en tiempo real con ayuda de un programa de dictado. Es lo que

acometen los siguientes métodos.

2.1 El rehablado

El rehablado surgió para paliar las limitaciones de la tecnología de RAH a la hora de

subtitular en tiempo real en televisión (Utray Delgado et al., 2015; Lambourne, 2007). El

rehablador, instalado en un entorno exento de ruido, a la vez que escucha la emisión a

subtitular, la repite o parafrasea verbalmente a través de un micrófono conectado a un

programa de dictado, de manera que genere una transcripción legible de forma automática.

El texto resultante es enviado al codificador de subtítulos (Brousseau et al., 2003) y la

emisión se hace accesible, para aquellas personas que no pueden oírla, casi

simultáneamente.

La subtitulación en directo consiste en emitir la transcripción del contenido sonoro de

forma simultánea a la difusión de un programa audiovisual. Los subtítulos enviados en

directo pueden haber sido preparados con antelación o en tiempo real (ACR/CAB 2012).

Deben incluir además de las palabras, la prosodia (entonación, acento, ritmos), los efectos

sonoros, las señales musicales y cualquier otra información de la banda sonora pertinente,

de modo que la lectura de los subtítulos y la escucha del audio proporcionen una

comprensión análoga de dicho programa (Ivarsson, 1992).

Los subtítulos y la audiodescripción son instrumentos vitales para garantizar el derecho

de acceso a la comunicación audiovisual de todas las personas por igual (ONU, 1994); la

aplicación de dicho principio de igualdad queda asegurada a través de medidas legales a

nivel de cada país. Así, por ejemplo, desde 1995, el Gobierno de Canadá comenzó instando

a los teledifusores tanto de lengua francesa como de lengua inglesa a aumentar el contenido

subtitulado, hasta que en 2007, los obligó a subtitular el 100% de la programación (CRTC,

2007).

Los primeros subtítulos en directo para televisión se enviaron por teletexto; para su

confección, se probaron distintas maneras y también varios teclados de estenotipia

(Hawkins y Robinson, 1979; Tanton, 1979). Por aquel entonces, se trataba del método más

extendido para transcribir en tiempo real. Pero la estenotipia necesita una instrucción

intensiva de más de dos años. Por otra parte, existen distintos sistemas, máquinas y

programas informáticos con sendos métodos, difícilmente intercambiables (Manrique Fuero,

2016). Por ejemplo, la compañía americana Stenograph (www.stenograph.com)

comercializa varias máquinas de estenotipia: Diamante, Élan Mira, Stentura. Familiarizarse

con un teclado toma mucho tiempo. En Quebec, la formación profesional de transcriptores

se da en l'École de sténographie judiciaire de Québec. Los estudiantes deben procurarse

una de las dos máquinas sugeridas con la que podrán aprender el programa Case CATalyst.

Pero al cabo de doscientas setenta horas de clase y noventa más de prácticas laborales, los

diplomados solo habrán utilizado un teclado y un programa, y difícilmente podrán trabajar

con otro.

De manera que, para subtitular en directo en televisión, desde el primer momento se

buscaron alternativas más rentables que la estenotipia. Fue así como surgió la idea de usar

los programas de RAH potenciados por la interacción humano-computadora (Damper et al.,

1985; McCoy y Shumway, 1979). El éxito del rehablado on-line a la hora de subtitular en

directo y en tiempo real en televisión reside en que este método requiere menos personal

(un rehablador subtitula un programa de treinta minutos; dos rehabladores por turnos

hacen accesibles ocho horas continuas de programación). Además, es una técnica que se

domina en poco tiempo, salvando la brecha entre la formación en empresa (de dos a cuatro

semanas) y los módulos y cursos académicos disponibles (hasta seis meses) (Bernabé Caro

et al., 2019).

Las ventajas que ofrece el rehablado on-line a la hora de producir subtítulos en directo

en televisión han extendido su uso a muchos otros ámbitos. En la actualidad, tanto en

universidades, colegios, actos públicos, eventos de masas (conferencias, fórums,

seminarios), reuniones, teleconferencias, podcasts, programas de radio, teatros, museos,

iglesias (Moores, 2016; Romero-Fresco, 2012), el rehablado on-line proporciona

accesibilidad en tiempo real del contenido sonoro emitido en directo, de forma presencial o

por internet (portátil, tableta, teléfono).

Asimismo, muchas de las subtituladoras que cuentan con la infraestructura de rehablado

on-line aprovechan sus recursos para acelerar la transcripción de programas 'enlatados' o

en diferido (FCC, 2014). Para transcribir en tiempo real documentos audiovisuales grabados

con antelación se emplean estrategias particulares. El objetivo no es mejorar la

inteligibilidad del enunciado obtenido por el programa de dictado (que no va a ser leído por

los televidentes de forma simultánea), sino reducir el trabajo de edición posterior de los

subtítulos.

Las estrategias empleadas en el rehablado off-line sirven para crear un documento lo

más cercano posible a su versión definitiva. Este es el método que estoy usando en mi

investigación, donde he adoptado una nomenclatura que distingue dos formas de rehablado,

según las circunstancias en las que se produce la transcripción: on-line y off-line (Lindsay

y O'Connell, 1995; Ferber, 1991).

2.2. La escritura de voz

En otros contextos donde también se requiere la transcripción de un discurso hablado, como

en el campo jurídico y en la administración pública, el primer método eficaz que se empleó

para transcribir al mismo tiempo que se produce el discurso oral fue la taquigrafía. De él

derivan la estenotipia y la escritura de voz. Mientras que la taquigrafía (también llamada

estenografía) emplea trazos breves, abreviaturas y caracteres especiales para representar

las letras, palabras y frases, la estenotipia utiliza un teclado reducido basado en las sílabas

(Núñez Hidalgo y Ramos Villajos, 2010).

La escritura de voz (voice writing) es otra forma de transcribir; pero, en este caso, como

su nombre indica, mediante la voz. Para que al dictar, el escritor de voz (voice writer) no

moleste a las otras personas presentes en la reunión –y para atenuar el ruido ambiente–,

se emplea un silenciador de voz. La idea le vino a Horace Webb, un transcriptor en el tribunal

de Chicago que, en los años 40, insertó un micrófono en una caja de cigarrillos, y después

en una lata de café. Amortiguaba el sonido mientras repetía y grababa lo que oía en el

tribunal y conseguía transcribir palabra por palabra el discurso original. Los escritores de

voz adoptaron los programas automáticos de dictado y un nuevo método de transcripción,

que se extendió rápidamente en los años 2000. El oficio de transcriptor oficial (verbatim

reporter) en Estados Unidos tiene dos especializaciones: la estenotipia y la escritura de voz.

La escritura de voz cuenta con dos ramas con formación y acreditación propia: para

transcribir en juzgados (court and real time reporting) o en televisión (captioning) (NVRA,

2008).

Así como el rehablador, el escritor de voz también transcribe a partir de grabaciones,

ya sea la defensa de un abogado, el veredicto de un juez o un testimonio. Por la naturaleza

oficial de la tarea, el resultado final debe corresponderse palabra por palabra con el discurso

original; ahora bien, ese mismo carácter resta espontaneidad a la interacción discursiva.

2.3. El dictado médico

Numerosas actividades en el ámbito de la salud requieren transcripción (Pollard et al. 2013).

Hasta el giro tecnológico de los 90, los médicos y especialistas que necesitaban transcribir

se lo encargaban a taquígrafos o administrativos. Desde entonces, cada vez más

profesionales han ido integrando los programas de dictado, ya sea para elaborar la historia

digital del paciente (Johnson et al., 2014), redactar un informe en radiología,

endocrinología, psiquiatría o en patología quirúrgica, entre otros.

Por lo general, los médicos que recurren al dictado envían el texto generado a un

administrativo para su revisión, antes de darle el visto bueno final. Pero en otros casos, el

propio médico edita su transcripción generada con el programa de RAH. Sea cual sea el

método empleado, la revisión es sumamente importante (Zhou et al., 2018) porque, a pesar

de que los programas de dictado constituyen un buen punto de partida para transcribir

(Edwards et al., 2017), en el ámbito médico también se constatan las mismas deficiencias

del RAH que en otros contextos (Blackley et al., 2019). Por ende, la automatización del

proceso plantea un problema ético: altas tasas de precisión no son sinónimo de resultados

clínicamente seguros; en ocasiones han llegado a poner en peligro la seguridad del paciente

(Hodgson y Coiera, 2016).

Estudios recientes centrados en la tipología de los errores durante el uso de aplicaciones

de reconocimiento automático del habla en el campo médico confirman que: i) los mayores

errores se producen en las conversaciones casuales (Chiu et al., 2018); ii) los resultados

mejoran considerablemente con programas de vocabulario especializado y si se aprovechan

bien los atajos (shortcuts) que ofrece el programa (Edwards et al., 2017) y iii) la precisión

aumenta con una metodología estandarizada (Blackley et al., 2019).

Y, sin embargo, el uso de estrategias para mejorar los resultados de los programas de

dictado no parece haber pasado de iniciativas aisladas. MacLean, Meyer et al. (2004: 115)

emplearon “an oral transcriptionist to act as an intermediary” en la transcripción de

entrevistas con Dragon NaturallySpeaking. El método leasen and repeat se usó en un

experimento en la universidad de Auckland para entrenar a sus participantes a servirse de

Dragon y a repetir verbalmente las grabaciones (Park y Zeanah 2005). Sirvió de inspiración,

primero, para la técnica de transcripción vocal o Voice Transcription Technique (VTT)

(Matheson, 2007) y, posteriormente, para otra llamada Embodied Transcription (ET),

porque se encarna a los entrevistados al repetir sus palabras para acelerar el proceso de

transcripción con un programa de dictado (Brooks, 2010).

3. LA TRANSCRIPCIÓN EN LA INVESTIGACIÓN LINGÜÍSTICA Y CUALITATIVA

La revisión de las actas de eventos internacionales como los organizados por la European

Language Ressources Association (www.elra.info) o la International Speech Comunication

Association (www.isca-speech.org), nos confirma que la transcripción de la lengua hablada,

larga y costosa, es más difícil cuanto más detallado sea el nivel de transcripción (Adolphs y

Knight, 2010) y que los grandes corpus se siguen transcribiendo de forma manual

(Niemants, 2018; Gadet et al., 2012) o se completan de forma manual

(www.isip.piconepress.com). Transcribir una hora de entrevista puede tomar entre cuatro

y sesenta horas (Markle et al., 2011). Como en los demás contextos donde se requiere una

transcripción off-line, también aquí se han puesto a prueba los programas de dictado para

acelerar la tarea de transcripción de las grabaciones, laboriosa y lenta per se. Necesitan ser

más rápidos que las otras formas de transcribir al alcance; pero también, en su adopción

como herramienta, juegan un papel decisivo la precisión de los resultados obtenidos.

Aunque la investigación cualitativa se ha ocupado más de la metodología para producir

una transcripción que de la mecánica empleada durante el proceso, varios investigadores

han estudiado el uso de programas de dictado para transcribir datos grabados de forma

automática. Los resultados obtenidos contenían tantos errores que nadie ha llegado a

considerar el RAH como una alternativa seria a la transcripción manual. Argumentan que,

dependiendo de la velocidad a la que la persona escriba, el tiempo de aprendizaje y

entrenamiento del programa no compensa, a menos que se explore un método de

optimización de las herramientas informáticas (Evers, 2011). En este sentido, dos trabajos

han retenido nuestra atención.

Tilley investigó el principio de co-construcción de la transcripción a través de la

experiencia de personas contratadas en universidades canadienses para transcribir

grabaciones académicas (2003). Reportó que uno de los transcriptores utilizaba un

programa de RAH y documentó cómo este se fue habilitando, sobre la marcha, con

estrategias para mejorar la precisión. Según Tilley, el transcriptor reproducía, sin saberlo,

el efecto fantasma (ghosting) que habían acuñado Frogg y Wightman (2000).

Por su parte, Johnson dictó una entrevista mientras la iba escuchando, luego de haber

entrenado el programa MacSpeech Dictate (2011). El dictado de la entrevista (17:38

minutos) le tomó treinta minutos cincuenta y seis segundos, ya que había disminuido la

velocidad para lograr repetir todo el contenido de la grabación. La transcripción obtenida

tenía 96,4% de precisión y necesitó veintinueve minutos para corregirla. Después llevó a

cabo la transcripción de la misma entrevista de forma manual, es decir, escuchando y

tecleando al ordenador. Le tomó treinta y nueve minutos y siete segundos, y obtuvo 98%

de precisión. Necesitó menos de doce minutos para corregirla. Concluyó que los programas

de dictado no son más rápidos ni más precisos que el método manual. La validez de la

prueba puede cuestionarse (entre otras cosas porque cuando tecleó la entrevista ya la había

oído al menos tres veces), pero también apoya nuestro postulado: no habrá optimización

del RAH si no se emplean las estrategias adecuadas durante la repetición.

Lo mismo ocurre con otros experimentos que se han llevado a cabo para medir el

potencial de los programas de dictado utilizados de forma automática o potenciados con

distintas técnicas de repetición a la hora de transcribir grabaciones off-line. Comparan

transcripciones obtenidas, entre otras, de forma manual (mecanografía y/o estenotipia) con

transcripciones obtenidas con la técnica de leasen and repeat (Johnson, 2011; Matheson,

2007; Park y Zeanah, 2005) o con rehablado on-line (Matamala et al., 2017; D’Arcangelo

y Cellini, 2013). Ninguna de las técnicas de dictado empleadas ofrece una neta ventaja con

respecto a los demás métodos de transcripción.

Teniendo en cuenta que la transcripción de entrevistas para la investigación, basada en

la literalidad (Davidson 2009), debe cumplir con unos requisitos, reflejados en un protocolo,

dependiendo del uso que se le vaya a dar, hemos optado por aplicar nuestras propias

estrategias. Fuera de los trabajos que estamos realizando, no tenemos constancia de ningún

otro que mida estrategias específicas de rehablado para optimizar la transcripción off-line

del habla espontánea con fines lingüísticos.

4. METODOLOGÍA

Los datos que analizo provienen del primer taller de rehablado off-line para transcribir

corpus orales de la lengua hablada organizado en la Universidad de Montreal. Se trata de

una actividad vinculada al proyecto El español en Montreal y el COLEM (CERAS-2014-15-

159D) que, por estar dirigida a estudiantes de segundo y tercer ciclo de la Sección de

estudios hispánicos, nos garantizaba el nivel de lengua necesario a la hora de transcribir y

revisar entrevistas con las variaciones diatópicas expresadas por los hispanohablantes de

la Región metropolitana de Montreal.

Los diez participantes (siete hombres y tres mujeres) estaban familiarizados con los

corpus orales de la lengua, pero ninguno había rehablado antes. En este trabajo, se emplean

los datos de los seis que completaron todas las actividades.

Se organizaron dos jornadas completas. De la primera se han extraído los datos sobre

la mecanografía. Se ha medido tanto la cantidad como la calidad de la transcripción obtenida

por cada participante durante treinta minutos: primero, al revisar una entrevista rehablada

por un profesional; segundo, al mecanografiar la continuación de la entrevista. Somos

conscientes de la ventaja que puede suponer, en el momento de mecanografiar, el haber

tenido ya contacto con parte de la entrevista rehablada, pero en nuestra elección primó

mantener el nivel de lengua. Se utilizó una entrevista del COLEM realizada en 2018 con un

informante procedente de Moca, República Dominicana de treinta y siete años y treinta y

tres en Montreal (E32) (60:54 minutos). Al inicio del taller, se dedicó un tiempo para que

los participantes se familiarizaran con las pautas de transcripción del COLEM y con los atajos

de teclado del reproductor multimedia. Seguidamente se les suministró un texto (E32b)

correspondiente a la primera parte de la entrevista E32 (29:50 minutos) rehablada por un

profesional. Disponían de treinta minutos para revisarlo respetando el protocolo del COLEM.

También se midió la velocidad a la que los participantes son capaces de teclear

(10fastfingers.com).

Con objeto de obtener datos precisos sobre el rehablado, en el segundo día,

proporcionamos la grabación de una entrevista distinta del COLEM a cada participante.

Debían rehablarla y editar la transcripción resultante, luego de una iniciación a las

principales estrategias del rehablado off-line. Aparecen aquí los datos de los dos primeros

participantes que completaron la tarea. L1 rehabló parte de una entrevista realizada en

2019 con una informante de Santiago de Chile de cuarenta y siete años, y nueve en Montreal

(E5) (30:27 minutos). L2 rehabló la entrevista completa realizada en 2019 con un

informante de La Estrella, Chiriquí, Panamá, de cincuenta y ocho años, y treinta en Montreal

(E27) (72:32 minutos).

Para determinar si las variantes del español y la experiencia del rehablador pueden

repercutir en los resultados, hemos cotejado los datos obtenidos con L1 y L2 con dos

entrevistas rehabladas por un profesional (L0). La entrevista E4 se realizó en 2019 con un

informante procedente de Santiago de Chile de cincuenta años y once en Montreal (106:41

minutos); E26 se hizo en 2019 con un informante de la Ciudad de Panamá de cincuenta y

un años, y treinta en Montreal (69:20 minutos).

En el marco de mi investigación, las entrevistas del COLEM se han transcrito con

distintos programas de dictado, y se han comparado las transcripciones automáticas con

las rehabladas. Para el presente artículo, las transcripciones se han realizado con el

programa Dragon Naturally Speaking 13, por ser representativo de la media de los

programas comparados. Presento los resultados obtenidos de la transcripción automática

de las entrevistas para cotejarlos con los otros dos métodos.

Todas las transcripciones han sido tratadas en el Centre de Recherche Informatique de

Montréal con la herramienta Align-text de Kaldi (kaldi-asr.org). Se ha medido el índice de

precisión, expresado en porcentaje, según la fórmula del National Institute of Standards

and Technology que alinea cada texto con su correspondiente versión final (T0). El

porcentaje de precisión se ha calculado dividiendo la suma de borrados (B) (cuando falta

algo que figura en el T0), sustituciones (S) (por ejemplo, donde en lugar de adonde) e

inserciones (I) (cuando se añade algo que no figura en el T0), por el número de unidades

de referencia (N). A su vez, (N) corresponde a la suma de (B + S + C), siendo (C) las

unidades correctas.

La versión final (T0) hace referencia a una transcripción corregida según el protocolo

del COLEM; esto es, el T0 corresponde a un texto que, sea cual sea el método empleado

para obtenerlo, antes de ser sometido a una lectura final por el director del proyecto, debe

ser comparado con su audio por un revisor. En este sentido, la revisión de transcripciones

de entrevistas puede compararse a la revisión en traducción, ya que ambas requieren

revisión y relectura. La revisión comparada del texto meta con el de origen (en nuestro

caso, la grabación de la entrevista) es necesaria, entre otras cosas, para comprobar que no

ha habido omisiones durante la transferencia (AENOR, 2006).

Por otra parte, no existe un conjunto de reglas y criterios universales para establecer la

calidad de una transcripción, dependerá del propósito al que vaya destinada y siempre será

una herramienta interpretativa (Lapadat, 2000). Para esta investigación, el índice de

precisión no solo tiene en cuenta caracteres o palabras. Le hemos otorgado el mismo valor

a palabras, signos de puntuación y otras convecciones del COLEM que forman parte del

protocolo: omisión de todos los nombres propios representados con [NP]; identificación del

informante con [I:] y del entrevistador con [E:]; inclusión de rasgos suprasegmentales:

entonación, ritmo, tono, pausas; elementos paralingüísticos como aplauso, beso y demás

recursos cinéticos audibles; reproducción exacta de las alteraciones morfosintácticas. Se

trata de una forma de cuantificar el hecho de que sea cual sea la acción a realizar para

corregir, siempre habrá que detener el audio y luego editar el texto; en definitiva, siempre

supone tiempo.

5. RESULTADOS Y ANÁLISIS

5.1. La mecanografía frente al rehablado

Los datos de la Figura 1 comparan la mecanografía frente al rehablado. Consta de tres

bloques. Primero se midió la velocidad a la que cada participante es capaz de teclear durante

un minuto, expresada en número de palabras por minuto (ppm), y el porcentaje de

precisión. Después, a partir de la entrevista E32b, medimos los minutos y el número de

palabras mecanografiados (T5) durante treinta minutos, así como el número de unidades

contabilizadas y la precisión. En el tercer bloque figuran los minutos, las palabras, el número

de unidades contabilizadas y la precisión de la transcripción T5, que revisó cada

participante, durante treinta minutos; corresponde a la entrevista E32a rehablada por un

profesional. En la última línea se han calculado los promedios correspondientes a un minuto.

Participante

Media

1 minuto

Prueba de

mecanografía: ppm

63,33

Prueba de

mecanografía:

precisión (%)

99,50

92,80

99,09

97,51

95,16

89,90

95,66

T5-E32b: minutos de

grabación

02:07

02:02

01:38

02:30

02:32

04:09

02:29

T5-E32b: palabras

342

362

250

445

272

608

12,66

T5-E32b: unidades

557

508

393

635

392

1003

19,38

T5-E32b: precisión

(%)

58,28

76,06

66,49

63,80

68,38

60,16

65,53

T6-E32a: minutos de

grabación

13:46

06:23

07:47

04:52

23:35

15:46

12:01

T6-E32a: palabras

1809

1187

1387

980

4355

2643

68,67

T6-E32a: unidades

2735

1756

2059

1434

6394

3939

101,76

T6-E32a: precisión

(%)

78,54

80,15

78,19

73,40

81,73

79,61

78,60

Figura 1. Prueba de mecanografía / transcripción mecanografiada (T5-E32b) / transcripción

rehablada (T6-E32a)

Los participantes teclean una media de 63,33 ppm, cercana a la de un mecanógrafo

experimentado (Moro Vallina, 2010). Sin embargo, al mecanografiar la entrevista E32,

obtienen una media de 12,66 ppm. Esta diferencia puede explicarse, en primer lugar,

porque en las pruebas de mecanografía como 10fastfingers.com, las palabras se suceden

separadas por espacios, sin ningún otro signo de puntuación ni mayúsculas; además, a la

hora de mecanografiar la entrevista hay que considerar el tiempo empleado en manipular

el audio y el tempo del habla. Con la entrevista rehablada los participantes no necesitan

teclear cada palabra; el número de palabras revisadas asciende a una media de 68,67 ppm.

Mecanografiando la entrevista E32b durante treinta minutos, los participantes solo

avanzan una media de 2:29 minutos; mientras que, en el mismo tiempo, con la entrevista

E32a rehablada ⎯que además contiene ya una revisión⎯, la media de transcripción

obtenida asciende a 12:01 minutos. Esto es, aun añadiendo el tiempo de rehablado, que

equivale a 1X1 (un minuto de grabación se rehabla en un minuto), esta forma de transcribir

sigue siendo más rápida. Podríamos deducir que para obtener la transcripción completa de

la entrevista E32 (60:54 minutos) mecanografiándola se necesitarían unas trece horas,

mientras que a partir del rehablado, la media sería de menos de tres horas. Aun sumando

el tiempo empleado al rehablarla, la transcripción T6 tomó menos tiempo que la

mecanografiada; pero, además, es más precisa.

Porque si la rapidez a la que obtengamos la transcripción de la entrevista cuenta, la

calidad de su contenido es primordial. En el ámbito del COLEM, para que una transcripción

sea de calidad, además de ser fiel al contenido, tendrá que responder rigurosamente al

estándar de su protocolo de transcripción. Por eso, aunque durante la prueba de

mecanografía se midió la precisión, la media, que solo cuenta palabras, no nos sirve. Nos

fijaremos en los porcentajes de precisión de las columnas 7 y 11, resultantes de la

comparación de las transcripciones mecanografiadas (T5) y rehabladas (T6) con sus

correspondientes T0. Estos porcentajes sí representan un baremo de calidad porque al

comparar unidades en lugar palabras tendrán en cuenta todos los elementos que debe

reflejar la transcripción del COLEM.

La precisión media al mecanografiar fue de 65,53%, inferior a la de la transcripción

rehablada: 78,60%. He aquí algunos ejemplos de los errores y cómo se han contabilizado:

(I) por inserción, (S) por sustitución.

T5 / T6

Para identificar entrevistador se emplea la etiqueta

[E:]

seguida de tabulador (sin espacio)

• [E] (S)

• seguida de espacio (I),

• seguido de dos puntos (I)

• y uno o varios espacios (I)

Para identificar al informante se emplea la etiqueta [I:]

seguida de tabulador (sin espacio)

• [I] (S)

• seguida de espacio (I)

• seguido de dos puntos (I)

• y uno o varios espacios (I)

Todos los nombres propios se sustituyen por [NP]

• Aparece el nombre (S)

[RISAS]

[SOLAPAMIENTO]

[EXPIRACIÓN]

[RUIDO]

• (RISAS) (S)

• [RISA] (S)

• [Soplamiento] (S)

• (SOLOPAMIENTO) (S)

• [RESOPLIDO] (S)

• [toca] (S)

La aspiración de vocales y consonantes no se

representa:

dieciséis

trabajadores

• dieciséi (S)

• trabajadore (S)

Representación completa de palabras cortadas:

conserv-

llega-

• conservaron (S)

• llegaste (S)

Figura 2. Errores de formato en las transcripciones

Los errores se han detectado en ambas versiones, pero en mayor proporción en la

mecanografiada; por tanto, la automatización del proceso reduce la parcialidad y la fuerte

carga interpretativa inherentes a la transcripción.

Por último, la observación combinada de tiempo y precisión no permite pensar que exista

correlación entre la velocidad y la calidad. L5, fue quien más avanzó (23:35 minutos); pero

también fue quien obtuvo la mayor precisión (81,73%). Con el siguiente mejor porcentaje

(80,15%), L2 solo avanzó 6:23 minutos.

5.2. El RAH frente al rehablado (experto / principiante)

En la figura 3 se comparan transcripciones obtenidas con el RAH (T1) con transcripciones

rehabladas (T2). Se han medido los índices de precisión de cuatro entrevistas realizadas a

dos chilenos (E4 y E5) y dos panameños (E26 y E27). El rehablado de E4 (Chile) y E26

(Panamá) los hizo un experto (L0). L1 rehabló la entrevista E5 (Chile) y L2 rehabló la E27

(Panamá); para ambos fue su primer rehablado. Las ocho transcripciones se han obtenido

con el programa de dictado Dragon NaturallySpeaking 13.

Identificación

Transcripción

Precisión

Duración

T1-E4

RAH

12,24%