Microsoft introduce en Word la transcripción de voz a texto

La función, que estará disponible en la versión online, limita a cinco horas el tiempo de transcripción mensual

A pesar de que se lleva mucho tiempo hablando de los avances de la inteligencia artificial y que el reconocimiento de voz ha mejorado espectacularmente, son muchos los que esperan que aparezcan herramientas de transcripción de voz a texto más eficaces. Y si es posible que cuenten con la posibilidad de traducir conversaciones. Mejor incluso si es en tiempo real.

Los asistentes de voz son la mejor prueba de que la tecnología de reconocimiento de voz ha avanzado mucho. También hay software capaz de transcribir con eficacia. Como la herramienta de grabadora presente en los Google Pixel, que hace este trabajo con una eficacia sorprendente como comprobamos al analizarla. Aunque solo permite transcribir en inglés.

Word acompaña a un sistema de transcripción de audio a texto de un sistema de dictado que permite controlar con la voz el programa

Pero una de las herramientas dónde tiene más sentido un transcriptor es en un procesador de textos. Por eso Microsoft ha anunciado la incorporación a Word de un sistema de transcripción de audio. Este viene acompañado de un herramienta de dictado que permite no solo escribir. También logra que podamos activar las opciones de Word con comandos de voz.

La herramienta de transcripción ya está disponible para los usuarios de las versiones de pago de Office. Aunque en España no hemos logrado usarla y desde Microsoft nos indican que solo está disponible para transcribir inglés estadounidense. Aunque la empresa asegura que está trabajando en otros idiomas.

Otra limitación más: sólo es posible transcribir cinco horas de audio mensuales. Además los archivos de audio que se suban cada vez deben tener un peso máximo de 200 megas. Para usar la función de transcripción debemos cargar la versión online de Word, no es posible hacerlo con la de escritorio de momento.

Eso sí, la empresa asegura que la transcripción llegará a la versión para teléfonos móviles antes de finales de año. Aunque no ha establecido una fecha para su llegada a la versión para ordenador mediante una actualización. Como puede verse en el vídeo que acompaña a estas líneas, una de las cosas interesantes que ofrece esta nueva función es editar las transcripciones de audio en las que hablan varias personas.

Habrá que ver el grado de precisión que logra alcanzar esta herramienta, sobre todo en idiomas que no sean el inglés, para ver su utilidad. Aunque seguramente sea necesario repasar el texto para evitar fallos. También habrá que comprobar hasta que punto es capaz de detectar pausas para introducir puntos o comas. Algo que, por cierto, no se le da nada mal a la grabadora de Google para Android.

Para implantar esta función Microsoft ha usado su servicio de inteligencia artificial en la nube Azure Cognitive Services. Aunque la empresa no ha dado demasiados detalles sobre cómo funciona el servicio, la limitación de las actuales tecnologías de transcripción, o de traducción de conversaciones en tiempo real, parece estar relacionado con un problema de procesamiento de datos.

Para implantar esta función Microsoft ha usado su servicio de inteligencia artificial en la nube Azure Cognitive Services

Debido a que la traducción del audio se realiza en ordenadores conectados en remoto, un sistema similar al de la plataforma de videojuegos online Stadia de Google, es probable que Microsoft y Google se enfrenten a un problema serio: mantener una infraestructura costosa.

Si las tecnologías de transcripción de audio y traducción en tiempo real se popularizaran, como seguramente suceda a corto o medio plazo, las empresas que entren en ese terreno deberán hacer inversiones para ampliar sus sistemas de computación en la nube. Y lo más importante: lograr amortizar esa inversión.

Amortizar la infraestructura necesaria para los servicios de transcripción online es uno de los principales retos de esta tecnología

Algo que se puede lograr suscribiéndose a un software, como en el caso de Microsoft Office con el modo transcripción, o bien ofreciendo este servicio como un complemento a un producto. Como es el caso de los auriculares Pixel Buds de Google, que ofrecen un modo intérprete para traducir conversaciones.

Todo apunta a que 2021 puede ser el año en el que los servicios de transcripción de audio y traducción simultánea comiencen a abrirse paso y dejar de ser una herramienta usada por una minoría. Algo en lo que también podría jugar un papel importante el desarrollo de las redes 5G, que gracias a mejorar su latencia permitirán una respuesta más rápida.

Los auriculares Pixel Buds de Google ofrecen la opción de interpretar una conversación en varios idiomas

Fuente: LA VANGUARDIA