Google Pixel, la grabadora que es capaz de convertir voz a texto en tiempo real

La grabadora de los Google Pixel, además, no solo es capaz de transcribir el audio, sino que detecta información contextual como aplausos, música o risas durante la grabación 
Una de las novedades que Google ha introducido en sus nuevos Google Pixel es la grabadora de voz. Puede parecer una app normal y corriente, pero lo cierto es que cuenta con un modelo de machine learning que se ejecuta en el propio dispositivo capaz de transcribir todo lo que “escucha” a texto en tiempo real y obtener las palabras clave, aunque por ahora solo en inglés. 
Sin embargo, según el portal Xataka no es la única aplicación que lo hace, ya que existen alternativas como Otter.ai, que hacen lo mismo, pero con la diferencia de que todo el proceso se ejecuta en la nube. 
La grabadora de los Google Pixel, además, no solo es capaz de transcribir el audio, sino que detecta información contextual como aplausos, música o risas durante la grabación, marcándolas en la propia grabación. Todo esto se hace sin necesidad de conexión a Internet. 
El modelo de machine learning de la grabadora se basa en el sistema de reconocimiento de voz que Google implementó en Gboard a principios de este año. Dicho modelo fue entrenado usando la tecnología RNN transducer, lo que sirve para llevar toda la inteligencia artificial al dispositivo y poder ejecutarla en local. Este funciona a nivel de carácter, por lo que es capaz de detectar cada letra que se dice, tal y como hacen los teclados cuando pulsamos sobre cada letra.
Este modelo segrega las conversaciones por palabras, lo que permite al usuario pulsar en cualquiera de las palabras de la transcripción y escuchar al mismo tiempo la parte de la grabación de audio en la que dicha palabra se dice. 
Por otro lado, cuando se usa la app para grabar una conferencia, las barras de sonido se iluminan de diferente color cuando se detecta voz (azul) o contenido accesorio, como aplausos (en naranja). Esto es posible gracias a que la grabadora detecta el audio dominante cada 50 ms. 
Su precisión se basa en que la grabadora tiene capacidad de ventana deslizante para procesar audios parcialmente superpuestos (voz y aplausos) de 960 ms a intervalos de 50 ms. Cada fragmento de 960 segundos se analiza individualmente para determinar los audios predominantes.

Deja una respuesta