Google explica cómo funciona por dentro la app Recorder de los Pixel

Google ha publicado un artículo en su blog en el que explica cómo funciona por detrás la nueva app Recorder de los smartphones Pixel.

Esta app no solamente permite guardar grabaciones de voz sino que transcribe automáticamente la voz e interpreta ciertos sonidos. Por el momento, solo está disponible en inglés pero suponemos que en algún momento llegará también a nuestro idioma.

Entrada Relacionada

En su publicación, Google explica que la app Recorder contiene una gran cantidad de código que es capaz de escuchar, entender, transcribir e incluso clasificar la voz y otros sonidos registrados por la app de grabación.

Una de las cosas que llama la atención cuando realizas una grabación es que, además de la forma de onda de la voz, se muestran diferentes colores y categorías sobre la pantalla a la vez que aparece la transcripción de voz.

La app ha sido entrenada para entender distintas categorías de sonido como música, voz, silbidos, ladridos de perro y otros sonidos comunes. Cada categoría de sonido se representa visualmente con un color que permite identificar rápidamente lo que se escucha sin tener que escuchar el sonido. Esto facilita las búsquedas sin tener que escuchar el audio.

La app identifica la categoría del sonido cada 50 ms pero, para no estar constantemente cambiando, Google ha desarrollado un sistema de filtrado que tiene en cuenta muestras de sonido más largas para no estar saltando de una categoría a otra por error.

Durante la grabación, la app identifica las palabras mediante un algoritmo de machine learning que se ejecuta en el el propio teléfono. Esto significa que no se transmite ningún dato a los servidores de Google, ya que el procesador es capaz de contrastar el sonido con un diccionario local para interpretar las palabras.

Este modelo es tan avanzado que es capaz de identificar los roles gramaticales de las palabras, ayudando así a una mejor transcripción. Estas palabras se guardan junto con la posición en la línea temporal y es posible incluso pulsar sobre una palabra para ir al momento exacto en el que se pronuncia.

Dejar un comentario

Tu dirección de e-mail nunca será publicada Los campos requeridos están marcados*

Esta web usa cookies para elaborar información estadística y mostrar publicidad personalizada.

Saber más