Google explica cómo funciona por dentro la app Recorder de los Pixel

Google ha publicado un artículo en su blog en el que explica cómo funciona por detrás la nueva app Recorder de los smartphones Pixel.

Esta app no solamente permite guardar grabaciones de voz sino que transcribe automáticamente la voz e interpreta ciertos sonidos. Por el momento, solo está disponible en inglés pero suponemos que en algún momento llegará también a nuestro idioma.

TE INTERESA:
Por qué Google decidió ofrecer 7 años de actualizaciones en el Pixel 8

En su publicación, Google explica que la app Recorder contiene una gran cantidad de código que es capaz de escuchar, entender, transcribir e incluso clasificar la voz y otros sonidos registrados por la app de grabación.

Una de las cosas que llama la atención cuando realizas una grabación es que, además de la forma de onda de la voz, se muestran diferentes colores y categorías sobre la pantalla a la vez que aparece la transcripción de voz.

App Recorder del Pixel

La app ha sido entrenada para entender distintas categorías de sonido como música, voz, silbidos, ladridos de perro y otros sonidos comunes. Cada categoría de sonido se representa visualmente con un color que permite identificar rápidamente lo que se escucha sin tener que escuchar el sonido. Esto facilita las búsquedas sin tener que escuchar el audio.

La app identifica la categoría del sonido cada 50 ms pero, para no estar constantemente cambiando, Google ha desarrollado un sistema de filtrado que tiene en cuenta muestras de sonido más largas para no estar saltando de una categoría a otra por error.

Durante la grabación, la app identifica las palabras mediante un algoritmo de machine learning que se ejecuta en el el propio teléfono. Esto significa que no se transmite ningún dato a los servidores de Google, ya que el procesador es capaz de contrastar el sonido con un diccionario local para interpretar las palabras.

Este modelo es tan avanzado que es capaz de identificar los roles gramaticales de las palabras, ayudando así a una mejor transcripción. Estas palabras se guardan junto con la posición en la línea temporal y es posible incluso pulsar sobre una palabra para ir al momento exacto en el que se pronuncia.

¿Cuál es tu reacción?
Sorprendido
50%
Feliz
0%
Indiferente
0%
Triste
0%
Enfadado
0%
Aburrido
0%
Incrédulo
0%
¡Buen trabajo!
50%
Sobre el Autor
Luis A.
Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.
Comentarios
Deja un comentario

Deja un comentario