Apple explica la complejidad detrás del reconocimiento de la frase “Oye Siri” y de quien la pronuncia

Apple ha desvelado los detalles sobre cómo funciona el sistema de reconocimiento de la frase “Oye Siri”, que desde el iPhone 6 permite al asistente digital reconocer únicamente la voz de su dueño e ignorar la frase si la pronuncia cualquier otra persona.

En un artículo publicado en el Machine Learning Journal de Apple, el equipo de Siri da algunas detalles sobre el trabajo enviado a la Conferencia Internacional de Acústica, Voz y Procesado de Señal (ICASSP en inglés) que arranca hoy.

TE INTERESA:
La IA generativa de Apple se ejecutará en el iPhone para priorizar velocidad y privacidad

Según explica Apple, reconocer la voz del dueño del dispositivo utilizando un núcleo de bajo consumo que está siempre escuchando es más complicado de lo que parece.

Para empezar, la frase “Oye Siri” es bastante corta, por lo que Siri tiene poca información para identificar que el usuario ha dicho la frase en cuestión (y no otra que suene parecido) y para reconocer si quien ha dicho la frase es el dueño del dispositivo, y no otra persona.

Aunque durante la configuración inicial de Siri el usuario debe pronunciar cinco veces la frase “Oye Siri”, estas cinco frases iniciales no son representativas de los distintos entornos en los que el usuario puede encontrarse. Por ello, Siri va aprendiendo a lo largo del tiempo con cada interacción.

Siri analiza cada vez que pronuncias la frase “Oye Siri” y guarda hasta 35 de estas ocurrencias para aprender cómo suena la frase en distintos entornos. Además, al almacenar estas 35 frases en el propio dispositivo, este puede re-analizar las frases si Apple introduce algún cambio en el algoritmo.

En cuanto al futuro, el equipo de Siri pone encima de la mesa algunas ideas. En primer lugar, hay lugares donde Siri tiene problemas, como espacios donde el eco es elevado o entornos ruidosos, como un coche o un lugar con viento.

Otro de los objetivos que se marca el grupo de Siri es conseguir eliminar por completo el proceso de entrenamiento en el que el usuario debe decir “Oye Siri” varias veces para registrar la voz del usuario. Idealmente, bastaría con que lo pronunciara una vez y que Siri fuera aprendiendo con futuras ocurrencias.

¿Cuál es tu reacción?
Sorprendido
0%
Feliz
0%
Indiferente
0%
Triste
0%
Enfadado
0%
Aburrido
0%
Incrédulo
0%
¡Buen trabajo!
0%
Sobre el Autor
Luis A.
Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.
Comentarios
Deja un comentario

Deja un comentario