Smartphones

El curioso truco de Apple para evitar que la palabra «Siri» active tus dispositivos en casa durante la keynote

Sala moderna con dispositivos Apple y presentación en pantalla grande. Tecnología y diseño en armonía.

Apple parece haber aplicado un truco bastante curioso en el vídeo de la keynote de la WWDC 2026: modificar el audio cada vez que alguien pronunciaba “Siri” para reducir las posibilidades de que los iPhone, iPad, Mac o HomePod de los espectadores se despertaran por accidente.

La técnica fue detectada por varios usuarios en X, que compartieron capturas de espectrogramas donde se aprecian cortes muy concretos en ciertas frecuencias justo en los momentos en los que se menciona el nombre del asistente de Apple. Según el análisis difundido, Apple habría eliminado o atenuado bandas alrededor de los 3 kHz, 4 kHz, 5 kHz y 6 kHz.

No se trata de un cambio que la mayoría de personas vaya a notar al escuchar la presentación. La voz sigue sonando natural, pero el recorte de esas frecuencias puede alterar lo suficiente la huella acústica de la palabra “Siri” como para dificultar que los sistemas de detección de palabra de activación la reconozcan.

Un pequeño truco de audio para esquivar la palabra mágica

Los asistentes de voz como Siri, Alexa o Google Assistant están siempre atentos a una palabra clave. En el caso de Apple, esa palabra puede ser “Siri” o “Hey Siri”, dependiendo de la configuración del dispositivo.

Para reconocerla, el sistema no “entiende” la palabra como lo haría una persona. Lo que hace es buscar un patrón acústico concreto: una combinación de sonidos, frecuencias y características de voz que encajan con la frase de activación.

Ahí es donde entra el retoque de audio. Si se eliminan algunas bandas de frecuencia importantes en la pronunciación de “Siri”, la palabra puede seguir siendo perfectamente comprensible para un espectador humano, pero menos reconocible para el algoritmo encargado de activar el asistente.

En la práctica, Apple habría usado una especie de filtro quirúrgico: no silencia la palabra ni cambia el contenido de la keynote, sino que modifica partes muy concretas del sonido para que los dispositivos cercanos no reaccionen.

fun fact: tijdens de keynote hakt Apple een stukje 3k, 4k, 5k en 6kHz eruit wanneer ze «Siri» zeggen, zodat niet iedereens HomePods terug beginnen te praten 🗣️🚫 pic.twitter.com/x13WbNPztr

— luuk de leest (@luuk58) June 8, 2026

Por qué Apple tendría interés en hacerlo

Durante una keynote de Apple, la palabra “Siri” puede repetirse muchas veces, especialmente en una edición como la WWDC 2026, donde el asistente tuvo un protagonismo enorme.

Apple presentó en el evento una versión renovada de su asistente bajo el nombre “Siri AI”, con nuevas capacidades conversacionales, integración más profunda con el sistema, acceso desde la Dynamic Island y una experiencia rediseñada en varios dispositivos.

El problema es evidente: millones de personas ven la keynote desde casa, muchas con un iPhone sobre la mesa, un Mac encendido o un HomePod cerca. Si el vídeo pronuncia “Siri” una y otra vez, existe el riesgo de que algunos dispositivos despierten, interrumpan la reproducción o incluso respondan de forma inesperada.

Modificar el audio del vídeo es una forma elegante de reducir ese riesgo sin pedir a los espectadores que desactiven Siri ni alterar visualmente la presentación.

El sistema no habría funcionado al 100%

Aunque la técnica parece ingeniosa, no habría sido infalible. Algunos espectadores aseguraron que sus dispositivos sí se activaron durante la emisión o reproducción de la keynote, a pesar del supuesto filtrado de frecuencias.

Esto tampoco resulta sorprendente. La detección de palabra de activación no depende únicamente de cuatro bandas de frecuencia aisladas. Los modelos modernos pueden apoyarse en múltiples rasgos de la señal de audio, en el contexto sonoro y en distintos niveles de procesamiento.

Además, la reproducción del vídeo puede variar mucho según el entorno: altavoces del televisor, barra de sonido, auriculares, volumen, reverberación de la sala, compresión de YouTube o distancia al dispositivo que escucha. Todo eso puede afectar a la forma en que Siri interpreta la señal.

Dicho de otra manera: Apple puede reducir la probabilidad de activaciones accidentales, pero eliminarlas por completo es mucho más difícil.

Amazon ya hizo algo parecido con Alexa

Este tipo de truco no es nuevo. En 2017, se descubrió que Amazon utilizaba una técnica similar en algunos anuncios de televisión de Alexa para evitar que los altavoces Echo de los espectadores se activaran al escuchar la palabra clave.

Tiene sentido. Las marcas que venden asistentes de voz se enfrentan a un problema peculiar: cada vez que promocionan su producto en televisión, YouTube o una presentación, corren el riesgo de activar los propios dispositivos que están anunciando.

Por eso, las compañías pueden recurrir a filtros de audio, cambios de pronunciación, variaciones en la mezcla o técnicas de “notching”, que consisten en recortar rangos de frecuencia muy concretos. El objetivo es que el anuncio o la presentación sigan siendo claros para las personas, pero no resulten tan convincentes para el detector automático.

La WWDC 2026 puso a Siri en el centro de todo

La elección de Apple no es casual. La keynote de la WWDC 2026 estuvo especialmente centrada en Apple Intelligence y en la nueva generación de Siri. De hecho, este año Apple abandonó en parte la estructura tradicional organizada por sistemas operativos y apostó por una presentación más temática, con bloques dedicados a mejoras de plataforma, seguridad y privacidad, y nuevas funciones de inteligencia artificial.

El nuevo Siri AI fue uno de los grandes protagonistas del evento. Apple lo describió como una versión mucho más capaz del asistente, con conversaciones más naturales, mayor comprensión del contexto personal, integración con apps y presencia renovada en el iPhone, el Mac y otros dispositivos.

Con ese enfoque, era prácticamente inevitable que la palabra “Siri” se pronunciara muchas veces durante la keynote. Y cuanto más se repite la palabra de activación, mayor es el riesgo de que los dispositivos de los espectadores reaccionen.

Un detalle técnico que dice mucho sobre los asistentes de voz

Lo interesante de esta historia no es solo el truco en sí, sino lo que revela sobre la relación entre humanos, dispositivos y contenido multimedia.

Para una persona, una palabra puede seguir siendo comprensible aunque se le quiten ciertas frecuencias. Nuestro cerebro es muy bueno reconstruyendo información incompleta. Sin embargo, un sistema de detección automática puede ser más sensible a cambios específicos en la señal.

Esto demuestra que los asistentes de voz no escuchan como nosotros. Funcionan mediante modelos entrenados para reconocer patrones concretos, y esos patrones pueden alterarse con cambios que para el oído humano pasan casi desapercibidos.

También recuerda que la activación por voz sigue siendo un equilibrio complicado. El sistema debe estar atento para responder cuando el usuario lo necesita, pero no tanto como para activarse con anuncios, vídeos, podcasts o conversaciones casuales.

Apple no lo ha confirmado oficialmente

Por ahora, no consta que Apple haya explicado públicamente esta modificación del audio de la keynote. La información procede de observaciones de usuarios y análisis visuales del espectrograma del vídeo, recogidos posteriormente por medios especializados.

Eso no invalida la teoría, pero conviene tratarla con cierta prudencia. Los cortes en frecuencias concretas coincidiendo con la palabra “Siri” son una pista bastante llamativa, y la explicación técnica encaja muy bien con el funcionamiento de los asistentes de voz. Aun así, sin una confirmación de Apple, hablamos de una conclusión basada en análisis externo.

En cualquier caso, sería una medida muy coherente con lo que otras compañías han hecho antes y con el contexto de una keynote donde Siri tuvo un papel protagonista.

Un truco invisible para una keynote cada vez más doméstica

Hace años, las presentaciones tecnológicas se veían sobre todo desde un ordenador. Hoy, muchas personas las reproducen en televisores, altavoces inteligentes, tablets o móviles, rodeadas de dispositivos conectados que están escuchando palabras de activación.

Eso obliga a las compañías a pensar en detalles que antes parecían secundarios. Una keynote no solo tiene que sonar bien para el espectador; también debe evitar despertar los dispositivos que están en la misma habitación.

En ese sentido, el supuesto ajuste de audio de Apple es casi invisible, pero muy revelador. Muestra hasta qué punto las empresas tecnológicas tienen que diseñar no solo el software, sino también la forma en la que hablan de él en público.

¿Cuál es tu reacción?

Sorprendido

Feliz

Indiferente

Triste

Enfadado

Aburrido

Incrédulo

¡Buen trabajo!

✏️ Ver comentarios

Sobre el Autor

Luis A.

Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.

Comentarios

Deja un comentario