Muchas webs no quieren que el rastreador de ChatGPT les visite: Podría acabar con ellas

Millones de personas utilizan Google diariamente, pero no muchas saben cómo llega la información de los sitios web hasta la base de datos del buscador. Aunque son desconocidas para muchos, hay arañas digitales rastreando los sitios web que lees y creas.

La araña más activa es probablemente Googlebot, que lee las páginas de los sitios web para que Google pueda clasificarla y ofrecerla en los resultados de búsqueda.

Así es como ha funcionado Internet en los últimos años, ya que es un modelo que beneficia a todos. Los usuarios encuentran la información que necesitan, Google gana dinero mostrando publicidad en sus resultados y los sitios web ganan dinero al recibir tráfico desde los buscadores hasta sus páginas con anuncios o contenido patrocinado.

La IA generativa está a punto de cambiar las búsquedas

Ahora, el auge de la IA generativa y de los grandes modelos lingüísticos está socavando este acuerdo. OpenAI admitió recientemente que tiene una de estas arañas rastreando la web.

Se llama GPTbot y se utiliza para raspar y recopilar contenidos para el entrenamiento de modelos de IA. Es probable que el próximo gran modelo, GPT-5, se entrene con los datos recogidos por este bot.

GPT-4, ChatGPT y otros potentes modelos de IA responden a las preguntas de los usuarios de forma inmediata, por lo que hay menos necesidad de enviar a los usuarios a las fuentes de la información original. Puede ser una gran experiencia para el usuario, pero los incentivos para compartir información gratuita de alta calidad por parte de los creadores de contenido empiezan a desaparecer rápidamente.

Aunque el bot indica que la primera fuente es Teknofilo.com, la respuesta es suficientemente aclaratoria para que los usuarios no tengan que visitar esta web

¿Por qué iba a permitir un creador de contenidos gratuitos online, como esta web, que OpenAI recopile su contenido cuando esos datos se utilizarán para formar a futuros sistemas que más tarde darán respuestas directas a los usuarios sin generar tráfico a su sitio?

Aunque esto suene a un escenario apocalíptico, ya está sucediendo. Por ejemplo, cada vez menos personas visitan Stack Overflow para obtener ayuda sobre codificación de software.

Dejar que GPTbot rastree tu web es un suicidio

Dejar que GPTbot de OpenAI rastree tu sitio web es hacerte el hara-kiri. Esta idea se está extendiendo rápidamente entre las comunidades online. The Verge, una de las webs más populares de tecnología, ya ha tomado medidas para bloquear GPTbot.

No está claro cuánto tiempo lleva el spiderbot de OpenAI merodeando por Internet. La compañía anunció recientemente una forma de bloquear GPTbot, utilizando el conocido método de bloquear arañas a través del fichero robots.txt.

Algunos sitios web ya lo han puesto en práctica, aunque no faltan quienes se preguntan si OpenAI ya ha tenido un bot recogiendo en secreto los datos de todo el mundo durante meses o años.

CCBot es otra araña digital que rastrea la web recopilando todo el contenido. Está dirigida por una organización llamada Common Crawl, que es uno de los principales proveedores de datos de entrenamiento para modelos de IA. Common Crawl almacena toda esta información con regularidad, por lo que aunque bloquees su bot ahora, es probable que tus datos ya hayan sido tomados.

Mejor pedir permiso que entrar sin llamar

Muchas voces piden ahora que estos robots araña de IA sean «opt-in» en lugar de «opt-out». Ahora mismo, OpenAI obtiene los datos de todo el mundo por defecto, y los creadores deben tomar medidas para que esto no ocurra, bloqueando activamente la(s) araña(s) en cuestión. Un enfoque «opt-in» requeriría que OpenAI pidiera permiso primero.

OpenAI ha hecho un esfuerzo por respetar algunos datos online. GPTbot está ahora diseñado para filtrar las fuentes que requieren un acceso de pago y eliminar otras fuentes conocidas por recopilar información de identificación personal.

La empresa también ha anunciado recientemente un acuerdo con Associated Press por el que OpenAI pagará la licencia del contenido de AP para obtener datos de entrenamiento de IA. Si la empresa paga por estos datos, ¿por qué no paga también por la información de los demás?

¿Cuál es tu reacción?

Sorprendido

Feliz

Indiferente

Triste

Enfadado

Aburrido

Incrédulo

¡Buen trabajo!

✏️ Ver comentarios

Sobre el Autor

Luis A.

Luis es el creador y editor jefe de Teknófilo. Se aficionó a la tecnología con un Commodore 64 e hizo sus pinitos programando gracias a los míticos libros de 🛒 'BASIC para niños' con 11 años. Con el paso de los años, la afición a los ordenadores se ha extendido a cualquier cacharrito que tenga una pantalla y CPU.

Comentarios

Deja un comentario

Muchas webs no quieren que el rastreador de ChatGPT les visite: Podría acabar con ellas

La IA generativa está a punto de cambiar las búsquedas

Dejar que GPTbot rastree tu web es un suicidio

Mejor pedir permiso que entrar sin llamar

Deja un comentarioCancelar respuesta