Medios de comunicación bloquean el acceso de Internet Archive para evitar el ‘web scrapping’ destinado a entrenar IA

admin

Algunos medios de comunicación han decidido bloquear el acceso de Internet Archive a sus publicaciones debido a que los rastreadores web utilizan esta biblioteca digital para recoger su contenido y utilizarlo en el entrenamiento de modelos de inteligencia artificial (IA).

Cabeceras como The Guardian y The New York Times y grupos editores como USA Today han empezado a introducir en sus páginas web limitaciones a los ‘bots’ rastreadores (robots.txt) para que no puedan extraer sus artículos, y las han extendido a Internet Archive (archive.org_bot y ia_archiver-web.archive.org).

El motivo se encuentra en que esta biblioteca digital sin ánimo de lucro se dedica a la preservación de internet y tiene un archivo histórico, Wayback Machine, que captura páginas web para que estén accesibles para cualquier persona. Entre ellas se encuentran artículos de medios de comunicación, incluso muchos protegidos tras un muro de pago.

Este archivo histórico es un recurso valioso para las empresas que entrenan modelos de inteligencia artificial, las cuales utilizan ‘bots’, conocidos como rastreadores de IA, para extraer los contenidos disponibles de manera abierta y gratuita, en una práctica conocida como ‘web scrapping’.

Ello ha suscitado la preocupación de los medios de comunicación que intentan proteger sus contenidos de esta actividad, que han detectado que una parte del contenido que les roban estos ‘bots’ de IA procede de Internet Archive, como informan en Nieman Lab.

Algunos de los medios afectados, incluso, han demandado a empresas de IA por el uso que han hecho de sus publicaciones. Es el caso, por ejemplo, The New York Times, que demandó a OpenAI, Microsoft y Perplexity, y de The Wall Street Journal y New York Post, que demandaron a Perplexity.

Según un análisis hecho por Nieman Lab a partir de la base de datos del periodista Ben Welsh sobre los medios de comunicación que han bloqueado el acceso a los rastreadores, a finales de diciembre 241 páginas de noticias de nueve países habían deshabilitado al menos uno de los rastreadores de Internet Archive. La mayoría de esos sitios web correspondían al conglomerado USA Today.

Facebook Comments Box

Deja un comentario

Next Post

Sacrifican 17.600 ocas en una granja de Hungría por la presencia de la gripe aviar

Budapest, 30 ene (EFECOM).- Las autoridades de sanidad animal de Hungría ordenaron este viernes el sacrificio de casi 18.000 ocas en una granja de Tiszaföldvár, a 100 kilómetros al sureste de Budapest, por la presencia de la cepa H5N1 de la gripe aviar. Según el informe de la Oficina Nacional […]
error: Content is protected !!