20 de abril 2026
Qué hay detrás del misterio de la “ciudad sumergida” de Cuba
PUBLICIDAD 4D
PUBLICIDAD 5D
El Archivo de Internet lucha por sobrevivir. Cada vez más empresas de medios se niegan a archivar su contenido
Miles de millones de sitios web podrían caer en el olvido si la "Wayback Machine" dejara de existir. // Timon Schneider/SOPA Images/Sipa USA/picture alliance
Desde hace 30 años, el portal de Internet web.archive.org almacena contenido digital. La Wayback Machine, la herramienta que usa Internet Archive, abarca más de un billón de páginas web archivadas y se considera una herramienta indispensable para periodistas, investigadores, historiadores y profesionales del derecho, ya que permite acceder a la versión original de contenido eliminado o modificado.
Sin embargo, este singular proyecto de la organización sin ánimo de lucro con sede en San Francisco, California, se enfrenta a una crisis existencial, y la última amenaza proviene precisamente de quienes más necesitan el archivo: los propios medios de comunicación.
Esto se debe a que un número cada vez mayor de empresas de medios niegan al archivo el acceso a sus contenidos. Según un estudio de la Fundación Nieman para el Periodismo de la Universidad de Harvard, al menos 241 portales de noticias de nueve países bloquean al archivo, entre ellos, The Guardian, The New York Times, Le Monde, y el mayor grupo periodístico de Estados Unidos, USA Today Co.
El motivo: el miedo a la inteligencia artificial (IA). Los editores temen que empresas de IA como OpenAI o Google estén recopilando masivamente su contenido periodístico a través de Internet Archive para entrenar a sus modelos lingüísticos, sin permisos ni compensaciones. El portavoz de The New York Times, Graham James, lo declaró abiertamente: “El problema es que el contenido del Times en Internet Archive está siendo utilizado por empresas de IA, violando los derechos de autor, para competir directamente con nosotros”.
Mark Graham, director de Wayback Machine, confirmó a la revista Wired que algunas empresas habían accedido en ocasiones a los archivos con decenas de miles de solicitudes de búsqueda por segundo realizadas por bots de IA , hasta el punto de sobrecargar temporalmente los servidores.
Archive.org no estaba preparada para eso. “Al igual que una biblioteca tradicional, ofrecemos acceso gratuito a investigadores, historiadores, científicos, personas con dificultades de lectura y al público en general. Nuestro objetivo es facilitar el acceso universal al conocimiento para todos”: ese es el lema de la organización sin fines de lucro. Posibilitar el acceso universal al conocimiento excluye la eliminación de bots y rastreadores, lo que ha dado lugar a sanciones por parte de las principales empresas editoriales y de medios de comunicación.
La Electronic Frontier Foundation (EFF), una organización de derechos humanos especializada en temas digitales, compara las acciones de esos medios con “un editor de periódicos que anuncia que las bibliotecas ya no pueden conservar ejemplares de su diario”.
Más de 100 periodistas han firmado ya una petición para apoyar al Archivo de Internet. “En un panorama mediático digital donde los artículos desaparecen debido a enlaces perdidos, fusiones corporativas o medidas de reducción de costos, los periodistas suelen recurrir al archivo de la Wayback Machine para recuperar páginas que de otro modo se perderían. Sin este trabajo continuo para preservar internet, gran parte de la historia reciente del periodismo ya se habría perdido”, se lee en la carta abierta.
Mark Graham declaró a la revista Wired que está en conversaciones con los medios para restablecer el acceso. El resultado aún está por verse. Sin embargo, su conclusión suena a advertencia: “No cabe duda de que el creciente bloqueo de gran parte de la web pública está perjudicando la capacidad de la sociedad para comprender lo que sucede en nuestro mundo”.
“Millones de referencias a fuentes de Wikipedia pierden su origen, la investigación sobre la responsabilidad de la plataforma ―es decir, qué términos y condiciones se aplicaron y cuándo, qué reglas de moderación se reformularon y cómo― se vuelve mucho más difícil, y desaparecen pruebas digitales legalmente sólidas”, explica a DW el periodista alemán Martin Fehrensen, fundador de socialmediawatchblog.de. En su opinión, bloquear el archivo es completamente absurdo, especialmente para las empresas de medios.
Hay dos formas de resolver el conflicto: “Necesitamos un diálogo con los editores para establecer una clara separación técnica entre el archivado y el entrenamiento de la IA, porque ese es el verdadero conflicto, no el archivo”, subraya. A juicio de Fehrensen, a mediano plazo, debe crearse un estatus legal especial para los archivos web. Y, a largo plazo, “el archivo web debería considerarse infraestructura pública, no un proyecto aislado de una oenegé en San Francisco. El hecho de que siga dependiendo de una sola organización en 2026 es la verdadera falla estructural”.
No es la primera vez que el Archivo de Internet lucha por su supervivencia. Un ataque informático en 2024 robó datos de 31 millones de cuentas de usuarios. Ese mismo año, perdió el juicio por derechos de autor “Hachette vs. Internet Archive” en EE. UU. Las editoriales Hachette, Penguin Random House, HarperCollins y Wiley habían demandado con éxito al archivo por el programa gratuito de préstamo de libros electrónicos que había lanzado durante la pandemia de covid-19. Más de 500 000 libros tuvieron que ser retirados del servicio. No obstante, archive.org aún enfrenta posibles demandas por daños y perjuicios que ascienden a millones de dólares.
Pero este bloqueo de los medios es mucho más grave, ya que no puede ser reparado mediante un veredicto o una actualización de datos. Es el resultado de numerosas decisiones corporativas que, en conjunto, socavan la actividad principal de la Wayback Machine: la documentación impecable de la web pública.
PUBLICIDAD 3M
Deutsche Welle (DW) es el medio de comunicación público alemán. Con una distribución multiplataforma de información y análisis de la actualidad mundial, ofrece formatos de una amplia variedad temática. Sus contenidos periodísticos son reproducidos en CONFIDENCIAL gracias a un acuerdo de distribución entre ambos medios.
PUBLICIDAD 3D