Millones de páginas
Al consultar una página Web muchos de ustedes se habrán topado con un mensaje de error bajo el código 404. El número, aunque suene desconocido, corresponde a un error cotidiano que indica que el contenido al que pretendían acceder no está ya disponible. Solo a modo de ejemplo, actualmente más de 11 millones de las páginas referenciadas en la Wikipedia dan lugar a un mensaje “Error 404 – File not found”.
Cuando eso ocurre, muchas personas se sentirán frustradas. Sin embargo, y pese a que las posibilidades de recuperar aquello que buscaban serán reducidas, no por ello será imposible acceder a una copia. Y esa posibilidad no está exenta controversias.
WayBack Machine
El almacenamiento histórico de contenidos de Internet ha sido un reto desde el propio origen de la red. La proliferación de dominios públicos en la World Wide Web, y el posterior desarrollo de buscadores encargados de indagar en su contenido, dio paso al interés por guardar todo aquello que aparecía publicado en forma de páginas HTML.
A comienzos de siglo, una iniciativa sin intereses económicos, surgida en 1996, tomó forma definitiva. Vino a llamarse WayBack Machine o, expresado en términos más entendibles, el Archivo Histórico de Internet.
El servicio perseguía ser testigo y registrador de lo que acontecía en la Web. Y para ello tomaba imágenes instantáneas y representativas —snapshots, en terminología propia— de los servicios diariamente publicados.
Biblioteca de Alejandría
La WayBack Machine se constituyó en una fuente de información indispensable para muchas actividades. Según los datos publicados diariamente por Archive.org, sus servidores almacenan más de 451 billones —en notación americana— de capturas de Webs. Un volumen mayúsculo que, sin embargo, solo representa una pequeña parte de su contenido total. Porque si bien se trata de un número que puede resultar impactante, presenta una evidente limitación: solo captura páginas HTML o ficheros públicos—incluyendo imágenes, videos o programas de ordenado. Es decir, paginas que resulten accesible a través de un dominio debidamente registrado, publicado e indexado. Básicamente no tiene en consideración contenidos que no tienen asociados un servidor público o páginas dentro de ese servidor que su propietario, a través del fichero “robot.txt”, ha decidido que no deberían indexarse.
Aun así, la información a guardar es enorme. Por ejemplo, el número de Webs existentes en el mundo se sitúa en abril de 2021 en más de 1,85 billones de dominios. Si tuviéramos en cuenta que el tiempo medio de “vida pública” de una página Web no supera los 100 días, podríamos hacer un cálculo de la información que se podría almacenar.
Bajo este modelo, el tamaño de las bases de datos de la WayBack Machine crece día a día. Actualmente supera los 45 Petabytes.
Un aspecto relevante es que sus servidores están alojados en California, bajo leyes y normas norteamericanas. No se trata de una cuestión menor si se tienen en cuenta las diferencias legislativas en el tratamiento de datos que existen con Europa.
Sea cual sea la razón, una copia de ese mismo contenido se guarda también en la Biblioteca de Alejandría, como copia de respaldo. Una copia que paralelamente la consultan millones de usuarios.
Datos históricos
La utilidad de los fondos históricos de la Web tiene, pese a todo, múltiples “aristas” cuando se analiza detenidamente.
La vocación de la iniciativa WayBack Machine es “contribuir desinteresadamente al desarrollo de la sociedad a través del estudio y el análisis de la información publicada en la red“.
Sin embargo, los datos que almacena pueden tener otros usos. Por ejemplo, en ocasiones, el contenido de la Web se emplea para recuperar evidencias que pueden ser utilizadas en pleitos con implicaciones legales; otras veces sirve para realizar análisis forenses de hechos ocurridos en el pasado. Y en otras muchas situaciones solo responde a curiosidades o intereses con reminiscencias nostálgicas. Sea cual sea el caso, hemos de decir que existen intensos debates que ponen en tela de juicio sus diferentes formas de uso.
Debilidades en ciberseguridad
Hemos excluido de la enumeración anterior otra forma de explotar el contenido de la WayBack Machine que se ha convertido en una práctica bastante extendida entre los ciberdelincuentes.
Un estudio realizado hace tres años mostraba que existían hasta siete maneras diferentes de utilizar la información almacenada en el archivo histórico de Internet para atacar a algunas Webs. Ataques que podrían desplegarse desde dentro del sistema de archivos y a través de la utilización de las imágenes (snapshots) almacenadas. No en vano, el contenido recogido de una Web podría tener privilegios de acceso no contemplados por sus creadores, ser vulnerables a técnicas de Cross Site Scripting, facilitar el uso de técnicas de suplantación de identidad o incluso ejecutar Javascripts de forma no controlada.
Los contenidos históricos de las Webs en ocasiones se emplean para comparar diferentes versiones de un mismo servidor con el objetivo de correlacionar vulnerabilidades históricas de un sistema. Incluso sirven para evaluar en modo offline —creando una copia cuasi exacta— la seguridad de un sitio Web sin tener que atacarlo directamente. De facto, algunas herramientas utilizadas para implementar técnicas de hacking ético actualmente emplean este tipo de tácticas.
Solo a modo de ejemplo, recientemente descubríamos un caso que combinaba varias de las situaciones mencionadas. Una conocida entidad financiera británica cometió un error al programar su Web y utilizó directamente la WayBack Machine como repositorio para recuperar sus propios Javascripts. Con ello abrió la posibilidad, entre otras cosas, a la suplantación del contenido de la web o incluso a la interrupción del servicio que prestaba.
De vuelta al “Error 404 – File not found”
En este escenario, el análisis detallado de páginas Web ha pasado a ser una técnica ampliamente utilizada por los ciberdelincuentes. Según la Fundación OWASP, la información que un servidor proporciona cuando un hacker explora una Web resulta crucial ante el eventual éxito o fracaso de un ciberataque.
La recomendación para combatirla es simple: el servidor debería configurarse de forma que la respuesta ante cualquier mensaje de error no proporcionara datos sobre sus posibles causas.
Así, por ejemplo, un error “404 – File not found” habitualmente informa de que el fichero no está ya disponible, cuando en realidad debería decir simplemente que no tiene acceso al contenido solicitado.
Al plantearlo de esa manera, se está permitiendo que cualquier persona deduzca que el fichero existió en algún momento y que como tal podría estar almacenado en la WayBack Machine. Y claro, después de todo lo dicho, seguro que un ciberdelincuente lo analizará y tratará de identificar opciones que le permitan hacer un uso ilícito de lo que allí encuentre.