Pew Research: El 38% de las páginas web que existían en 2013 ya no son accesibles una década después

41

Internet es un depósito inimaginablemente vasto de la vida moderna, con cientos de miles de millones de páginas web indexadas. Pero incluso cuando los usuarios de todo el mundo dependen de la web para acceder a libros, imágenes, artículos de noticias y otros recursos, este contenido a veces desaparece de la vista.

Un nuevo análisis del Pew Research Center muestra cuán fugaz es en realidad el contenido en línea:

  • Una cuarta parte de todas las páginas web que existieron en algún momento entre 2013 y 2023 ya no son accesibles a partir de octubre de 2023. En la mayoría de los casos, esto se debe a que una página individual fue eliminada o eliminada en un sitio web que de otro modo funcionaría.
Un gráfico de líneas que muestra que el 38% de las páginas web de 2013 ya no son accesibles
  • Para el contenido más antiguo, esta tendencia es aún más marcada. Alrededor del 38% de las páginas web que existían en 2013 no están disponibles hoy, en comparación con el 8% de las páginas que existían en 2023.

Esta “decadencia digital” ocurre en muchos espacios en línea diferentes. Examinamos los enlaces que aparecen en sitios web gubernamentales y de noticias, así como en la sección «Referencias» de las páginas de Wikipedia a partir de la primavera de 2023. Este análisis encontró que:

  • El 23% de las páginas web de noticias contienen al menos un enlace roto, al igual que el 21% de las páginas web de sitios gubernamentales. Los sitios de noticias con un alto nivel de tráfico y aquellos con menos tienen la misma probabilidad de contener enlaces rotos. Es especialmente probable que las páginas web de los gobiernos locales (aquellas que pertenecen a los gobiernos municipales) tengan enlaces rotos.
  • El 54% de las páginas de Wikipedia contienen al menos un enlace en su sección «Referencias» que apunta a una página que ya no existe.

Para ver cómo se desarrolla la decadencia digital en las redes sociales, también recopilamos una muestra en tiempo real de tweets durante la primavera de 2023 en la plataforma de redes sociales X (entonces conocida como Twitter) y los seguimos durante tres meses. Encontramos eso:

  • Casi uno de cada cinco tweets ya no es visible públicamente en el sitio apenas unos meses después de su publicación. En el 60% de estos casos, la cuenta que publicó originalmente el tweet se hizo privada, se suspendió o se eliminó por completo. En el otro 40%, el titular de la cuenta eliminó el tweet individual, pero la cuenta en sí aún existía.
  • Ciertos tipos de tweets tienden a desaparecer con más frecuencia que otros. Más del 40% de los tweets escritos en turco o árabe ya no son visibles en el sitio a los tres meses de su publicación. Y es especialmente probable que los tweets de cuentas con la configuración de perfil predeterminada desaparezcan de la vista del público.

Hay muchas formas de definir si algo en Internet que solía existir ahora es inaccesible para las personas que intentan acceder a él hoy. Por ejemplo, «inaccesible» podría significar que:

  • La página ya no existe en su servidor host, o el servidor host en sí ya no existe. Alguien que visite este tipo de página normalmente recibiría una variación del error del servidor «404 No encontrado» en lugar del contenido que estaba buscando.
  • La dirección de la página existe pero su contenido ha cambiado –a veces dramáticamente– de lo que era originalmente.
  • La página existe, pero a ciertos usuarios, como aquellos con ceguera u otras discapacidades visuales, les puede resultar difícil o imposible leerla.

Para este informe, nos centramos en la primera de ellas: páginas que ya no existen. Las otras definiciones de accesibilidad están fuera del alcance de esta investigación.

Nuestro enfoque es una forma sencilla de medir si algo en línea es accesible o no. Pero aun así, existe cierta ambigüedad.

En primer lugar, hay docenas de códigos de estado que indican un problema que un usuario puede encontrar cuando intenta acceder a una página. No todos indican definitivamente si la página está permanentemente inactiva o simplemente no está disponible temporalmente. En segundo lugar, por razones de seguridad, muchos sitios intentan activamente impedir el tipo de recopilación automatizada de datos que utilizamos para probar nuestra lista completa de enlaces.

Por estas razones, utilizamos la estimación más conservadora posible para decidir si un sitio era realmente accesible o no. Contamos las páginas como inaccesibles solo si devuelven uno de los nueve códigos de error que indican definitivamente que la página y/o su servidor host ya no existen o han dejado de funcionar, independientemente de cómo se acceda a ellas y quién las acceda. La lista completa de códigos de error que incluimos en nuestra definición se encuentra en la metodología .

Éstos son algunos de los hallazgos de nuestro análisis de la decadencia digital en varios espacios en línea.

Páginas web de la última década.

Para realizar esta parte de nuestro análisis, recopilamos una muestra aleatoria de poco menos de 1 millón de páginas web de los archivos de Common Crawl , un servicio de archivo de Internet que recopila periódicamente instantáneas de Internet tal como existe en diferentes momentos. Tomamos muestras de las páginas recopiladas por Common Crawl cada año desde 2013 hasta 2023 (aproximadamente 90 000 páginas por año) y verificamos si esas páginas todavía existen en la actualidad.

Descubrimos que el 25 % de todas las páginas que recopilamos entre 2013 y 2023 ya no eran accesibles en octubre de 2023. Esta cifra es la suma de dos tipos diferentes de páginas rotas: el 16 % de las páginas son inaccesibles individualmente pero provienen de un entorno funcional. dominio de nivel raíz; el otro 9% es inaccesible porque todo su dominio raíz ya no funciona.

No es sorprendente que las instantáneas más antiguas de nuestra colección tuvieran la mayor proporción de enlaces inaccesibles. De las páginas recopiladas en la instantánea de 2013, el 38% ya no era accesible en 2023. Pero incluso para las páginas recopiladas en la instantánea de 2021, aproximadamente una de cada cinco ya no era accesible solo dos años después.

Un gráfico de barras que muestra que alrededor de 1 de cada 5 páginas web gubernamentales contienen al menos un enlace roto

Tomamos muestras de alrededor de 500.000 páginas de sitios web gubernamentales utilizando la instantánea de Internet de Common Crawl de marzo/abril de 2023, incluida una combinación de diferentes niveles de gobierno (federal, estatal, local y otros). Encontramos todos los enlaces en cada página y seguimos una selección aleatoria de esos enlaces hasta su destino para ver si las páginas a las que hacen referencia todavía existen.

En los sitios web gubernamentales que analizamos, había 42 millones de enlaces. La gran mayoría de esos enlaces (86%) eran internos, lo que significa que enlazan a una página diferente en el mismo sitio web. Un recurso explicativo en el sitio web del IRS que enlace a otros documentos o formularios en el sitio del IRS sería un ejemplo de enlace interno.

Alrededor de las tres cuartas partes de las páginas web gubernamentales que analizamos contenían al menos un enlace en la página. La página típica (mediana) contiene 50 enlaces, pero muchas páginas contienen muchos más. Una página en el percentil 90 contiene 190 enlaces y una página en el percentil 99 (es decir, el 1% superior de páginas por número de enlaces) tiene 740 enlaces.

Otros datos sobre los enlaces a páginas web gubernamentales:

  • La gran mayoría accede a páginas HTTP seguras (y tienen una URL que comienza con “https://”).
  • El 6% va a un archivo estático, como un documento PDF.
  • El 16% ahora redirige a una URL diferente a la que apuntaban originalmente.

Cuando seguimos estos enlaces, descubrimos que el 6% apunta a páginas a las que ya no se puede acceder. Porciones similares de enlaces internos y externos ya no funcionan.

En general, el 21% de todas las páginas web gubernamentales que examinamos contenían al menos un enlace roto. En todos los niveles de gobierno que analizamos, había enlaces rotos en al menos el 14% de las páginas; Las páginas del gobierno de la ciudad tuvieron las tasas más altas de enlaces rotos.

Un gráfico de barras que muestra que el 23% de las páginas web de noticias tienen al menos un enlace roto

Para este análisis, tomamos una muestra de 500.000 páginas de 2.063 sitios web clasificados como “Noticias/Información” por la firma de métricas de audiencia comScore. Las páginas se recopilaron de la instantánea de Internet de Common Crawl de marzo/abril de 2023.

En todos los sitios de noticias muestreados, esta colección contenía más de 14 millones de enlaces que apuntaban a un sitio web externo. 1 Alrededor del 94% de estas páginas contienen al menos un enlace externo. La página mediana contiene 20 enlaces y las páginas en el 10% superior por número de enlaces tienen 56 enlaces.

Al igual que los sitios web gubernamentales, la gran mayoría de estos enlaces van a páginas HTTP seguras (aquellas con una URL que comienza con “https://”). Alrededor del 12% de los enlaces en estos sitios de noticias apuntan a un archivo estático, como un documento PDF. Y el 32% de los enlaces en sitios de noticias redirigen a una URL diferente a la que apuntaban originalmente, un poco menos que el 39% de los enlaces externos en sitios gubernamentales que redireccionan.

Cuando rastreamos estos enlaces hasta su destino, descubrimos que el 5% de todos los enlaces en las páginas de sitios de noticias ya no son accesibles. Y el 23% de todas las páginas que probamos contenían al menos un enlace roto.

Los enlaces rotos son tan frecuentes en los sitios web de noticias con mayor tráfico como en los sitios con menos tráfico. Alrededor del 25% de las páginas de los sitios web de noticias que se encuentran en el 20% superior por tráfico del sitio tienen al menos un enlace roto. Esto es casi idéntico al 26% de los sitios que se encuentran en el 20% inferior por tráfico del sitio.

Para este análisis, recopilamos una muestra aleatoria de 50.000 páginas de Wikipedia en inglés y examinamos los enlaces en su sección «Referencias». La gran mayoría de estas páginas (82%) contienen al menos un enlace de referencia, es decir, uno que dirige al lector a una página web distinta de la propia Wikipedia.

En total, hay poco más de 1 millón de enlaces de referencia en todas las páginas que recopilamos. La página típica tiene cuatro enlaces de referencia.

El análisis indica que el 11% de todas las referencias enlazadas en Wikipedia ya no son accesibles. En aproximadamente el 2% de las páginas de origen que contienen enlaces de referencia, todos los enlaces de la página estaban rotos o eran inaccesibles, mientras que otro 53% de las páginas contenían al menos un enlace roto.

Publicaciones en Twitter

Un gráfico circular que muestra que alrededor de 1 de cada 5 tweets desaparece de la vista del público en unos meses.

Para este análisis, recopilamos casi 5 millones de tweets publicados del 8 de marzo al 27 de abril de 2023 en la plataforma de redes sociales X, que en ese momento se conocía como Twitter. Hicimos esto utilizando la API Streaming de Twitter, recopilando 3000 tweets públicos cada 30 minutos en tiempo real. Esto nos proporcionó una muestra representativa de todos los tweets publicados en la plataforma durante ese período. Monitoreamos esos tweets hasta el 15 de junio de 2023 y verificamos cada día para ver si todavía estaban disponibles en el sitio o no.

Al final del período de observación, descubrimos que el 18% de los tweets de nuestra ventana de recopilación inicial ya no eran visibles públicamente en el sitio . En la mayoría de los casos, esto se debió a que la cuenta que publicó originalmente el tweet se hizo privada, se suspendió o se eliminó por completo. Para los tweets restantes, la cuenta que publicó el tweet todavía estaba visible en el sitio, pero el tweet individual había sido eliminado.

¿Qué tweets tienden a desaparecer?

Un gráfico de barras que muestra que los tweets inaccesibles a menudo provienen de cuentas con configuraciones de perfil predeterminadas.

Era especialmente probable que los tweets fueran eliminados o eliminados durante el transcurso de nuestro período de recopilación si:

  • Escrito en ciertos idiomas. Casi la mitad de todos los tweets en turco que recopilamos (y una proporción ligeramente menor de los escritos en árabe) ya no estaban disponibles al final del período de seguimiento.
  • Publicado por cuentas que utilizan la configuración de perfil predeterminada del sitio. Más de la mitad de los tweets de cuentas que usaban la imagen de perfil predeterminada ya no estaban disponibles al final del período de seguimiento, al igual que más de un tercio de las cuentas con un campo de biografía predeterminado. Los tweets de estas cuentas tienden a desaparecer porque toda la cuenta se elimina o se vuelve privada, en lugar de eliminar el tweet individual.
  • Publicado por cuentas no verificadas.

También descubrimos que los tweets eliminados o eliminados tendían a provenir de cuentas más nuevas con relativamente pocos seguidores y actividad modesta en el sitio. En promedio, los tweets que ya no eran visibles en el sitio fueron publicados por cuentas alrededor de ocho meses más jóvenes que aquellas cuyos tweets permanecieron en el sitio.

Y cuando analizamos los tipos de tweets que ya no estaban disponibles, encontramos que los retweets, los tweets citados y los tweets originales no diferían mucho del promedio general. Pero era relativamente poco probable que se eliminaran las respuestas: solo el 12% de las respuestas eran inaccesibles al final de nuestro período de seguimiento.

La mayoría de los tweets que se eliminan del sitio tienden a desaparecer poco después de ser publicados. Además de observar cuántos tweets de nuestra colección todavía estaban disponibles al final de nuestro período de seguimiento, realizamos un análisis de supervivencia para ver cuánto tiempo estos tweets tendían a permanecer disponibles. Encontramos eso:

  • El 1% de los tweets se eliminan en una hora.
  • 3% en un día
  • 10% en una semana
  • 15% en un mes

Dicho de otra manera: la mitad de los tweets que finalmente se eliminan de la plataforma no están disponibles dentro de los primeros seis días de su publicación. Y el 90% de estos tweets no están disponibles dentro de los 46 días.

Sin embargo, los tweets no siempre desaparecen para siempre. Alrededor del 6% de los tweets que recopilamos desaparecieron y luego volvieron a estar disponibles. Esto podría deberse a que una cuenta se vuelve privada y luego vuelve al estado público, o a que la cuenta se suspende y luego se restablece. De esos tweets “reaparecidos”, la gran mayoría (90%) todavía eran accesibles en Twitter al final del período de seguimiento.

Atenea Chapekis, Samuel Bestvater, Emma Remy y Gonzalo Rivero / Pew Research

https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears