Cómo guardar un sitio web completo usando HTTRACK [Te ayudo a guardar]

Hola, soy un inútil.

Como paso previo, estoy escribiendo las razones por las que guardo [contenido], y para aquellos que no pueden realizar un rastreo web, lo haré en su lugar, así que agradecería que comentaran en este artículo. Dado que está sujeto a aprobación, si no desea dejar un comentario, puede enviarlo por correo electrónico después de especificarlo. ※Tenga en cuenta que puede no ser posible dependiendo de la escala o las regulaciones.

En una situación donde todo está desapareciendo, los servicios de archivo son convenientes, pero creo que sus preocupaciones son los siguientes dos puntos.

Preocupaciones sobre los servicios de archivo

-Pérdida debido al cierre del servicio por parte del operador
-Necesidad de conexión a internet

En cuanto al primer punto principalmente, recientemente, The-Eye.eu ha terminado su servicio de facto, y siento que hay una tendencia a regular el web scraping en sí mismo para evitar el aprendizaje automático debido a la proliferación de la IA.
Además, como nota al margen, siento que es muy probable que los operadores de The-Eye.eu estén involucrados con miembros de Eye 4 You, quienes construyeron sitios web artísticos durante los primeros días de Internet alrededor del año 2000.

Volviendo al tema, en cuanto al segundo punto, también siento la necesidad de almacenar datos en un entorno local en esta etapa, dado que Internet está avanzando hacia una situación en la que inevitablemente crea un espacio cada vez más cerrado. Lo que sentí particularmente, aunque no puedo publicarlo aquí, es que la reciente derrota de Wikipedia en un juicio y la obligación de realizar cambios, está haciendo que Internet pierda gradualmente su libertad.

Razones para guardar sitios web en la etapa actual

Probablemente, aunque ahora tengo veintitantos años, lo que se considera joven, pensemos en la edad que tienen ahora las personas que apoyaron los primeros días de Internet alrededor del año 2000.

Desde la década de 1980, cuando la historia de las PC comenzó a popularizarse principalmente, si alguien tenía 20 años en ese entonces, tendría casi 40 en el año 2000.
Y las personas que apoyaron las primeras PC e Internet ahora tienen casi 60 años. El mantenimiento de un sitio web, al igual que una casa, se mantiene cuando las personas viven, lo mantienen y lo usan.
Sin embargo, dado que esas personas también son humanas, es inevitable que se encuentren en una situación en la que no puedan realizar el mantenimiento.

Desafortunadamente, esa información, al ser digital, simplemente desaparecerá. Lo que hemos aprendido proviene del pasado, y siento que preservar información valiosa como entretenimiento o para conocer el pasado es también una forma de respeto hacia las personas de esa época.

En particular, dado que vivimos en lo que se conoce como una sociedad acelerada, y los servicios de streaming se han vuelto dominantes, siento una dilución de la información, lo que me llevó a guardar sitios web principalmente de estilo de texto.
En cuanto a los videos, dudo de su durabilidad y disponibilidad como datos, por lo que sentí que sería más eficiente guardar sitios que resumen información importante en texto.

Cómo usar HTTRACK

Bueno, esta vez es una introducción que asume el uso de GNU/Linux.

Dado que estoy usando Devuan en mi entorno, utilizaré apt para la gestión de paquetes.

apt install httrack

¿Ha terminado la instalación?

Entonces, todo lo que queda es escribir esto.

httrack "URL del sitio que quieres guardar" -O "Directorio de destino" "+*.gif" "+*.jpg" "+*.png"

-O : Especifica el directorio de destino

Lo anterior fue lo que pude guardar de manera más estable.

HTTrack es una herramienta útil con varios métodos de guardado, así que yo también tengo mucho que aprender de ahora en adelante.
Sitio web oficial de HTTrack

Hasta luego.
Nos vemos de nuevo.

Preocupaciones sobre los servicios de archivo

Razones para guardar sitios web en la etapa actual

Cómo usar HTTRACK

Related Posts