Como salvar um site inteiro usando HTTRACK [Ofereço ajuda para salvar]

Olá, sou um inútil.

Como etapa preliminar, estou escrevendo sobre o motivo pelo qual faço salvamentos, mas para aqueles que não conseguem fazer web crawling, farei isso em seu nome, então ficaria grato se pudessem comentar neste artigo. Como é baseado em aprovação, se você não quiser deixar um comentário, pode enviá-lo por e-mail após especificá-lo. *Pode não ser possível dependendo da escala ou regulamentações.

Em uma situação em que tudo está desaparecendo, os serviços de arquivamento são convenientes, mas acredito que as preocupações são as duas seguintes:

Preocupações com os serviços de arquivamento

-Perda devido ao encerramento do serviço pelo operador
-Necessidade de conexão à internet

Em relação ao primeiro ponto, recentemente, The-Eye.eu encerrou efetivamente seu serviço, e sinto que há uma tendência de regulamentar o web scraping em si para impedir o aprendizado automático devido à proliferação da IA.
Além disso, como um aparte, sinto que é altamente provável que os operadores de The-Eye.eu estejam envolvidos com membros do Eye 4 You, que construíram sites artísticos na aurora da internet por volta do ano 2000.

Voltando ao assunto, em relação ao segundo ponto, também sinto a necessidade de armazenar dados em um ambiente local neste estágio, considerando que a internet está gradualmente avançando para uma situação em que é inevitável criar um espaço mais fechado. O que eu particularmente senti, embora não possa ser divulgado aqui, é que a recente derrota da Wikipédia em um processo e a consequente imposição de alterações também estão gradualmente levando à perda da liberdade da internet.

Razões para salvar sites neste estágio

Provavelmente, embora eu esteja na casa dos 20 anos, o que pode ser considerado jovem agora, vamos considerar a idade daqueles que apoiaram a aurora da internet por volta do ano 2000.

Desde a década de 1980, quando a história dos PCs começou a se popularizar, se alguém tivesse 20 anos naquela época, estaria perto dos 40 em 2000.
E as pessoas que apoiaram os primeiros PCs e a internet estão agora perto dos 60 anos. A manutenção de um site, assim como uma casa, é protegida por pessoas que vivem, mantêm e o utilizam.
No entanto, como essas pessoas também são humanas, é inevitável que cheguem a uma situação em que não possam mais fazer a manutenção.

Infelizmente, como a informação é digital, ela simplesmente desaparece. O que aprendemos vem do passado, e sinto que preservar informações valiosas como entretenimento ou para conhecer o passado é também um sinal de respeito por aqueles que viveram naquela época.

Em particular, como vivemos na chamada sociedade acelerada, os serviços de streaming se tornaram predominantes, e sinto uma diluição das informações, o que me levou a salvar sites com foco em texto.
Quanto aos vídeos, questiono sua durabilidade e disponibilidade como dados, então senti que seria mais eficiente salvar sites que compilam informações importantes em texto.

Como usar o HTTRACK

Bem, desta vez, a introdução pressupõe o uso de GNU/Linux.

No meu ambiente, estou usando Devuan, então usarei apt para gerenciamento de pacotes.

apt install httrack

A instalação foi concluída?

Então, tudo o que resta é digitar isso.

httrack "URL do site que você deseja salvar" -O "diretório de destino" "+*.gif" "+*.jpg" "+*.png"

-O : Especifica o diretório de destino

O método de salvamento mais estável foi o acima.

O HTTrack é uma ferramenta útil com vários outros métodos de salvamento, então ainda tenho muito a aprender.
Site oficial do HTTrack

Então.
Até a próxima.

Preocupações com os serviços de arquivamento

Razões para salvar sites neste estágio

Como usar o HTTRACK

Related Posts