Opções para fazer dump de sites poderosamente via CLI com HTTrack

3 min

language: ja bn en es hi pt ru zh-cn zh-tw

Olá, sou um incompetente.

Ao fazer dump de sites com HTTrack, como o próprio software é de por volta do ano 2000 e, por alguma razão, ainda possui algumas das restrições daquela época, deixo aqui os comandos que tendem a ser longos, escritos em um script shell.
Em particular, em artigos japoneses, há muitas informações sobre a versão GUI do Windows, mas pouca sobre operações CLI, então isto serve como registro.

#!/bin/bash

httrack\
    'https://example.com'\
    '+*/*.pdf'\
    --sockets=59\
    --robots=0\
    --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
    -O '/media/your/outdir/'\
    --can-go-up-and-down\
    --keep-alive\
    --mirror\
    --depth=999999999\
    -%P\
    --retries=999999\
    --ext-depth=0\
    --timeout=9999\
    -T1000000\
    −−max−rate=0\
    --disable-security-limits

Vou explicar as opções importantes.

max−rate=0

Se você definir o limite superior como −−max−rate=999999 ou similar, parece que o limite de velocidade padrão é aplicado e não é reconhecido corretamente, então defini-lo como 0 parece remover o limite de velocidade.

disable-security-limits

Parece ser usado em conjunto com a opção acima, mas como eu não sabia qual era essencial, incluí ambas.

Aliás, esta opção não está na documentação oficial, então pode ser uma opção para desenvolvedores.

ext-depth=0

Esta é a especificação de profundidade máxima, mas se for 0, parece que ele rastreia quase ilimitadamente.

Neste caso, parece que ao definir ext-depth=0 e, em seguida, adicionar –depth=999999999, ele consegue reconhecer e rastrear até 999999999 níveis, o que talvez não seja possível apenas com ext-depth=0.

Se não for definido como 0, um erro como o seguinte será exibido:

nohup.out:PANIC! : Too many URLs : >99999 [3031]

Isso provavelmente significa que esta opção causou um comportamento inesperado para um software que existe desde o ano 2000.


Assim, estas foram as três opções importantes.

Para as demais, por favor, consulte a documentação oficial.

https://www.httrack.com/html/fcguide.html

Até mais.

Conto com a sua colaboração novamente.

Related Posts