Opções para fazer dump de sites poderosamente via CLI com HTTrack
Olá, sou um incompetente.
Ao fazer dump de sites com HTTrack, como o próprio software é de por volta do ano 2000 e, por alguma razão, ainda possui algumas das restrições daquela época, deixo aqui os comandos que tendem a ser longos, escritos em um script shell.
Em particular, em artigos japoneses, há muitas informações sobre a versão GUI do Windows, mas pouca sobre operações CLI, então isto serve como registro.
#!/bin/bash
httrack\
'https://example.com'\
'+*/*.pdf'\
--sockets=59\
--robots=0\
--user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
-O '/media/your/outdir/'\
--can-go-up-and-down\
--keep-alive\
--mirror\
--depth=999999999\
-%P\
--retries=999999\
--ext-depth=0\
--timeout=9999\
-T1000000\
−−max−rate=0\
--disable-security-limits
Vou explicar as opções importantes.
max−rate=0
Se você definir o limite superior como −−max−rate=999999 ou similar, parece que o limite de velocidade padrão é aplicado e não é reconhecido corretamente, então defini-lo como 0 parece remover o limite de velocidade.
disable-security-limits
Parece ser usado em conjunto com a opção acima, mas como eu não sabia qual era essencial, incluí ambas.
Aliás, esta opção não está na documentação oficial, então pode ser uma opção para desenvolvedores.
ext-depth=0
Esta é a especificação de profundidade máxima, mas se for 0, parece que ele rastreia quase ilimitadamente.
Neste caso, parece que ao definir ext-depth=0 e, em seguida, adicionar –depth=999999999, ele consegue reconhecer e rastrear até 999999999 níveis, o que talvez não seja possível apenas com ext-depth=0.
Se não for definido como 0, um erro como o seguinte será exibido:
nohup.out:PANIC! : Too many URLs : >99999 [3031]
Isso provavelmente significa que esta opção causou um comportamento inesperado para um software que existe desde o ano 2000.
Assim, estas foram as três opções importantes.
Para as demais, por favor, consulte a documentação oficial.
https://www.httrack.com/html/fcguide.html
Até mais.
Conto com a sua colaboração novamente.