Opciones para volcar sitios web de forma potente con HTTrack en la línea de comandos

4 min

language: ja bn en es hi pt ru zh-cn zh-tw

Hola, soy un inútil.

Cuando se trata de volcar sitios web con HTTrack, dado que el software en sí es de alrededor del año 2000 y por alguna razón tiene restricciones de esa época, he escrito los comandos que tienden a ser largos en un script de shell y los dejaré aquí.
Especialmente, en los artículos japoneses, solo hay artículos sobre la versión GUI de Windows y no hay mucha información sobre las operaciones de CLI, así que esto es para el registro.

#!/bin/bash

httrack\
    'https://example.com'\
    '+*/*.pdf'\
    --sockets=59\
    --robots=0\
    --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
    -O '/media/your/outdir/'\
    --can-go-up-and-down\
    --keep-alive\
    --mirror\
    --depth=999999999\
    -%P\
    --retries=999999\
    --ext-depth=0\
    --timeout=9999\
    -T1000000\
    −−max−rate=0\
    --disable-security-limits

Explicaré las opciones importantes.

max−rate=0

Si se establece el límite superior en −−max−rate=999999 o similar, parece que se aplica la limitación de velocidad estándar y no se reconoce correctamente, por lo que al establecerlo en 0, parece que se puede eliminar el límite de velocidad.

disable-security-limits

Parece que se usa en combinación con la opción anterior, pero como no sabía cuál era obligatoria, incluí ambas.

Por cierto, esta opción en sí no está en la documentación oficial, así que quizás sea una opción para desarrolladores.

ext-depth=0

Esta es la especificación de profundidad máxima, pero si es 0, parece que rastrea casi ilimitadamente.

Además, en este caso, después de establecer ext-depth=0 e incluir –depth=999999999, parece que se reconoce el rastreo hasta 999999999 niveles de profundidad, y podría no funcionar solo con ext-depth=0.

Por cierto, si no se establece en 0, se mostrará un error como el siguiente:

nohup.out:PANIC! : Too many URLs : >99999 [3031]

Esto probablemente significa que esta opción realizó una operación inesperada para un software que existe desde el año 2000.


Así que esas fueron las tres opciones importantes.

Para las demás, consulte la documentación oficial.

https://www.httrack.com/html/fcguide.html

Hasta luego.

Espero que nos volvamos a encontrar.

Related Posts