Опции для мощного дампа сайта с помощью HTTrack в режиме CLI

4 min

language: ja bn en es hi pt ru zh-cn zh-tw

Привет, это я, некомпетентный.

Когда я дампил сайт с помощью HTTrack, я заметил, что это программное обеспечение примерно 2000-х годов, и по какой-то причине у него есть ограничения того времени. Поэтому я сохранил команды, которые имеют тенденцию быть длинными, в виде скрипта оболочки и оставляю их здесь.
В частности, в японских статьях много информации о GUI-версии для Windows, но мало информации об операциях CLI, поэтому я записываю это для справки.

#!/bin/bash

httrack\
    'https://example.com'\
    '+*/*.pdf'\
    --sockets=59\
    --robots=0\
    --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
    -O '/media/your/outdir/'\
    --can-go-up-and-down\
    --keep-alive\
    --mirror\
    --depth=999999999\
    -%P\
    --retries=999999\
    --ext-depth=0\
    --timeout=9999\
    -T1000000\
    −−max−rate=0\
    --disable-security-limits

Позвольте мне объяснить важные опции.

max−rate=0

Если установить верхний предел, например, −−max−rate=999999, то, похоже, включается стандартное ограничение скорости, и оно не распознается правильно. Поэтому, если установить 0, можно снять ограничение скорости.

disable-security-limits

Похоже, что эту опцию следует использовать в сочетании с вышеупомянутой, но поскольку я не знал, какая из них обязательна, я включил обе.

Кстати, самой этой опции нет в официальной документации, так что это может быть опция для разработчиков.

ext-depth=0

Это максимальное указание глубины, но если установить 0, то, похоже, он будет сканировать практически без ограничений.

Кстати, в этом случае, если установить ext-depth=0, а затем добавить –depth=999999999, то, похоже, он сможет сканировать до 999999999 уровней. Возможно, только ext-depth=0 будет недостаточно.

Кстати, если не установить 0, будет выведена следующая ошибка:

nohup.out:PANIC! : Too many URLs : >99999 [3031]

Это, вероятно, означает, что эта опция вызвала неожиданное поведение для программного обеспечения, существующего с 2000 года.


Итак, это были три важные опции.

Что касается остального, пожалуйста, обратитесь к официальной документации.

https://www.httrack.com/html/fcguide.html

На этом все.

Буду рад снова видеть вас.

Related Posts