Опции для мощного дампа сайта с помощью HTTrack в режиме CLI
Привет, это я, некомпетентный.
Когда я дампил сайт с помощью HTTrack, я заметил, что это программное обеспечение примерно 2000-х годов, и по какой-то причине у него есть ограничения того времени. Поэтому я сохранил команды, которые имеют тенденцию быть длинными, в виде скрипта оболочки и оставляю их здесь.
В частности, в японских статьях много информации о GUI-версии для Windows, но мало информации об операциях CLI, поэтому я записываю это для справки.
#!/bin/bash
httrack\
'https://example.com'\
'+*/*.pdf'\
--sockets=59\
--robots=0\
--user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
-O '/media/your/outdir/'\
--can-go-up-and-down\
--keep-alive\
--mirror\
--depth=999999999\
-%P\
--retries=999999\
--ext-depth=0\
--timeout=9999\
-T1000000\
−−max−rate=0\
--disable-security-limits
Позвольте мне объяснить важные опции.
max−rate=0
Если установить верхний предел, например, −−max−rate=999999, то, похоже, включается стандартное ограничение скорости, и оно не распознается правильно. Поэтому, если установить 0, можно снять ограничение скорости.
disable-security-limits
Похоже, что эту опцию следует использовать в сочетании с вышеупомянутой, но поскольку я не знал, какая из них обязательна, я включил обе.
Кстати, самой этой опции нет в официальной документации, так что это может быть опция для разработчиков.
ext-depth=0
Это максимальное указание глубины, но если установить 0, то, похоже, он будет сканировать практически без ограничений.
Кстати, в этом случае, если установить ext-depth=0, а затем добавить –depth=999999999, то, похоже, он сможет сканировать до 999999999 уровней. Возможно, только ext-depth=0 будет недостаточно.
Кстати, если не установить 0, будет выведена следующая ошибка:
nohup.out:PANIC! : Too many URLs : >99999 [3031]
Это, вероятно, означает, что эта опция вызвала неожиданное поведение для программного обеспечения, существующего с 2000 года.
Итак, это были три важные опции.
Что касается остального, пожалуйста, обратитесь к официальной документации.
https://www.httrack.com/html/fcguide.html
На этом все.
Буду рад снова видеть вас.