HTTrack CLI時強力地傾印網站的選項

2 min

language: ja bn en es hi pt ru zh-cn zh-tw

您好,我是無能。

當使用 HTTrack 傾印網站時,由於這個軟體本身是2000年前後的軟體,因此不知為何會有一些那個時代的限制。對於那些容易變長的指令,我已經寫在 shell script 中,所以在此記錄下來。
特別是,在日本的文章中,大多是關於 Windows GUI 版本的文章,關於 CLI 操作的資訊不多,因此作為一個記錄。

#!/bin/bash

httrack\
    'https://example.com'\
    '+*/*.pdf'\
    --sockets=59\
    --robots=0\
    --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
    -O '/media/your/outdir/'\
    --can-go-up-and-down\
    --keep-alive\
    --mirror\
    --depth=999999999\
    -%P\
    --retries=999999\
    --ext-depth=0\
    --timeout=9999\
    -T1000000\
    −−max−rate=0\
    --disable-security-limits

我將解釋重要的選項。

max−rate=0

如果將上限值設定為 `−−max−rate=999999` 等,似乎會啟用標準的速度限制且無法正確識別,因此設定為 `0` 似乎可以解除速度限制。

disable-security-limits

這似乎是與上述選項一起使用的,但我不知道哪個是必需的,所以我兩者都包含了。

此外,這個選項本身並不在官方文件中,所以它可能是一個開發者選項。

ext-depth=0

這是最大層級的指定,但如果設定為 `0`,似乎會幾乎無限地抓取。

此外,此時在設定 `ext-depth=0` 的基礎上,再加入 `–depth=999999999`,似乎就能識別抓取到 999999999 層,單獨使用 `ext-depth=0` 可能無法實現。

此外,如果沒有設定為 `0`,將會輸出以下錯誤:

nohup.out:PANIC! : Too many URLs : >99999 [3031]

這表示這個選項對於一個自2000年以來就存在的軟體來說,執行了意料之外的操作。


總之,以上就是三個重要的選項。

至於其他部分,請參考官方文件。

https://www.httrack.com/html/fcguide.html

那麼。

下次再見。

Related Posts