HTTrack CLI時強力地傾印網站的選項
您好,我是無能。
當使用 HTTrack 傾印網站時,由於這個軟體本身是2000年前後的軟體,因此不知為何會有一些那個時代的限制。對於那些容易變長的指令,我已經寫在 shell script 中,所以在此記錄下來。
特別是,在日本的文章中,大多是關於 Windows GUI 版本的文章,關於 CLI 操作的資訊不多,因此作為一個記錄。
#!/bin/bash
httrack\
'https://example.com'\
'+*/*.pdf'\
--sockets=59\
--robots=0\
--user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
-O '/media/your/outdir/'\
--can-go-up-and-down\
--keep-alive\
--mirror\
--depth=999999999\
-%P\
--retries=999999\
--ext-depth=0\
--timeout=9999\
-T1000000\
−−max−rate=0\
--disable-security-limits
我將解釋重要的選項。
max−rate=0
如果將上限值設定為 `−−max−rate=999999` 等,似乎會啟用標準的速度限制且無法正確識別,因此設定為 `0` 似乎可以解除速度限制。
disable-security-limits
這似乎是與上述選項一起使用的,但我不知道哪個是必需的,所以我兩者都包含了。
此外,這個選項本身並不在官方文件中,所以它可能是一個開發者選項。
ext-depth=0
這是最大層級的指定,但如果設定為 `0`,似乎會幾乎無限地抓取。
此外,此時在設定 `ext-depth=0` 的基礎上,再加入 `–depth=999999999`,似乎就能識別抓取到 999999999 層,單獨使用 `ext-depth=0` 可能無法實現。
此外,如果沒有設定為 `0`,將會輸出以下錯誤:
nohup.out:PANIC! : Too many URLs : >99999 [3031]
這表示這個選項對於一個自2000年以來就存在的軟體來說,執行了意料之外的操作。
總之,以上就是三個重要的選項。
至於其他部分,請參考官方文件。
https://www.httrack.com/html/fcguide.html
那麼。
下次再見。