HTTrack CLI का उपयोग करके साइटों को शक्तिशाली रूप से डंप करने के विकल्प
नमस्ते।
HTTrack के साथ साइटों को डंप करते समय, यह सॉफ़्टवेयर स्वयं 2000 के दशक के आसपास का है और इसमें उस समय की कुछ सीमाएँ हैं, इसलिए मैंने उन कमांडों को एक शेल स्क्रिप्ट में लिख दिया है जो अक्सर लंबे होते हैं, और मैं उन्हें यहाँ छोड़ रहा हूँ।
विशेष रूप से, जापानी लेखों में केवल विंडोज जीयूआई संस्करण के बारे में जानकारी होती है और सीएलआई संचालन के बारे में बहुत कम जानकारी होती है, इसलिए यह एक रिकॉर्ड के रूप में है।
#!/bin/bash
httrack\
'https://example.com'\
'+*/*.pdf'\
--sockets=59\
--robots=0\
--user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
-O '/media/your/outdir/'\
--can-go-up-and-down\
--keep-alive\
--mirror\
--depth=999999999\
-%P\
--retries=999999\
--ext-depth=0\
--timeout=9999\
-T1000000\
−−max−rate=0\
--disable-security-limits
मैं महत्वपूर्ण विकल्पों के बारे में बताऊंगा।
max−rate=0
यदि आप ऊपरी सीमा को −−max−rate=999999 या इसी तरह सेट करते हैं, तो ऐसा लगता है कि मानक गति सीमा लागू होती है और इसे सही ढंग से पहचाना नहीं जाता है, इसलिए इसे 0 पर सेट करने से गति सीमा हट जाती है।
disable-security-limits
ऐसा लगता है कि इसे उपरोक्त विकल्प के साथ उपयोग किया जाता है, लेकिन चूंकि मुझे नहीं पता था कि कौन सा आवश्यक है, इसलिए मैंने दोनों को शामिल किया।
वैसे, यह विकल्प आधिकारिक दस्तावेज़ों में नहीं है, इसलिए यह एक डेवलपर विकल्प हो सकता है।
ext-depth=0
यह अधिकतम गहराई का विनिर्देश है, लेकिन यदि यह 0 है, तो यह लगभग असीमित रूप से क्रॉल करता हुआ प्रतीत होता है।
इसके अलावा, इस समय, ext-depth=0 सेट करने के बाद और –depth=999999999 जोड़ने पर, यह 999999999 स्तरों तक क्रॉल करने में सक्षम प्रतीत होता है, और केवल ext-depth=0 के साथ यह संभव नहीं हो सकता है।
इसके अलावा, यदि इसे 0 पर सेट नहीं किया जाता है, तो निम्न प्रकार की त्रुटि आउटपुट होगी।
nohup.out:PANIC! : Too many URLs : >99999 [3031]
यह विकल्प, 2000 से मौजूद एक सॉफ़्टवेयर के रूप में, शायद एक अप्रत्याशित ऑपरेशन किया।
तो, ये तीन महत्वपूर्ण विकल्प थे।
अन्य के लिए, कृपया आधिकारिक दस्तावेज़ देखें।
https://www.httrack.com/html/fcguide.html
तो।
फिर मिलेंगे।