HTTrack CLI का उपयोग करके साइटों को शक्तिशाली रूप से डंप करने के विकल्प

3 min

language: ja bn en es hi pt ru zh-cn zh-tw

नमस्ते।

HTTrack के साथ साइटों को डंप करते समय, यह सॉफ़्टवेयर स्वयं 2000 के दशक के आसपास का है और इसमें उस समय की कुछ सीमाएँ हैं, इसलिए मैंने उन कमांडों को एक शेल स्क्रिप्ट में लिख दिया है जो अक्सर लंबे होते हैं, और मैं उन्हें यहाँ छोड़ रहा हूँ।
विशेष रूप से, जापानी लेखों में केवल विंडोज जीयूआई संस्करण के बारे में जानकारी होती है और सीएलआई संचालन के बारे में बहुत कम जानकारी होती है, इसलिए यह एक रिकॉर्ड के रूप में है।

#!/bin/bash

httrack\
    'https://example.com'\
    '+*/*.pdf'\
    --sockets=59\
    --robots=0\
    --user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
    -O '/media/your/outdir/'\
    --can-go-up-and-down\
    --keep-alive\
    --mirror\
    --depth=999999999\
    -%P\
    --retries=999999\
    --ext-depth=0\
    --timeout=9999\
    -T1000000\
    −−max−rate=0\
    --disable-security-limits

मैं महत्वपूर्ण विकल्पों के बारे में बताऊंगा।

max−rate=0

यदि आप ऊपरी सीमा को −−max−rate=999999 या इसी तरह सेट करते हैं, तो ऐसा लगता है कि मानक गति सीमा लागू होती है और इसे सही ढंग से पहचाना नहीं जाता है, इसलिए इसे 0 पर सेट करने से गति सीमा हट जाती है।

disable-security-limits

ऐसा लगता है कि इसे उपरोक्त विकल्प के साथ उपयोग किया जाता है, लेकिन चूंकि मुझे नहीं पता था कि कौन सा आवश्यक है, इसलिए मैंने दोनों को शामिल किया।

वैसे, यह विकल्प आधिकारिक दस्तावेज़ों में नहीं है, इसलिए यह एक डेवलपर विकल्प हो सकता है।

ext-depth=0

यह अधिकतम गहराई का विनिर्देश है, लेकिन यदि यह 0 है, तो यह लगभग असीमित रूप से क्रॉल करता हुआ प्रतीत होता है।

इसके अलावा, इस समय, ext-depth=0 सेट करने के बाद और –depth=999999999 जोड़ने पर, यह 999999999 स्तरों तक क्रॉल करने में सक्षम प्रतीत होता है, और केवल ext-depth=0 के साथ यह संभव नहीं हो सकता है।

इसके अलावा, यदि इसे 0 पर सेट नहीं किया जाता है, तो निम्न प्रकार की त्रुटि आउटपुट होगी।

nohup.out:PANIC! : Too many URLs : >99999 [3031]

यह विकल्प, 2000 से मौजूद एक सॉफ़्टवेयर के रूप में, शायद एक अप्रत्याशित ऑपरेशन किया।


तो, ये तीन महत्वपूर्ण विकल्प थे।

अन्य के लिए, कृपया आधिकारिक दस्तावेज़ देखें।

https://www.httrack.com/html/fcguide.html

तो।

फिर मिलेंगे।

Related Posts