HTTrack CLI ব্যবহার করে শক্তিশালীভাবে একটি সাইট ডাম্প করার বিকল্পগুলি
নমস্কার, আমি মুনো।
HTTrack ব্যবহার করে একটি সাইট ডাম্প করার সময়, যেহেতু এই সফ্টওয়্যারটি ২০০০ সালের কাছাকাছি সময়ের এবং সেই সময়ের কিছু সীমাবদ্ধতা রয়েছে, তাই আমি এখানে একটি শেল স্ক্রিপ্টে দীর্ঘ কমান্ডগুলি লিখে রাখছি।
বিশেষ করে, জাপানি নিবন্ধগুলিতে উইন্ডোজের GUI সংস্করণ সম্পর্কেই বেশি লেখা থাকে এবং CLI অপারেশন সম্পর্কে তেমন তথ্য পাওয়া যায় না, তাই এটি একটি রেকর্ড হিসেবে রাখছি।
#!/bin/bash
httrack\
'https://example.com'\
'+*/*.pdf'\
--sockets=59\
--robots=0\
--user-agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'\
-O '/media/your/outdir/'\
--can-go-up-and-down\
--keep-alive\
--mirror\
--depth=999999999\
-%P\
--retries=999999\
--ext-depth=0\
--timeout=9999\
-T1000000\
−−max−rate=0\
--disable-security-limits
আমি গুরুত্বপূর্ণ বিকল্পগুলি ব্যাখ্যা করব।
max−rate=0
যদি আপনি উপরের সীমাটি −−max−rate=999999 ইত্যাদিতে সেট করেন, তবে মনে হয় স্ট্যান্ডার্ড গতি সীমা প্রয়োগ করা হয় এবং এটি সঠিকভাবে স্বীকৃত হয় না, তাই এটিকে 0 এ সেট করলে গতি সীমার সীমাবদ্ধতা সরানো যায়।
disable-security-limits
এটি উপরের বিকল্পের সাথে একত্রে ব্যবহার করা হয় বলে মনে হয়, তবে কোনটি অপরিহার্য তা আমি জানতাম না, তাই আমি উভয়ই অন্তর্ভুক্ত করেছি।
উল্লেখ্য, এই বিকল্পটি অফিসিয়াল ডকুমেন্টেশনে নেই, তাই এটি সম্ভবত একটি ডেভেলপার বিকল্প।
ext-depth=0
এটি সর্বোচ্চ গভীরতা নির্দিষ্ট করে, তবে 0 হলে এটি প্রায় সীমাহীনভাবে ক্রল করে বলে মনে হয়।
উল্লেখ্য, এই সময়ে ext-depth=0 সেট করার পর এবং –depth=999999999 অন্তর্ভুক্ত করার পর, এটি 999999999 স্তর পর্যন্ত ক্রল করতে সক্ষম বলে মনে হয়, এবং শুধুমাত্র ext-depth=0 দিয়ে এটি সম্ভব নাও হতে পারে।
যদি এটি 0 এ সেট না করা হয়, তবে নিম্নলিখিতভাবে একটি ত্রুটি প্রদর্শিত হবে।
nohup.out:PANIC! : Too many URLs : >99999 [3031]
এই বিকল্পটি সম্ভবত ২০০০ সাল থেকে বিদ্যমান একটি সফ্টওয়্যারের জন্য অপ্রত্যাশিত আচরণ সৃষ্টি করেছে।
সুতরাং, এইগুলি ছিল তিনটি গুরুত্বপূর্ণ বিকল্প।
অন্যান্যগুলির জন্য, অনুগ্রহ করে অফিসিয়াল ডকুমেন্টেশন দেখুন।
https://www.httrack.com/html/fcguide.html
তাহলে।
আবার দেখা হবে।