ধারাবাহিক টেক্সট থেকে ইউটিউব ইউআরএল বের করার জন্য রেজেক্স গ্রেপ নোট, এবং তারপর yt-dlp ব্যবহার করা

শুভ সন্ধ্যা, আমি অযোগ্য।

মাস্টোডনের পোস্ট ডাম্প করলে এরকম দেখায়।

/\u003e\u003ca href=\"https://youtube.com/watch?v=jL4NZ913v8E\u0026amp;feature=share\" target=\"_blank\" rel=\"nofollow noopener noreferrer\"\u003e\u003cspan class=\"invisible\"\u003ehttps://\u003c/span\u003e\u003cspan class=\"ellipsis\"

এবং এই ধারাবাহিক স্ট্রিং থেকে আমি শুধু ইউটিউব ইউআরএল বের করতে চাই।

grep -oP ‘youtube.com\/watch\?v=…………’ outbox.json > mstv.txt

grep -oP ‘youtube.com\/shorts\/…………’ outbox.json > mstv2.txt

আপাতত, www আছে কি নেই তা দিয়ে পার্থক্য করা ঝামেলাপূর্ণ, তাই আমি শুধু youtube.com এর পরের অংশটুকু ম্যাচ করাবো এবং পরে প্রতিস্থাপন করব।

youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=RIqxyO3S8p\
youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=RIqxyO3S8p\
youtube.com/watch?v=W7G-QtbTWgs
youtube.com/watch?v=W7G-QtbTWg\
youtube.com/watch?v=W7G-QtbTWgs
youtube.com/watch?v=W7G-QtbTWg\

আমি এখনো বিস্তারিত দেখিনি, কিন্তু কোনো কারণে কিছু এন্ট্রিতে একটি অক্ষর কাটা পড়েছে এবং একটি ব্যাকস্ল্যাশ \ ঢুকে গেছে, তাই আমি sed -i দিয়ে এটি মুছে ফেলব।

sed -i ‘s/\\//g’ mstv.txt

youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=RIqxyO3S8p
youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=RIqxyO3S8p
youtube.com/watch?v=W7G-QtbTWgs
youtube.com/watch?v=W7G-QtbTWg
youtube.com/watch?v=W7G-QtbTWgs
youtube.com/watch?v=W7G-QtbTWg

যেহেতু এটি এরকম দেখায়, আমি সঠিক ইউআরএল স্ট্রিং এর অক্ষর সংখ্যা গণনা করার চেষ্টা করব।

echo “youtube.com/watch?v=g5HQFrSk4OA” | wc -c
32

এটি ৩২ অক্ষরের বলে মনে হচ্ছে।

সুতরাং, আমি শুধু ৩২ অক্ষরের গুলো বের করব।

grep -oP ‘^.{32}$’ mstv.txt > mstvtmp.txt

এটি যেন সফল হয়েছে এমনভাবে লেখা আছে, কিন্তু যখন আমি আবার যাচাই করলাম, তখন কাজ করেনি। ৩২ কে ৩১ করলে কাজ করেছে। আরে, কেন? কেউ কি আমাকে বলতে পারবেন?

grep -oP ‘^.{31}$’ mstv.txt > mstvtmp.txt

youtube.com/watch?v=g5HQFrSk4OA
youtube.com/watch?v=g5HQFrSk4OA
youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=RIqxyO3S8pc

যেহেতু এটি এভাবে পুনরাবৃত্তি হয়...

আমি uniq দিয়ে পুনরাবৃত্ত লাইনগুলো মুছে ফেলব।

uniq mstvtmp.txt > newmstv.txt

নিশ্চিত করার জন্য, আমি পুনরাবৃত্তিহীন গুলো খুঁজে বের করে যোগ করব।

uniq -u mstvtmp.txt >> newmstv.txt

youtube.com/watch?v=jL4NZ913v8E
youtube.com/watch?v=g5HQFrSk4OA
youtube.com/watch?v=RIqxyO3S8pc
youtube.com/watch?v=W7G-QtbTWgs
youtube.com/watch?v=DRVp_cmW3Nw

ঠিক আছে।

সুতরাং, আমি yt-dlp দিয়ে ডাউনলোড করার চেষ্টা করব।
এবার আমি mp4 ফরম্যাটে সেভ করব।

sed -i ‘s|youtube|yt-dlp -o “/media/ncp/yt/n/%(title)s” -f “bv[ext=mp4]+ba[ext=m4a]” --merge-output-format mp4 https://www.youtube|g’ newmstv.txt

উপরের ধাপে, আমি www সহ ইউআরএল দিয়ে প্রতিস্থাপন করেছি।
কেউ হয়তো বলতে পারেন, "সার্চ স্ট্রিং এর শুরুতে ^ ব্যবহার করলেই তো হয়!", কিন্তু ব্যক্তিগতভাবে আমি মাঝখান থেকে স্ট্রিং প্রতিস্থাপন করা পছন্দ করি কারণ এতে পুনরাবৃত্তিযোগ্যতা বেশি বলে মনে হয়।

এছাড়াও, যেহেতু / আছে, তাই sed এ বিভাজক হিসেবে | ব্যবহার করছি। | না হলেও চলে।

এবং তারপর, এটিকে .sh ফরম্যাটে নামকরণ করা যাক।

mv newmstv.txt ytdl.sh

vi ytdl.sh

এবং #!/bin/bash যোগ করুন।

এটিকে এক্সিকিউশন পারমিশন দেওয়া যাক।

chmod +x ./ytdl.sh

(এখানে, আমি হঠাৎ ভাবলাম "আমাকে ./ দিয়ে করতে হবে!" এবং এখন তা করছি। এটি ছাড়ালেও কোনো পরিবর্তন হয় না, কিন্তু এটি না লাগালে একজন পুরুষ হিসেবে অযোগ্য।)

এরপর, এটি এক্সিকিউট করলেই ঠিক আছে।

উল্লেখ্য, প্রথম grep ধাপেই ইউআরএল স্ট্রিংটি সুন্দরভাবে বের করার একটি পদ্ধতি অবশ্যই আছে। আমি এখনো খুব আনাড়ি, তাই আমাকে ক্ষমা করবেন। কেন এমন হচ্ছে তা আমি এখনো তদন্ত করিনি, তাই আমি মনে করি আমি উল্টো আরও জটিল কাজ করছি, তবে এটি বিভিন্ন কমান্ড টাইপ করে মজা করার একটি পর্ব।

শেষ।