HTTRACKを使ってサイトを丸ごと保存する方法【保存のお手伝いします】
3 min read
こんにちは、無能です。
前段階として私が保存をする理由を書いていますが、ウェブクロールを出来ない方向けに私が代理で行いますので当記事にコメントして頂ければ幸いです。承認制の為、コメントを残したくない方は明記後メールにてお送り可能です。※規模や規制によって出来ない場合もございます。
全てが消えゆく状況下において、アーカイブサービスは便利でありますがその懸念点は以下二点かと思います。
アーカイブサービスの懸念点
-運営元がサービスを終了した場合による損失
-ネット接続の必要性
主に1点目に関しては、直近で言うとThe-Eye.euが実質的なサービスを終了したりと他にこのAI普及によって自動学習を阻止するためにウェブスクレイピング自体を規制する流れへ向かっているように感じます。
また、余談ですが恐らくこのThe-Eye.euの運営元は2000年前後のインターネット黎明期に芸術的なサイトを構築していたEye 4 Youのメンバーが関わっている可能性は高いと感じます。
話しに戻りますが、2点目に関してはインターネットが徐々に閉鎖的空間を生みざる負えない状況下へ歩みを進めていることに関しても今の段階でローカル環境化でデータを保管する必要性も感じます。特に感じたのはここでは掲示できませんが直近のWikipediaが敗訴し改変を強制されることになったのも、徐々にこのインターネットの自由さを失いつつあります。
現段階でウェブサイトを保存する理由
恐らく、今私は若いと言える20歳前半という年齢ではありますが過去のインターネット黎明期を支えた2000年前後の方は今いくつか考えてみましょう。
PCという歴史が主に普及し始めた1980年代から、その当時の方が20歳だとして2000年には40歳近く。
そして初期のPCやインターネットを支えた方々が今や60歳近い年齢となっています。ウェブサイトの保守というのは住宅と同じく人間が生きてメンテナンスや使ってあげることによって守られます。
ただし、その方々も人間ですからメンテナンスが出来なくなる状況下に置かれるということはそれは仕方がないことです。
その情報は残念ながら媒体がデジタル的な物なのでただ消えゆくものになってしまいます。私達が学んできたことは過去のことから学びを得ている訳で、貴重な時報は娯楽や昔のことを知ることとして残すことは当時の方々への敬意でもあると感じます。
特に、最近は俗に言う加速度社会でありますからストリーミングサービスが主流となって情報の希釈化を感じるためテキストスタイルメインのウェブサイトの保存に至りました。
動画に至ってはそのデータをしての持続性とその可用性に疑問を感じるため大事な情報であればテキストでまとめているサイト等を保存したほうが効率的だと感じました。
HTTRACKの使い方
さて、今回はGNU/Linuxの使用を前提とした紹介です。
当方環境ではDevuanを使用している為、パッケージ管理はaptを使います。
apt install httrack
インストールが終わりましたか?
それではあとはこれを打つだけ。
httrack "保存したいサイトのURL" -O "保存先ディレクトリ" "+*.gif" "+*.jpg" "+*.png"
-O : 保存先ディレクトリを指定
一番安定して保存できたのは上記でした。
他にも保存方法はいくつかある便利なHTTrackなので、私もこれからまだまだ学ばなければいけません。
HTTrack公式サイト
それでは。
またよろしくお願いします。