htmlファイルをCLIで見やすくするにはhtml2textが便利

2 min read

こんにちは、無能です。
一年ほど前から、元日本債券ディーラーのポストを以下で確認している
若き知
しかし、この方はhtmlファイルを直接編集しているのか過去の記事などを確認することが出来ないので定期的に取得して読むのを間に合わなくなったものをあとから読みやすくしたいのだがhtmlをそのまま読むのはブラウザからだと別に良いけど管理もcatしたときに見づらい。
という訳でこんな堕落人間にも読みやすいMarkdown形式に変換してくれるものがあるかなと思ったらいけた。

html2textをインストール

sudo pacman -Sy artix-archlinux-support
sudo pacman -S html2text

curlをhtml2textに渡す

これで見やすくなる。

curl "https://soulminingrig.com/" | html2text 

テキストベースのサイトだったらこれでアーカイブ化は割と良いかもしれないが、画像とかを間違いなくパス指定しないといけないしその処理は別でやる必要がある。

何よりもテキストベースで見れることのメリットはgrepもしやすいし、MarkdownだとSSGにhtml化処理渡してローカルで自分で確認する用のサイトも立ち上げることも容易になる。
決してMarkdown絶対主義者でもないんであるけど、Scrapbox開発者ほどMarkdown嫌いでも無いので
マークアップ言語 - 増井俊之

最近流行しているマークアップ言語のひとつにMarkdownというものがある。HTMLをより簡潔に記述するために開発されたもののようで、GitHubなどで標準になっているためエンジニアの間ではメジャーになっているのだが、はっきり言って面倒が多すぎる。生のHTMLを記述した方が楽なのではと思うことすらある。とっとと絶滅して欲しいのだが、生半可にMarkdownに慣れたエンジニアは「Markdownサイコー!」と誤解している人も多いようなのが困ったものである。Scrapboxのマークアップ記法は、WikiやHTMLやScribeやTeXやroffやmarkdownなどをすべて体験したうえで採用しているものなので、そのあたりをふまえて議論をしてもらえるとありがたいと思っている。(もっと良いサイコーな記法があるならば喜んで採用させていただきます)

自分は汎用性があって、記述にめんどくささがなければ書き方にも特にこだわりがないので一旦Markdownに浸かっている。

PGP --- Contact --- Machines