htmlファイルをCLIで見やすくするにはhtml2textが便利
2 min read
こんにちは、無能です。
一年ほど前から、元日本債券ディーラーのポストを以下で確認している
若き知
しかし、この方はhtml
ファイルを直接編集しているのか過去の記事などを確認することが出来ないので定期的に取得して読むのを間に合わなくなったものをあとから読みやすくしたいのだがhtml
をそのまま読むのはブラウザからだと別に良いけど管理もcat
したときに見づらい。
という訳でこんな堕落人間にも読みやすいMarkdown形式に変換してくれるものがあるかなと思ったらいけた。
html2textをインストール
sudo pacman -Sy artix-archlinux-support
sudo pacman -S html2text
curlをhtml2textに渡す
これで見やすくなる。
curl "https://soulminingrig.com/" | html2text
テキストベースのサイトだったらこれでアーカイブ化は割と良いかもしれないが、画像とかを間違いなくパス指定しないといけないしその処理は別でやる必要がある。
何よりもテキストベースで見れることのメリットはgrep
もしやすいし、MarkdownだとSSGにhtml化処理渡してローカルで自分で確認する用のサイトも立ち上げることも容易になる。
決してMarkdown
絶対主義者でもないんであるけど、Scrapbox
開発者ほどMarkdown
嫌いでも無いので
マークアップ言語 - 増井俊之
最近流行しているマークアップ言語のひとつにMarkdownというものがある。HTMLをより簡潔に記述するために開発されたもののようで、GitHubなどで標準になっているためエンジニアの間ではメジャーになっているのだが、はっきり言って面倒が多すぎる。生のHTMLを記述した方が楽なのではと思うことすらある。とっとと絶滅して欲しいのだが、生半可にMarkdownに慣れたエンジニアは「Markdownサイコー!」と誤解している人も多いようなのが困ったものである。Scrapboxのマークアップ記法は、WikiやHTMLやScribeやTeXやroffやmarkdownなどをすべて体験したうえで採用しているものなので、そのあたりをふまえて議論をしてもらえるとありがたいと思っている。(もっと良いサイコーな記法があるならば喜んで採用させていただきます)
自分は汎用性があって、記述にめんどくささがなければ書き方にも特にこだわりがないので一旦Markdown
に浸かっている。