使用 html2text 方便地在 CLI 中查看 HTML 文件

2 min

language: ja bn en es hi pt ru zh-cn zh-tw

大家好,我是个无能的人。
大约一年前开始,我一直在查看一位前日本债券交易员的帖子,链接如下:
年轻的智慧
然而,这位作者似乎直接编辑html文件,导致我无法查看过去的帖子。我想把那些来不及定期获取阅读的帖子,之后能更方便地阅读。直接在浏览器中阅读html文件倒也无妨,但管理起来,或者用cat命令查看时,就显得很不方便。
于是我想,有没有什么工具能将它转换成Markdown格式,让像我这样懒惰的人也能轻松阅读呢?结果还真有。

安装 html2text

sudo pacman -Sy artix-archlinux-support
sudo pacman -S html2text

将 curl 传递给 html2text

这样一来,就变得易读了。

curl "https://soulminingrig.com/" | html2text 

如果是基于文本的网站,这种归档方式可能还不错,但图片等内容必须正确指定路径,这部分处理需要单独进行。

最重要的是,以文本形式查看的好处是grep起来也很方便,而且如果是Markdown格式,就可以很容易地将HTML化处理传递给SSG,并在本地搭建一个供自己查看的网站。
我绝不是一个Markdown的绝对主义者,但也没有像Scrapbox开发者那样讨厌Markdown
标记语言 - 增井俊之

最近流行的标记语言之一是Markdown。它似乎是为了更简洁地编写HTML而开发的,并且由于在GitHub等地成为标准,因此在工程师中很流行。然而,坦率地说,它太麻烦了。我甚至有时觉得直接编写原始HTML会更轻松。我希望它能尽快消亡,但问题是,许多对Markdown一知半解的工程师误以为“Markdown最棒!”,这令人头疼。Scrapbox的标记语法是在体验了Wiki、HTML、Scribe、TeX、roff和markdown等所有标记语言之后才采用的,因此如果能基于这些理解进行讨论,我将不胜感激。(如果有更好、更棒的语法,我们乐意采纳)

我个人对写作方式没有特别的执着,只要它具有通用性,并且编写起来不麻烦,所以我暂时沉浸在Markdown中。

Related Posts