查看原文
其他

奶式网页保存法,干净又卫生啊,兄弟们!

奔跑中的奶酪 奔跑中的奶酪 2022-07-12

1、阅读本文预计需要 6 分钟,并提供了资源下载。

2、本文是网上冲浪指南专题i18篇的首次发布

3、第一时间获取更新,欢迎关注「奔跑中的奶酪」。



导读


关于信息收集,可以讲的内容很多。

此前奶酪分享过关于链接的《i06-书签管理》,关于图片的《i13-图片下载》,关于视频的《i14-视频下载》。

今天我们来讲讲“网页保存”,预计能帮你解决 99% 的网页保存问题。

至于效果嘛,当然是“干净又好看啊,兄弟们”。



01


网页保存的历史


事实上,浏览器在很早的时候就有“网页保存”功能。



1、自带保存方法


而且,保存方式还不少,当你按下快捷键 Ctrl+S,在弹出的对话框里,会有不同的选择,包括:


• 网页,全部
• 网页,仅 HTML
• 网页,单个文件
• 网页,纯文本


对于文件管理来说,“网页,单个文件”无疑是更好的选择。


这个文件会以 .mhtml.mht 为后缀名(.mht 是 .mhtml 的缩写)。


而网页上的图片、样式、脚本等内容,则会以 base64 编码的形式保存在这个文件里。




2、更好的保存方法


1999 年,IE 5 是第一个支持将网页保存为 .mhtml 格式的浏览器。


此后,ChromeChromium 浏览器也都支持将网页保存为 .mhtml 格式,而 Firefox、Safari 浏览器则不支持。


因为 Firefox 主推的是 .maff 格式,而 Safari 则主推 .webarchive 格式。


所以,.mhtml 文件格式算不上是一种通用格式。



就算你只用 Chrome 浏览器,在保存网页时,.mhtml 文件也可能会出现“保存出错”的情况。


因为 .mhtml 文件做为 HTML 4 时代的产物,已经与当前主流的 HTML 5 脱节。


而现行的 HTML 5 版的 .html 文件格式,已经能实现 .mhtml 的全部功能。


所以,使用 .html 格式来保存网页是更好的选择。





02


HTML 格式保存


不过,想要“将网页完整地保存到一个 .html 文件”,目前需要借用拓展来实现。



1、拓展 SingleFile


而目前最好用的拓展,当属 SingleFile


SingleFile 主打“简单快速”,它可以一键将当前网页离线保存为 .html 格式。



但要注意的是,一些网页会设置“图片延迟加载”。


虽然左下角会显示“延迟加载的图像”,但一些网页还是可能无法正常保存,比如“微信公众号”的文章就是如此。


所以,为了确保正常保存,最好还是“手动滚动网页到底”。



2、保存前编辑


SingleFile 的另一个优点,就是可以“保存前编辑”。


我们借此可以去掉网页里不想要的内容,比如顶部的导航栏、右边的侧边栏、还有烦人的广告。


比如下面的效果:



净化网页内容的另一种方法,是使用“阅读模式”拓展。


但我并不推荐,它是能起到只保留主体内容的效果,但通常也会打乱原有的排版,给阅读增加难度。


还是使用 SingleFile 的“保存前编辑”功能更靠谱。




3、允许访问文件网址


将网页保存为本地 html 文件后,原来的拓展和脚本功能会失效。


但其实只是默认没开启罢了。


打开拓展的“设置页面”,勾选“允许访问文件地址”即可,这样一来,本地 html 文件和普通网页就没什么区别了。



至于 Firefox 的话,Firefox 默认就支持,无需额外操作。





03


PDF 格式保存


html 文件在“电脑端”使用是没问题的,但如果在“移动端”就不一定了。

比如它在 QQ、微信、邮件等应用上是无法直接打开的,所以有时候我们需要将网页保存为 PDF 格式。


1、自带方案


浏览器自带就有将网页另存为 PDF 的功能,它通过虚拟打印机(快捷键 Ctrl+P)来实现。

但绝大多数情况下,效果都不让人满意。

我们可以借助拓展 SingleFile 的编辑功能,对影响打印效果的内容进行编辑后,再另存为 PDF



2、PDF Mage 方案


但无论如何,通过打印来保存 PDF 的方式,都会强制分页

这导致网页的排版效果会丢失,阅读体验不如原网页,有没有办法将 PDF 输出为 1 个页面呢?

PDF Mage,是我目前能找到效果最好的一款拓展。


但拓展 PDF Mage 也并不是完美无缺点。

通过 PDF Mage 保存的 PDF 文件,有时也会出现字体变换、颜色变换、细节丢失等情况。

不过,就拓展来说,PDF Mage 已经是这方面的“天花板”了。



3、Opera 方案


能真正意义上,能将网页  1:1 另存为 PDF 的。

当属 Windows 下的 Opera 浏览器,还有 macOS 下 的 Safari 浏览器。


Opera
浏览器自带就有“另存为 PDF”的功能。

效果可以说一模一样,而且保存速度极快,即使网页内容再多,文件再大,也都能正常保存。


如果你的主力浏览器不是 Opera,别担心,我有办法。

我在文章《i37-浏览器协作》有讲到“如何一键调用 Opera”,可以在调用打开 Opera 的同时,也打开当前页面。

我们可以把 Opera 当作是一个“工具人”来使用。


回复关键字 i37,可查看具体方法,以及获取 Opera 便携版。




04


Markdown 格式保存


如果网页有多个分页时,一般的方法是需要保存为多个文件。


这时候最好的方法,还是通过文档软件来手动编辑,但别误会,我说的不是 Word,而是 Typora



1、Typora 编辑器


Typora 是目前最受欢迎的 Markdown 编辑器。


Markdown 格式,可以简单地理解为 html 格式的精简版,它可以让用户关注内容本身,但本质上还是 html


也就是说,Markdown 和 html 可以相互转换。(大部分情况下)



从网页上复制的内容,可以无损地粘贴在 Typora 上,而 Typora 也可以将内容导出为 html 文件。


至于效果嘛,当然是“干净又好看”,就连文章大纲也都能显示。




2、Markdown 离线保存


不过要注意的是,此时的 Markdown 文件并没有离线保存。


Markdown 文档里的图片依旧是链接,我们可以将文档导出的 html 格式,然后利用 SingleFile 来实现离线保存。


至于要保存为 PDF 格式。


拓展 SingleFileOpera 浏览器也都是支持将本地文件导出为 PDF 的。



你可能会说,这也太“麻烦”了吧。


换个角度想,如果这个内容真的有价值,那这个麻烦也是值得的,它可以让我们的“资料库”更精简。





05


印象笔记保存


网页保存还有一种方法,就是通过“印象笔记”来保存。


可以说,印象笔记是以一己之力把“网页剪藏”一词带火,不过不同的是,印象笔记是将网页保存在服务器上。


考虑到容量限制的问题,印象笔记在“电脑端”的作用并不大,它更多的是用在“移动端”。



1、保存微信内容


一键保存微信内容的最新方法:


1)关注「我的印象笔记」公众号,点击绑定帐号。


2)回复关键字「印象收藏助手」,这时会得到一个微信企业号的名片,点击“添加好友”。


3)把微信的公众号文章、文字、图片、视频等内容,转发给「印象收藏助手」后,就可以一键保存到印象笔记。



也就是说,保存方法和微信自带的「文件传输助手」一样。


然后就再也不怕“文件已过期”、“该内容已被发布者删除”、又或者“此内容因违规无法查看”了。



2、保存微博内容


一键保存微博内容的最新方法:


1)关注微博帐号「@我的印象笔记」,点击绑定帐号。


2)选择任意一个微博,点击“分享”,选择“私信和群组”,然后转发好友列表里的「我的印象笔记」。



是的,“随时随地保存新鲜事”!



3、保存其他内容


至于其它的 App 应用,它们不像微信、微博这么方便。


所以保存方法要原生一些,大概思路就是,将当前页面“分享”,然后在“分享列表”里选择“印象笔记”。



哦!对了,印象笔记运营部如果看到了,记得给我打钱哈!




结尾



以上“奶式”网页保存法,已经可以帮你解决 99% 的问题了。


如果你看了我的文章,也开始收藏内容了,那我真是“大功一件”。


而如果你看了我的文章,开始变得“更积极”了,变成了收集癖患者,那我可就“罪过大了”。


知识管理的“黄金分割点”。


必然要是在“做减法”和“做加法”之间取平衡,如果你还处在疯狂的“做加法”阶段。


请关注我后续的专栏「知识就是力量」,代号 K



回复关键字
i
查看本系列的所有文章,
回复关键字
 i18
获取本文提到的所有资源

近期文章:


专栏介绍:




看完文章:

1、点在看,帮助更多的人看到这篇文章。
2、写留言,对文章进行评论,我会尽可能回复。
3、点关注,关注我并星标,第一时间获取更新。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存