GPT-3 加持的语音输入文字新流程

Original 王树义老师玉树芝兰 2024-01-14

（注：本文为小报童精选文章，已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费）

我之前给你介绍过赵赛坡老师的语音方式输入文字流程。我在赵老师提出的流程基础上，进行了一些调整变化。方法也很简单，先在 Voice memo （苹果自带的语音备忘录）里面录制声音，然后拖动到飞书妙记里面，不一会儿就变成了文本。

识别准确率还是挺高的。

实话实说，虽然这个方法很方便，但是我平时利用频率并不高。

原因也很直接——教学和科研里面的笔记，或者我撰写博客文章的原材料，面向的是最终输出。口语化的内容并不合适。

因为口语和书面语有显著区别。很多时候，我左边打开飞书妙记转化的文字，右边还得再开一个编辑器窗口。在右侧窗口里面直接打字，把识别之后的内容重新整理成书面文字。即便是逐字输入，都比直接在口语化文本上删改更省心省力。好不容易转化的文本材料无法直接利用，造成了大量的浪费。这让人情何以堪。

立青曾经尝试过先做好视频，再转换成文章来发布。据他自己反馈，这种方法效率很高。我不知道这个事儿立青坚持了多久。我自己试过 2-3 次，就干脆放弃了。因为对于懒人来说，视频里面的口语太多，转换到书面语也非常麻烦。

明明手里有高效的工具，但是却用不上。很让认着急啊。有没有解决办法呢？

当然有。而且办法特别简单 —— 只要你有能干的助理就行。例如我曾经为你介绍过，纳博科夫可以轻松愉快地使用卡片，归功于他有 Véra 这样一位忠实的伴侣，她兼着 “秘书、打字员、编辑、校对、翻译、书目编撰、经纪、营业经理、律师、司机、研究助理、教学助理” 的多重角色。

我几个月前整理少数派专栏文稿的时候，曾经请我的学生帮忙对之前的部分相关视频进行处理，转化成文字稿件，然后我统稿和润色。表面上看效率确实很高。但这其实耗用了很高的人力成本。做个专栏学生来帮个忙，属于一次性的事务，还说得过去。但倘若我每次做完视频转文字稿都叫学生来做，就不大合适了。

好在谁说助理一定得是真人来扮演呢？最近的 AI 进展，使得口语到书面文本转化这个事情，有了更合理的解法。

继续滑动看下一个

Original 王树义老师玉树芝兰

玉树芝兰

向上滑动看下一个