查看原文
其他

基于神经机器翻译技术的英文修改器养成记 | 集智原创发明

2017-04-22 曹振峰 集智AI学园
作者简介







缘起




 



在国外求学的日子里,每天都要跟导师发无数的邮件,以及要用英语写一大堆的工作总结,还要写论文。这对于我这种英语语法底子薄又囊中羞涩的无业游民来说,经过谷歌、百度搜索智能英语语法修改器没找到免费又效果理想的修改器后,只能依赖导师已经被无数留学生训练出来的超级英语容错和自动纠正能力与导师交流。


在跟导师互相邮件轰炸的峥嵘岁月里,有幸被某南京集智妹子介绍加入一个叫集智俱乐部的神秘组织,然后养成了调戏聊天机器人的陋习,被骂后转为调戏彩云小译。就在有一天跟彩云小译玩的时候,“咦!果然,囫囵吞枣式训练对信息的利用率要远高于先进行语义分析。”欣喜完后游了个泳,冲了个澡,就睡着了。醒来就有了灵感。感觉以后再也不用在导师面前出丑了,从此开始了一个叫AI-Reviser的英语文章修改器的研发。研发过程断断续续两三个月,内测效果还可以,现遂决定把研发心得作简单分享。由于本人才疏学浅,欢迎各路大牛多多提意见! 


前端设计



作为自封的“天下第一懒”,能不亲自动手就不亲自动手。我首先是查了一大堆现有的英语修改网站。发现点进去他们的主页找输入的地方都要找3秒钟以上,有一大堆没用的干扰信息。找到输入窗口,我兴奋地把一篇几百字的英语文章贴进去,往往会蹦出一个弹出信息,要么说我输入太长,要么说我输入不规范,要么要我登陆,要么要我付款……为了了解他们的目前水平,我硬是忍着注册了,登陆了,付款了。然后,我再度测试,不错!常规的语法错误还是能发掘的,可是用词不地道的地方,或者非常规的语法错误,就很难发现了。然后结果显示也是一大堆啰嗦的语法错误分析标注,好奇有几个人会有耐心去看完。


我心目中的修改器应该是这样的:

1)一进去就能找到输入窗口,就好比谷歌搜索主页那样;

2)免费;

3)没有很无聊的语法分析,直接给出修正后的结果;

4)不仅仅改各种语法错误,而且还改表达方式,能把不地道的改得地道;

5)技术上必须是世界领先。


在“五大纲领”的指导下,有了如下主页界面(按钮上的费用预估告诉你翻译的大致成本):


预处理



一个好的修改器,必须具有足够的鲁棒性,以包容英语初学者格式混乱的输入。我发现中国小朋友一个常见的问题是,句号后边竟然没有空格。这个看似不起眼的问题,却给智能断句带来不小的麻烦。经过查阅文献、尝试开源软件包无果后,我被逼无奈亲自动手。经过一番思索,我用了一个判断用户是不是经常句号后边不加空格语句,基本把问题解决了。——从此,再也不用担心被不加空格小朋友玩坏了。



NMT循环迭代



NMT的全称叫Neural Machine Translation(神经机器翻译)。彩云小译、以及最新版本的谷歌翻译,采用的都是类似的技术。这种技术的特点是,不需要进行语义分析,可以把一个句子直接喂给神经网络进行训练。本修改器也是沿用了这一技术。为了强化修改效果,我给核心修改网络加上一个多次循环迭代,直到收敛到最佳效果才输出。测试表明,收敛速度还是蛮快的。



传统的语法修改器,就好比一个经过充分语法培训的中国国籍的英语老师,她会给你指出哪个地方犯了什么语法错误;而基于这种技术训练出来的语法修改器,其工作起来,就好比一个从未学过语法规则的外国国籍英语老师。他帮你修改文章,全凭“语感”——他给你的反馈永远是,“额,这个地方读着别扭,改成这样如何?”正因如此,这款修改器具有传统修改器难以匹敌的将不地道的表达方式改得地道的能力。以下是整个系统的流程图:




格式化输出




输出结果也秉承了“天下第一懒”的风格。对的!就两个版本——不多也不少:第一个版本是修改后的全文,方便复制粘贴;第二个版本是逐句对比,方便分析修改结果。这背后用了Jaccard Index来对修改前后的句子进行智能聚类。此外,修改了的地方还会自动用彩色标出来,方便用户快速看出修改了哪。


与国内外知名同类工具的对比

为了测试Ai-Reviser 在同类产品中的表现,我对十余款占据搜索榜的同类软件进行了对比测试。以下是与挑选出来的表现相对较好的三款产品的对比:

对比测试发现,AI-Reviser不仅仅能找出所有常规语法错误,而且还能将表达不地道的地方替换成更地道的表达方式。


未来计划




如果有时间,我打算强化一下LaTex全文修改。这样,做科研的用户可以直接输入带格式的LaTex原文,便能生成修改后的文章。这对于国内使用LaTeX科研工作者来说,想必会是一个福利。


 注:本发明已申请专利 (访问该网站请扫码)



或点击 阅读全原文



快来关注集智AI学园的公众号,获取更多更有趣的AI教程吧!

集智AI学园:swarmAI


 商务合作|zhangqian@swarma.org     

投稿转载|wangjiannan@swarma.org

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存