查看原文
其他

手语数字人:用户需求与质量评估

郑璇 郑璇工作室 2023-05-30

(在第十六届中国残疾人事业发展论AI+辅具分论坛上的发言)

发言人:郑璇


谢谢主持人,大家能听到我说话吗?好的,我现在共享一下我的屏幕,因为我是用两个设备登录的。一个是我的手机,一个是我的电脑。这个助听器通过蓝牙装置和手机相连接,大家可以看到我的这个衣服上面别着一个小小的蓝牙设备,它可以帮助我更好地听到。然后我用电脑共享我的屏幕,这个也是科技的助力。

我本身是一名听障者,但是得益于早期干预和科技辅具的帮助,很小就戴上了助听器,虽然我是听力一级残疾,也就是最重的一级,但我还是可以很好地用口语进行沟通。刚才听了很多专家的讲述,我也是受益匪浅,因为各位都是计算机大咖,都是研发专家,但我是一名纯粹的文科生。我是语言学专业出身的,工作十多年来,我的研究范围一直是特殊教育、听障教育和手语研究,乃至于整个听障者的语言研究。所以说今天在这儿分享,还是感觉不太有底气(笑)。但是呢,我想正如刚才何老师所说的,我们可以从残障者自身的角度,从需求方的角度来谈一谈我们的用户需求。刚才也听到老师们谈到了他们成果的落地转化,我也觉得非常有感触,因为我本身长期致力于听障语言服务,以及科技助力听障教育等相关方面的研究工作,我和全国的聋人社区,还有我们的聋校,以及手语翻译界都有比较多的联系。我自己特别愿意去做一个桥梁,也希望有机会能够和有兴趣的老师们共同探讨。




今天我讲的是手语数字人的用户需求和质量评价,其实我觉得在整个无障碍的范围内,我们的听障朋友相对来说难以发声这个很好理解,因为听障所造成的最大的障碍就在于语言沟通上的障碍,可以说它是一个隐形的障碍。海伦Ÿ凯勒说过一句话:“盲隔离了人与物,聋隔离了人与人”。即使无障碍发展到现在,已经初步呈现出百花齐放的趋势,但我们看到这方面的大量成果多数集中在视障的领域,包括一些社会组织和高校,他们也发挥了很大的作用。相对来说,听障这方面的成果还是比较少的。我今天主要想谈的是近年来一个在风口上的现象,也是语言服务的一个手段,就是手语数字人。

手语数字人的产生,以及在听障领域的应用,一定是有一个现实需求的。我们并不能说听障的发生率非常低,全球有超过15亿人听力受损,而且其中有4.3亿人的听力损失已经达到了中度或者是中度以上。中国现在的听力残疾人口有2054万。虽然这其中并不是所有的人都使用手语,但是我们要注意一点:即使他能够用口语,也并不意味着他们在听说方面无障碍,能够康复到我这样的水平,和大家能这样面对面沟通没有什么太大的障碍的,只有极少数。而且我自己的口语康复之所以能够这样,取决于非常非常多的因素,不是所有的聋孩子都能够做到这样,这需要很多的条件。

90%以上的听障儿童出生于听人父母的家庭中,也就是说他的父母并不了解听障,没有任何与听障相关的知识。他们会很无助,他们也是第一次为人父母,第一次在他的生命当中接触到一个听障孩子,那他们就会不知道怎么样去做,不知道怎样和听障孩子打交道。所以我们经常可以看到听障儿童即使是与家中最亲近的人,都有非常大的沟通障碍,也就是出现了语言剥夺。不管是口语还是手语,他在语言发展的关键期没有学习到一个完整的自然语言。而且他也会有餐桌综合症,导致他产生一种孤立感,乃至引发他的低自尊,造成社会性发展受限等等一系列问题。科技辅具,比如说助听器还有人工耳蜗,确实可以帮到不少听障孩子。但是,一方面来说听力辅具的普及比较有限,另一方面,尽管有了这些辅具的帮助,我们的沟通问题还是没有完全解决。比如说我现在这个助听器的效果应该是比较好的,我习惯了长期戴着它。但是,在人多的时候,我还是会感觉很难听清,需要一些视觉线索的帮助。我其实很希望我能够有一个一对一的手语翻译可以陪我出席各种活动(笑)。我们国家第一位植入人工耳蜗的成年人是陆峰先生。他有一个很经典的比喻,“安静环境下,我们是正常人;噪音环境下,我们是聋人;多人聊天,我们是局外人。”因为无论是多么好的辅具,也没有真耳好用

手语是一种视觉空间语言,它是语言学意义上的独立语言,这个在我们的语言学界已经不是问题了,它已经被证明过了。现在全世界已经有71个国家和地区通过立法手段承认手语的语言地位。但很遗憾的是,这其中还暂时不包括我们中华人民共和国。我们也正在努力,希望在国家通用语言文字法里面能有相关的条款来体现手语的语言地位。

说到这儿要提醒大家注意一下,虽然我现在在“国家手语和盲文研究中心”,但其实手语是一种语言,盲文是文字,这其中的区别是很明显的语言有它独特的语法规则,我们学习一门语言,通常都需要几年的时间才能够达到做翻译的水准,这个难度是可想而知的。我们国家也出台了大量政策、法规和文件来助力手语的普及和推广,保障听障者的手语使用权利。特别是国家通用手语的出台和推广,这也正是我们中心所做的工作。

现行的法律法规当中对听障人群的手语服务有大量规定,我在这儿也做了一个梳理。屏幕上面呈现的只有四个,其实这是不完整的。事实上还有更多的法律法规,我就不再赘述了。但是我们现在又极其缺乏手语翻译的人才,目前全国只有五个高校在培养专门的手语翻译人才,其中有些是本科,有些是专科,培养出来的同学有时候还无法真正从事这个行业,因为他们没有办法去养活自己。目前各地的残联基本上没有真正的手语翻译的岗位,在这些学生的择业过程中也会碰到非常多的障碍。所以说,我们现在对这个方面人才的需求很大,但是译员,特别是高水平的译员严重的不足,无法满足我们的沟通需求。而且我们可以观察到,目前在电视上有很多手语翻译小窗口,比如看新闻的时候,我们发现从中央台到地方台有非常多的“小窗口”。但是大家知道吗,我们的聋人朋友对这些小窗口的看懂率是非常非常低的我们曾经做过两次调研,全国性的调研,都证明了这一点,而且大家可以去问一下你们身边用手语的聋人朋友,问问他们看不看那个手语新闻,如果看的话,能看懂吗?能看懂多少?可能会得出相似的结论。

很奇怪的一个现象是,虽然我们一方面在吐槽说这个窗口太小了,而且聋校老师们打的那种手语不是我们聋人用的那种自然状态下的手语,我们看不懂;但是另一方面,如果说真的要把这个手语翻译窗口拿掉的话,那我们聋人朋友就不乐意了(笑)。因为从很大意义上来说,这是我们对手语权利的一种宣示,是对聋人完整的语言权的一个保障。所以我想我们今后还是要致力于它的优化,提升它的质量。相对来说,聋人朋友自己拍的一些网络自媒体视频的可懂率就非常高。所以说,我们其实更加鼓励做手语相关研发的人员更多地看一些聋人的手语——聋人译员,聋人教师的手语是怎样的。

这个背景之下,手语数字人作为解决方案之一,就被提出来了,并被推到了风口。在很多人看来,它是一个公益向善、数字包容的完美案例。确实,它是非常有意义的,也是科技在慢慢的介入,改变我们的语言沟通,弥合沟通的鸿沟。但事实上我们还面临着很大的技术障碍。目前在国际上有很多类似的项目,比如说奥地利、日本、新西兰和巴西开发的手语数字人,他们的水平都差不多。我们中国也有非常多公司,包括一些头部公司,都致力于手语数字人的研发。这其中,一种是真人驱动的,也就是背后存在一个真人,这种驱动的效果会好很多,但是它也有一个问题,就是没法大批量的去复制和推广,也没有办法真正地节省成本,而成本的问题正是很多单位、组织、部门需要数字人的一个原因。第二种就是真正的算法、人工智能算法驱动的数字人,这个难度就要大得多了。

2021年10月,广电总局出台了一个规划,明确提出了要支持手语数字人的推广和应用。我们可以看到非常多的公司,有一些小公司持续地深耕在这个领域,像千博,还有一些非常大的公司,比如阿里、百度、腾讯和华为也都在推出相关的产品,或者是向公众开放这种能力。但是目前,我们的整个市场处于一个非常乱的状态,好像是“谁上谁被骂”,非常的割裂。一方面,在外人看来是一个非常好的案例,公益向善,但是另一方面,我们的聋人朋友对它的反馈是不太满意的,说我们真的看不懂,它和那种真人手语有太大的差距。我们可以看一下视频的对比,左边是我们的聋人朋友的真正的手语,大家可以看到它是非常灵活的,右边是手语数字人打出来的,我们可以非常直观地看出区别,特别是表情和姿势这些非手控元素之间的区别。

还有就是很多公司的demo和它真正落地的状态其实还是比较不一样的。像左边的这个,它不是真正在电视台落地的效果,我们可以看右边真正的效果。事实上,如果能够做到左边那个效果,我们应该就会特别满意了。但事实上我们经常看到的是右边的这个效果,我们可以看到它的连接还是有一些不太顺畅的,有一些机械感。其实这是我们现在整个行业普遍面临的一个问题。那这个问题的解决要依靠什么呢?只有依靠我们的这个手语语言学的介入,还有跟聋人朋友的紧密结合,靠学科的交叉去解决。

曾经也有研究者对手语翻译做出了质量评估,这个是对一个十八大的真人手语翻译的效果评估,他通过回译的手段,就是请聋人看这个手语翻译,然后把它倒回来,用文字写出来,看他真正理解了多少。结果显示他的理解是一个支离破碎的状态,有非常大的问题。我们用同样的方式来做那个数字人的回译,发现在很大程度上也存在翻译的不完整,或者是信息的扭曲等等问题。这不是一家公司存在的问题,它存在于各家公司因此从整体质量上说,我们现在数字人行业还远远没有达到成熟的地步

还有一个尴尬的问题就是如何寻找合适的落地应用场景。我们近年来也看到非常多数字人的应用,特别是直播、各种重大赛事活动会议上的一些应用。还有人提出我们在看视频的时候,就在旁边放一个手语的解说。这个其实是我们手语翻译难度的天花板。我们如果能够把它放在一些简单的场景当中,用于一些短小的语言文本的翻译,可能会有更加好的效果,而不是说一开始就要冲到那个难度的天花板上面去。而且还有一些其他的因素,比如说王者荣耀的直播,其实大家可以看到这个想法是很好的,但是,服装的式样太花哨,视觉效果非常炫目,它就会影响我们聋人对手语的感知,其实对我们的视觉感知是一个干扰。

第三个尴尬就是从何处去寻觅海量的高质量手语语料。这是我们各家做手语的公司都面临的一个问题,相当于巧妇难为无米之炊,现在国际上也有一些比较好的手语料库,但总体来说也只是相对地好。我们现在虽然也有一些国家级的手语重大课题,但是这些课题的成果都没有向社会各界公布。其他也有一些团队在做,但是真正的手语语言学介入还是不足的。我也曾经和搞数字人研发的一些同事探讨过,他们真实的心声是“确实没有想到手语这么难做”,而且他们在没有充分的前期评估的基础上,就把手语的语料采集交给三方公司,这些三方公司并不具备真正的语料采集能力。转写人员自称会手语,“我会手语啊”,“那你来转写吧”。它是通过一种商业雇佣的方式去寻找海量人员做海量的语料,那获得的语料的可用度是非常值得质疑的但很不幸,这恰恰就是我们现在几乎所有市面上做手语数字人的公司都采取的一个方式。

第四点就是为什么生成的手语这么僵硬。这个可以从很多方面进行解读,我主要列出了一些手语语言学方面的考虑。我想强调的一点就是手语不光是手的动作,它还包括面部表情,身体姿态,以及手势本身的速度、力度和幅度。我举一个非常简单的例子,比如说“鱼在水里游”,还涉及双手的同时性,左手打水,右手打鱼,鱼在水里游,一个动作就可以表达了。但是这恰恰是机器现在做不出来的。我们也看到现在各家公司正在努力去解决这个问题。但是这个问题的解决必须依赖和手语语言学专业人士、和聋人社区的合作。

说到对手语数字人的评价,我目前也是拿了一个国家语委的重点课题,想在这个方面来做一些研究。我们也看到一些国外的文献从各个不同的维度来进行评价,但非常有意思的是,国外的用户认为可理解性是最不重要的一个因素,这个跟我们国内是非常不一样的。在国内,大家反映最多的、吐槽最多的往往就是可理解性、可懂度这个因素。我想这是因为我们国内的手语的发展还远远不够成熟,我们需要花更多的时间去解决这个手语翻译质量的问题,不管是真人的翻译,还是机器的翻译。在研发的过程当中,我强烈地感受到做技术的不懂手语,做手语的不懂技术,因为我曾经和很多团队探讨数字人的问题,还跟他们其中的一些有过合作,我就强烈地感受到,我们真的要去拥抱这个学科的交叉合作,并且有的时候真的要去克服一些功利的东西,不是看准风口就一拥而上。但这也面临一些困难,因为现在的公司很大,部门很多,哪怕我们把技术这块儿做好了,但由于有时候落地应用由另外的部门负责,所以往往事与愿违。刚才何老师也提到,我们残障者要发声。但是我想说这个不是我们参加了这个团队就可以把声发出来的,那么我们如何真正地去发声呢,如何真正参与到决策的过程当中。其实我觉得这个是观念的问题,“没有我们的参与,就不要做关于我们的决定(Nothing about us without us.)”,这个在手语当中体现得尤为重要。再就是希望通过一些顶层设计,可以促进和规范这个行业的发展,用我们中心顾定倩主任的一句话来说就是要让国家通用手语的核心、关键的基础数据和科研成果产品掌握在中国人、中国企业的手中。其实大家也知道像苹果、微软这些国际大公司在无障碍方面是做得非常好的,我也期望我们的国企还有民族企业能够追赶上他们,不光是从技术上,还要从整个理念上去追赶。

以上是我的分享。可能有些超时了,抱歉,感谢大家!

 


主持人:王甦菁(中国科学院心理研究所副研究员)

感谢郑老师的报告!郑老师再一次吐槽了辅具使用中的一些现象。其实我也发现有这些现象,包括范明明老师提出的co-design,应当从头到尾让我们残疾人参与进来,我作为一个表情或者微表情的研究者,我稍微回应一下郑老师关于手语人表情的吐槽。据我个人目前所知,让电脑模拟出比较细腻的表情还是特别困难的一件事,或者说它的成本代价比较高,所以说让手语数字人有细腻的表情还是一个比较难的问题。

另外,我记得我第一次和郑老师交流的时候,我自己就担心我说话不清楚,郑老师能不能听懂。基于这种担心,像我用一些智能家居的时候也会遇到这种困难,无论是“嘿!siri”还是“小爱同学”,它们都无法回应我,所以我恳请了科大讯飞用我的语料库去建立一个个性化的模型,就像上面几位老师都谈到的个性化的定制,这也可能解决问题。

 

点评人:戴国忠(中国科学院软件研究所研究员,中国计算机学会人机交互专业委员会名誉主席)

我们应该走应用驱动路子,就像今天何川老师讲的那样,应该从应用角度来提出需求。这里头就有一个很重要的问题——人才问题。像王老师、何老师、郑璇老师这样本身就有残障的科学家太少了,我们希望越来越多,所以这样就给我们的教学提出了新的要求,应该加强特殊教育。


点评人:董理权(中国残疾人辅助器具中心副主任,世界卫生组织辅助技术咨询专家)

郑老师的发言我听了也是感受很深。关于这个手语数字人,她做了一个详细的研究。现在目前这一块关注的确也很多,也有不少人在在做这方面的研究。除了做手语数字人,目前我们还存在一个问题,就是手语的辨识,怎么去辨别手语。这是一个交互的过程,我也在建议国家在这个方面设立有关的课题,今年我也已经把关于这方面的课题建议列入到国家重点研发计划里面去了,明年的指南里面也有类似的这方面的课题。




文字整理:张梦雨

排版:        陈天乐




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存