查看原文
其他

会议回顾 | AIGC人工智能前沿联合工作坊




2023年3月12日,中国人民大学高瓴人工智能学院举办以“AIGC:从不存在到存在”(AIGC——From Beingless to Being)为题的学术论坛,邀请了国内外在相关领域深耕的知名学者、业界专家参会交流,共同探讨对话生成模型、多媒体内容生成等人工智能前沿技术发展趋势。

本次论坛采取线上线下相结合的方式进行。会议现场累计参与人数超800位,其中,直播间听众超700位,线下会场近100位,会后视频经与会专家同意后已上线至学院官方视频频道,累计观看人数已超4400。



会议视频回顾:

https://www.bilibili.com/video/BV1JT411k7rQ/?spm_id_from=333.999.0.0

 本次论坛分为“对话与语言生成模型”和“多媒体内容生成”两个半场,分别由中国人民大学高瓴人工智能学院长聘副教授孙浩和准聘助理教授胡迪主持,多位国内外相关领域的知名学者、业界专家依次发表专题报告。


活动伊始,中国人民大学高瓴人工智能学院执行院长文继荣教授代表学院对与会嘉宾和观众表示欢迎。他表示过去一年,全球掀起了巨大的人工智能生成内容浪潮,给学术界及产业界都带来了新的挑战与机遇,期待能够和与会嘉宾一起交流探讨,碰撞出新的火花。

01



学术报告



哈尔滨工业大学计算机学院车万翔教授首先介绍了自然语言处理的历史发展及其遇到的各种挑战,同时指出语言模型作为认知智能,仍存在事实性错误和进化性问题。车万翔教授最后强调,尽管存在种种问题,但ChatGPT的未来发展仍然可期。ChatGPT为自然语言处理提供了新的范式,让研究者们看到了人工智能发展的全新可能。 



中国科学院自动化研究所研究员张家俊分析了ChatGPT通用能力与其通用能力之上的拓展。基于对ChatGPT的分析,张家俊的团队进一步拓展了其能力,例如模型之间的交互,模型与工具的交互和模型与环境的交互等。他们的团队还在多模态对话上进行了一定的探索,通过模型交互实现了通用多模态对话功能。


    

中国人民大学高瓴人工智能学院长聘副教授严睿分享了他对智能人机对话系统学习方法的探讨和思考。在他的分享中,主要介绍了关于神经主题模型与如何利用现有样本的两篇工作。最后严睿教授对ChatGPT及其未来做了展望,介绍了Super LLM, Emergent Abilities, In-Context Learning, Chain-of-Thoughts和Human-in-the-Loop等方面的内容。



新浪微博资深算法专家张俊林介绍了大型语言模型研究重心的变迁。他首先从自然语言处理到大型语言模型(LLM)的五个发展阶段入手,梳理了该领域各发展阶段的技术特点、数据特征以及阶段之间的差异。他从过去的发展阶段展望未来的发展趋势,对未来的数据、算法、和人机关系等问题发表了自己的看法。



美国加州理工学院长聘助理教授宋飏介绍了他在对数概率密度函数的梯度建模方面的工作。相比于之前基于似然的模型和隐式生成模型,该模型有了显著的改进,能够更好地理解现有的方法,获得新的采样算法以及精确的似然计算。


    

字节跳动智能创作XR技术负责人文石磊深入浅出地梳理了XR的技术框架,简单介绍了AIGC技术的领域划分;并梳理了从GAN到最近火热的diffusion模型的发展历程,从latent code和引入text两个角度分析了后者的在效率和可解释性等上的优势,多角度比较了目前常用模型的特征。文石磊研究员结合切身的研究经验,分享了自己在XR方向的AIGC技术与应用方面的独到见解和前景展望。


    

沙特阿卜杜拉国王科技大学人工智能项目副主任伯纳德·加尼姆指出,视频占网络总信息量占比很大,特别是其中的长视频,时序事件定位(TAL)作为一项找到视频中事件的起终点的技术,是长视频理解中的一项重要任务。他总结概括了TAL仍需面临的重大挑战:大规模端到端TAL和对于内容编码和探索。他提出,语言查询可能是实现TAL的一种方式,伯纳德教授团队目前在VLG电影数据集上已初步实现了语言文本和图片情节的匹配。他最后指出,视频语言基础其实是TAL的扩充形式,这可能会是未来的新标准、新任务。



北京航空航天大学计算机学院教授刘偲首先介绍了自己从事AI in Music相关研究的渊源和近年来相关领域的成果,随后他以AI纯音乐创作、视频配乐、舞蹈配乐、文本生成音乐和未来展望五个分论点展开介绍。刘偲教授展望了AI+Music的未来潜在发展方向,包括利用扩散模型、增加与人类的交互、参考ChatGPT引入强化学习的概念等。



沙特阿卜杜拉国王科技大学助理教授穆罕默德·埃尔霍塞尼在本次报告中主要讨论了人工智能的想象力。现有的人工智能学习方法可分为监督式、半监督式和无监督式,而穆罕默德的团队通过观察将零样本学习与人类创造力联系起来。零样本学习通过对对象特点的语言描述来进行想象,近来已经有一些研究尝试通过想象进行看见,创造,驾驶和感觉的模拟。



中国人民大学高瓴人工智能学院准聘助理教授李崇轩进行的报告主要关于扩散模型三个方面的改进工作:加速推断,可控生成与多模态扩散模型。在加速推断方面,李崇轩团队提出Analytic-DPM和DPM-Solver,显著降低了扩散模型的采样迭代次数,并提出了目前最快的ODE求解加速方法;在可控生成方面,他们提出了DPT,可以显著缓解条件扩散模型对成对数据的需求;在多模态扩散模型方面,他们设计了U-ViT模型,在MS-COCO文-图生成任务上得到了当时最好的效果。



百度研究员周航介绍了数字人的应用场景与目前2D虚拟人使用的相应技术。随后,他介绍了自己团队在该技术上的研究成果,包括模型网络结构、技术细节、目前的优缺点以及和其它方法的对比等部分。此外,他还展望了数字人未来的可能进展,包括提高虚拟角色的类人程度,提升模型生成视频的分辨率,与大模型结合从而利用更多参数实现效果增益等。

02



研讨环节


研讨环节,与会学者围绕AIGC相关议题展开了热烈讨论。






在回答如何看待大模型对当下NLP研究者的影响,如何去拥抱和接纳大模型开展新研究的问题时,车万翔教授表示,随着大模型的发展,尽管企业在计算资源、数据资源、人才资源方面具有显著优势,给学术界的NLP研究带来了很大挑战,但学术界仍有很多机会。从最底层来说,大模型的原理还有待深入探究,比如为什么会产生大模型的涌现现象等。大家目前只看到了有趣的现象,但其背后的原理值得探索。并且,大模型自身还有很大研究空间,缺乏深入研究和对比,基于大模型的应用也有待探索,比如如何拥抱、接纳大模型,使其更好得完成任务。文继荣教授表示,近期大模型的发展趋势已经为后期人工智能发展,尤其是通用人工智能发展指出了较为清晰的路径,代表着研究范式的改变。并且,大模型自身还有很多发展方向,比如多模态、与物理世界的交互等。此外,学术界如何在没有开源的情况下面对困难,找出解决方案,是未来的必由之路。 







回答怎么看待大语言模型?未来它是否会统一NLP各个任务的问题时,张家俊研究员表示,NLP本来就没有非常明确的划分,它所包含的任务没有明确的界限。可能在未来这个界限会更加模糊,将来的NLP研究可能不按照任务划分,而是按照技术来划分。不仅NLP内部的任务,NLP和图像、语音之间的界限可能会越来越模糊,最终达到统一的多模态感知。







回答目前国内很多企业都在做类ChatGPT产品,在这方面与OpenAI相比有哪些独特优势,是否有机会比它做得更好的提问时,张俊林博士表示,受制于资源的约束,在短期内,比如两到三年内赶超ChatGPT希望可能不大。但是,如果在中文表现上超过ChatGPT是有希望的。OpenAI不太可能在中文上进行针对性的调整,但是对我们来说,我们将来会使用的是中文的大模型。所以无论是业界还是学术界,会更关注如何快速产生并利用高质量的中文数据。本次大模型的兴起更多的是数据驱动,因此中文大模型超过OpenAI是完全可行的。

    他进而指出,目前的高质量中文数据封锁在孤立应用中,比如知乎、微博等,难以全面获取,这在将来是亟待解决的问题。高质量数据有几个维度。首先是信息含量本身,比如维基百科是知识密度最高的一种数据。其次是多样性,比如代码也可以作为训练数据。在满足前两个标准后,需要进一步关注数据的数量是否充足。







在回答ChatGPT背后基于人工反馈的强化学习相比于微调有哪些优势,未来可以应用于哪些问题?ChatGPT的训练范式对于我们如何训练对话系统模型有何启发的提问时,严睿长聘副教授表示,基于人工反馈是ChatGPT获得成功比较重要的原因。之前在开放域对话中,生成对话没有明确的目标,以一些指标为导向很难提升综合能力。但是OpenAI把人工反馈加入其中,让用户去做排序,量化了整体上人的感受,使得人和机器的诉求越来越一致,得到了很好的效果。人工反馈也很有希望引入对话系统中,提升生成质量。


研讨最后,主持人提出了AIGC目前发展可能遇到的障碍,以及对AIGC的未来展望的问题。与会嘉宾一致认为,AIGC指出了一条比较清晰的通用人工智能发展道路,在将来需要进一步结合多模态、具身智能等进一步发展,实现真正的大模型。在机遇与挑战并存的当下,无论是学术界还是工业界,都需要找准自身的位置、积极参与其中,以更开放和乐观的心态拥抱变化。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存