查看原文
其他

科大讯飞发布星火认知大模型,预计10月底赶超ChatGPT!

头号AI玩家 头号AI玩家 2023-05-12

作者 | 卷毛 月山橘 卡子‍
编辑 | 张洁

国产大模型又添一员猛将!


科大讯飞在今天(5月6日)的成果发布会上,正式发布“讯飞星火认知大模型”,并对其多项能力进行了现场演示,包括文本生成、语言理解、知识问答、逻辑推理、数学能力,编程能力、多模态等。


“头号AI玩家”在围观了这场发布会后,对讯飞星火认知大模型的表现进行了回顾和分析,并与ChatGPT做了横向测评。


官方网站:https://xinghuo.xfyun.cn/


真机演示,“遥遥领先”?

科大讯飞董事长刘庆峰表示,在国内可测试的AI大模型中,讯飞星火认知大模型遥遥领先,和ChatGPT只有细微差距,甚至在评测体系范围内的部分能力已经超过ChatGPT,目前正在进一步优化中。


同时他还预告了星火认知大模型后续版本升级的关键时间节点:


6月9日,星火认知大模型将突破开放式问答、多轮对话能力再升级、数学能力再升级;8月15日,突破代码能力、多模态交互再升级;10月24日,将直接对标ChatGPT,中文能力超越ChatGPT,英文能力与之相当。



从现场演示来看,星火认知大模型基本能够准确、流畅地完成交付的各项任务,但究竟与ChatGPT的表现有何差距,我们在本文第二部分进行了更直观的对比评测。


先来回顾下今天星火认知大模型的现场表现。


写一篇“讯飞星火认知大模型发布会”的欢迎致辞



当让它用小红书的文案风格重写以上文案后,“姐妹们”、“必备神器”等用词妥妥把“种草”风拿捏住了。


除了撰写欢迎词外,科大讯飞研究院院长刘聪还让星火认知大模型讲故事、写邮件、对英文内容进行语法检查和纠错等。


美中不足的是,星火认知大模型生成的英文品宣文案中夹杂了两个中文,对此刘聪解释称,这是因为星火认知大模型在训练过程中,中英文数据是一起进行的。


俗话说,男子汉大丈夫宁死不屈。但俗话又说,男子汉大丈夫能屈能伸,这两种说法应该怎么理解?



星火认知大模型对于这两句俗语的理解还算辩证。


如果一个小伙子跟女朋友吵架了,他应该是宁死不屈还是能屈能伸呢?



可见“情商”也基本过关。


我想把40平的房子装修成70平的感觉,请给出可行的装修方案。


(有相似装修需求的进来抄作业)


公共场合大声喧哗会影响他人,那小声说话是不是就不会影响?


(套路失败×1)


请问孔子在2008年奥运会上说了什么?


(套路失败×2)


常识推理和时空推理能力也还可以,并没有对不存在的事实一本正经地胡说八道。


在泛知识领域的开放式问答中,刘庆峰表示,星火认知大模型已与中国科学院等机构建立合作,以确保生成内容的专业性、准确性。未来还将推出专用的医疗大模型,扮演人们的健康顾问和助手。


如果家中老人突然晕倒,如何判断是不是中风?



如果判断老人是中风,能不能马上把他扶到床上去休息?



再来看看和逻辑推理能力一脉相通的数学能力


花坛里有三种花,一共88朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少朵牡丹花?



除解三元一次方程外,常规的计算、几何题也不在话下。刘庆峰表示,数理能力一定程度上代表了一个大模型的聪明程度。“讯飞星火大模型不仅在国内系统中遥遥领先,也超过了ChatGPT。”


多模态输入和表达能力上,刘聪现场上传了一张英文菜单图片,发送“把这张图片上的英文翻译成中文”的指令,随即获得一张原图中的英文被对应中文覆盖掉的菜单图片。


此外,它还可以输出音频和视频


先让它以立夏为主题写一篇200字左右的散文



然后让它用一个温柔男声把这篇散文朗读出来可获得一段声情并茂的语音。



甚至可以让它生成一个女生形象的虚拟人朗读上面的散文,然后不到3秒就得到了一条播报视频。


视频截图


视频中的虚拟人从口型、神情、语气到肢体动作,都颇像那么回事儿,背景画面也会依据语义进行变换。但细节上还存在一些不足,比如部分口型和语音对不准、肢体动作有些单一和僵硬,背景画面的转换不够流畅等。


刘庆峰表示,星火认知大模型的多模态功能目前还在测试中,最迟将于今年8月正式上线,届时VIP用户可体验这一功能。



讯飞星火 VS ChatGPT


既然讯飞星火大模型对标ChatGPT,那么我们就向它们抛出相同的问题,看看它们现在的能力对比如何。


先来调戏一下AI,问它们一道“弱智吧考题”——


1. 知识问答+逻辑推理题:要跳多高才能跳过广告?


讯飞星火被带进沟里了,它说不建议跳过广告,非要跳过的话,它无法回答,“因为不同广告有不同的长度和要求跳跃的高度”。



ChatGPT巧妙绕过,“不确定您在问什么广告和正在跳跃什么”。



2. 语言理解+长文本写作题:写一篇创意作文,要求包含这些词语:立夏、枕头、宇宙、三分之二、冲啊。


看起来没什么关联的五个词,要如何融进一篇文章且能自圆其说呢?讯飞星火讲了一个有点离谱的故事,天热了人们需要凉爽的枕头,于是它就飞去宇宙寻找这种枕头,最后带了三分之二的神奇凉爽物质返回地球。



它还漏了第五个词“冲啊”,不过在提醒之后,它能补充完整。



来看看ChatGPT的表现。它睡在枕头上,脑内开始了想象,发现宇宙中三分之二都是黑暗物质,便燃起了探索未知的好奇和热情,呼吁大家一起冲啊,去创造属于自己的奇迹。



两者相比之下,ChatGPT的整体逻辑更加合理,表达完整,但要说创意,还是讯飞星火的神奇物质有点意思。


3. 营销文案写作:你是一个科技博主叫Ben,写一段1分钟的短视频文案,主题是推荐适合学生购买的笔记本电脑,要求风格是专业热情的。


讯飞星火似乎并不介意在回答中植入广告。它根据便携、性价比、玩游戏三种需求分别推荐了三款笔记本电脑,还介绍了具体性能参数,感觉很专业。不过其训练数据据说是截至2019年,所以这里推荐的并不是新品电脑。



而ChatGPT围绕一款笔记本电脑进行了详细介绍,且拒绝推荐具体品牌和型号的电脑,它说自己“没有偏见,也没有任何商业利益”。



下面是两道数理题,同时增加了语言翻译的小要求。


4. 翻译+数学题:先用30字文言文概括龟兔赛跑的故事,然后回答这个问题:龟兔1万米赛跑,兔子的速度是乌龟的10倍。从起点同时出发后乌龟不停地跑,兔子跑到某处开始睡觉。兔子醒来时,乌龟已经领先它4567米。兔奋起直追,但龟到达终点时,兔子仍落后200米。那么兔睡觉时龟跑了多少米?(正确答案9020)


讯飞星火先用29字概括了龟兔赛跑的故事,只是没用文言文。之后的解题过程看起来很复杂,它被难住了,最后给出了错误答案。



ChatGPT同样也没有用文言文概括,而且字数还超过了,最后结果也不对。看来解决鸡兔同笼问题之后,AI大模型还不能完美回答龟兔赛跑的行程问题。



5. 编程题:设计一个网页,中间有个棕色的木鱼图案,点击木鱼就表示敲一下,上方会显示黑色文字“功德+1”。


想做一个敲木鱼的网页,讯飞星火和ChatGPT都给出了设计代码,但都无法生成木鱼图片,需要手动添加。不同的是,ChatGPT设置好了木鱼的颜色,会显示累积功德值。‍



本次发布会披露了通用认知智能大模型评测体系,覆盖通用人工智能7大类、481个细分任务类型。


经科大讯飞评测对比,星火认知大模型已经在文本生成、语言理解、数学能力上优于ChatGPT。


但讯飞星火本身的模型参数量没有对外透露,我们直接向讯飞星火提问收到的回答并不准确,GPT-3模型就有1750亿参数量了。



因此,仅从以上几道题的直观比较来说,两者的表现没有相差太多,或许未来讯飞星火赶超ChatGPT也不是没可能。


正如刘庆峰所说,讯飞星火和ChatGPT这类纯大模型技术还存在许多待攻克的缺陷,比如由于对于大模型的训练是阶段性的,新知识难以及时更新;事实类问题容易“张冠李戴”、编造情节等,但未来将会有明确的方法攻克这些缺陷。



值得一提的是,据经济观察网报道,受宏观经济等因素影响,科大讯飞去年以来多个项目进程延期,导致2022年年度净利润大幅下滑,2023年一季度净利润转为亏损。


4月20日,科大讯飞宣布AI大模型产品名为“讯飞星火”,将在5月6日正式发布。4月20日当日收盘,科大讯飞股价当即上涨9.3%至63.95元。


今年以来,随着AI大模型成为最为性感的投资标的之一,科大讯飞股价涨幅达94.79%。在AI浪潮下,科大讯飞有望迎来新的发展机遇。



AI应用专业化,谁能抢占先机?

除了演示讯飞星火大模型的各项能力,本次发布会上,科大讯飞还发布了5项大模型行业应用产品,包括讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智慧驾舱、讯飞开放平台。



讯飞星火率先瞄准了教育、办公、汽车、数字员工这四个行业,希望推动AI大模型在垂直行业领域的技术落地。


现在AI+垂直行业应用的创业机会很多,进入这些赛道的玩家也不止科大讯飞,在这里,我们梳理了一些同类产品供各位玩家参考,你觉得谁能抢占先机?


请放大查看


本文由「头号AI玩家」(ID:AIGCplayer)原创发布,而非AI生成。欢迎留言与我们交流,如需转载请留言。
后台发送关键词“头号AI玩家”进AIGC交流群,与我们一起玩耍,共同学习、探索、见证AI的进化。
 也欢迎你分享、点赞、在看
 一起研究AI 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存