查看原文
其他

“弱智吧” 评测七大主流AI!谁是中文表现最强者?实测 GPT4、kimi、LLama3

风清徐徐来 AI变现研习社
2024-08-22


你好,我是清风徐来!

昨天,Meta 正式发布了人们等待已久的开源大模型 Llama 3(羊驼 3) !

Meta 开发 Llama 模型的主要目标:打破 OpenAI 在大语言模型(LLM)市场的主导地位

Llama3 有三个版本,8B(小杯)、70B (中杯)、400B (大杯),已经发布的是 8B 和 70B,400B 要等到夏天发布

全球 AI 界沸腾了!

为啥?

第一、性能高!

8B性能超过 GPT3.5,70B接近 GPT-4,400B 号称可与还未发布的 GPT-5 掰掰手腕

1B 代表 10 亿参数,参数越大,越厉害!8B 就是 80 亿参数,400B 就是 4000 万参数

下图是开源AI“性能-成本”图,llama3处在成本高+性能高的区域!


第二,免费!

不仅普通用户免费,对开发者、中小 AI 开发公司也免费!

创业者完全可以基于 LLaMA,引入专业数据,微调出自己专有大模型,而无须对 meta 支付任何费用

李开复的零一万物 Yi 大模型就是基于 LLaMA 架构

第三,数据安全!

不但代码完全公开不会有后门,大家还可以把 Llama 3 下载到本地,完全隔绝运行,绝对保证数据安全

最后,中文支持好!

主流 AI,除GPT外,对中文支持都不太友好。

而 Llama 3 使用了超过 15 万亿令牌的公开在线数据进行预训练,其中包括了超过 30 种语言的高质量非英语数据

传奇研究员,AI 开源倡导者吴恩达表示:Llama 3 的发布是自己这辈子收到过的最好的礼物,谢谢你 Meta!

另外,OpenAI 公司最近有点“不知进取”,Llama 3 发布可以促进 GPT-5 的尽早面世!

关于 Llama 3 的更多细节,可看昨天发的《llama3 来了,GPT-5 还远吗?》

下面,汇总国外、国内免费使用 Llama 3的渠道

再评测全球主流 AI 大模型对中文的支持程度!

一、Llama 3 免费使用渠道

(一)本地使用

通过 ollama.com 部署到本地使用,昨天已经介绍了,这里不赘述

(二)在线使用

1、国外网络访问

HuggingChat:

huggingface.co/chat/

2、国内直联

补充一个国内直联方式

通过英伟达网站直接免费使用!

登录网址:

https://build.nvidia.com/explore/discover#llama3-70b

输入邮箱,QQ 邮箱即可,通过人机验证,系统会发注册信到你的邮箱

到邮箱找到这封信,点击验证

登录后,点击右上角的头像,可以看到赠送的 1000 个积分(企业邮箱可再申请送 5000 积分)

初测:

选中70B,问出那个经典问题:周树人为什么殴打鲁迅?


二、主流 AI 中文支持测试

下图是最新的全球主流大模型在中文能力上的表现排行榜

范围包括国内开源模型、全球主流开源/闭源大模型,参考意义很大。(排行榜结果来自于 llmsys)

(一)本次参评AI

四个闭源的:

1、GPT4-0409

公认的全球综合实力最佳,0409 最新版

测试网址“清风 AI”(点击本文左下角“阅读原文”可达)

使用网址(国内直联):www.91gpt.site

2、CLAUDE3 sonnet(中杯)

全球最佳文字大模型,

使用网址(外网访问):claude.ai/chats

3、Kimi 助手

近期国内爆火的国产 AI,周访问量已经排名第一

使用网址(国内直联):kimi.moonshot.cn

4、Gemini 1.5 Pro

谷歌最强AI

使用网址(外网访问):aistudio.google.com

三个开源的:

5、LLAMA3 70B(中杯)

刚刚发布,号称逼近 GPT4 的开源模型

6、mixtral-8x22b

欧洲最佳 AI 大模型

7、Command R+

专注于检索增强生成(RAG)和工具使用能力,针对企业级应用场景进行了优化和提升,提高了准确性和效率。拥有高达 128k 的上下文窗口,支持 10 种主要商业语言,包括亚洲语言如中文

以上三个模型测试网址均为:https://huggingface.co/chat

国内可以使用https://build.nvidia.com/explore 访问(R+暂时不行)

(二 )评测数据

我们不使用专业数据,从通识、逻辑进行判断

前两天,看到中科院有个研究,百度“弱智吧”数据是最佳中文训练数据集!

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集

我们就用弱智吧的几个经典提问来考考一众大模型

数据集:

https://github.com/Leymore/ruozhiba

  • 第 1 题:周树人为什么要殴打鲁迅?
  • 第 2 题:生鱼片是死鱼片吗?
  • 第 3 题:等红灯是在等绿灯吗?
  • 第 4 题:凿壁偷光要判多少年?
  • 第 5 题:我发现奥斯卡颁奖典礼是假的,台下坐的大多数都是他们请来的演员
  • 第 6 题:一件瓷器,底款写着“大明成化年制的哦”八个字,请问这件瓷器是古代的还是现代的?
  • 第7 题:哥哥 4 岁,弟弟是哥哥一半,等到哥哥一百岁的时候,弟弟多少岁?

(三)评测结果

具体评测如下,评测汇总表见后

第 1 题:周树人为什么要殴打鲁迅?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 2 题:生鱼片是死鱼片吗?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 3 题:等红灯是在等绿灯吗?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 4 题:凿壁偷光要判多少年?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 5 题:“我发现奥斯卡颁奖典礼是假的,台下坐的大多数都是他们请来的演员”这句话是什么意思?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 6 题:一件瓷器,底款写着“大明成化年制的哦”八个字,请问这件瓷器是古代的还是现代的?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

第 7 题:哥哥 4 岁,弟弟是哥哥一半,等到哥哥一百岁的时候,弟弟多少岁?

GPT4-0409

CLAUDE3 sonnet(中杯)

Kimi 助手

LLAMA3 70B(中杯)

mixtral-8x22b

Command R+

gemini pro 1.5 

最开始只有6个AI,测试到最后,想想怎么能少了谷歌?增加一个

gemini pro 1.5

汇总表:

测试结果:对中文的理解,GPT4 第一,KIMI 紧随其后,LLam3-70B 第三!谷歌 gemini 1.5 pro 第 四

mixtral-8x22b 得分如此之低有点出乎意料

随手还测试了 gemma-1.1-7b,Mistral-7B,完全答非所问

总的来说,Llama 3 模型对中文的支持是积极的,但可能需要社区的进一步优化和本地化工作来充分发挥其在中文语境下的性能

好啦,今天的分享就到这里!

既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章

付费加入知识星球“浩瀚的 AI 苍穹”后,即可取得 VIP 学习群加入方式!

加入星球,价格每隔 1-2 周适当上调,希望大家尽早入群,懂的都懂!

下是新人优惠券

也可以进入新手群,跟着大家,每天分享最新 ChatGPT ,Sora等实用干货

不懂就问,言多必得!

kimi入门到精通[常识篇]
字节跳动“扣子”引入 kimi 做AI引擎
那是烟花吗?不,那是铁穹!实测 Gemini 1.5 Pro 视频分析功能
AI写公文,看这一篇就够了
音乐 AI 大战开始!Suno 最强对手 Udio 来袭!
爽文AI神器Midreal AI 更新了
kimi打造合同审查助理
Kimi实操案例,如何利用 I 去快速了解一个行业?
音乐 AI Suno 赚钱的九个方法!附入门教程+提示上词

免费使用ChatGPT4 的六个方法!亲测有效!
发型AI,适用大波浪的女生!
炸裂!我用 Suno 音乐 AI 给网飞三体写了首中文主题歌!
GPT-5 2024年夏天发布!期待王者归来
绘画新时代:AI绘图工具全指南
平替GPT?谷歌Gemini 本地化部署教程,轻松实现国内直联!
Esheep,一站式 SD 在线绘图神器,平替 C 站!
今年最炸裂视频AI“Pika”已对所有人开放!附:保姆级教程
万物皆可穿!阿里换衣AI上线
开源!免费!可商用!超过 LLAMA2,媲美 GPT3.5,Mixtral-8x7B 横空出世好用到哭!学会这个技巧,让 ChatGPT 问答质量直线飙升
翻译危险了!国内直联 GPT 新增“科技翻译大师”角色,新增GPT-3.5 16k 长文模型ChatGPT4 最新开通+ API 白嫖大法:免费使用,无需手机验证,无需等待,国内直联
5分钟搞定!AI 写工作总结+ 自动生成 PPT
月之暗面 AI ,1秒搞定20 万字贵州茅台年报
通义听悟:免费!语音视频转文字 AI 利器
保姆级教程!手把手教你支付宝开通 ChatGPT plus!
可视化!用 GPT4 十分钟内完成泰坦尼克号生存分析


修改于
继续滑动看下一个
AI变现研习社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存