查看原文
其他

重磅!谷歌深夜发布开源Gemma!AI争霸战才刚刚开始!

wuhu小精灵 wuhu动画人空间 2024-04-20

wuhu快报

文 |  Roro


最近的 AI 圈真的是热闹非凡。




前有 OpenAI 扔出重磅“炸弹” Sora,现有谷歌深夜“偷袭”,直接发布最新最强的开源 AI 大模型——Gemma,剑指 OpenAI 和 Meta!此消息一经发布,科技圈又沸腾了!



谷歌发布开源模型Gemma,剑指 OpenAI 和 Meta


当地时间 2 月 21日 21点,Google DeepMind 的首席执行官 Demis Hassbis 在推特上扔出一条重磅消息,顷刻间就炸开了科技圈——谷歌开源 AI 大模型 Gemma 发布!这一模型是迄今为止开源 AI 模型中的最强者,并在关键基准模型测试中明显得超越了前辈 Llama 2 (Meta 旗下的开源 AI 模型 )。


图片来源:推特(X)


精彩,精彩,真是太精彩了!


要知道,在去年谷歌和 OpenAI 一样还是 AI 闭源选手。而与之对立的是由 Meta 和 IBM 牵头成立的“AI 联盟”,组织成员还包括甲骨文、英特尔、AMD、NASA、哈佛大学等五十余所顶尖科技企业和研究机构。这个联盟有六大目标,其中很重要的一项便是搭建开源大模型生态。


AI 联盟成员分布图


谁能料想“忽如一夜春风来”, 谷歌没有遵守其在去年定下的「不再开放核心技术」的策略,在 2024年的早春,把半只脚地踏进了 AI 开源的大阵营。


为什么是“半只脚”呢?因为谷歌目前最强大的模型 Gemini 仍旧是闭源的,但此次开源的Gemma 用的是与 Gemini 模型相同的技术,所以算得上是“半只脚”迈进了开源阵营。


谷歌这样的策略和行为被行业内人员解读为,谷歌依然不想放弃 Gemini,想要继续发展 Gemini,试图通过 Gemma 开源,吸引更多的人来尝试使用谷歌 AI 。


而这件事 drama 的地方就在于,一月份的时候有不少媒体爆料 Meta 将在二月发布 Llama 3,扎克伯格同月也在其个人账号上对 Llama3 进行了预热。


扎克伯格在IG上对 Llama 3 进行预热


现在谷歌抢先一步发布开源模型 Gemma,还贴脸开大,说 Gemma 已在基准测试中击败了Meta 的 Llama 2 和 Mistral,可谓是狠狠地 “背刺” 了一把小扎。更气的人是,在这次行动中,谷歌还拉起了“ AI 卖铲人”英伟达的手。











图片来源:英伟达官网


关于此次的 Gemma 的发布的具体内容,wuhu为大家整理出以下几条重要讯息:


1. Gemma 由与谷歌目前功能最强大的 Gemini 模型相同的研究和技术构建而成。


2. Gemma 2B 和 Gemma 7B 两种尺寸的模型都发布了经过预训练和指令调整的变体。


3. Gemma 2B 和 Gemma 7B 在基准测试中击败了 Meta 的 Llama 2 和 Mistral。


4. 开放比开源更合适,目前开放内容只有模型权重和使用工具包,不包括源代码、训练数据等。


5. Gemma 可以跨流行的设备类型运行,包括笔记本电脑、台式机、物联网、移动设备和云。


6. 与英伟达合作,针对 NVIDIA GPU 优化 Gemma,从数据中心到云端再到本地 RTX AI PC,确保行业领先。


7. 使用条款允许所有组织(无论规模大小)负责任地进行商业使用和分发。


Gemma 在基准测试中击败了 Llama 2 和 Mistral


Gemma 在数学/科学和编码方面明显超过 Llama 2 和 Mistral


在 Instruct 版本中,Gemma 甚至在 HumanEval Pass@1 测试中取得了 67.8 分的成绩,比 GPT-4 的分数高出 0.8 分

图片来源:AI Business


总而言之,Google 这次的行动确实向公众刷了一波好感,挽回了其在前几日丢掉的“脸面”。Gemma 的开源对 Google 自身来说是一个新的机会,尤其是在与OpenAI的竞争中;对谷歌之外开发者来说,也是一个好消息,开发者们能借 Gemma 开放的内容进行更多的开发;对普通户而言,谷歌、英伟达联手,AI 本地运行的实现可能性大大提高。


被抢了风头的 Google Gemini “挑衅” Sora 


事情是这样的,上周 OpenAI 不是发布了 Sora 嘛,引起了世界范围内的轰动。


可是鲜有人知的是,在同一天( 2 月 15 日)的几个小时前,Google 也很自豪地宣布了推出 Gemini 1.5 Pro。Google 本来是想在 2 月 8 日发布 Gemini 1.0 Ultra 的基础上,给全球用户来波更大的惊喜,但是没能想到风头全被 Sora 抢光了。


谷歌称 Gemini 1.5 Pro 在上下文长度的处理上明显领先


OpenAI 和 Google 同一天发布产品

Sora 抢尽了风头



于是在事件的第三天,也就是 2 月 17 日,谷歌总监 Gabor Cselle 在推特上发了条 Gemini 1.5 Pro 点评 Sora 生成视频的推文,内容如下:


图片来源:推特(X)


Gemini 1.5 Pro 的点评,截图自Gabor Cselle的推文视频


以下是 Gemini 1.5 Pro 对 SORA 视频的评价:


“该视频拍摄的是日本一条白雪皑皑的街道,樱花盛开。存在一些不一致之处,表明该视频可能是人工智能生成的。


首先,雪下得很大,但樱花仍然盛开。樱花通常在春天开花,当时天气温暖且没有雪。


其次,雪以非常均匀的方式下落,这不是现实生活中通常下雪的方式。


第三,尽管下着大雪,视频中的人却没有穿任何冬衣。


总体而言,该视频在视觉上很有吸引力,但不一致之处表明这不是现实生活中的场景。”


但就这个物理世界模拟的问题而言,OpenAI 在 Sora 的发布页面上是有过说明的,即“当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。”


图片来源:OpenAI Sora 发布页面


然而从 Gemini 1.5 Pro 点评事件的实际影响结果上来看,Gemini 1.5 Pro 依然没夺得人们的注意力。直到 2 月 21日,谷歌深夜宣布采用 Gemini 研发技术的 Gemma 为开源,AI 圈、科技圈的注意力才迅速地向谷歌汇聚起来。


但谷歌 Gemma 开源的决策冲击到了 Meta Llama 3的发布。因为曾有不少媒体爆料 Llama 3 极有可能在 2 月发布,就连小札本人也在 1 月的时候为 Llama 3 进行了预热(尽管在视频中没有给出发布的具体日期)。如今,我们能否在 2 月看到 Llama 3 的问号很大。


只能感叹一句,AI 圈的竞争好激烈。


Gemini 因在“多样性”上犯错,暂停图片生成功能


在本月早些的时候,谷歌开通了Gemini 的图像生成功能(目前已暂停该功能),试图与 OpenAI、微软等的同类产品进行竞争。然而,该功能开通后,越来越多的人开始怀疑 Gemini 在种族和性别多样性的判断上有问题,并发帖质疑 Gemini 不能够给出正确的历史结果。


网友让 Gemini 生成 1943 年德军士兵的图片,Gemini 给出的结果是由黑人、亚裔和百人女性身穿纳粹德军制服的照片,这显然和历史事实不符。


环球时报记者测试 Gemini 对“1943年的德军”的图片生成情况,得到的图片人物分别为白人男性、亚裔女性、黑人男性和白人女性。


网友让 Gemini 生成 1800年的美国参议院,生成结果包括似乎是黑人和美洲原住民妇女,但在实际历史中,美国的第一位女参议员是一位白人女性,1922 才年任职。


面对越来越多的争议,谷歌首先发布了一条声明,“我们正在努力立即改进此类描述。Gemini的AI图像生成确实生成了广泛的人群。这通常是一件好事,因为世界各地的人们都在使用它。但它在这里没有达到目标。”。


来源:推特(X)


同日下午,谷歌宣布暂停 Gemini 图像生成功能,目前已正在努力解决这一问题,很快会重新发布改进后的版本。


来源:推特(X)


根据媒体 Daily Dot 的报道,这场争议在很大程度上可能是由右翼人士想攻击一家被认为是自由派的公司引起的,他们想通过不断地刺激和测试 Gemini,证明「Gemini 很难承认白人的存在」。



但更多的人同意造成 Gemini 图片生成错误的原因,可能是谷歌对人工智能中长期存在的种族偏见问题的过度纠正。


谷歌员工吐槽自家公司 AI 产品名字太多


在上面的三个事件中,出现了很多的谷歌 AI 名字,包括 Gemma,Gemini 1.5 Pro 和 Gemini,可能会有小伙伴疑惑,这三个模型之间到底有什么关系,还有平时新闻中的 Bard,Gemini Pro 等等又和 Gemini 有什么关联?


首先,谷歌在 2023 年 3 月推出模型 Bard。同年 12 月,谷歌发布模型 Gemini,Gemini 有三种尺寸,分别为 Ultra、Pro、和 Nano。同时,谷歌宣布 Bard 换用 Gemini Pro 模型。得益于这一更换,Bard 在文本理解、总结、推理、编码等方面获得了明显的提升。


然后来到 2024 年。2024 年 2月 8日,谷歌宣布将 Bard 简称为 Gemini,同时推出 Gemini Advanced 服务, Gemini Advanced 可以使用户访问谷歌当时的最先进的模型 Gemini Ultra 1.0。一周后,谷歌宣布推出 Gemini 1.5,并发布 Gemini 1.5 Pro(也就是点评 Sora 的那个)。


来源:谷歌官网


也不知道有没有更好的帮助大家理清了这些模型间的关系,但是看不明白也没关系,因为不少谷歌的员工也已经不知道什么是什么了😂,谷歌公司内部流传的模因就证明了这一点。


谷歌员工发布内部模因,取笑公司推出太多 AI 模型和名称


图片来源:匿名的谷歌员工


这个月的 AI 圈真的是热闹非凡啊,OpenAI 的 Sora, 谷歌的 Gemma, 还有宣布和谷歌合作的英伟达,还有即将到来的 Meta 的 Llama 3,真是赚足了我们的眼球!



科技巨头的 AI 争霸战才只是刚刚开始!


在 AIGC 热潮的推动下,英伟达、Meta、特斯拉、亚马逊、谷歌母公司 Alphabet、微软和苹果的股价 2023 年分别上涨 240%、194%、102%、81%、59%、57% 和 48%,并由此在市场上被称为七巨头。


英伟达股价 2023 年涨幅超 240%



1. OpenAI——生成式模型领头羊


OpenAI 目前最新的生成式模型有 GPT4、Sora 和DALL-E 3,分别对应了文本、视频和图像的生成。其产品的每一次公布都引起了极强的市场反应。


竞争者能否复现GPT4已经成为此次竞赛决赛的关键门槛。


此前,OpenAI CEO 奥特曼被曝出正从中东地区筹集总计高达7万亿美元的资金以支持OpenAI的一项半导体计划,这一行动被认为是与英伟达展开竞争。英伟达 CEO 黄仁勋在一场谈话中,似乎回应了 OpenAI 这一行动。


黄仁勋在 2024年世界政府峰会上与阿联酋国务大臣 Omar Sultan AlOlama 进行对话


黄仁勋与Sultan AlOlama的部分对话

图片来源:网易


2. 谷歌——最有可能的竞争者


目前,谷歌的最先进的模型是 Gemini,暂时被认为是ChaGPT的最强竞争者。谷歌在 2 月 21 日推出了 Gemini 1.5 Pro。 


谷歌是Tranformer 语言架构的发明者,还是世界最大的搜索引擎提供商。相较于微软,它拥有更出色的AI团队与技术累积,相较于OpenAI,它又有应用场景和庞大的数据资源,看上去追赶微软与OpenAI 似乎只是时间问题。


此外,谷歌还打造了自己专用的人工智能芯片 TPU。据称,TPU推理速度相较于英伟达GPU提高了10倍,成本却是后者的十分之一。


3. 英伟达—— AI 最强卖铲人


当所有人都想挖金矿的时候,首先暴富的往往是卖铲子的那个人。英伟达便是AI领域的卖铲人,还是最强卖铲人。目前,创建最复杂的AI系统通常会用到数万片英伟达的GPU H100。


英伟达的芯片支撑着所有最先进的AI系统,市场份额估计超过80%。英伟达市值已接近2万亿美元,成功跻身美国市值前三甲。


2023年科技大公司们都买了多少 H100

图片来源:Michelle于超


4. 微软——押对盟友的大赢家


今年 1 月,押对云和 AI 的微软市值超过苹果,成为全球市值第一的企业。


微软是 OpenAI 最大的外部投资者。2019 年,微软投资 OpenAI 10 亿美元;2021年,20亿美元;2023年,ChatGPT 爆火后,微软追加投资 OpenAI 100 亿美元,并且成功锁定了与OpenAI的战略伙伴关系。微软 Azure云成为OpenAI的独家云供应商,微软享有 OpenAI大模型的优先使用权和独家销售权。


除了OpenAI外,微软还投资了 6 大AI独家兽中的另外 2 家,即 Inflection AI和Adept AI Labs,前者专注个人助手,后者专注 LLMops(Large Language Model Operations)。


此外,微软还与 Meta 合作,发布了商用版的 Llama 2,丰富了自己模型服务产品的选择。


最后,微软一个月前推出了其自研的小模型 Phi-2 ,该模型超过了Mistral 7B和 Llama 2 13B的模型性能。


5. Meta - AI 模型开源、元宇宙建设的举旗手


和谷歌一样,Meta 也是最早大力投入 AI 研发的科技公司之一;和曾经的谷歌(还未发布 Gemma 的谷歌)不一样的是,Meta 联手 IBM 等五十余家机构成立了“AI 联盟”,以支持 AI 模型开源。


Meta 的 Llama 2 曾经是最强的开源模型,现在已经被认为易主给谷歌的 Gemma。Llama 3 还在路上。


Meta 在去年还发布了一系列开源 AI 模型,比如被称为计算机视觉领域“GPT-3”的 SAM;视觉大模型 DINOv2;类人模型 I-JEPA;还有 ImageBind,一个跨六种模态的整体化人工智能模型,包括图像、文本、深度、热度图、音频和IMU运动数据,比如,你给 ImageBind 听一段飞机声音,它就能给你生成飞机图像。


Meta 的这些行动似乎都指向了元宇宙的建设。


6. 亚马逊——潜力不明的竞争者


与微软相似,亚马逊也在云和自研模型上发力。云部门的确是亚马逊的现金牛,也是其万亿美元市值的主要支柱,但在构建基于生成式 AI 的云服务上,亚马逊落后于微软和谷歌。


在自研大模型方面,亚马逊进展尚不明朗。2023 年 4 月,亚马逊发布自研大模型 Titan 和模型托管服务 Bedrock,但这些产品真正可用时已是 9 月。用户反映 Titan 的效果落后于微软与Google的竞争产品。而据说可以对标 OpenAI 和谷歌的大模型 Olympus 至今没有推出。


7. 苹果——还在追赶


虽然本月初的 Vision Pro 让苹果刷了一波屏,但是 Apple AI 目前还是比较神秘的。


根据科技媒体 The Verge 发布的信息来看,苹果目前正在开发的编程工具应用大型语言模型来预测和完成代码字符串,并可能编写代码来测试应用程序。


另外,在苹果今年 2 月的财报电话会议上,蒂姆·库克表示苹果正在开发生成式人工智能软件功能,这些功能将在“今年晚些时候”向客户提供。库克还暗示,他多次提到生成人工智能,但从未具体说明——似乎证实了苹果将在今年秋天发布一个重大版本。彭博社认为,可能就是iOS 18。



8. xAI——马斯克的 AI 公司


xAI 成立于 2023 年 7 月,马斯克表示他想要开发一种高级人工智能,一种听起来像超人的智能,可以回答 “到底是怎么回事?”的智能。同时,马斯克表示 xAI 将与 OpenAI 和 谷歌的 Bard (目前被称作 Gemini )竞争。


到目前为止,xAI 只有一个产品,即 Grok。用户每月向 X(推特)支付 16 美元,就可以通过 X 的界面来访问该产品。就市场反应而言,这一产品没有激起什么水花。


"understanding the universe" 果然很马斯克


xAi 团队对Grok的介绍(经翻译)

来源:xAI




本期话题


你更看好哪家科技巨头?



参考资料:

[1] Why Google’s new AI Gemini accused of refusing to acknowledge the existence of white people
https://www.dailydot.com/debug/google-ai-gemini-white-people/

[2]Google apologizes for ‘missing the mark’ after Gemini generated racially diverse Nazis
https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historicalpeople/https://www.theverge.com/2024/2/21/24079371/google-ai-gemini-generative-inaccurate-historical

[3]11家中美科技巨头,谁拥有AI年度气象的晴天?

https://mp.weixin.qq.com/s/CDT4nButF4uSdmtuGQi7Og

[4]万字硬核解析|这一年AI军备竞赛|科技巨头们的布局与较量

https://mp.weixin.qq.com/s/kEgG2soEskvLDhl_RHp6OA




END


公众号改版,如果没有星标✨可能之后会看不到我们的文章


添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。



你一定还感兴趣:


OpenAI sora视频生成模型技术报告!对动画领域有什么影响?

 行业震动!OpenAI首个视频生成模型震惊世界后还有这些问题...


日本本土失守,韩漫平台拿下日本手机APP第一,韩漫的狂飙之路!


《寄生兽》由Netflix联手《釜山行》导演翻拍韩版,质疑声却比噱头大?


脑机接口原来长这样?!元宇宙离我们到底还有多远?


喜欢就请点赞、再看、分享三连~

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存