谷歌宣称自己发布了目前为止最强大的多模态LLM

Original op7418 歸藏的AI工具箱 2023-12-08

Google终于发布了传言中的强大多模态LLM Gemini，他们说这是迄今为止最强大的AI模型。从描述来看确实非常强大。

这是一个多模态模型，意味着它可以理解、操作和结合不同类型的信息，包括文本、代码、音频、图像和视频。

同时他们一共发布了三个适合不同硬件设备的模型种类，Gemini Ultra 用于高度复杂的任务，Gemini Pro 适用于广泛的任务，Gemini Nano 用于设备上的任务。

Gemini Ultra 在 32 个广泛使用的学术基准测试中的 30 个上超越了当前的最新成果，这些基准测试用于大型语言模型的研究和开发。

Gemini 1.0 被训练用于同时识别和理解文本、图像、音频等，使其在解释数学和物理等复杂科目的推理方面表现出色。

我们来看以下具体的介绍：

最先进的性能

谷歌对Gemini模型进行了严格测试，并评估了它们在各种任务上的表现。从自然图像、音频和视频理解到数学推理，Gemini Ultra的性能在32个广泛使用的大型语言模型（LLM）研究和开发中的学术基准中有30项超过了当前的最新成果。

Gemini Ultra以90.0%的分数成为首个在MMLU（大规模多任务语言理解）上超越人类专家的模型，该模型使用数学、物理、历史、法律、医学和伦理学等57个学科的组合来测试世界知识和解决问题的能力。

Gemini Ultra在新的MMMU基准测试中取得了59.4%的最先进得分，该基准测试涵盖了跨越不同领域的多模态任务，需要深思熟虑的推理能力。

通过进行的图像基准测试，Gemini Ultra在没有物体字符识别（OCR）系统的帮助下，就超过了先前的最先进模型（GPT-4V），这些系统从图像中提取文本以进行进一步处理。这些基准测试突显了Gemini的本地多模态性，并表明Gemini更复杂的推理能力的早期迹象。

这部分可以看Gemini的技术报告了解更多：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

下一代模型能力

到目前为止，创建多模态模型的标准方法涉及训练不同模态的单独组件，然后将它们拼接在一起，粗略模拟部分功能。这些模型有时可以很好地执行某些任务，比如描述图像，但在更概念化和复杂的推理方面表现不佳。

谷歌设计了Gemini，使其本能地支持多模态，从一开始就在不同的模态上进行了预训练。然后，我们使用额外的多模态数据对其进行了微调，以进一步提高其效果。这有助于Gemini从根本上无缝地理解和推理各种输入，远远优于现有的多模态模型——而且它的能力在几乎每个领域都是最先进的。

复杂的推理

Gemini 1.0的复杂多模态推理能力可以帮助理解复杂的书面和视觉信息。这使它在发现在大量数据中难以辨别的知识方面具有独特的技能。

它惊人的能力通过阅读、过滤和理解信息从数十万份文件中提取见解，将有助于在从科学到金融等许多领域以数字速度实现新突破。

理解文本、图像、音频等

Gemini 1.0被训练成能够同时识别和理解文本、图像、音频等，因此它更好地理解微妙的信息，并能回答与复杂主题相关的问题。这使它特别擅长解释数学和物理等复杂学科的推理。

高级编码能力

谷歌的Gemini第一个版本可以理解、解释和生成世界上最流行的编程语言，如Python、Java、C++和Go的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界上领先的编码基础模型之一。

Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval，这是一个评估编码任务性能的重要行业标准，以及我们的内部保留数据集Natural2Code，该数据集使用作者生成的来源而不是基于网络的信息。

双子座也可以用作更高级编码系统的引擎。两年前，我们推出了AlphaCode，这是第一个在编程竞赛中达到竞争水平的AI代码生成系统。

利用Gemini的专业版本，创建了一个更先进的代码生成系统AlphaCode 2，它擅长解决超越编码的竞赛编程问题，涉及复杂的数学和理论计算机科学。

在与原始AlphaCode相同的平台上评估时，AlphaCode 2显示出巨大的改进，解决问题的数量几乎是原来的两倍，我们估计它的表现优于85%的竞争对手，而原来的AlphaCode几乎只有50%。当程序员通过定义代码示例要遵循的特定属性与AlphaCode 2合作时，它的表现甚至更好。

更可靠、可扩展和高效

谷歌在自己的AI优化基础设施上使用谷歌内部设计的Tensor处理单元（TPU）v4和v5e对Gemini 1.0进行了大规模训练。设计它成为我们最可靠和可扩展的模型进行训练，并且是最高效的服务模型。

在TPU上，Gemini的运行速度比之前的、更小、功能更少的模型快得多。这些定制的AI加速器一直是谷歌AI驱动产品的核心，为数十亿用户提供服务，如搜索、YouTube、Gmail、Google地图、Google Play和Android。它们还使全球各地的公司能够以成本效益的方式训练大规模的AI模型。

谷歌还宣布了迄今为止最强大、高效和可扩展的TPU系统Cloud TPU v5p，旨在训练尖端的人工智能模型。这一代TPU将加速Gemini的发展，并帮助开发人员和企业客户更快地训练大规模生成式人工智能模型，使新产品和功能更快地达到客户手中。

以责任和安全为核心构建

在谷歌，致力于在我们所做的一切中推进大胆和负责任的人工智能。在谷歌的人工智能原则和我们产品的健全安全政策的基础上，我们正在增加新的保护措施，以适应Gemini的多模态能力。在开发的每个阶段，我们都在考虑潜在的风险，并努力测试和减轻这些风险。

Gemini是迄今为止谷歌AI模型中最全面的安全评估，包括偏见和毒性。我们进行了关于潜在风险领域的新颖研究，如网络攻击、说服和自主性，并应用了谷歌研究的最佳对抗测试技术，以帮助在双子座部署之前提前识别关键的安全问题。

为了识别内部评估方法中的盲点，谷歌正在与多样化的外部专家和合作伙伴合作，对模型在各种问题上进行压力测试。

在Gemini的训练阶段诊断内容安全问题，并确保其输出符合我们的政策，使用了一些基准，比如真实有毒提示，https://allenai.org/data/real-toxicity-prompts 这是由艾伦人工智能研究所的专家开发的一套包含10万个不同程度有毒的提示，从网络上获取。关于这项工作的更多细节即将公布。

为了减少伤害，谷歌建立了专门的安全分类器，用于识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器，这种分层方法旨在使 Gemini 对每个人更安全和更具包容性。此外，我们将继续解决模型面临的已知挑战，如事实性、基础、归因和协作。

责任和安全始终是我们模型开发和部署的核心。这是一项长期承诺，需要合作建设，因此我们正在与行业和更广泛的生态系统合作，通过组织如MLCommons、Frontier Model Forum及其AI安全基金以及我们的安全AI框架（SAIF）来定义最佳实践，并制定安全和安全基准，该框架旨在帮助减轻公共和私营部门AI系统特定的安全风险。在开发Gemini的过程中，我们将继续与全球的研究人员、政府和民间社会团体合作。

让Gemini面向全世界

Gemini 1.0现在正在一系列产品和平台上推出：

谷歌产品中的Gemini专业版

通过谷歌产品将Gemini 带给数十亿人。

从今天开始，Bard将使用Gemini Pro的精细调整版本进行更高级的推理、规划、理解等。这是Bard自推出以来最大的升级。

它将在全球170多个国家和地区提供英文版本，并计划在不久的将来扩展到不同的模式，并支持新的语言和地点。

还将Gemini引入Pixel。Pixel 8 Pro是第一款专为运行Gemini Nano而设计的智能手机，它为录音应用中的“摘要”功能和Gboard中的智能回复功能提供支持，首先在WhatsApp中推出，明年将在更多的消息应用中推出。

在未来几个月里，Gemini 将会在我们的更多产品和服务中推出，比如搜索、广告、Chrome 和 Duet AI。

已经开始在搜索中尝试Gemini，它使我们的搜索生成体验（SGE）对用户更快，在美国英语搜索中延迟减少了40%，同时提高了质量。

使用Gemini构建产品

从12月13日开始，开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

Google AI Studio是一个免费的基于网络的开发者工具，可帮助开发者和企业客户快速使用API密钥原型设计和推出应用程序。当需要完全托管的AI平台时，Vertex AI允许通过完全数据控制对Gemini进行定制，并从Google Cloud的其他功能中获益，以提高企业安全性、安全性、隐私和数据治理以及合规性。

Android开发者还可以通过AICore在Android 14上的Pixel 8 Pro设备上使用我们最高效的Gemini Nano模型进行设备任务构建。立即注册AICore的早期预览。

Gemini Ultra 即将推出

对于 Gemini Ultra，我们目前正在进行广泛的信任和安全检查，包括由可信赖的外部方进行红队测试，并在向人类反馈的基础上进一步完善模型，使用微调和强化学习，然后才会广泛推出。

作为这一过程的一部分，我们将使Gemini Ultra提供给一些特定的客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈，然后在明年初向开发者和企业客户推出。

明年初，我们还将推出Bard Advanced，这是一种全新的、尖端的人工智能体验，让您可以使用我们最好的模型和能力，首先是Gemini Ultra。

Gemini时代：实现创新的未来

这是人工智能发展中的一个重要里程碑，对谷歌来说，这标志着一个新时代的开始，谷歌将继续快速创新并负责任地推进我们模型的能力。

在Gemini方面取得了很大进展，正在努力扩展其功能，包括在规划和记忆方面取得进步，并增加上下文窗口以处理更多信息，以提供更好的回应。

对由人工智能负责任赋能的世界所带来的惊人可能性感到兴奋——这是一个创新的未来，将增强创造力，拓展知识，推动科学发展，并改变全球数十亿人的生活和工作方式。

可以先去Bard试一试 Gemini Pro模型了，没想到真让谷歌憋出个大的来。觉得有用的话可以点个赞或者转发给需要的朋友。

继续滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

谷歌宣称自己发布了目前为止最强大的多模态LLM

最先进的性能

下一代模型能力

复杂的推理

理解文本、图像、音频等

高级编码能力

更可靠、可扩展和高效

以责任和安全为核心构建

让Gemini面向全世界

谷歌产品中的Gemini专业版

使用Gemini构建产品

Gemini Ultra 即将推出

Gemini时代：实现创新的未来

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

谷歌宣称自己发布了目前为止最强大的多模态LLM

最先进的性能

下一代模型能力

复杂的推理

理解文本、图像、音频等

高级编码能力

更可靠、可扩展和高效

以责任和安全为核心构建

让Gemini面向全世界

谷歌产品中的Gemini专业版

使用Gemini构建产品

Gemini Ultra 即将推出

Gemini时代：实现创新的未来

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！