查看原文
科技

刚刚、马斯克开源 xAI Grok-1 架构:3140 亿参数

小智 云头条 2024-03-18
2024年3月18日,Elon Musk 掌舵的 AI 初创公司 xAI Corp. 以开放源代码的形式发布了其 Grok-1 大语言模型(LLM)的权重和架构,该模型采用 Apache 2.0 许可证。

这兑现了Musk上周一声称会开放Grok源代码的承诺。此前不久,苹果刚发表了一篇论文,描述其在多模态 LLM 方面的研究工作。

Musk 最初表示,xAI 会在 3 月 11 日以开源的形式发布 Grok,但今天发布的基本模型、权重以及涉及模型工作原理的基本组件使其成为该公司的第一个开源版本。

已经发布的是 Grok 结构设计的网络架构的一部分,包括如何安排和连接各层和节点来处理数据。基本模型权重是某个特定模型的架构中的参数,这些参数在训练期间已经过调整,编码学习到的信息,并决定如何将输入数据转换成输出。

Grok-1 是由 xAI 从头开始训练的 3140 亿个参数的“混合专家”(Mixture-of-Experts)模型。
混合专家模型是一种机器学习方法,它将多个专用的子模型(又称为专家)的输出结合起来,进行最终的预测,通过利用每个单独模型的专业知识,针对不同的任务或数据子集进行优化。

该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 年 10 月宣告结束。
据该公司声称:“这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在一篇简短的博文中没有提供进一步的信息。

Musk 在去年 7 月透露,他创办了 xAI,该公司将与谷歌和 OpenAI 等公司的 AI 服务相竞争。
据 xAI 声称,这家公司的第一个模型 Grok 模仿 Douglas Adams 的经典著作《银河系漫游指南》,“旨在回答几乎任何问题,更绝的是,甚至建议该问什么样的问题!”

与 Gemma 和 Llama 等一些使用方面有限制的开源版本模型不同,Grok的开源版本提供了对底层技术的广泛访问。然而,它大全面透明度方面又不如 PythiaBloom 和 OLMo 等模型,这些模型包括训练代码和用于训练模型的数据集。

与此同时,苹果公司在周四悄然发表了一篇论文,描述了其在 MM1 方面的研究工作。MM1 是一套多模态 LLM,用于为图像添加字幕、回答视觉问题和自然语言推理。
该论文描述 MM1 是一个模态模型系列,支持多达 300 亿个参数,并针对一系列已确立的多模基准进行监督微调后获得了颇具竞争力的性能研究人员还声称,多模态大语言模型已经成为继传统 LLM 之后“基础模型领域的下一个前沿,它们取得了卓越的能力

多模态 LLM 是一种 AI 系统,能够理解文本、图像和音频等多种类型的数据,并生成响应,整合各种形式的信息以执行复杂的任务。苹果的研究人员认为,他们的模型取得了重大突破,有望帮助其他人将这些模型扩展到更庞大的数据集,具有更好的性能和可靠性。

苹果之前在多模态 LLM 方面的工作成果包括 Ferret,这个模型在去年 10 月被悄悄开源,但直到 12 月才引起公众的注意。

Grok-1 的权重和架构已放在 GitHub 上,还附有开始上手模型的操作说明,详见:https://github.com/xai-org/grok?ref=maginative.com。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存