查看原文
其他

2023年保险+AI深度研究报告

文章摘要




垂直领域大模型或成细分领域公司AIGC发力方向,金融领域已率先落地。垂直AI大模型专注于特定的行业、领域或场景,且能够依托行业数据与知识壁垒,并为企业提供更准确、专业的解决方案,更好满足用户在某个领域的需求,有望成为后续细分领域企业的发力方向。


彭博推出专为金融行业打造的500亿参数大语言模型BloombergGPT,依托其四十年来积累的大量金融数据源,基于通用和金融业务的场景进行混合模型训练,使得BloombergGPT在执行金融任务上的表现远超同等参数量级的通用大语言模型,为国内金融行业大模型的落地与使用提供了借鉴路径。


我们认为,保险行业作为数字化、智能化的先行者,在B端及C端掌握丰富的一手金融数据,且具备政策支持、业务需求、财力支撑等核心现实基础,或可复制BloombergGPT路径,打造保险领域的专业大模型,赋能保险业务全流程。




文章内容



1 AI 大模型快速发展赋予 AIGC 产业化应用空间 

AI 大模型是人工智能预训练大模型的简称,以“大规模预训练+微调”范式满足 多元化需求。在大数据的支持下进行预训练后,仅需少量数据的微调就能直接基 于超大规模基模型打造出领域大模型或行业大模型,进而覆盖更多行业自场景, 直接支撑各类应用,具备强大的泛化性、通用性和实用性,可以在自然语言处理、 计算机视觉、智能语音等多个领域实现突破性性能提升。

生成式 AI 大模型的突破赋予 AIGC 广阔的产业化应用空间。2022 年底 OpenAI 发布人工智能聊天机器人 ChatGPT,在具有庞大参数量的大型语言模型训练下, ChatGPT 展示出了强大的人机交互体验、高质量的持续对话能力以及较好的逻辑 推理能力。生成式 AI 的出现,直接促使大模型带来的价值进一步升级到人类生产 力工具的颠覆式革新。同时,数据规模和参数规模的有机提升,也让大模型开始 具备涌现能力(Emergent Ability),为 AIGC(AI Generated Content)技术的升级 提供了强力支撑。 

国内外大模型快速发展,将加速产业智能化变革。2019 年来大模型发展提速, OpenAI、Google、百度、阿里等国内外科技公司开发迭代多版 AI 大模型,大模型 的通用性以及基于“预训练+微调”等新开发范式,让 AI 场景应用的模型定制流 程变得更标准化、效果优化更简单,有望大幅加速人工智能大规模产业化进程, 推动 AIGC 在各行各业的渗透与落地。

2 垂直领域大模型或成后续发力方向,保险行业是最 佳落地领域之一 

我们认为,垂直领域的数据是大模型应用的关键,保险行业作为数据密集型行 业,具备数据优势,在政策支持与自身强智能化意愿下,是 AI 大模型的最佳应 用领域之一。

2.1 垂直领域 AI 大模型成发力方向,金融领域已率先落地

垂直领域大模型成细分领域公司 AI 大模型发力方向。当前 AI 大模型发展方向已 分化为通用大模型与垂直大模型两类,其中通用大模型需要巨大的计算资源和数 据量,对技术团队与资金支持要求极高,是国内外科技领域大厂的重点项目,相 对而言,细分领域企业既不具备开发优势,实际应用场景也较少。

而垂直领域大 模型专注于特定的行业、领域或场景,且能够依托行业数据与知识壁垒,为企业 提供更准确、专业的解决方案,更好满足用户在特定领域的需求,当前网络安全、 金融、医疗、教育等领域均有垂直领域大模型布局或落地。此外,垂直领域的大 模型具备算力不够大、算法难度相对低等优势,又对特定领域数据要求高,更适 合数据积累丰富的保险行业探索

彭博最早推出专为金融行业打造的 500 亿参数大语言模型 BloombergGPT,为 垂直领域大模型提供新范式。2023 年 3 月 30 日美国彭博正式发布大型语言模型 BloombergGPT,其具有 500 亿参数,并依托彭博的大量金融数据源,构建了一 个 3635 亿个标签的数据集,使得模型更加聚焦金融场景,更加适应金融术语的 复杂性与独特性,从而支持金融领域的各项任务,有效实现了 GPT+垂直知识的 深度融合。 

BloombergGPT 在金融领域表现超越现有模型,展现了基于垂直领域数据打造的 大语言模型在专业领域的强大竞争力。根据彭博发布的论文,其根据模型大小、 训练数据类型、整体性能以及最重要的访问权限,将 BloombergGPT 与其他三个 最相近的模型 GPT-NeoX、OPT、BLOOM 在金融领域和通用领域的表现分别进行 了对比。结果显示,BloombergGPT 模型在金融任务上的表现远超通用模型,在五 项任务中的 ConvFinQA(测试对金融领域相关问题的理解和推理能力)、FiQASA (测试英文财经新闻和社交媒体标题中特定方面的情感)、FPB(金融短语库数据 集,包括对金融新闻的句子情感分类任务)、Headline(判断新闻标题是否包含特 定信息)四项表现最佳,在 NER(对从提交给 SEC 的金融协议中收集的用于信用 风险评估的财务数据进行命名实体识别)测试中表现也位列第二。此外,在四个 特定的情感分析内部任务中,BloombergGPT 的表现也远超其他测试模型。

BloombergGPT 在金融领域的强大竞争力主要源于其长期积累的数量庞大的金融 领域数据。为训练 BloombergGPT,研究人员首先构建了一个由一系列英文金融文 件组成的综合数据集“FinPile”,同时用广泛用于训练 LLM 的公共数据对其进行 充实。1)金融领域数据集由彭博在过去四十年的商业经营中积累而来,共包含了 3635 亿个 token,占总数据集 token 量的 51.27%,具体由金融领域相关网页(2978亿 token,占比 42.01%)、金融领域新闻源(376 亿 token,占比 5.31%)、公司财 报(145 亿 token,占比 2.04%)、金融相关公司的出版物(86 亿 token,占比 1.21%)、 bloomberg(49 亿 token,占比 0.7%)构成。2)通用数据集由共包含了 3454 亿个 token,占总数据集 token 量的 48.73%,具体由 The Pile 数据集(1836 亿 token, 占比 25.90%)、C4 数据集(1381 亿 token,占比 19.48%)、Wikipedia 数据集(237 亿 token,占比 3.35%)组成。

2.2 保险行业具备 AI 大模型落地的商业化场景与现实基础 

政策层面,金融科技政策持续推出,为保险机构 AI 大模型的发展提供了良好的 政策环境。

近年来、央行、银保监会、中保协等部门/协会不断推出推动 保险等金融机构数字化转型的政策措施,驱动保险科技快速发展。今年 2 月,印发《数字中国建设整体布局规划》,明确指出在金融等重点领 域,加快数字技术创新应用,人工智能作为数字技术中的核心技术之一,在金融 机构的落地也有望加速进行,AIGC 大发展背景下,保险等金融机构 AI 大模型的 场景化应用存在较好的政策环境。



文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2023年6月文章汇总


今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 数字政府蓝皮报告(2023年)

  2. 中国云计算白皮书(2023年)

  3. 2023 AIGC算力全景与趋势报告

  4. 中国算力服务研究报告(2023年)

  5. 中国大数据产业发展观察:持续向上向好

  6. 2023年数据和AI趋势报告

  7. 数据要素专题研究:大模型与数据共振,数据要素市场方兴未艾

  8. 数据要素行业专题报告:公共数据授权运营,亟待开发的蓝海

    ▼长按2秒识别二维码关注我们


《文琳资讯》

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

今日导读:点击下面链接可查阅

  1. 利好齐发!事关楼市,北深广周末出手!证监会召集头部券商开会

  2. 北京住建委最新表态!

  3. 北交所再迎利好

  4. 全球产业补贴混战,中国的赢面几何?

  5. 刀郎经纪人,首次发声!杨坤留言7


▼长按2秒识别二维码关注我们
公众号 :就业与创业
点击下方可看
  1. 2023下半年,献给每天喊辞职、想辞职的人...

  2. 大运会召开将为成都带来什么?

  3. 刀郎经纪人,首次发声!

  4. 她火了!浙大美女学生公然下跪求爱黑人


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存