2023年保险+AI深度研究报告

文琳行业研究 2024-04-11

文章摘要

垂直领域大模型或成细分领域公司AIGC发力方向，金融领域已率先落地。垂直AI大模型专注于特定的行业、领域或场景，且能够依托行业数据与知识壁垒，并为企业提供更准确、专业的解决方案，更好满足用户在某个领域的需求，有望成为后续细分领域企业的发力方向。

彭博推出专为金融行业打造的500亿参数大语言模型BloombergGPT，依托其四十年来积累的大量金融数据源，基于通用和金融业务的场景进行混合模型训练，使得BloombergGPT在执行金融任务上的表现远超同等参数量级的通用大语言模型，为国内金融行业大模型的落地与使用提供了借鉴路径。

我们认为，保险行业作为数字化、智能化的先行者，在B端及C端掌握丰富的一手金融数据，且具备政策支持、业务需求、财力支撑等核心现实基础，或可复制BloombergGPT路径，打造保险领域的专业大模型，赋能保险业务全流程。

文章内容

1 AI 大模型快速发展赋予 AIGC 产业化应用空间

AI 大模型是人工智能预训练大模型的简称，以“大规模预训练+微调”范式满足多元化需求。在大数据的支持下进行预训练后，仅需少量数据的微调就能直接基于超大规模基模型打造出领域大模型或行业大模型，进而覆盖更多行业自场景，直接支撑各类应用，具备强大的泛化性、通用性和实用性，可以在自然语言处理、计算机视觉、智能语音等多个领域实现突破性性能提升。

生成式 AI 大模型的突破赋予 AIGC 广阔的产业化应用空间。2022 年底 OpenAI 发布人工智能聊天机器人 ChatGPT，在具有庞大参数量的大型语言模型训练下， ChatGPT 展示出了强大的人机交互体验、高质量的持续对话能力以及较好的逻辑推理能力。生成式 AI 的出现，直接促使大模型带来的价值进一步升级到人类生产力工具的颠覆式革新。同时，数据规模和参数规模的有机提升，也让大模型开始具备涌现能力（Emergent Ability），为 AIGC（AI Generated Content）技术的升级提供了强力支撑。

国内外大模型快速发展，将加速产业智能化变革。2019 年来大模型发展提速， OpenAI、Google、百度、阿里等国内外科技公司开发迭代多版 AI 大模型，大模型的通用性以及基于“预训练+微调”等新开发范式，让 AI 场景应用的模型定制流程变得更标准化、效果优化更简单，有望大幅加速人工智能大规模产业化进程，推动 AIGC 在各行各业的渗透与落地。

2 垂直领域大模型或成后续发力方向，保险行业是最佳落地领域之一

我们认为，垂直领域的数据是大模型应用的关键，保险行业作为数据密集型行业，具备数据优势，在政策支持与自身强智能化意愿下，是 AI 大模型的最佳应用领域之一。

2.1 垂直领域 AI 大模型成发力方向，金融领域已率先落地

垂直领域大模型成细分领域公司 AI 大模型发力方向。当前 AI 大模型发展方向已分化为通用大模型与垂直大模型两类，其中通用大模型需要巨大的计算资源和数据量，对技术团队与资金支持要求极高，是国内外科技领域大厂的重点项目，相对而言，细分领域企业既不具备开发优势，实际应用场景也较少。

而垂直领域大模型专注于特定的行业、领域或场景，且能够依托行业数据与知识壁垒，为企业提供更准确、专业的解决方案，更好满足用户在特定领域的需求，当前网络安全、金融、医疗、教育等领域均有垂直领域大模型布局或落地。此外，垂直领域的大模型具备算力不够大、算法难度相对低等优势，又对特定领域数据要求高，更适合数据积累丰富的保险行业探索

彭博最早推出专为金融行业打造的 500 亿参数大语言模型 BloombergGPT，为垂直领域大模型提供新范式。2023 年 3 月 30 日美国彭博正式发布大型语言模型 BloombergGPT，其具有 500 亿参数，并依托彭博的大量金融数据源，构建了一个 3635 亿个标签的数据集，使得模型更加聚焦金融场景，更加适应金融术语的复杂性与独特性，从而支持金融领域的各项任务，有效实现了 GPT+垂直知识的深度融合。

BloombergGPT 在金融领域表现超越现有模型，展现了基于垂直领域数据打造的大语言模型在专业领域的强大竞争力。根据彭博发布的论文，其根据模型大小、训练数据类型、整体性能以及最重要的访问权限，将 BloombergGPT 与其他三个最相近的模型 GPT-NeoX、OPT、BLOOM 在金融领域和通用领域的表现分别进行了对比。结果显示，BloombergGPT 模型在金融任务上的表现远超通用模型，在五项任务中的 ConvFinQA（测试对金融领域相关问题的理解和推理能力）、FiQASA （测试英文财经新闻和社交媒体标题中特定方面的情感）、FPB（金融短语库数据集，包括对金融新闻的句子情感分类任务）、Headline（判断新闻标题是否包含特定信息）四项表现最佳，在 NER（对从提交给 SEC 的金融协议中收集的用于信用风险评估的财务数据进行命名实体识别）测试中表现也位列第二。此外，在四个特定的情感分析内部任务中，BloombergGPT 的表现也远超其他测试模型。

BloombergGPT 在金融领域的强大竞争力主要源于其长期积累的数量庞大的金融领域数据。为训练 BloombergGPT，研究人员首先构建了一个由一系列英文金融文件组成的综合数据集“FinPile”，同时用广泛用于训练 LLM 的公共数据对其进行充实。1）金融领域数据集由彭博在过去四十年的商业经营中积累而来，共包含了 3635 亿个 token，占总数据集 token 量的 51.27%，具体由金融领域相关网页（2978亿 token，占比 42.01%）、金融领域新闻源（376 亿 token，占比 5.31%）、公司财报（145 亿 token，占比 2.04%）、金融相关公司的出版物（86 亿 token，占比 1.21%）、 bloomberg（49 亿 token，占比 0.7%）构成。2）通用数据集由共包含了 3454 亿个 token，占总数据集 token 量的 48.73%，具体由 The Pile 数据集（1836 亿 token，占比 25.90%）、C4 数据集（1381 亿 token，占比 19.48%）、Wikipedia 数据集（237 亿 token，占比 3.35%）组成。

2.2 保险行业具备 AI 大模型落地的商业化场景与现实基础

政策层面，金融科技政策持续推出，为保险机构 AI 大模型的发展提供了良好的政策环境。

近年来、央行、银保监会、中保协等部门/协会不断推出推动保险等金融机构数字化转型的政策措施，驱动保险科技快速发展。今年 2 月，印发《数字中国建设整体布局规划》，明确指出在金融等重点领域，加快数字技术创新应用，人工智能作为数字技术中的核心技术之一，在金融机构的落地也有望加速进行，AIGC 大发展背景下，保险等金融机构 AI 大模型的场景化应用存在较好的政策环境。

文琳编辑

免责声明：转载内容仅供读者参考，观点仅代表作者本人，不构成投资意见，也不代表本平台立场。若文章涉及版权问题，敬请原作者添加 wenlin-swl 微信联系删除。

文琳行业研究 2018年—2023年6月文章汇总

今日导读：点击下面链接可查阅

公众号：文琳行业研究

《文琳资讯》

提供每日最新财经资讯，判断经济形势，做有价值的传播者。欢迎关注

今日导读：点击下面链接可查阅

▼长按2秒识别二维码关注我们

公众号：就业与创业

点击下方可看

继续滑动看下一个

文琳行业研究

向上滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

2023年保险+AI深度研究报告

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

劲爆！为了姜萍两位女CEO互揭老底！

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

（待会删）大家低调浏览

又一女明星涉毒被判刑！自称为了“刺激大脑”创作，央视网发文痛批

生成图片，分享到微信朋友圈

2023年保险+AI深度研究报告

您可能也对以下帖子感兴趣