3·15特辑 | 少侠，可曾听说ChatGPT也有“食品安全问题”？

代码卫士 2023-03-22

收录于合集

#供应链安全 244 个

#开源 372 个

3月15日，有两件事情最吸引国内网民的眼球：一件是牵动所有消费者的3·15晚会，另一件则是ChatGPT母公司OpenAI于当日凌晨发布了再次爆火出圈的GPT-4。

据媒体报道，相比于ChatGPT之前所使用的GPT-3.5 架构，GPT-4实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

这两个看似毫不相关的事情凑在了一起，也算是一段“奇妙的缘分”。

人工智能也需要重视“食品安全”

众所周知，作为央视3·15晚会的常客，食品安全问题几乎从未缺席。

例如，在2022年，晚会提及了两件食品安全问题，分别是“老坛酸菜造假”与“木薯粉冒充红薯粉”两类问题。

在2021年，晚会曝出蜜雪冰城被曝篡改食品日期，华莱士炸鸡掉地捡起重炸等。

2020年，南昌汉堡王被曝出没有按照规定使用足量食材，并且将已经过期的食材修改保质期后继续使用。

2019年，劣质辣条成为了食品安全曝光的第一枪。

……

说一个“热知识”，除了3·15已经曝光的这些食品安全问题之外，人工智能也是需要“进食”的，同样有食品安全问题。

作为人工智能圈子的“当红炸子鸡”，ChatGPT一经问世，就迅速火爆出圈。有人希望它能帮忙写代码，有人希望它能帮忙挖漏洞，还有人希望它能帮忙写文章甚至是周报……

图片来源于网络

除了这些各种被玩坏的对话框，朋友圈还经常能看到类似这样的对话，对其提出了些许“批评”。

甲：这人工智能也不是很聪明啊，在某些特定领域还是需要专门的训练，至少想让我失业还有一段距离；

乙：那当然，你还要给它“投喂”专业知识。

玩笑归玩笑，这段对话却说出了一个道理，想要完成从“人工智障”到“人工智能”的蜕变，“吃掉”大量专业知识并消化吸收是一个必须的过程。

比如你想让ChatGPT写文章，那么它至少应该看过数以百万记的各类体裁的文章；你想让ChatGPT写程序，那么它肯定得看过上亿行C/C++、JAVA、C#、Python等各类机器语言代码。

作为一款生成式语言预处理模型，ChatGPT通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT除了具备海量信息检索能力，还能更加准确理解人类语言背后的含义，并根据聊天的上下文进行互动。

这正是ChatGPT更加高明的地方，能够根据已经学习到的知识“举一反三”，完成从无到有的过程。

从这个角度上来说，用于训练人工智能模型的知识或者数据就是它的食物。用于训练的数据质量不好，必然会影响人工智能的计算结果。

从“毒饲料”到“毒AI”

与此同时，业界也表达了对人工智能的隐忧。

全国政协委员、奇安信集团董事长齐向东在两会期间接受记者采访时表示，人工智能不仅降低了网路攻击的门槛，也让攻击的数量激增，给网络安全带来了巨大挑战。

不少人曾经做过类似的尝试，比如让ChatGPT生成一段网络攻击代码或者批量钓鱼邮件，其业务水平并不弱于资深的渗透测试工程师。

但无论ChatGPT水平如何高超，和常见的网络攻击也并没有什么本质上的不同。钓鱼邮件该怎么拦截还是怎么拦截，攻击命令该怎么检测还是怎么检测。

所以有人开始琢磨着在ChatGPT自身做文章，利用其强大的学习能力达成网络渗透的目标。

公开资料显示，ChatGPT使用的GPT-3.5架构，拥有1750亿个学习参数，这就好比拥有1750亿张嘴，能够用于学习和训练的数据量是相当惊人的。

GPT-4则更加有过之而无不及。

由于人工智能需要“吃掉”大量数据，因此打入其内部最直接的方法，就是跟着这些数据进去，说白了就是“投喂”一些错误的或者具有误导性的数据字段。

尽管通常情况下，数据在投入人工智能训练模型之前会经过数据清洗，即尽可能去掉无效或者错误的数据，从而提升机器学习的效率，保证计算结果的准确性。就像淘米，能够去掉其中的稻皮、米虫和石子等杂质。

但如果是故意投放的“毒大米”，淘米并不能奏效。

有研究表明，当攻击者通过将恶意数据如伪装数据、恶意样本等，注入到用于类ChatGPT模型的训练集中，会让模型产生不正确或误导性的结果。这种看似正确、实则“一本正经的胡说八道”的回复，在商业化中会造成严重后果，甚至有法律风险。

作为一款具备强大学习和主动生成能力的人工智能模型，吃掉“毒大米”后的ChatGPT生产出来的就不一定是什么了，有可能是毒米粉，有可能是毒米糕，还有可能是毒爆米花……

潜在的软件供应链风险

有媒体曾列出了假如ChatGPT能够取得规模化的商业应用，那么中短期内其潜在产业化方向主要包括归纳性的文字类工作、代码开发相关工作、图像生成领域、智能客服类工作。

一打眼看过去，代码开发相关工作显得格外显眼。目前已有不少爱好者尝试使用ChatGPT写出一段代码，并且对其代码水平给出了非常高的评价：“这代码本身干净的都不知道跟谁说道理去，这让程序员咋活嘛。”

那么问题来了，ChatGPT写的代码会有漏洞吗？

答案是肯定的。无论如何，ChatGPT写代码的技术，也是从无数行手工代码里学来的。一旦ChatGPT等人工智能技术被大规模应用于应用程序辅助开发，其漏洞效应一定会被放大。

尤其需要注意的是，如果有人故意“投喂”含有未知漏洞或者后门的代码进行训练，那么问题就严重了：尽管ChatGPT具备一定的修改bug能力，但这仅局限于已知漏洞或者bug，对于从没见过的漏洞类型却无能为力，在经过反复训练的情况下，会认为这是正确的代码写法。

如此一来，同一个漏洞或者是后门，将会随着ChatGPT进入大量的应用程序中。

一款夹杂着未知漏洞和后门的“毒AI”就此诞生。

如果上述过程最终实现，那么这就是一次典型的软件供应链投毒事件，而且这种攻击手法将比现在常见软件供应链攻击手法更为隐蔽。

不妨对比一下近年来最严重的一起供应链攻击事件。

2020年12月13日，国外知名安全公司曝光了SolarWinds（知名软件提供商）旗下的Orion基础设施管理平台的发布环境遭到黑客组织入侵，黑客篡改了其中某个组件源码，添加了后门代码，该文件具有合法数字签名，并伴随软件更新下发到了大量客户中。

其流程大致如下：

不过，无论攻击者使用了多么高明的攻击手法，由于需要攻破SolarWinds服务器并植入恶意代码，一定会留下蛛丝马迹。

比如在此次攻击事件中，调查发现攻击者通过技术手段获取了SolarWinds内网高级权限。

但攻击者如果是ChatGPT就完全不同了，没有人会怀疑它的忠诚度。即便怀疑，也找不到任何证据。

除非，安全人员能找到ChatGPT所写代码的漏洞！

这个时候你就需要奇安信代码卫士。该产品提供了一套企业级源代码缺陷分析、源代码审计、源代码缺陷修复跟踪的完整解决方案，帮助企业在软件开发测试过程中发现源代码中的安全缺陷、性能缺陷、代码质量等问题，全面提升软件安全质量。

代码卫士支持C、C++、Objective-C、C#、Java等主流编程语言的源代码缺陷分析，能够精确检出SQL注入、跨站脚本、路径遍历、缓冲区溢出、释放后使用、参数未初始化、硬编码密码等1400多种常见源代码缺陷。

有了它，用AI写代码就无后顾之忧了。

代码卫士试用地址：https://codesafe.qianxin.com

开源卫士试用地址：https://oss.qianxin.com

推荐阅读

在线阅读版：《2022中国软件供应链安全分析报告》全文

奇安信入选全球《软件成分分析全景图》代表厂商

在线阅读版：《2021中国软件供应链安全分析报告》全文

供应链安全这件事，早就被朱元璋玩明白了

第三方app受陷，Atlassian 数据被盗

奇安信总裁吴云坤：构建四大关键能力体系化治理软件供应链安全

几乎所有企业都与受陷第三方之间存在关联

热门开源Dompdf PHP 库中存在严重漏洞

命令注入漏洞可导致思科设备遭接管，引发供应链攻击

PyTorch 披露恶意依赖链攻陷事件

速修复！这个严重的 Apache Struts RCE 漏洞补丁不完整

Apache Cassandra 开源数据库软件修复高危RCE漏洞

美国国土安全部：Log4j 漏洞的影响将持续十年或更久

Apache Log4j任意代码执行漏洞安全风险通告第三次更新

PHP包管理器Composer组件 Packagist中存在漏洞，可导致软件供应链攻击

LofyGang 组织利用200个恶意NPM包投毒开源软件

软件和应用安全的六大金科玉律

美国政府发布关于“通过软件安全开发实践增强软件供应链安全”的备忘录（全文）

OpenSSF发布4份开源软件安全指南，涉及使用、开发、漏洞报告和包管理等环节

美国政府发布联邦机构软件安全法规要求，进一步提振IT供应链安全

美国软件供应链安全行动中的科技巨头们

Apache开源项目 Xalan-J 整数截断可导致任意代码执行

谷歌推出开源软件漏洞奖励计划，提振软件供应链安全

黑客攻陷Okta发动供应链攻击，影响130多家组织机构

Linux和谷歌联合推出安全开源奖励计划，最高奖励1万美元或更多

开源web应用中存在三个XSS漏洞，可导致系统遭攻陷

开源软件 LibreOffice 修复多个与宏、密码等相关的漏洞

Juniper Networks修复200多个第三方组件漏洞

美国国土安全部：Log4j 漏洞的影响将持续十年或更久

PyPI 仓库中的恶意Python包将被盗AWS密钥发送至不安全的站点

开源项目 Parse Server 出现严重漏洞，影响苹果 Game Center

奇安信开源软件供应链安全技术应用方案获2022数博会“新技术”奖

更好的 DevSecOps，更安全的应用

他坦白：只是为了研究才劫持流行库的，你信吗？

从美行政令看软件供应链安全标准体系的构建

研究员发现针对 GitLab CI 管道的供应链攻击

五眼联盟：管理服务提供商遭受的供应链攻击不断增多

趁机买走热门包唯一维护人员的邮件域名，我差点发动npm 软件供应链攻击

RubyGems 包管理器中存在严重的 Gems 接管漏洞

美国商务部机构建议这样生成软件供应链 “身份证”

《软件供应商手册：SBOM的生成和提供》解读

NPM流行包再起波澜：维护人员对俄罗斯用户发特定消息，谁来保证开源可信？

NPM逻辑缺陷可用于分发恶意包，触发供应链攻击

攻击者“完全自动化”发动NPM供应链攻击

200多个恶意NPM程序包针对Azure 开发人员，发动供应链攻击

哪些NPM仓库更易遭供应链攻击？研究员给出了预测指标

NPM 修复两个严重漏洞但无法确认是否已遭在野利用，可触发开源软件供应链攻击

热门NPM库 “coa” 和“rc” 接连遭劫持，影响全球的 React 管道

速修复！热门npm 库 netmask 被曝严重的软件供应链漏洞，已存在9年

25个恶意JavaScript 库通过NPM官方包仓库分发

Pwn2Own大赛回顾：利用开源服务中的严重漏洞，攻陷西部数据My Cloud PR4100

开源网站内容管理系统Micorweber存在XSS漏洞

开源组件11年未更新，严重漏洞使数百万安卓按设备易遭远程监控

开源工具 PrivateBin 修复XSS 漏洞

奇安信开源组件安全治理解决方案——开源卫士

奇安信代码卫士 (codesafe)

国内首个专注于软件开发安全的产品线。

觉得不错，就点个 “在看” 或 "赞” 吧~

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效助力高质量发展？

3·15特辑 | 少侠，可曾听说ChatGPT也有“食品安全问题”？

作为一款生成式语言预处理模型，ChatGPT通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT除了具备海量信息检索能力，还能更加准确理解人类语言背后的含义，并根据聊天的上下文进行互动。

如果上述过程最终实现，那么这就是一次典型的软件供应链投毒事件，而且这种攻击手法将比现在常见软件供应链攻击手法更为隐蔽。

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

劲爆！为了姜萍两位女CEO互揭老底！

谁会想到，裁员会裁到总编辑头上

消失11天的姜萍，这回麻烦大了…

“环评”提质增效 助力高质量发展？

生成图片，分享到微信朋友圈

3·15特辑 | 少侠，可曾听说ChatGPT也有“食品安全问题”？

作为一款生成式语言预处理模型，ChatGPT通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT除了具备海量信息检索能力，还能更加准确理解人类语言背后的含义，并根据聊天的上下文进行互动。

如果上述过程最终实现，那么这就是一次典型的软件供应链投毒事件，而且这种攻击手法将比现在常见软件供应链攻击手法更为隐蔽。

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

“环评”提质增效助力高质量发展？