查看原文
其他

网络首发 | 在线社区中人工智能生成内容的识别方法研究

邓胜利 汪璠等 图书情报知识 2024-01-09


网络首发时间

2023-08-14

网络首发地址

https://link.cnki.net/urlid/42.1085.G2.20230814.0954.002

Photo by Harper Sunday on Unsplash.


邓胜利

武汉大学信息管理学院,武汉,430072 

汪璠

武汉大学信息管理学院,武汉,430072 

王浩伟

武汉大学信息管理学院,武汉,430072 


目的 | 意义

_

生成式人工智能会对在线社区造成一定程度的AI信息污染,研究多种AIGC识别方法对防范快速进化的生成式人工智能带来的负面影响有重要意义。


研究设计 | 方法

_

首先在以新浪微博54个大类主题为主的多个在线社区平台中构建了HAC数据集,其中包含100,873条分别由人类和生成式人工智能撰写的信息;然后探究当前6个主流深度学习和7个机器学习方法是否能识别在线社区中的信息是由人类还是由生成式人工智能所撰写;最后提出了一种BEM-RCNN方法进一步提高AIGC的识别精度。


结论 | 发现

_

从构建的数据集中可以看出,生成式人工智具有强大的“ 类人表达”,能够模拟人类在社交媒体平台上发布和回复内容。实验结果表明,提出的方法准确度达到96.4%,能够很好地识别在线社区上的内容是由人类还是AI撰写。在精度、召回率、F1-值和准确度上均优于BERT、ERNIE、TextRNN等其他13种主流的方法,验证了其性能优势。同时,大量探究实验也证明了当前主流的机器学习方法虽然精度低于此方法,但是也能够识别部分AIGC。


创新 | 价值

_

使用多种方法去识别社交媒体上的AIGC,防范生成式人工智能对社交媒体平台造成的信息污染。


关键词

_

生成式人工智能;AIGC;在线社区;机器学习;AI信息污染





_

1

引言


_


2022年11月, 以ChatGPT(Chat Generative Pre-trained Transformer) 为代表的生成式人工智能模型作为里程碑式的产品,让整个互联网行业兴奋不已,不断重塑着人们的思维和认知,变革着传统的产业形态。传统的人工智能(Artificial Intelligence, AI)主要集中在数据提取和预测等特定领域,生成式人工智能模型具有生成新内容的能力,这些内容被称为人工智能生成内容(Artificial Intelligence GeneratedContent,AIGC),因此扩展了一种新的领域,即为“创造”。这些生成式人工智能可以模拟人类在线社区上发布、回答、传播信息并与人互动。然而,我们在兴奋之余也应该考虑生成式人工智能对在线社区的危害。由于数据集的影响,人工智能生成的信息的真实性和准确性无法保证。同时,科技巨头们正在掀起一场无法停止的角逐。由此带来的影响,将是生成式人工智能会在各种在线社区平台产生更多与人类写作风格接近的AIGC。同时,由于生成式人工智能的低门槛,会让不法分子使用AI去模拟人在在线社区上发布大量信息。一旦这类信息大量涌入在线社区,不仅会对用户造成严重的误导,还会对整个在线社区造成AI信息污染。因此,针对在线社区上AIGC的识别方法研究刻不容缓。


现有的各项研究主要探讨生成式人工智能及AIGC对社会的影响,国内学者也提到生成式人工智能具有强大的“类人性表达”。国外学者发现即使专家也无法准确区分由AI生成的作品和“原创作品”,然而国内外学者目前未提出相应的解决方法,也缺乏相关的数据集,还未探究当前针对人类撰写内容的多种机器学习和深度学习方法是否适用于来自于生成式人工智能模型的AIGC识别任务。因此有必要研究如何识别与人类撰写内容高度相似的AIGC。


因此,本文以新浪微博、百度贴吧和百度知道为主要研究的社交平台,构建相关数据集,探究当前主流的多种深度学习算法能否胜任在线社交平台上AIGC识别任务,并进一步提出一种性能更高的AIGC识别方法,维护在线社区中的信息生态。



_

2

相关工作


_


2.1   AIGC的相关研究


当前,以LMFlow为代表的个人专属生成式人工智能模型被发布,每个人都能通过较小的算力资源训练属于自己的大语言模型,生成式人工智能的门槛被显著降低,大量的AIGC也会涌入在线社区中,但是这些AIGC在内容上存在诸多问题。国内外学者从内容识别、内容质量和内容风险的角度深入探讨了生成式人工智能及AIGC对社会、组织和在线社区的影响。


在内容识别方面,段荟等人提到ChatGPT等生成式人工智能模型虽然能够输出符合人类习惯的信息,也能够很好的撰写人类难以判别的文章,但信息在事实和准确性方面存在较大问题。Graf等人强调需要对使用ChatGPT产生的内容进行严格的审查。严格来说生成式人工智能是创作型人工智能,其生成的AIGC都具有“非真实”的属性。如果大量未经审查和难以识别的AIGC进入在线社区,就会造成该平台信任的缺失。


在内容质量方面,王静静等对生成式人工智能及其GPT类技术应用进行探析,指出该项技术存在数据偏差问题、透明度问题和恶意使用问题等。同时,Tlil等人发现,即使生成的信息存在偏见和误导,大量的用户仍愿意使用ChatGPT这样的生成式人工智能。徐璐璐等认为生成式人工智能对在线健康社区等平台的发展有积极的影响,但仍需制定相应的策略去提高生成内容的质量。Dwivedi等人提出生成式人工智能是一种变革性工具,对组织、社会和个人都会产生各种积极和消极的影响,但是在一些专业领域AIGC的质量与人类差距较大。


在内容风险方面,蔡士林等提出生成式人工智能的广泛应用所产生的AIGC会导致一系列的风险,包括:社会信任危机、版权规则冲击、个人数据泄露和真实信息被AI篡改等。商建刚 进一步指出生成式人工智能在社会层面存在数据垄断、道德操纵风险甚至进一步引发意识形态渗透问题。Lund等人认为, ChatGPT可能被用来撰写学术论文,这可能会引发潜在的伦理和道德问题。同样,在社交平台上发布由AI直接生成的内容,也同样可能引起伦理问题。


2.2   文本内容识别方法研究


生成式人工智能学习的原始语料库是来自于真实的世界,所产生的AIGC也会包含原始语料库的特征。因此对真实世界中的内容识别方法同样可能被用于AIGC识别任务。虽然目前还缺乏针对人工智能生成的信息的识别方法,但是机器学习方法在数据分析、信息分类和模式识别方面取得了不错的效果。主流文本内容识别方法如表1所示。



_

表1   主流的内容识别方法


_


在机器学习方法中,支持向量机(Support Vector Machine,SVM)、K最近邻(K-Nearest Neighbor,KNN)、逻辑回归(Logistic Regression,LR)、随机森林(Random Forests,RF)、决策树(Decision Tree,DT)、AdaBoost、 XGBoost和朴素贝叶斯(Naive Bayes,NB)经常用于文本内容识别,也可用于识别AIGC。


在深度学习方法中,TextCNN、TextRNN和Text RCNN在当时以优越的性能被提出,并被广泛用于文本内容识别。BERT和ERNIE等模型也在一些文本分类任务中取得了优异的表现。此外,BERT不仅可用于文本分类,还可用于生成词嵌入并与其他方法相结合取得优异性能。


综上所述,当前国内外学者分别从AIGC的内容识别、内容质量和内容风险层面探讨了其对社会、个人和社交媒体的影响和危害。同时,现有的文本内容识别方法大多都是针对由人所撰写的内容,少有如何去识别AIGC的研究。因此,为解决生成式人工智能及AIGC造成的一系列问题,本文构建以BEM-RCNN为代表的深度学习方法识别AIGC。



_

3

实验方法


_


3.1   模型设计


3.1.1 模型整体框架


由于当前的ChatGPT虽然能够输入文本、图像和多模态信息,但是仅能够输出文本内容,因此本文所研究的识别方法主要针对AIGC中的文本内容。本文首先构造了一个基于BEM-RCNN的AIGC识别模型,其整体框架图如图1所示。首先,通过BEM(BERT- Generated Word Embedding Model)模块提取输入AIGC内容特征并生成词嵌入,然后使用循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN)模块进一步提取词向量中的上下文深层特征,最后通过最大池化层和全连接层进行AIGC识别。其中,BEM模块和RCNN模块是以端到端的结构进行连接,这使得原本用于生成词嵌入的BEM模块中的参数可以更新迭代,更好地适应AIGC识别任务。



_



_
_

图1   模型整体框架


_

3.1.2  BEM模块


BERT模型在大量的语料库中进行预训练后,可以直接用于生成文本信息的词嵌入。过去,直接使用预训练的BERT模型生成词嵌入也能够在后续任务上保持很高精度的原因是预训练的语料库中包含了各种领域知识。但是来自于生成式人工智能模型的AIGC并不在其中。因此在该项任务中BERT中的参数必须通过包含AICG的数据进行优化。我们将图1中左侧的部分称为BEM模块,该模块即可通过迁移学习获取到大量语料库中的先验知识以防止过拟合,又能够随着训练数据的迭代获取到AIGC中所特有的特征。同时,在BEM模块的输入部分包含了信息的文本、段落和位置特征。因此,本文使用BEM进行一阶段特征提取,并生成包含位置特征和语义特征的词嵌入。


3.1.3 深层特征提取和分类模块


我们在BEM模块提取完一阶段语义特征后,又结合RCNN对生成的词嵌入进行深层的特征提取以进一步提高模型的性能,并最后通过最大池化和全连接层进行AIGC文本信息识别。TextRNN模型是将 TextCNN 中的“ CNN+池化层”的形式替换为“ RNN+池化层”的结构。RNN的优点是能够更好地捕获上下文信息以获取长文本的语义。TextRCNN中的RCNN模块既解决了循环神经网络训练速度慢、无法保留长期记忆的问题,也弥补了卷积神经网络在处理文本内容时窗口大小固定带来的不足。但是TextRCNN一开始是使用word2vec等模型生成词嵌入,该词嵌入不能随着单词在文本中的位置动态生成相应词嵌入,在特征提取的过程中存在缺陷。


因此,本文将BEM模块与RCNN模块进行端到端的结合形成BEM-RCNN模型以识别AIGC。该模型不仅仅能够抽取包含位置特征和语义特征的词嵌入,还能够通过捕获上下文深层信息以在长文本内容识别任务中取得优势。同时,采用的端到端的结构能同时学习到大规模语料库和AIGC的特征,以提升模型的性能。


3.2   基线方法


为了探究主流的深度学习和机器学习法是否能够识别在线社区中的生成式人工智能所发布的信息,以及验证本文主要构建的BEM-RCNN模型相较于这些方法是否具有性能优势,本文将BEM-RCNN模型与6种深度学习方法和7种机器学习方法进行对比。同时,还将BEM模块与RCNN模块进行非端到端的连接,构成BEM-RCNN-NE(BEM-RCNN with non-end-to-end structure,采用非端到端结构的BEM-RCNN)模 型,以对比实验的形式证明端到端的结构有利于提升性能。如表2所示为对比的各种基线方法。



_

表2   对比的各类基线方法


_


如表2所示,BERT、ERNIE、FastText、BERT-XG Boost等均属于经典方法,被广泛用于各项文本处理、识别和分类任务中。这些方法也在2.2节进行了介绍。然而,由于机器学习方法无法直接对文本进行识别和分类,必须将原始的文本经过嵌入表示成向量形式,然后使用机器学习进行后续分类任务。在机器学习方法中,本文首先使用BERT的中文预训练模型(bert-base-chinese模型)对文本数据嵌入表示,得到相应的词向量。然后再使用机器学习方法进行后续分类任务。我们将BERT前缀加入到这些模型前面,以避免造成概念混淆。


因此,本文将与这13种方法进行对比实验,验证构建的BEM-RCNN方法的性能,也探究这些主流的方法是否适用于识别在线社区中的AIGC。


3.3   性能评估


Precision(精度)、Recall(召回率)、F1-score(F1-值)和Accuracy(准确度)这些指标被广泛用于评估机器学习和深度学习模型的性能。这四个指标的公式分别如公式( 1 )至( 4 )所示。其中,TP表示将正样本预测正确的数值,TN表示将负样本预测正确的数值,FP表示将负样本错误的预测成了正样本的数量, FN表示将正样本错误的预测为负样本的数值。




_

4

实验过程


_


4.1   数据集构建


新浪微博是最大的在线社区平台之一。因此,我们以新浪微博为主要数据来源构建数据集,并将百度贴吧和百度知道作为补充数据。该数据集包含了在线社区中人类和AI分别撰写的内容。如图2所示为数据集构建过程。



_



_
_

图2   数据集构建过程

_


在构建的数据集中,新浪微博的数据来自于54个大类话题,共包含43,089条AI和人类分别撰写的数据;百度贴吧的数据为38,921条;百度知道的数据为 18,863条。本文在新浪微博和百度贴吧上爬取人类发布的信息,并用AI去模拟人类发布类似信息。由于在线社区中,用户不仅仅会发布内容还会回答其他用户的提问。因此,本文在百度问答上获取10,000条人类的问题 和回答,将回答作为人类回答数据,然后将问题输入给 ChatGPT后,让其模拟人类回答这些问题作为AI回答数据,再通过数据清洗,将具有明显AI特征的回答进行删除。例如:AI回复内容中包含“作为一个人工智能模型,我可能无法很好的回答该问题”、“作为一个AI……”、 “好的,现在假如我是一名人类……”等语句。


如表3所示,我们以新浪微博为例,介绍数据获取过程。首先,我们从新浪微博在线社区中爬取27,000条信息(每类500条),经过人工审核过滤掉广告信息、垃圾信息以及用户借助AIGC生成并发布的信息等内容后,最终保留22,608条由人类撰写的内容。其次,我们在这54个大类主题下由ChatGPT模拟人类撰写24,300条微博博文,经过数据清洗和预处理后,得到20,481条AI撰写内容。然后分别由AI 和人类撰写的内容构成来HAC(Human and Generative Artificial Intelligence  Comparison)数据集中自于新浪微博的数据。值得注意的是,我们利用ChatGPT提供的API 接口让AI模拟人类大量撰写内容。在ChatGPT的API 接口中,我们选择的模型是“ GPT-3.5-turbo”,该模型的输入长度限制已经能够满足输入提示词字数长度的要求。temperature参数的取值范围为0~2之间,数值越小代表回复内容更集中,数值越大代表回复内容更分散,我们选择的是默认的参数“ 1 ”,让模型更加均衡的模拟人类去撰写博文。



_

表3   新浪微博在线社区中54个大类主题


_


百度贴吧与新浪微博采用同样的形式爬取和生成数据方法。而百度知道中的问答数据,本身包含了不同用户的提问和回答数据。因此直接将答案作为人类撰写数据,将问题作为ChatGPT的输入,生成AI撰写数据。如表4所示为HAC数据集。



_

表4   HAC 数据集


_


虽然ChatGPT能够直接以“类人手法”写出博文,我们还是让其学习了最新的数据,以便更好的模仿人类。首先从一个大类主题中随机抽取20条博文进行学习,然后让ChatGPT带入人类身份,去在相应的大类主题下发布博文,以便输出更为接近人类表达的内容。


图3为AI模拟人类撰写内容的提示词。其中,新浪微博和百度贴吧上的提示词如图3上方所示。首先依次选择一个话题名,如:军事、社会等。然后在相应话题中随机的抽取人类撰写的内容。最后,使用图3上方的提示词让AI模拟人类去撰写内容。



_



_
_

图3   AI模拟人类在社交媒体平台去撰写内容的提示词

_


百度问答的提示词如图3下方所示,因此,我们直接将问题作为输入,让生成式人工智能模型的回答作为AI撰写数据。值得注意的区别是,对于新浪微博和百度贴吧,我们是让AI去模拟人类撰写发布内容;而对于百度知道则是让AI去模拟人类撰写回复内容。最后,将这三个平台中分别由人类和AI撰写的内容共同构成HAC数据集。


从表5中可以看出,ChatGPT已经能够非常拟人化地发布信息和撰写相关内容。同时,从表4中,我们也可以发现,虽然我们没有告诉它需要撰写的信息长度应该是多少,但是由AI和人类撰写的信息在平均长度方面较为接近,这也反映了当前生成式人工智能强大的学习能力。



_

表5   不同主题下分别由人类和AI撰写的博文内容


_


4.2   本文方法的实验结果


我们将数据清洗后的HAC数据集根据7:1:2划分为训练集、验证集和测试集。然后将训练集作为BEM-RCNN模型的输入,通过验证集选择精度最佳的模型,最后将该模型在测试集的检测效果作为AIGC识别结果。


然后,根据3.1节的方法构建BEM-RCNN模型。表6为部分重要的超参数。其中dropout参数能够提高模型的泛化能力和防止过拟合。dropout、require_ improvement和num_epochs均为合适的参数。



_

表6   模型的超参数


_


我们选择3.3中提到的四个指标来衡量模型的性能,分别为:Precision、Accuracy、Recall和F1-score。如表7所示为BEM-RCNN在HAC数据集上的性能实验结果。其中Human指的是人类撰写的信息、AI指的是AI撰写的信息,Accuracy指的是测试集上两个类别所有样本量的整体准确度。平均值指的是该项指标在测试集中整体样本上的平均结果。从表7可以看出,在人类撰写的信息识别方面,其Precision、Recall和 F1-score分别为0.9948、0.9332、0.9630。在AI撰写信息识别方面,Precision、Recall和F1-score分别为0.9345、0.9949、0.9637。实现结果显示Human类别的Precision明显高于AI类别,AI类别的Recall明显高于Human类别。但是总体而言,两类信息的识别效果都较好。



_

表7   本文提出方法的性能测试实验


_


为了进一步排除随机影响,我们在相同参数和条件下进行了10组实验,并取平均作为该方法最终的性能试验结果,具体如表8所示



_

表8   提出方法的10组实验及平均结果


_


从表8中可以看出,本文主要构建的BEM-RCNN方法的Accuracy达到了0.9640,而且其在两个类别上的Precision、Recall 和F1-score平均结果分别达到了 0.9652、0.9643和0.9640。该实验结果很好的反映了所构建的BEM-RCNN方法能够有效识别博文是由AI还是人类所撰写。


为了验证本文方法采用的端到端的结构的合理性和必要性。我们将BEM-RCNN方法与BEM-RCNN-NE方法进行对比。如表9所示为对比结果,均采用同一超参数且在同一数据集下进行对比,且每种方法进行10 组实验取平均结果。从表9中可以看出由于BEM- RCNN-NE没有采用非端到端的结构,在Precision、 Recall、F1-score、Accuracy这四个指标上分别下降了1.68%、2.01%、1.99% 和1.98%。这验证了采用端 到端结构的必要性。同时本文方法是在使用BEM 模块抽取语义特征的基础上,将语义特征与上下文深层特征进行融合,并采取端到端的结构以提高模型的性能。因此,后续在4.3的表11中将本文方法与BERT、 TextRCNN方法开展对比实验,验证了将语义特征与上下文深层特征融合后能够提升AIGC识别效果优于仅单独使用BERT或RCNN结构进行AIGC识别任务。



_

表9   与非端到端结构方法的对比实验


_


4.3   对比实验


在对比实验中,我们将本文方法与机器学习和深度学习方法进行比较。以进一步验证本文方法的优势,和探究当前主流的方法能否识别在线社区中的AIGC。表10为与机器学习方法的对比实验,加粗的为该项最高的值。我们同样选择Precision、Accuracy、Recall和F1-score这四个指标的平均结果,对不同方法的性能进行衡量,且每种方法进行10组实验取平均结果。



_

表10   ᅠ与机器学习方法的性能对比实验


_


从表10中可以看出本文构建的BEM-RCNN算法在 Precision、Recall、F1-score和Accuracy四个指标上均表现优异,高于其他7种主流的机器学习算法。从图中可以看出,在Precision、Recall、F1-score和Accuracy上,本文方法比机器学习方法中性能最好的BERT-XGBoost方法在分别高出4.18%、4.10%、4.03%、4.06%,比BERT-SVM方法分别高出6.98%、6.79%、6.86% 和6.89%。


在这些机器学习方法中,BERT-XGBoost和BERT-RF方法由于都属于集成学习类算法,而集成学习能通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性,因此其性能在众多机器学习方法中仅次于本文方法。BERT-RF方法的树的数量选择为20。


此外,BERT-SVM、BERT-NB和BERT-LR在该任务上准确度达到90%左右,比本文方法低6%左右。这是由于本文研究的AIGC识别方法属于二分类文本任务,且整体数据量在10万左右。在这种数据量及以下, BERT-SVM、BERT-RF等优异的机器学习方法在准确度方面会与深度学习方法非常接近。这与类似的文本二分类任务中的表现一致。其中,在BERT-SVM方法中我们选择RBF(高斯核函数)作为核函数,拥有对非线性数据较强的处理能力,这也是BERT-SVM能够取得较好性能的原因之一。BERT-LR方法采用lbfgs为求解器,BERT-SVM方法的惩罚系数选择为1.0。


同时,BERT-DT方法在准确度上又比BERT-RF等方法低了3%左右,这是因为BERT-DT方法是一种以决策树作为基本的分类与回归方法,而BERT-RF则是由多个决策树所构成的一种集成分类器,更准确地说, BERT-RF是由多个弱分类器组合形成的强分类器。在参数规模上,BERT-DT比BERT-RF要小,因此其Precision、Recall、F1-score和Accuracy分别为0.8745、0.8744、0.8745和0.8745,均低于BERT-RF、BERT-XGBoost等优异的机器学习方法。我们还发现BERT-KNN 方法性能最差。这是由于BERT-KNN对于噪声非常敏感,当时数据量增大到10万左右,BERT-KNN方法受到的噪声干扰较大,因此取得的效果不理想。


虽然机器学习算法性能比本文方法差,但诸如 BERT-XGBoost和BERT-RF等优异的机器学习方法仍然能够在一定程度上区分人类和AI撰写的博文。这也证明过往针对人类撰写内容的机器学习方法同样适用于识别AIGC。


整体看来,机器学习方法能够取得不错性能主要是得益于用做嵌入表示的BERT中文预训练模型,其在大量无标签的中文文本数据上进行了预训练,能够捕捉到丰富的中文语言知识,使得后续的任务表现出优异的性能。此外,这些机器学习方法在训练和推理任务中均由BERT模型和一个机器学习方法构成,相比之下,这些方法并没有轻量太多,但本文方法在性能上却有较为显著的优势。


如表11所示为与深度学习方法的对比实验,每种方法同样进行10组实验取平均结果。表11中展现与表10相似的对比结果。本文方法在各个指标上也均高于其他深度学习算法。以Accuracy来看,深度学习方法的性能从高到低分别是:BEM-RCNN、ERNIE、BERT、TextRCNN、TextRNN、TextCNN、和FastText。BERT是深度学习方法中用于文本内容识别最常见的方法。在Accuracy方面,本文构建的BEM-RCNN方法比BERT高了1.20%,比TextRCNN 方法高了1.45%。由于当准确度达到95%后,每提升1%难度都很大,因此该提升也较为显著。此外,通过将本文方法与BERT和TextRCNN方法的对比结果,也证明了将语义特征和长文本的上下文深层特征进行融合能够提升AIGC识别性能。



_

表11   与深度学习方法的性能对比实验


_


ERNIE得益于其结构更适合中文内容,因此在四个指标上相较于BERT具有微弱的优势。TextRCNN、 TextCNN和TextRNN的性能稍弱于BERT和ERNIE方法,但也在该任务上表现了不错的性能。FastText的性能最差,其Precision的值为0.9355,其Recall的值为0.9350,其F1-score的值为0.9344,其Accuracy的值为0.9344。此外,通过这些实验也反映了当前的深度学习方法依然能够在一定程度上胜任AIGC识别任务。


4.4   讨论


在数据集构建部分,以微博平台为例,我们发现让ChatGPT模拟人类去撰写的内容与人类直接撰写的内容相比,在不同话题下均非常接近,具有高度的拟人化,这显示了当前AI强大的学习能力。同时,我们并没有指定字数,但在最后的平均字数方面,却与人类撰写的内容高度接近,这意味着生成式人工智能学习到的可能不仅仅是人类表达中的语义特征、结构特征和句式,甚至包括了字数和语句长度等容易被忽略的特征。因此,研究人员需要进一步关注AI与人类创作内容之间的细微差异。在方法的性能验证实验部分,本研究还发现AI模拟人类撰写的内容相较于人类直接撰写的内容更难以识别。



_

5

结论


_


针对在线社区中AIGC的识别问题,本文构建以BEM-RCNN为主的方法去识别在线社区中的AIGC,该方法融合语义信息和上下文深层特征,并采取了端到端的结构以提升对AIGC的识别性能。本文在多个在线社区平台上构建了真实的数据集,并探究了6种深度学习方法、7种机器学习方法和本文提出的方法能否用于识别社交媒体中来自于生成式人工智能模型的AIGC。实验结果显示,本文方法在多个指标上均具有最高性能。因此,本文方法能够识别出在线社区平台中大部分由AI撰写的内容。本文探究的6种深度学习方法和除BERT-KNN以外的其他6种机器学习方法也能够在一定程度上胜任AIGC识别任务。总而言之,本文提出的AIGC识别方法、对多种主流方法在AIGC识别任务上的探索以及数据集的构建过程,对防范AIGC带来的一系列风险和治理在线社区信息生态有重要意义。


当然,本文仍存在一些局限性。首先,现有数据可能无法替代全部的在线社区平台,我们将来会在更多的国外在线社区平台上获取数据进行相关试验,并采用更先进的生成式人工智能模型生成数据后,再进行相关试验。其次,可以采用多特征融合的方式进行AIGC识别,不同类型的特征在提取和融合的时候最好采用端到端的结构,这种结构设计难度较大,但是效果更好,后续我们将结合AIGC的语义特征、语法特征、情感特征、主题特征、层次特征等对其进行识别和比较研究。最后,当前的ChatGPT等生成式人工智能虽然能够读取图片和视频,但主要输出文本内容,文心一言等大语言模型能够同时输出文字、图像等信息,后续我们将探索针对多模态内容的AIGC识别方法,以便防范快速进化的生成式人工智能对在线社区生态的负面影响。



_

*参考文献略,请详见原文。


_





END






版式设计

陆澜


制版编辑

王淳洋





关注公众知识状态 / 引领学科发展潮流

Focusing on the State of

Public Knowledge

Leading the Development Trends of

the Discipline


网络首发 | ChatGPT类生成AI对高校图书馆数字素养教育的影响探析

网络首发 | 生成式智能出版的应用场景、风险挑战与调治路径

网络首发 | 生成式智能出版的技术原理与流程革新

网络首发 | 生成式人工智能治理行动框架:基于AIGC事故报道文本的内容分析

网络首发 | AIGC介入知识生产下学术出版信任机制的重构研究


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存