查看原文
其他

为什么ChatGPT回答得很差,你非要说它很厉害?(GPT社会学第2期)

孙宇凡 社会学理论大缸 2023-08-19

文/孙宇凡
首发:23年2月17日


ChatGPT真的厉害吗?

为什么它明明回答得很普通甚至很差,但为什么你夸它又聪明又强大?

说说你问过GPT哪些问题、它又是怎么回答你的。你真的有过100%满意过吗?你觉得它真的像一个人吗?

为什么它的表现明明只是一个“很会抄作业”的小镇做题家水平,但你却说它是人类未来,还觉得它能抢你的工作?

是我们高估了还是低估了GPT?

问题的关键在于,你用什么作为评估标准?

GPT比淘宝客服那样的聊天机器人更不呆版?

GPT比搜索引擎又更精准定制化?

或者,我们只是拿未来的期望作为当下评估标准?

不知道你有没有发现:你在理解GPT表现水平的时候,并非100%依据它自身的技术实力,而在于你怎么和它互动、怎么看它——这种象征互动的视角,正是社会学的核心


同样一个“抄作业”的水平回答,如果是你的同事/朋友写给你,你觉得不走心不够好,但变成GPT给你,你就鼓掌了。

因此,有必要讲清楚:究竟,我们的评估标准是什么?如何影响我们看待GPT有待再发展的表现。

我前两天推了GPT社会学第1期,这是第2期。

ChatGPT时代,北大将不如蓝翔技校?(GPT社会学第1期)


1 –GPT到底怎么样,早就有企业版评估了


到底人类是怎么和GPT互动的?怎么看待GPT的能力的?

口说无凭,我想给你看一个实例研究。

这个实例来自伦敦大学皇家霍洛威学院信息系统和数字化转型教授Amany Elbanna和她的学生的研究。Elbanna教授就是专攻研究工作场所里的AI系统应用,甚至也研究过“码农”怎么和AI协作。

她在最近和博士生研究发表的论文,就是对一家跨国公司的实地调查。这家公司运用Azure云计算平台,自己开发了企业版GPT。其实,一开始这家公司也只是想做点简单的文书整理工作,但后来发现降低成本效果好呀,而且也有一些员工很愿意使用,于是就越拓展越多,慢慢涵盖了人力、财务等部门的工作。

你会好奇了,还有企业版GPT?早就有了!类似于GPT的聊天式人工智能机器人,早就有应用,但不是给个体公众,而是给企业。

想一想:ChatGP有什么特点?至少有两个方面,你绝对会接受:一是对话聊天;二是超强计算。如果没有后者,根本不可能你感觉对话聊天这么强大。

投资GPT所在公司Open AI的是微软,而微软最大的平台,除了你用的Windows系统,就数他的云计算平台Azure。

如果你是个人用户,那确实可能不大了解,但你要是需要用云计算的企业,那肯定听过Azure。简单地讲,你以为苹果的iCloud这么强大,肯定是它自家搭建的。但苹果其实是托管在微软的Azure。

由于Azure的计算能力,也发展了类似于GPT的对话功能(叫:Microsoft Bot Framework),所以企业也可以用这个云平台做深度开发,比如搭建自己人工智能软件。因此,早就有一些企业借助Azure开发内部使用的ChatGPT。

在你看到公众版、面向个人的GPT的时候,早有一些商务版、面向企业的GPT了。

这些企业内部使用的GPT,既整合公司的档案资料,能当好你的存储库,也可以提供定制服务。比如,当你想请假的时候,直接问下企业型GPT,就可以帮你列好请假单和申报人力部门了。这样的企业版GPT,和你现在用得类似,都可以机器学习,也是用自然语言模型,只是它的训练来源不是抓互联网上的所有内容,只是企业内部资源。

他们研究发现什么呢?大家怎么看GPT的表现呢?


3 – GPT回答不好怪谁?四种归责态度


要理解大家怎么看GPT的技术,关键在于当它表现不好的时候,大家是怎么看。

毕竟,GPT表现好的时候大家都说漂亮话,但表现不好的时候,怎么甩锅,才能说明真实态度。


第一种:GPT回答不好,全由机器担责

Elbanna教授发现,有些员工甚至在刚用一次企业版 GPT,就不再用了,因为他们只把GPT当成支持自己日常工作的普通工具而已,也没兴趣理解它有机器学习、参数迭代这些功能,根本不在意它的技术潜力。

有一位受访者就直接说:“如果你现在问我它是什么,我认为它只是一个搜索引擎。”

由于对机器学习技术不感兴趣,他们进一步发展两点评估:一是他们会觉得自己对在和AI互动时,自己是被动的,不考虑自己如何改进问题/关键词以提升AI的回答水平。二是他们觉得如果AI回答不好,那责任全部都在它自己身上。

不过,对这类归责的人来说,也很容易用不久GPT就放弃不用了。

第二种:GPT回答不好,责任在提问的真人

你可能会好奇,还有人会这样想?当然了!

当你持续地使用GPT的时候,其实你容易把它拟人化,不仅是工作或学习的助手,也类似于同事、伴侣甚至自家小孩一样。Elbanna教授研究就发现,有些使用企业版GPT的员工就说:“我总是与它聊天,但就像在和一个人聊天一样;其实我并不是在寻找什么信息。” 也有员工说:“要是你与真人交谈时能像人工智能一样就好了,因为你和人工智能说话时,你是感觉到有人在听你说话。”

由此,当这类人理解了什么叫机器学习,什么是自然语言模型的时候,一旦发现GPT回答不理想,你就会像对朋友一样为它主动承担责任:“GPT答不好,责任不在GPT,而是我没有问好。”“我应该调整下我的提问方式才对”。甚至,还有受访者说:当GPT回答不出来的时候,自己还会GPT感到难过。

甚至,一位受访者很同情地说:“我理解它的本质,它需要从数据中学到很多东西。当它没有很多数据可以用的时候,所以很明显不会马上得到最好的答案。”

这妥妥的是GPT把人训练成好伴侣了~~


第三种:GPT回答不好,怪底层技术,我和GPT都没有责任

这类使用企业版GPT的人,往往是技术狂热主义者,很喜欢探索技术如何融入生活和工作,也理解什么叫机器学习什么叫自然语言模型。

由此,他们发展出对机器人的互动模式不再是被动,而是主动的。比如,一位受访者说:“我会时不时地挑战机器人,看看它是否能为我提供解决方案。”

这意味着技术进步派喜欢不断调整自己的搜索词等表达,看看企业版GPT会不会给出不一样的回答。如果答题不理想,他们既不会怪自己,也不会怪机器人,而是觉得这就是现在的技术水平有限,谁也没办法。

由于专注技术因素,所以这一派使用企业版GPT时也没有情感因素,不认为自己是在像人一样的对象互动,而是将其视为增强版的虚拟助手。


第四种:共同责任派

如果企业版GPT给出的答案不理想,我和GPT都有责任。为什么会这样想呢?

因为这一派使用者确实像技术宅一样都是理性态度,不会有什么拟人化或移情化,不会像上面那样同情人工智能。他们之所以信任AI,是因为觉得它在深度和广度上技术表现厉害而已。

所以,这类人能够比较理性的判断双方的共同责任:一方面,自己要调整关键词重新提问,问得准才能答得好。另一方面,企业版GPT确定技术不够成熟,还需要时间来学习迭代自己。

你在遇到GPT回答不好的,会用哪种态度来评估它呢?


文献来源:

Gkinko, Lorentsa, and Amany Elbanna. 2023. ‘The Appropriation of Conversational AI in the Workplace: A Taxonomy of AI Chatbot Users’. International Journal of Information Management 69:102568. 

* 这是社会学理论大缸的第733期推送 *

ChatGPT时代,北大将不如蓝翔技校?(GPT社会学第1期)

热点解读| 数字社会学是什么?研究资源汇总,全网首发!最齐全!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存