查看原文
其他

保姆级教程|我如何用AI爬虫、画可视化、写稿

澎湃美数课 澎湃美数课 2023-06-29

先进生产力,

暂时拖了后腿


前阵子,课代表尝试了一件新事—— 🔗 ChatGPT 来爬取和分析上影节的十年片单。

按照我原本的工作流程,我会使用某款爬虫软件获得上影节片单豆列的信息、用 Excel 和代码来分析上影节片单数据,接着让设计师来设计和美化图表。

但这次我“偷懒”使用了当下流行的 AI 聊天机器人 ChatGPT,用它来全程帮我爬取、分析和可视化上影节片单。以下就是我使用 ChatGPT 的心得体会,最后我还会用它写一篇上影节数据新闻。如果同学们看完有什么疑惑或者更好的使用方法,欢迎在评论区留言!



丝滑分析、坎坷可视化



这张图就展示了,我和 ChatGPT 的斗智斗勇——在 ChatGPT 帮忙的情况下,我要工作的时间至少多了一倍还不止。

实际使用中,等待 ChatGPT 出一次分析结果的时间仅需 5-10 分钟。但问题是,花费在与ChatGPT 沟通的时间一点都不少。

尽管如此,ChatGPT仍然超乎预期,完成任务。



操作方法


ChatGPT 带给我许多惊喜,但不得不说,我们要学会如何与它沟通,以及它仍然有许多使用 Bug。具体地说,想用 AI 辅助分析上影节片单,我经历了以下两个步骤。


1⃣️ 让 ChatGPT 生成 Python 爬虫代码 


🔵耗时:4h+

🔵插件:能让 ChatGPT 联网的 WebPilot

🔵咒语:请根据这个网页的实际结构,帮我写 Python 代码,实现自动翻页爬取这个网页上的全部电影信息,并导出相应的 csv 文件,https://www.douban.com/doulist/149258212/

🔵过程:大多数时候,扮演一个“复制粘贴”机器人:让 ChatGPT 生成爬虫代码——将代码放进 Jupyter Notebook——代码运行出现错误——将反馈信息复制黏贴到 ChatGPT——将修改后的代码放进 Jupyter Notebook



🔵问题:ChatGPT 一开始没有注意到部分电影缺少主演信息,因此导致爬取到的数据出现错位的情况

🔵解决办法:告诉 ChatGPT 用 WebPilot 插件分析网页的实际结构,编写正确代码



Tips


1、大胆向 ChatGPT“无脑发问”

2、尽管 WebPilot 能抓取到上影节豆列的信息,但是它容易崩溃、爬取不全,还会试图编造信息,所以倾向于选择让 ChatGPT 帮写 Python 代码来获取片单信息。但如果只是简单的网页信息,用 WebPilot 没有问题



3、组合使用 WebPilot 和 Noteable 插件。在我们这个案例里,可以让 ChatGPT 新增“性别”列,在网络上检索主演或导演的相应性别,并填入“性别”列。但问题在于,实在是太慢了,还容易出错崩溃。感兴趣的同学可以尝试一下!



2⃣️ 让 ChatGPT 自动分析和可视化这些数据 

🔵耗时:9h 沟通时间 +5m 出分析结果

🔵准备动作:上传数据集到 Noteable 或 Github 等可公开访问的平台。(注意:提供给 ChatGPT 的需要是文件的链接,而不是类似共享文档的链接)

🔵插件:能在线数据分析和可视化的 Noteable、能让 ChatGPT 展示图表的 Show me

🔵咒语:请上传这个上影节片单数据集 https://github.com/xxx/allsiff.xlsx,请充当一名数据分析师,分析这个数据集,并生成图表,看看有什么发现?


使用 ChatGPT 的数据分析插件 Noteable,自动分析上影节 10 年片单。


🔵过程:提出具体分析要求,比如“用柱状图展示来,出现最多的前十个主演”“选择合适的可视化方式”“降序排列”“导出数据”等

🔵问题:1.生成的图表难以显示中文字体;2.有时候难以加载数据集;3.等待时间有点久

🔵解决办法:1、Noteable 插件自动生成的图表,实际上是 Noteable 平台自动在后台编写了相关代码。因此,当遇到生成的图表难以显示中文字体时,我们可以手动添加代码


Noteable 平台后台。


2、直接在 Noteable 平台上传数据集,写清楚项目名称和文件名称


Tips


1、要有耐心

2、提出具体需求和问题,不能单靠 ChatGPT 自行发现数据集的规律或者亮点




ChatGPT 挑战写数据新闻稿


最后,我在这里补上一段 ChatGPT 写的上影节数据新闻吧,让大家感受一下 ChatGPT 的写稿魔力(它又开始胡编了……)。

上海国际电影节,作为亚洲最具影响力的电影节之一,每年都吸引了来自全球的电影人和观众。近日,我们对过去十年的电影节数据进行了深入分析,发现了一些令人惊喜的趋势和亮点。

电影节的影响力在逐年增强。根据我们的数据,电影节的电影数量在过去的十年中有了显著的增长。特别是在过去的五年,电影数量增长了近 50%,这不仅反映了电影节的影响力和吸引力在逐年增强,也表明了全球电影产业的繁荣。



主演和导演的影响力不容忽视。在过去的十年里,有一些主演和导演的名字频繁出现在电影节的电影中。例如,主演张国荣和导演王家卫(注:正确结果应为导演让-吕克·戈达尔)的作品在电影节上的出现次数位列前十。他们的作品无疑给观众留下了深刻的印象,也在电影界树立了他们的地位。




上映次数最多的电影是电影节的热门之作。我们还找到了十年来,上映次数最多的前十部电影。例如,电影《霸王别姬》和《大闹天宫》(注:正确结果应为下图中的电影)的上映次数位列前十。这些电影无疑是电影节的热门之作,它们的故事和表演吸引了大量的观众。



上海国际电影节,作为全球电影界的一大盛事,每年都为我们带来了无数精彩的电影作品。通过对数据的分析,我们可以更好地理解电影节的发展,更好地感受到电影的魅力。在未来,我们期待看到更多优秀的电影在电影节上亮相,更多的导演和演员通过他们的作品影响观众,更多的类型的电影满足观众的口味。同时,我们也期待看到电影节的影响力进一步提升,吸引更多的观众和电影人参与其中。


如果同学们有什么问题,或者有更好的使用方法,欢迎在评论区留言!  





往期推荐


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存