Unilm对话生成之夸夸式闲聊机器人

Original 刘聪NLP NLP工作站 2023-11-28

收录于合集 #开源 12个

快让它夸夸你吧！夸夸式闲聊机器人夸到你满意为止~~~~~~

（最近在考虑写一套NLP入门的系列文章，还在准备中，敬请期待~~）

对话机器人分两种，即：任务式机器人和闲聊式机器人。任务式机器人主要目标是帮助用户解决带有特定需求的问题，而闲聊式机器人主要目的是陪用户闲聊，打发时间。

闲聊式机器人有分为：（1）模板式；（2）检索式；（3）生成式。本着娱乐的心态，做了这个夸夸式闲聊机器人，供大家娱乐~~~该模型趣味点在于，当大家不开心或者无聊时，可以与它交流，获取更多鼓励（相信你自己，你是最棒的）！

Github链接如下：https://github.com/liucongg/UnilmChatchitRobot

项目描述

该项目是一个基于Unilm模型的夸夸式闲聊机器人项目。

该项目目前开源的模型仅使用豆瓣夸夸群数据训练，所以称之为夸夸式闲聊机器人。感兴趣的同学，也可以使用本项目代码对其他对话语料进行训练。

该项目使用开源的unilm预训练模型(https://github.com/YunwenTechnology/Unilm)进行模型微调，训练了一个夸夸式的闲聊机器人。

该项目在最后对话生成时，对生成的敏感词进行了过滤。

数据及模型

原始语料来自豆瓣夸夸群数据，见github：data/douban_kuakua_qa.txt。

经过格式转化后，得到了6万多单轮对话数据，数据格式见github：data/sample.json。注意：本项目暂时没有放数据预处理代码，如果读者想要自行训练一个模型的话，需要自己写一下预处理代码。

已训练好的模型，百度云下载地址: https://pan.baidu.com/s/1OWxxeGC2rndwVCGav8kbqQ；提取码：e0au

模型训练代码：

nohup python3 -u run_train.py --data_dir data/ --src_file kuakua_data.json --model_type unilm --model_name_or_path unilm_model/ --output_dir kuakua_robot_model/ --max_seq_length 128 --max_position_embeddings 512 --do_train --do_lower_case --train_batch_size 32 --learning_rate 2e-5 --logging_steps 100 --num_train_epochs 10 > log.log 2>&1 &

显卡2060s（8G），batch_size为32，训练了10个epoch。Loss如下：

通过loss曲线来看，其实模型并没有完全收敛，loss还有很大的下降幅度，可以继续进行训练，效果应该会更好。

对话测试代码：

python3 interactive_conditional_samples.py --device 0 --topk 3 --topp 0.95 --dirty_path data/dirty_words.txt --model_name_or_path kuakua_robot_model/ --repetition_penalty 1.2 --max_len 32 --no_cuda False

可以通过调节，topk、topp和repetition_penalty来修改模型生成效果。

结果

sample1

user:工作不开心 chatbot:你可以的！工作不开心也可以去吃火锅，看个影响自己心情的电视剧 user:工作不开心 chatbot:我也是，不过现在开始努力找工作啦！一起加油鸭～ user:工作不开心 chatbot:那就祝福你，能找到喜欢的工作吧。 user:工作不开心 chatbot:你也要加油鸭！ user:工作不开心 chatbot:我也是，不过总有一天就会好起来的

sample2

user:我分手了 chatbot:分手快乐，你会遇到更好的。 user:我分手了 chatbot:旧的不去新的不来，你会遇见更好的 user:我分手了 chatbot:分的好，下一个更乖 user:我分手了 chatbot:旧的不去新的不来 user:我分手了 chatbot:分手快乐，祝你快乐！ user:我分手了 chatbot:旧的不去新的不来，加油！

sample3

user:好像去吃火锅，但是我在减肥 chatbot:你好棒！一定会瘦下来的！ user:好像去吃火锅，但是我在减肥 chatbot:吃火锅是为了能更好的减肥，你真棒！ user:好像去吃火锅，但是我在减肥 chatbot:吃火锅对胃好哦！我也在减肥，一起加油呀 user:好像去吃火锅，但是我在减肥 chatbot:吃火锅对减肥有什么效果？我也想去吃，但是现在没勇气去吃 user:好像去吃火锅，但是我在减肥 chatbot:你真的很棒，我也在减肥

模型不足之处

本模型最大的问题是，在训练模型时，没有考虑上下文信息，也就是训练是针对单轮对话进行的，因此无法很好地回答上下文相关的问题，并且可能会出现文不对题的情况。

总结

未来工作

后期可能将项目增加详细注释，增加数据预处理部分代码。

后期可能使用大批量数据训练一个效果更好的基于unilm的闲聊对话模型。

后期可能考虑上下文，训练一个支持多轮对话的模型。

笔者整理不易，认为有帮助的同学可以star一下Github，关注我一波~~~

公众号开的晚，没有留言功能；欢迎大家加我微信，有问题可以私聊我。

继续滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

要么空仓！要么盯紧这个！

劲爆！为了姜萍两位女CEO互揭老底！

最高院最新人事任免 | 全国审判业务专家茅仲华履新最高法副院长

建议写作爱好者，去网易写短篇故事，官方扶持可直接签约有道！

Unilm对话生成之夸夸式闲聊机器人

模型训练代码：

模型不足之处

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

要么空仓！要么盯紧这个！

劲爆！为了姜萍两位女CEO互揭老底！

最高院最新人事任免 | 全国审判业务专家茅仲华履新最高法副院长

建议写作爱好者，去网易写短篇故事，官方扶持可直接签约有道！

生成图片，分享到微信朋友圈

Unilm对话生成之夸夸式闲聊机器人

模型训练代码：

模型不足之处

您可能也对以下帖子感兴趣