"); //-->
3. 准备工作
将对话策略作为知识注入到预训练对话模型,需要在数据和知识层面做一些准备工作。如上图所示,将英文开源数据集进行综合,形成英文任务型对话 DA 体系——UniDA,共 5 大类,20 个标签,100 万份有标注的数据,3500 万的无标注数据,如下图所示:
整理好以上知识之后,如何定义预训练的任务?如上图所示,选用的是显式建模对话策略,即给定对话历史,预测下一轮系统端的 DA,即做成分类任务,预测下一轮的 DA 标签。
4. 半监督方案设计
有了数据,有了知识,有了显式建模方式,就可以进行半监督的学习。如上图所示,半监督学习的方案主要由以上三种方式:判别式方法、生成式方法、对比学习方法等。
由于判别式方法和生成式方法比较常规,所以先对以上两种方法进行探索。结果表明以上两种方式做出来的效果并不好。如上图所示,针对判别式的方法,对有标数据,可以新加一个损失函数 LDA ,但是对于无标数据,无法添加损失函数。针对生成式的方法,也是同样的道理。即 Self-Predict 和 VAE 的方法,对于有标数据建模是不错的,但是对于无标数据的建模效果不好,因为基于⾃预测的⽅法通过模型参数共享,实现弱约束,基于 VAE 的⽅法通过重参数化 Trick 进⾏梯度回传,但隐变量不稳定。
基于上述问题,我们希望通过对比学习,进行半监督学习的探索。针对有标数据可以轻松地加上 LDA 损失函数,而针对无标数据如何做,这里引入一致性损失函数。如上图,我们对同一个样本,过两遍图右边的模型结构,每一遍都有 Dropout 进行随机处理,所以,两次的样本编码不一致,但是,相差不会很远,距离应该很近。整体思想如下:
基于少量的有标数据和大量的无标数据,通过有标数据学习一个支持的概率分布,对于无标数据,进行两次学习,每次过模型都生成一个向量,这两次生成的向量的距离,应该是很近的。通过这种对比学习的半监督学习方式,很好地解决了半监督学习有标数据和无标数据结合的问题。
模型的效果非常好,在 MultiWOZ2.0 和 MultiWOZ2.1 实现了 5.3% 和 5.5% 的提升。以前的模型提升只能在 1% 或者 2% 的提升,而 SPACE 带来了 5% 以上的提升。
拆开细看,以 MultiWOZ2.0 为例,模型的提升主要体现在 Success 和 BLEU 等方面,因为对话策略对于 Success 对话完成率和 BLEU 对话回复生成至关重要,这说明通过半监督,模型很好地学会了这类知识。
除了对全量数据的测试,也在少量数据进行了测试,如上图所示,分别在 5%、10%、20%、50% 等数据量上进行了对比实验,可以发现 SPACE 模型在不同数据量上也带来了显著的提升。
以上主要讲解我们提出的知识注入的方式,半监督训练 SPACE 模型,在预训练上面显著提高预训练模型的效果。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
英伟达CFO:我们早就知道内存大涨价要来了
基于Microchip MCU的AI/ML培训教程1
基于Microchip MCU的AI/ML培训教程2
释说芯语16:硬科技:构建企业未来之路(附PPT)
人工智能是如何帮助阻止造假者的?
AI 驱动估值飙升:光通信半导体企业市值暴涨
WTC-AI太阳能热水器电路图
赋能边缘端对话式人工智能
万家乐JSYZ5-AI燃气热水器电路图
GPU:面临工作负载转变的高吞吐架构
AI竞争进入下半场:从“卷参数”到“卷单价”
基于Microchip MCU的AI/ML培训教程3
继上次海联达Ai-ap100拆机之电源改造
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
EEPW2018年6月刊(5G)
AI热潮引发多层陶瓷电容MLCC供应短缺
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
尼吉康的事业介绍
电子元件培训教材
基于VisitionX制造智能眼镜
基于Ai-WB2-12F与Rd-04的雷达检测系统
WTC-AI型太阳能热水器电路图
iCAN-4017 AI功能模块
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
CSR8670CSR8675智能语音Alexa蓝牙方案开发
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
EEPW2018年3月刊(工业物联网)
海联达(Aigale)Ai-HD1 无线全高清套件拆解
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability