专栏中心

EEPW首页 > 专栏 > 达摩院SPACE大模型：知识注入与知识利用（2）

达摩院SPACE大模型：知识注入与知识利用（2）

发布人：数据派THU 时间：2022-11-20 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

3. 准备工作

将对话策略作为知识注入到预训练对话模型，需要在数据和知识层面做一些准备工作。如上图所示，将英文开源数据集进行综合，形成英文任务型对话 DA 体系——UniDA，共 5 大类，20 个标签，100 万份有标注的数据，3500 万的无标注数据，如下图所示：

整理好以上知识之后，如何定义预训练的任务？如上图所示，选用的是显式建模对话策略，即给定对话历史，预测下一轮系统端的 DA，即做成分类任务，预测下一轮的 DA 标签。

4. 半监督方案设计

有了数据，有了知识，有了显式建模方式，就可以进行半监督的学习。如上图所示，半监督学习的方案主要由以上三种方式：判别式方法、生成式方法、对比学习方法等。

由于判别式方法和生成式方法比较常规，所以先对以上两种方法进行探索。结果表明以上两种方式做出来的效果并不好。如上图所示，针对判别式的方法，对有标数据，可以新加一个损失函数 LDA ，但是对于无标数据，无法添加损失函数。针对生成式的方法，也是同样的道理。即 Self-Predict 和 VAE 的方法，对于有标数据建模是不错的，但是对于无标数据的建模效果不好，因为基于⾃预测的⽅法通过模型参数共享，实现弱约束，基于 VAE 的⽅法通过重参数化 Trick 进⾏梯度回传，但隐变量不稳定。

基于上述问题，我们希望通过对比学习，进行半监督学习的探索。针对有标数据可以轻松地加上 LDA 损失函数，而针对无标数据如何做，这里引入一致性损失函数。如上图，我们对同一个样本，过两遍图右边的模型结构，每一遍都有 Dropout 进行随机处理，所以，两次的样本编码不一致，但是，相差不会很远，距离应该很近。整体思想如下：

基于少量的有标数据和大量的无标数据，通过有标数据学习一个支持的概率分布，对于无标数据，进行两次学习，每次过模型都生成一个向量，这两次生成的向量的距离，应该是很近的。通过这种对比学习的半监督学习方式，很好地解决了半监督学习有标数据和无标数据结合的问题。