如何向大模型注入知识？达摩院通义对话模型SPACE系列探索（2）

发布人：机器之心时间：2022-10-19 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

2.4. SAPCE-1 结果

最终 SPACE-1 借助半监督注入策略知识的能力，在这些经典的对话榜单上均大幅超过了之前的 SOTA 模型，端到端混合分数在 In-Car，MultiWOZ2.0 和 MultiWOZ2.1 分别提升 2.5、5.3 和 5.5 个点：

图 13 SPACE-1 在 MultiWoz 2.0 等数据集上带来显著提升
以上的结果充分证明了半监督预训练的效果。进一步详细分析如下图所示，Success 是对话完成率指标，BLEU 是对话生成指标，对话策略对于这两个指标有重要影响，注入对话策略知识后的大模型，在这两个这两个指标上带来了显著提升。

图 14 SPACE-1 效果详细分析
3. SPACE-2：从封闭集知识到开放集知识
3.1. 开放集知识
SAPCE-1 主要将对话策略知识注入到预训练模型的过程中，但是仍然存在一些局限，首先 DA 标签体系比较简单，因为只有 20 个类别；其次，DA 的标签体系是一个封闭集，虽然对于人机对话是非常重要的，但从知识的角度来看，仍然是比较简单。对于整个对话系统来说，语言理解所涉及的知识会更加复杂，比如一个 query “市中心有什么好吃的吗？”，首先这句话有意图信息（找餐馆），其次对于餐馆位置等属性一般作为是槽位信息。在广泛的对话场景下，对于意图和槽位的人类标注，其实也可以看做知识的一种形态。所以我们希望 SPACE-2 能完成从简单封闭集知识到复杂开放集知识的跃迁，很好的利用已有的标注数据。

图 15 两种知识形态：简单的封闭集知识和复杂的开放集知识
3.2. 语义树标签
沿着这个思路，我们首先要解决一个难点，已有的复杂开放集知识不是一个简单的封闭集合的分类任务，不同数据集的体系更加复杂不一致。我们通过提出语义树结构对所有任务型对话数据集的用户侧理解标签进行统一，从 domaim、intent、slot、value 等四个层次进行树状标签的构建。比如对于 query “附近有好吃的川菜馆吗”，其 domain 为 restaurant，intent 是查找餐厅，slot 是菜系，value 是川菜，就可以完成一颗语义树的构建。利用这个思路，我们整合学术界已有的 32 个有标对话数据，提出 AnPreDial（300 万），同时整合已有的 19 个无标对话数据，提出 UnPreDial（1900 万），作为 SPACE-2 的预训练数据。

图 16 语义树标签
3.3. 半监督对比学习
与 SPACE-1 类似，我们仍然采用半监督对比学习的思路进行知识注入，有标注样本采用有监督对比学习，无标注样本采用自监督对比学习。而对于有监督对比学习，当前的语义树知识不是独热（one-hot）的，而是可度量的相似度标签。比如 query A 表达的是“能不能帮我在城东找一家比较便宜的宾馆”，而 query B 表达的是“你能不能在城西帮忙找一家便宜的宾馆”，这两句话的语义树标签之间的相似度是可度量的，具体的度量方式我们通过两个 query 标签解析出的语义树进行计算，将语义数按照节点和路径的组合，拆分为 10 种不同的情况 {D, I, S, V, DI, IS, SV, DIS, ISV, DISV} 其中 D 表示 domain，I 表示 intent，S 表示 slot，V 表示 value。最终按照路径和节点的重合程度，计算 Jaccard 距离作为 soft label 值，最终作为半监督学习的标签。

图 17 语义树相似度度量
因为两个样本之间，可能只有部分是相似的，所以根据语义树的特点，我们进一步提出了 Multi-view scoring 的学习策略，在最后预测的过程中加入不同子空间的映射矩阵，用不同子空间对部分相似的样本进行显式建模。

图 18 采用多视角（Multi-View）分别对不同的子结构进行显式建模
通过这种策略，可以通过 soft label 度量 batch 内任意两个样本的相似度，最后通过 weighted 对比学习的方式进行优化。下图可以看出，相比于自监督的对比学习（自己和自己作为正例，batch 内其他样本作为负例）和全监督的对比学习（正负标签作为对比学习标签），SPACE-2 基于树结构的半监督对比学习方式，既能有效的利用标注信息，又能很弹性的退化为自监督对比学习，非常适合对话理解任务。

图 19 基于树结构的半监督对比学习
3.4. SPACE-2 结果
SPACE-2 在面向对话理解的榜单 DialoGLUE 上（意图识别、填槽、对话跟踪）全量测试和小样本测试总分均为第一，其中在全量测试上，SPACE-2 相比之前的 SOTA 提升 1.1%，在小样本测试上，SPACE-2 相比之前的 SOTA 提升 3.41，由此可以证明开放集知识对于对话理解的增益。

图 20 SPACE-2 注入了对话理解知识，在对话理解榜单 DialoGLUE 取得 full-data 和 few-shot 双榜单第一名
4. SPACE-3: 从单模块建模到一体化建模
面向单模块的预训练模型存在几个问题：

首先，模型的泛化性有限，无法很好的泛化到其他对话任务中，比如面向对话理解的模型很难再对话策略上有很好的效果；
对话任务具有流程型和时序性，理解 -> 策略 -> 生成是有先后顺序及相辅相成的，同时建模多个任务将能更充分的挖掘数据特征；
不同任务的标签知识如果能够同时以半监督的方式注入到预训练模型中，标注信息的增多，对于模型的优化也更有帮助。

为了克服这些问题，所以我们提出了 SPACE-3，希望将对话理解、对话策略、对话生成都统一到一个预训练对话模型中。
4.1. 一体化模型
我们换个角度来看人机对话，首先多轮对话是流动的，是对话双方不停地进行交互，但之前的预训练对话模型都是从单侧（用户侧 or 系统侧）进行建模，没有考虑他们之间相互的影响。另外，语义树是对用户侧的语言（utterance）进行理解的，DA 是对系统侧的语言（response）进行理解的，那么就可以将理解知识和策略知识进行双侧理解统一建模。

图 21 换个角度看人机对话
基于这个思路，我们希望能够模拟人类对话的思考路径，通过三个 Decoder 依次做理解、策略和生成，中间的结果可以用在各类对话下游任务上。在模型技术选型上，我们采取 UniLM 作为 backbone，将 1 Encoder + 1 Decoder 扩展为 1 Encoder + 3 Decoder 的结构，其中 Dialog Encoder 作为基础编码器通过 MLM loss 完成基础语言理解，而三个 Decoder 各司其职，Understanding Decoder 通过半监督对比学习进行对话理解，Policy Deocder 通过语义策略正则 loss 进行对话策略建模，最后 Response Decoder 通过传统的生成 loss 进行对话生成。

图 22 SPACE-3 模型架构
4.2. 双侧理解建模
策略 loss 的设计体现了我们对双侧理解的思想，首先在用户侧时刻，根据上下文和用户 utterance，经过 Policy Decoder 的预测的结果，和直接利用 Understanding Decoder 对下一轮 response 理解的结果，二者具有一致性。比如在下面的例子中，当模型接受 U1 + R1 + U2 为 context 的输入时 Policy Decoder 模块的结果，需要与 U1 + R1 + U2 + R2 为 context 的输入时 Understanding Decoder 模块的结果进行一致性约束，来引导模型对策略进行建模。

图 23 策略 LOSS 建模示例
同样的，在用户侧时刻，根据上下文和系统 response，经过 Policy Decoder 的预测的结果，和直接利用 Understanding Decoder 对用户 utterance 理解的结果，二者具有一致性。当模型接受 U1 + R1 + U2 + R2 为 context 的输入时 Policy Decoder 模块的结果，需要与 U1 + R1 + U2 + R2 + U3 为 context 的输入时 Understanding Decoder 模块的结果进行一致性约束，来引导模型对策略进行建模。

图 24 策略 LOSS 建模示例
4.3. SPACE-3 结果
最后，我们同时在对话理解任务、对话策略任务和对话生成任务上同时评测了 SPACE-3 的效果，在包含理解、策略和生成的 8 个数据集的综合评价上，取得当前最好效果。

图 25 SPACE-3 模型结果
5. SPACE-1/2/3 系列模型总结
这一年多来，我们通过提出半监督预训练新范式，向预训练对话模型中注入人类标注知识，打造了 SPACE 系列模型，共在 11 个国际对话数据集取得 SOTA，并且三个工作分别侧重对话策略、对话理解及统一建模。相关的论文已经被顶级会议接收。其中，SPACE-1 融合对话策略知识，被 AAAI 2020 录用；SPACE-2 融合对话理解知识，被 COLING 2022 录用；SPACE-3 集理解、策略、生成一体，被 SIGIR 2022 录用。

图 26 SPACE 1/2/3 系列模型
6. 未来展望

拓展更多任务：半监督预训练作为一个通用的预训练技术，不仅可以用于对话任务，对于更多的 NLP 任务, 甚至其他模态的任务都有应用的潜力；
融入更多知识：本文中我们对分类标注知识和树形语义知识做了探索，除此之外还有很多其他知识形态，如何进行更好的形式化表示，统一地融入到一个预训练模型中也是一个开放问题；
设计更好算法：目前的探索是基于一致性正则化的半监督预训练方案，但整个半监督领域还有 self-taught, co-training, deep generative modeling 等诸多方法，如何综合利用或设计更优的算法是一个重要研究课题；
放松数据约束：半监督学习要求标注数据和无标数据具有类似的数据分布，这一要求在真实场景中具有局限性，如何设计泛化性更强的半监督学习方法，放松对于无标数据分布的假设，是未来的一个发展方向。

特别鸣谢
灵骏为本项目提供智能算力支持，显著性加速了 SPACE 大规模预训练过程。灵骏是阿里云自主研发的新一代智能计算服务，以软硬件一体的系统性创新优化，使端到端计算效率得到飞跃式升级。支持自然语言处理、图形图像识别、搜索广告推荐等多种应用场景，具备高性能、高效率、高资源利用率等核心优势，可为大模型等前沿 AI 技术提供高拓展可预期的计算服务。
参考文献
[1] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019.[2] Brown T, Mann B, Ryder N, et al. Language Models are Few-Shot Learners. NeurIPS 2020.[3] Raffel et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLR 2020.[4] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. NeurIPS 2017.[5] Henderson M, Casanueva I, Mrkšić N, et al. Convert: Efficient and accurate conversational representations from transformers. EMNLP-findings 2019.[6] Wu C S, Hoi S, Socher R, et al. TOD-BERT: pre-trained natural language understanding for task-oriented dialogue. EMNLP 2020.[7] Zihang Jiang, Weihao Yu, Daquan Zhou, et al. ConvBERT: Improving BERT with Span-based Dynamic Convolution. NeurIPS 2020.[8] Zhang Y, Sun S, Galley M, et al. DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation. ACL system demonstration 2020.[9] Adiwardana D, Luong M T, So D R, et al. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977, 2020.[10] Roller S, Dinan E, Goyal N, et al. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637, 2020.[11] Xiaojin Jerry Zhu. Semi-supervised learning literature survey. 2005.[12] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks. NeurIPS 2021.[13] He W, Dai Y, Zheng Y, et al. SPACE: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection. AAAI 2022.[14] He W, Dai Y, Hui B, et al. SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for Task-Oriented Dialog Understanding. COLING 2022.[15] He W, Dai Y, Yang M, SPACE-3: Unified Dialog Model Pre-training for Task-Oriented Dialog Understanding and Generation. SIGIR 2022.[16] Xu H, Zhengyan Z, Ning D, et al. Pre-Trained Models: Past, Present and Future [J]. arXiv preprint arXiv:2106.07139, 2021.

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

博客专栏

如何向大模型注入知识？达摩院通义对话模型SPACE系列探索（2）

相关推荐

技术专区