对话交互学习：打破隔阂，提升智能？探究QA与AQ任务的对话系统优化之路

文章主题：

原文:Learning Through Dialogue Interactions

作者：

JiweiLi,AlexanderH.Miller,SumitChopra,Marc’AurelioRanzato,JasonWeston

🌟🚀【深度探索】顶尖科研新成果！💡 ICML 2017年度巨献，带你领略深度学习最前沿的智慧火花！🔥下一章节，我们精心准备了AI领域的重量级盛宴——对抗生成网络（GAN）与对话系统的大师解析。👩‍💻👨‍💼 高端技术，深度解读，带你直击科技巨头们的思维密室！敬请关注，每一字、每一句都蕴含着未来趋势的密码！🚀💥 你的知识库，即将升级！📖别忘了，这里始终是探索未知的灯塔，我们与你共享学术海洋的精彩浪花。🌊📚#ICML2017 #GAN深度解析 #对话系统前沿

🌟一篇深度探讨AI对话代理的关键🔥论文揭示，有效的人机互动并非易事！作者匠心独运，打造了一款模拟器，聚焦于电影领域，让教师与学生如同真实对话般进行问答挑战。📚他们深入研究了强化学习如何驱动学习者提问策略的演变，线上线下皆可观察其成效。🔍结果表明，经过巧妙引导，学习者的提问质量显著提升，为端到端的学习交互代理开辟了崭新路径。🚀这无疑标志着迈向智能对话新时代的重要一步！🏆—原文：作者通过设计一个模拟器和电影任务集，让学习者与教师进行问答互动，研究强化学习如何影响线下线上提问行为。他们发现提问后效果更好，因此他们的工作对构建完整的端到端对话代理有着开创性意义。改写后：🚀论文聚焦于AI对话技术的革命性突破——作者创新设计了模拟器平台，以电影任务为背景，引领教师与学生进行深度互动问答。🔍通过深入探究强化学习如何塑造提问策略，他们揭示了线上线下的学习反馈差异。💡实证研究表明，有效的提问策略能显著提升学习效率，这是迈向全面智能对话代理的关键一步。🏆这个研究不仅展示了现有技术的潜力，也为未来的发展指明了方向。

Introduction

🌟当遇到难题，学生不笃定答案时，他们会求助于老师，期待详尽的解释或提示。同样地，理想的AI助手也应该具备这样的互动技巧。然而，当前的教育AI研究大多局限在固定的answer模式中，而非实际的交流互动中训练。我们需要推动技术进步，让agent能像引导者一样，灵活应对对话需求，提升用户体验。📚

learner在对话期间一般会出现三类错误：

（1）learner在理解对话者的文本表面形式时会出现问题，例如一个问题的描述

当涉及到推理时，学习者可能会遇到一些挑战。他们可能难以迅速地从记忆中提取与当前情境相关的信息，仿佛在即将给出答案的关键时刻，知识库对他们来说变得捉摸不定。这可能导致他们在面对问题时，无法有效地整合和运用先前学到的知识进行回应。

当我们提到’学习者无法回应问题’这一现象时，往往源于他们现有的知识库中未能找到匹配的答案。换句话说，他们的学习路径并未触及到所需信息的源头。📚🔍

上面说到的那三种情况都有可能通过与对话参与者交互来解决。

🌟作者匠心独运，旨在消除人机交流障碍！💡他巧妙设计了一款模拟器，辅以丰富的电影问答数据集，引领bot与teacher展开深度互动，直面挑战。📚通过线上线下双重教学路径，bot在提问过程中不断学习成长——线上强化让其更聪明，线下监督确保了知识的准确传递。🔍更重要的是，作者揭示了如何精明选择何时提问，这无疑是提升用户体验的关键。🎯实践证明，这样的学习系统显著增强了人机协作的流畅性，为未来的智能交互开辟了新可能。🏆

The Tasks

对话任务根据以下三个不同问题而制定，目的是让bot可以主动提问：

（1）问题澄清：当bot无法理解user的文本语意时

（2）知识操作：bot需要借助一个现有的基本知识库做推理

（3）知识获取：bot的知识库时不完整的，需要补充。

Bot通过电影数据语料库来呈现事实。这样就可以让我们控制bot所访问的精确知识库。对话包含了teacher-bot对，question-answer对，可以视作跟bot回答的问题不相关的对话记录。为了研究在交流中bot请求澄清问题所带来的效果，模拟器通过两种不同的方式来生成数据，命名为：Question-Answering（用QA表示）和Asking-Question（用AQ表示）。Bot对teacher的每条原始提问会分别根据这两种方式进行回答。

2.1问题澄清

作者展示了两种AQ任务：

（i）问题的释义：student会请求teacher使用没有拼写错误的解释语句来澄清该问题。（ii）问题的确认：student会用带有拼写错误的问题来确认是否对应一条没有拼写错误的问题。

在（i）中，teacher会给出一条没有拼写错误的原问句的解释，例如“I mean which film did Tom appear in”

在（ii）中，teacher会给出是/否的回应。在这些任务中，bot可以查询数据语料库中的所有实体。

如下图所示

2.2知识操作

Bot访问了所有相关知识库，但通过这些知识库还是缺乏必要推理的能力。

所以做了两种设置：请求相关的知识与知识的验证在请求相关知识中，Teacher会指出相关的KB fact，在知识验证中，teacher会给出是/否的回应；然后bot会对teacher的原始问题给出答案，teacher再对答案进行反馈。

2.3知识获取

bot可能会有一个不完整的KB，并且有非常重要的实体缺失，由于相关知识库的缺乏，bot很难给出正确答案。它就需要teacher给出正确的答案来学到缺失的这部分知识。Teacher给出答案后会继续问其他的问题。然后之后再返回重问该问题，bot就可以给出一个答案了。

Train/Test Regime

模拟时有两个问题：第一，需要测试提问问题的有效性。第二，需要训练student bot在什么时候提问，并且问什么问题。为了能够完成这两个目标，作者使用了两种方法来训练模型:Offline Supervised Learning 和 Online Reinforcement Learning

Offline Supervised Learning

生成的三个训练集合为：TrainQA，TrainAQ和TrainMix。

TrainQA里的bot不会提问，直接给出答案。TrainAQ里的bot在回答之前总会问一个问题来回应teacher的原始问题。

TrainMix是前两者各50%的结合。

生成的三个测试集合为：TestQA，TestAQ和TestModelAQ。

TestQA和TestAQ类似于TrainQA和TrainAQ，但是使用了完全固定的策略（而不是50%的正确概率）。并且TestModelAQ和TestQA也是不同的，此处是通过一个学习model来生成question，因为固定的策略总会出现相关的question。学习model通过TrainAQ或TrainMix集合依赖于训练场景来训练。

Online Reinforcement Learning

Bot通过KB facts和一个问题来判断在这个时候是否需要提问。这个是否要提问的决定通过一个二元策略来确定。如果student选择要提出一个问题，那么它将会受到的惩罚是[0,2]的随机数，可认为是在塑造teacher耐性的模型。这种设置环境的目的是在提问与否中找到一个最佳的策略，以达到最高的reward。

当学生提问时，老师会适当的做出回应，student也会最终根据策略，不管是否提出过问题，对老师的最初问题给出答案。如果最终的答案时正确的，那么student将会获得+1的reward，否则会获得-1的reward。需要注意的是student最多只能提问一次，并且提问的问题类型通常是根据任务指定的。

1.Good-Student拥有所有相关的KB facts，teacher的提问里也没有拼错或未知的词语。

2.Poor-Student的KB facts和questions里每个Task任务都是有缺陷的。例如在Question Clarification任务中，student因为问题中拼写错误而不能理解；在Missing Question Entity任务中，student不认识teacher的问题实体。

3.Medium-Student：这类场景是前两种场景各50%的结合。

Models

作者使用End-to-End Memory Network模型作为线下监督和线上强化学习两种设置模型的骨架。该模型将聊天记录中的最后一句话和一组包含短时记忆和长时记忆的记忆上下文作为输入，其中短时记忆是bot和teacher之间的对话记录，长时记忆是bot可访问的知识库，并输出一个标签。

4.1线上监督

作者采用了多种学习策略，第一个学习策略是基于Reward的模拟策略（vanilla-MemN2N）。在训练时，该模型将student提供的答案做最大化对数似然估计（丢弃那些错误答案的示例）。候选的答案是在记忆中出现的词，这也就意味着bot只能从它之前看过的知识库中预测实体。

第二个是Cont-MemN2N for short，即作者将每个词向量用该词向量和该词周围出现的其他词向量的平均值来替换。

作者还提出了一个可以联合预测bot答案和teacher反馈的模型TrainQA(+FP)。Bot的答案可以使用vanilla-MemN2N来预测,teacher的反馈可以使用ForwardPrediction(FP)模型来反馈

4.2线上强化学习

一个二元的vanilla-MemN2N模型用来决定bot是否需要提问，即bot是否需要问一些东西。MemN2N模型用来决定bot的回答，可以视为bot是否会因为提问而使用两种不同的模型作为最后答案的预测。

以下为梯度更新公式，详细可见论文