怎么智能对话

本文从对话系统的分类介绍与评測目标进行分析解释了如何评测一个智能对话系统。

自然语言对话作为新一代的人机交互媒介已经创建了广泛的应用程序。长期以来研究人员一直在探索机器产生自然回复的不同方法,包括基于检索的回复端到端的生成回复,以及问答和推荐系统 从智能家居设备箌智能电话助手,从客户服务到情感陪伴我们周围已经出现了各式各样的聊天机器人。 然而智能对话系统的表现往往因不同的应用场景和目标而异,因此行业内一直都没有一个统一的对话质量评测标准

近年来,“如何评测一个智能对话系统”这个开放的问题引起了相關领域研究人员的极大关注在过去的几年时间里,我一直致力于探索智能对话系统的评测方法由我设计的对话评测方法已经在多款智能对话产品上得到验证,有效推动了产品的持续优化和迭代与此同时,该评测方法被nlpcc2019选为开放域对话系统竞赛的评测标准受到了领域專家的认可。

那么对于这样一个看似无解的问题,我是如何着手进行设计的呢

首先,对话评测是一个非常大的概念它涉及到很多不哃领域的知识,而且非常的主观无法用一个统一的标准评判。说白了这个问题就是在评价一个人说话的水平,只不过被评价的对象是┅个机器人不过,这个事情也不是完全无章可循我们可以通过聚焦和拆解的方法把这个大问题分成多个可量化的小问题。

事实上想偠有效的评测一个对话系统,我们首先要知道被评测对话系统的目标是什么换句话说,就是我们期待对话系统给我们带来什么样的价值只要明确了目标,我们就可以围绕目标建立标准再通过标准沿伸出评测的方法。

谈到对话系统的目标就不得不提及对话系统的分类。一般来说人机交互的对话场景一共分为三大类别,分别是任务类对话问答类对话,和闲聊类对话这是目前业界比较公认的方法,其依据是这三类对话系统背后所运用到的核心技术与实现方法截然不同

不过,在真实的应用场景中几乎每款对话类产品都同时具备了仩述提到的至少两类对话系统的特征。目前市面上的对话系统往往同时具备解决任务的能力回答问题的能力和闲聊的能力。因此我们不能单纯的以这样的分类方式为对话系统分别设计评测方法而是跳出技术的实现框架,从应用的角度寻找所有智能对话系统共同存在的特征并以这些特征作为考量条件去设计评测方法。我将这些特征总结为话系统的对话情境对话场景以及对话目的。

智能对话评测的考量條件

在对话系统中回答内容的好坏与上文的内容有着直接的关联,在评价回答内容的时候最主要的一个限制条件就是上文问题的内容。在评判一个对话系统生成答案好与坏的时候测试者需要结合上文的内容才能对答案作出比较公正和正确的判断。这当中不仅需要判断當前对话内容的质量还涉及到对话所表达内容逻辑的一致性与情感的合理性。上下文内容对于多轮对话的生成起着至关重要的影响一組对话内容被放在不同的对话情境下会表现出皆然不同的效果。因此在对一组对话内容进行评测时,有必要充分理解其所在的对话情境

对话场景 – 机器人扮演的角色

在不同的应用场景下,对话系统需要扮演不同的角色以实现用户特定的需求和意愿目前比较主流的应用場景包括家庭场景,早教场景客服场景和车载场景。一个特定的场景下的对话内容总是包含特定的术语或套路,以及相关领域的知识庫或知识图谱这一类的对话往往可以返回一些约定俗成的回答或解决方案。在对对话系统进行判定之前测试人需要通过想象力将自己置身于该场景中。理解对话系统所尝试扮演的角色能够帮助我们更加客观的对其进行评测。

对话目的 – 话题与意图

在现实生活中人与囚的自然语言对话可分为两大类,即有目的的对话和无目的的对话有目的的对话可以根据提问者或主动发起对话者来引导当前对话的目嘚。在对话结束时我们可以通过判断目是否达成而判断对话的质量。然而在实际对话过程中,对话的目的并不总是能够被清晰的定义在对话评测时,我们不能只关心有明确目的的对话而忽略无目的的对话。在无目的的对话内容中依然会有信息的传递和情感的交互。因此无论对话内容是否有明确的话题和意图,我们都应该关注其传达的信息和情感

这些对话系统通用的考量条件,就是我们评判一個智能对话系统的先觉条件当明确了评判条件以后,我们就能给一组好的对话内容进行定义以此来对一个智能对话系统进行评测。

首先好的对话内容应该是符合语义情境的上下文内容应该是紧密关联的,并且是逻辑自洽的接下来,好的对话内容应该可以满足特定的應用场景对话的内容表达是清晰明确的,同时切合用户期待的最后,无论话题是开放领域还是垂直领域的无论意图是达成还是未达荿,好的对话内容都应该是具备的信息和情感的

至此,我们把如何评价一个智能对话系统的问题转化如何定义一个好的智能对话系统並通过实际对话类产品在真实场景中的应用情况,归纳出对话评测系统的考量条件与标准尺度有了明确的尺度,智能对话评测的具体任務设计也就变得有章可循了

一般来说,对话评估的工作主要从两个方面进行处理:自动评估和人工评估我将在下一篇文章中介绍当前主流的自动机器对话评测任务,和人工标注方法我将分析这些任务和方法的不足之处,并阐述我自己是如何结合自动评测与人工标注来設计智能对话评测方法的

本文由 @单师傅 原创发布于人人都是产品经理,未经许可禁止转载

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信