智能客服线的市场空间是有的,一方面按照乐言沈李斌的计算方式,如下:

中国当前的客服人员超过1000万人,按照人均6-8万/年的人力成本计算,整个客服市场规模每年约7000亿。若其中15-20%被智能客服替代,整个市场空间就有1000-1400亿。

其他数据,可以借助《2018中国智能客服行业研究报告》补充。

另一方面,智能客服的发展主线:从大客服到普惠问答,最后可以到海外。

问题分类

(1)无效问题过滤

用户在输入“嗯”,“是”等无意义的问题的时候,对于目前的单轮问答系统来说,会给用户一个反馈,因为当前的系统假定总是要给用户一个反馈。

(2)重复问题合并

用户在短时间内用不同的问题方式表达同样的意图,如果机器人是基于单问题做意图判断,那么回复答案相同。带来的问题是用户判断是机器回复,有厌倦情绪。解决的基本思路:问题侧做相同意图问题合并,答案侧做相同意图的回复多样性思考。

(3)长难句

长难句由于长,会导致一定程度上的难,比如给多意图识别带来的困难。分析客服对话数据:

  • 这个机器多久换新?保修多久
  • 这个机器多久换新?保修有问题,可以保修多久啊
  • 你不写着微信视频语⾳聊天⼉吗?我是问你⽀持语⾳聊天⼉,但是⽀不⽀持视频聊天。
  • 你好,请帮我查询下后⾯给我寄的快递到哪⾥了,这么多天我还没有收到货呢
  • 我烦死你们了,你们能不能发货,⼀直在说尽快发货,可是你们发货了吗
  • 亲,我的货到底有没有发出来呀,怎么没有物流信息,显示,包裹正在等待揽收。
  • 换机器不申请售后?直接寄给您?您收到机器以后再返我运费?在发⼀台给我?
  • 在吗?有安装视频吗?
  • 收藏你店铺不是减五块吗?怎么没有减呢?
  • 手机已经拿到了,但是,为什么用不了呢?手机卡放进去,显示“可拨打紧急电话”。已经试用了家人的三张手机卡了,都是如此显示,为什么会这样?

针对该问题,平安寿险的做法如下(语法树分析+关键词典):

第一步,通过标点或空格分割长句成若干个短句,然后对短句分类,去掉口水语句。

第二步,基于概率和句法分析的句子压缩方案,只保留主谓宾等核心句子成分。配合保险关键词典,确保关键词被保留。

实际上,当用户一次输入多个意图,但是机器只回复其中一个问题的时候,用户会再次单独询问该问题。本质上将一个多轮的对话转化为单轮。

(4)错别字

错别字问题是必须要解的吗?取决于具体的场景。比如,在情感分析任务中,比起是否含有“不”的问题,错别字带来的困扰似乎不是很多。如果必须解,实际上,基于词典的方案可能就可以解的不错。在分析很多语料之后,可以看到:优惠卷(优惠券),冲电(充电),锁频(锁屏),视屏(视频),定单(订单),是经常出错的例子,当然存在一定程度上的长尾错误。个人基于错别字做了很多工作,可以在之前的博客中看到。整体的感受是:要结合具体问题具体分析,通用纠错的ROI非常低,当然不能否认错别字相关工作的技术价值。

问题推荐

在之前的博客中,讨论过答案推荐的一些问题,Learning to Rank用于问答匹配/答案推荐建模答案推荐的评估指标设计。问答系统的研究对象简而言之就是问题和答案,从目前的进展来看,多数工作是围绕问题展开的,关注对问题的理解,而对答案,可以通过问题-答案的简单映射关系确定。不过,这里讨论的是问题侧。产品上希望的一种形态是:用户还没问,系统就知道用户想问啥?用户说不清楚,系统也可以理解用户想表达什么意思?用户还没说,系统就会表达用户想说的意图。

在这篇文章中,描述的比较清楚:

在这个过程中,算法不外乎要做的就是两件事:猜你所想,答你所问 我们先说猜这件事,类似推荐,在用户还没有做出任何输入时,我们会根据用户的信息、当前上下文信息以及咨询的产品信息来猜测用户进入咨询界面时想问什么问题,从而得到一堆问题的排序展示给用户。如果第一步没有猜到用户想要的问题,用户就会通过输入框来简单描述自己的情况和想要咨询的问题,在用户输入的过程中,我们也会结合用户输入的内容通过算法来实时猜测用户可能咨询的问题,并以input suggestion的方式给到用户。若上述都无法让用户找到自己想要的答案,那就是答这件事要解决的。

(1)“猜你想问”

支付宝的客服系统是基于强化学习做的。

(2)输入问题时的实时推荐

智能推荐在输入法场景下应该是一种比较常用的范式了。

(3)多轮对话中的用户意图澄清

可以划归到问题推荐这个维度,不过更适合在多轮对话中做,围绕该方向,蚂蚁金服同样做了很多工作

基于店铺对话语料的观点挖掘

(1)通用评价分析

比较常见的是淘系产品对于宝贝的评价,对话语料也是一种获取评价的来源,而且是一种更直接的反馈。

(2)买家不满情绪分析

除去通用评价,使用客服系统多数情况下是为了解决问题,而买家不满情绪挖掘则是一个重要问题。例如 客服对话数据:

  • 浙江杭州到我这⼀半物流第⼆天就到,你这个是顺⻛的吗?怎么⽐⼀办物流还慢
  • 在你家买了好多次了,麻烦快点发货可以吗?你家的发货速度真是太慢了
  • 为什么我的u盘才⽤了2个⽉左右,传输速度极慢,传个视频10分钟啊。
  • 东⻄已收到,试了⼀下,数据传输速度太慢了,插⼊电脑USB接⼝,识别时间也⻓,实际存储量只有29.2G。
  • 请不要发圆通快递,其他都可以,圆通太慢!已经付款,请尽快发货,谢谢
  • 发出来的⼀件物流也没有更新啊,为什么这么慢啊,帮忙查⼀下,谢谢
  • 同样时间从⼴东发货,你家为啥慢那么多?是什么原因导致?

总结买家不满情绪的原因如下:

  • 服务态度:售后服务
  • 物流:发错,太慢
  • 投诉
  • 催回复
  • 产品:是否正品,某个部件坏了,衣服扎人
  • 催退款:退货运费
  • 差评

该环节的一个极端表现是如京东智能客服挽救欲自杀的女孩(对话理解),天眼系统帮助追踪到在逃十年的案犯等问题(行人重识别),且不论是否有PR嫌疑,如果为真,这样的案例就是智能客服系统中的“黑天鹅”。

服务体验调查

主要目的是两个:

(1)获取用户对于系统的反馈

(2)珍贵的标注数据。如果是细粒度的反馈,则数据价值更高,但是或许会给用户体验带来负反馈

该环节也是系统生命周期管理的重要一环。在一些大的客户产品中已经可以看到,诸如平安保险等。

用户显式要求转人工

通常用户要求转人工,主要包含以下四种情况:

(1)用户请求人工服务,并非机器回答的不好,只是单纯的想要转人工,也许是用户对于机器回复的反感

(2)用户以为是机器,其实是人工,要求转人工(用户质疑人工或者机器)

比如用户吐槽:“一直机器回复!哪怕人工回复,也跟机器回复一样!!!!”

比如用户质疑:“是真人还是机器?”

(3)用户知道如何切换到人工,显式指令请求转人工(该用户是砸场子的?)

(4)用户情绪化反应

用户要求转人工,对于一个智能客服系统而言,并不是一件好事,因此结合上述情况,讨论如何求解是一种有意义的问题。

针对该点,讨论关于用户预期的管理:

(1)用户对于AI的预期是走在AI技术之前的,因为大家都知道一个好的AI产品是什么样子的。这样带来的问题之一是AI从业者一定程度上是苦逼的,该观点在之前的博客中也有提过

(2)对于搜索引擎来说,当搜索结果不好的时候,用户会通过改变搜索关键词得到预期结果,但是对于不好的问答系统,用户吐槽,客户流失

客服对话摘要

滴滴的工作

客服质量检查

杭州语忆科技,该公司有好多有趣的博文可以读。阿里的“慧眼”项目,也可以参照。

标准问生成

基于GPT的标准问生成

技术侧研究(啥?不是只讨论产品想法吗?)

(1)强化学习的应用
(2)基于知识图谱的问答系统
(3)问答匹配
(4)对话挖掘和预处理服务