知识库持续优化之最佳实践

覆盖率日常优化

覆盖率是机器人指标体系中最基本的,也是最重要的指标之一。如果没有一个良好的覆盖率指标,其他指标也没有可能做好。

那么什么样的覆盖率算是比较好的指标呢?对大部分行业来说,90%的覆盖率,83%的直接覆盖率可以算作还不错的指标。

通常来说,知识库的日常运营和优化都是由机器人使用部门的业务人员来完成的。覆盖率日常优化通常来说,包括以下几个方面:

知识库分类的维护更新

一个分类合理,结构清晰的知识库分类是良好的知识维护的基础。

以下图为例。下面这2张截图是环信官网商务咨询机器人的知识库分类。可以看到,设定了比较详细的一级类目和二级类目:

持续观测覆盖率和直接覆盖率

持续观测覆盖率和直接覆盖率指标,如果发现有异常波动,应该及时分析处理

覆盖率优化:通过问答优化功能

问答优化功能对未覆盖问题进行了聚类,并列出了高频未覆盖率的问题。问答优化是知识库低成本运营的主要工具。详细使用方法请见:问答优化

直接覆盖率优化:通过意图澄清

意图澄清功能对机器人以推荐答案形式回答的问题进行了聚类,并列出了高频的推荐问题。意图澄清可以很好的优化直接覆盖率。详细使用方法请见:意图澄清

覆盖率集中优化(季度体检/年度体检)

覆盖率集中优化(季度体检/年度体检)的步骤是:

1.导出历史会话:建议一万条到数万条左右。注意,此处建议尽量导出包含人工客服会话的历史会话。

2.进行聚类分析

3.比较#2输出的聚类结果和现有知识库的覆盖的区别

4.给出优化建议:

5.补充新意图(或新FAQ)

6.对知识库的现有知识点进行相似问法扩充

7.观察线上环境的新的覆盖率

大型项目还应该尽量建立回归测试数据集

覆盖率集中优化(季度体检/年度体检),需要使用环信训练师平台及其他专业算法工具,一般来说需要由具备“环信认证AI训练师”资质的AI训练师来进行操作。请联系您的商务经理获取AI训练师服务的相关信息和报价。

准确率优化

准确率优化的步骤是:

1.准确率标注。

注意,标注时除了要标注问答对是否准确,如果不准确,还应标注出正确的答案标签是什么。有些业务比较复杂的问题,较难确定正确答案,可以请业务专家来帮助确定正确答案

2.对准确率标注结果进行分析:

一般导致准确率低的原因是:

A.算法模块的原因

B.训练数据噪音,比如混入了一些不属于这个规则的数据。

C.训练数据的原因-相似问不够

D.知识规则切割的不合理-比如2条没有明显区别的规则,在训练数据上无法明确区分

3.给出优化建议

准确率优化,需要使用环信训练师平台及其他专业算法工具,一般来说需要由具备“环信认证AI训练师”资质的AI训练师来进行操作。请联系您的商务经理获取AI训练师服务的相关信息和报价

转人工率优化

转人工率优化的步骤是:

1.转人工的高频意图分析

2.重点分析以下2类转人工意图,是否有优化空间:

A.数量很大的转人工意图类型,优化这些转人工意图是见效最大的。

B.转人工率特别高的,这通常意味着机器人对这个意图处理的不好。

3.与业务部门沟通,有没有哪个现在转人工的业务,相对简单重复,可能可以用机器人来处理,比如用多轮对话