垂域对话系统中的知识视角
前言
在笔者做医疗NLP算法的时期,经常讨论的问题也是医疗知识。不过当时对于医疗知识的探讨并不深入,25年做财税垂直对话系统,由于笔者负责的技术线更偏向于专家系统,故对于构建一个以财税知识为核心的符号体系就是一个关键问题。文章中有相当的观点是在与合作伙伴的日常讨论中得出的。
一个例子
在笔者之前讨论的要素抽取之我见中提到了要素抽取任务,该任务是强依赖知识的任务。一个经典的例子如下(合作伙伴提供):
访客:我们公司购入农产品豆腐用于食堂,这些普票的进项能否进行认证抵扣?
该例子中存在两处知识冲突的问题,分别如下:
-
访客认知与财税专业知识的分歧。访客基于日常认知将豆腐归类为”农产品”,但根据增值税相关规定,豆腐并不属于税法意义上的”农业产品”范畴。这种认知差异反映了普通用户的生活常识与专业财税知识体系之间的本质区别。为确保大模型能够准确识别并纠正此类概念混淆,我们必须构建完善的”财税领域知识库”,避免模型被用户的非专业表述所误导。
-
通用认知与业务场景知识的差异。通过5位专家和Deepseek的一致判断,”用于食堂”通常被理解为”单位内部食堂”,进而归属于集体福利范畴。然而,在实际业务场景中,坐席人员基于丰富的实操经验,会进一步细分”食堂”概念——区分”单位内部食堂”与”同时对外营业的食堂”。虽然这种细致的区分在外人看来可能过于严苛,但它源于真实的工作场景需求,是解决具体业务问题的关键要素。因此,我们需要构建”用户场景知识库”,补充大模型在特定业务情境下的认知盲区。
围绕我们需要构建哪些知识,基于该样本的一个基本设想如下:
- 领域知识。大模型虽有强大的知识能力,但其内置的知识是隐性的,且时效性较差。同时有研究表明,大模型能够表达出来的知识与其拥有的知识相差40%左右。因此,作为一个可信赖的智能对话系统,我们必须拥有一个可维护的领域知识库,来对大模型的内置知识进行修正。就像一位谨慎的人类专家,不能仅凭他自身的经验来回答客户问题一样。在面对访客提出的财税问题时,他也需要去查阅威科的知识库,并结合自己的理解给出答案。财税领域知识至少有两种:
-
政策法规。包括法律法规、系统操作、执行口径等官方发布的一切权威知识。
-
行业实践。包括行业共识的、官方默认的,但是尚未被官方明文认可的知识。行业实践是必须的。因为政策法规中存在很多模糊的地带,需要行业最佳实践作为补充。
2.用户知识。用户知识的本质是用户的经验沉淀。当用户是一个群体时,用户知识就是该群体的知识。构建用户知识可能需要考虑与领域知识重叠的问题。
知识类别划分
从DIKW模型开始,也就是“数据-信息-知识-智慧”模型,知识所处的位置如下所示:
从上述给出的例子可以看出,要素抽取任务中是需要依赖不同类型的知识的。那么围绕知识要思考的问题如下:
- 知识是否存在一个划分?
- 如果知识存在一个划分,那么应该怎样划分?如何评估划分的合理性?
类似思考也会出现在构建针对财税咨询对话的标签体系中,似乎并不存在一个客观合理的标签体系,任何一个构建出来的标签体系,均带有某种业务偏置,服务于特定业务目标。
不过在教育方向上,围绕知识管理,有一个针对知识的划分体系,称为布鲁姆教育知识分类,知识分为四个类别,分别如下:
- 事实性知识
该类知识的两个亚类是术语知识和具体细节和要素的知识。在要素抽取任务中,有三类待抽取要素均为事实类要素,也就是访客问题中存在的事实性描述。
- 概念性知识
概念性知识的亚类包括分类和类别的知识,原理和通则的知识,以及理论,模型和结构的知识。比如物理学的基本定律,化学原理知识等。
- 程序性知识
程序性知识的亚类包括具体学科的技能,算法,技术和方法的知识。
- 元认知知识
元认知是关于一般认知的知识。比如关于建立阅读目标等计划策略的知识等。
四种类别的知识类型的关系如下所示:
进一步地关系描述如下所示:
实际上,对比在上一章节中讨论的例子中需要的知识,这种知识的划分颗粒度过粗。英籍犹太裔物理化学家和哲学家迈克尔.波兰尼,曾说过一句名言“我们知道的往往比能说出的多”(在笔者之前的文章中提到相关论文指出,LLM表现出来的知识和实际知道的知识可能有40%的差距),他首次提出隐性知识的概念。根据知识存在的形态,实际在要素抽取任务中,更细粒度的针对知识的划分如下:
- 显性知识
以文字、符号、图形等方式表达的知识,如书籍、论文、公式、视频课程等。
- 隐性知识
存在于人的大脑中,未以文字、符号、图形等方式表达的知识,不可言传,如隐喻、直觉、思维模式等。针对这类知识,部分是可以数字化沉淀的,部分可能短期内无法找到有效的方式进行表达。
另外一个细粒度知识划分视角是根据知识的变化状态,将知识分为如下两类:
- 静态知识
是相对固定不变的知识,通常是由前人总结的结果、具有一定的规律性、经过学习可以掌握的。如一加一等于二、一年分为春夏秋冬等。
- 动态知识
是不断更新和变化的知识,包括各种不断更新的信息、技能和经验等,也包括未来可能出现的趋势和变化等。
知识全生命周期包括知识生产侧(如识别、创造、开发、加工、萃取、分析、表达等)、知识流通侧(如共享、分享、转移、传播等)以及知识消费侧(如购买、获取、理解、学习、内化、吸收、应用、使用、复用等)。
在基于LLM构建财税咨询对话系统过程中,更关注知识的加工和消费,多数时候的架构决策要依赖知识构建和知识应用的二元视角,缺一不可。虽然从技术实现角度,二者的解耦是一种更理想的方式,但是为了保证系统效果的最大化,多数情况下二者是紧耦合的。针对要素抽取任务,一种观察视角如下所示:
从知识角度理解构建垂域对话系统的难度
针对抽象知识和场景知识的区别如下:
- 生产场景知识方便应用,不便维护
- 生产抽象知识方便维护,难以应用
但是针对领域知识是否存在一个划分?如果存在一个划分,就需要一个对应的划分的能力,以及针对划分后空间的解决方案。
对于知识的利用,一定要保留原始的知识,新的知识密度不能低于原始保留的知识密度,否则会一直陷入到丢知识,知识颗粒度对不齐的问题中。
采用符号系统构建对话系统的知识视角的难点在于:广义的知识无法实现无损规则化,除非规则化是用于知识索引,而非知识表示。
相关资料
-
2014年发布了国家标准GB/T 23703.7-2014《知识管理 第七部分:知识分类通用要求》
扫码加笔者好友,茶已备好,等你来聊~