[论文笔记]《Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data》
基本信息
主题: 表格问答/大模型微调/RAG
作者: 东南大学,曼彻斯特大学,华为
会议: NAACL2024
Motivation
表格-文本生成技术已经在NLP领域被广泛研究,围绕大模型增强的问答系统,融合文本和半结构化的表格数据是一个趋势,但是不同的表格-文本生成技术是如何影响QA系统的,并没有相对系统的对比分析。通过对不同的表格-文本生成技术的实验对比和理论分析,可以形成一些有价值的技术选型建议。
主要贡献
-
通过实验证明,不同的表格-文本生成技术会显著的影响问答系统的效果。其中,人类评估的RSD(Relative Score Difference)的范围从2.8%到9.0%,GPT-4的评估范围从4.8%到16%
-
对于领域微调范式,基于LLM和传统预训练语言模型的方法在各种模型设定下,显著优于其他方法。在RAG范式下,虽然基于LLM的方法依然表现优秀,但是基于markdown的方法也表现出超出预期的有效
-
不同方法产生的领域术语和动词的频率的不同,以及在文本切片的语义表征中的质量不同,是不同方法在两类系统存在效果差异的首要因素
主要过程
QA系统的两种实现方法
- 基于领域模型微调的QA系统
- 基于RAG的QA系统
四种表格-文本生成技术
Markdown
直接将表格表示为markdown格式,不需要模型训练,可以利用脚本在无需人工参与的条件下快速完成转换
Template
使用一系列提前设计好的适配表格特征的模版做表格的文本化。比采用markdown的方式能够实现更好的多样性,但是需要人工提前设计多种模版。
TPLM-based
利用传统的预训练语言模型,比如T5和BART等,通过在跨领域的表格-文本生成数据集做微调。这种方法能够提供更高的灵活性和领域适配性,但是也要求更多的计算资源。
LLM-based
GPT-*系列模型的效果多数情况下优于表现最好的微调的模型,和TPLM-based方法相比,这种方法能够通过in-context learning实现自定义的裁剪,但是同时也存在领域数据泄漏的风险。
实验分析
数据集
ICT-DATA:170个信息与通信技术领域的英文技术文档,每个文档都是由文本和表格组成,其中表格数据约占总数据的18%。
ICTQA:从QA平台收集9000个答案较长的关于ICT产品的问答对,其中答案均是由专家根据产品文档书写的。选择500个问题做测试集,对应的答案需要同时从表格和文本中提取,剩下的问答对用于领域模型微调。
评估指标
自动评估指标:利用GPT-4作为评估器,基于生成的答案和参考答案的相似性打分,分值范围为[0-5],其中0表示生成的答案如”I don’t know the answer.”,1代表最小的相似度,5代表完全准确的生成答案。
人工评估指标:评分准则同上,利用三个领域专家进行打分。
实验设置
用于领域微调的基座模型为Meta’s OPT(1.3B-13B)和Llama-2-base(7B,13B),采用QLora用于持续预训练和指令微调。RAG系统使用的生成模型为Llama2-chat(7B,13B和70B)以及GPT-3.5-turbo。采用文本切片切分语料,每个切片长度不高于3000个char,采用BGE向量模型做表征,利用FAISS存储向量。每个问题检索出最相似的3个切片,基于LangChain实现整体流程。
实验结果
其中,加粗表示最佳结果,下划线表示次佳结果。基于领域模型微调的方法中,无论是基于人类的评估结果还是GPT-4的评估结果,LLM-based的方法在绝大多数设定下取得最优结果。而在RAG系统中,两种评估方法中,均存在基于Markdown的表示方法取得最优结果的设定。其中RSD(Relative Score Difference)=(Highest Score - Lowest Score)/5。
领域微调系统中,为什么TPLM-based的方法和LLM-based的方法分别取得次优和最优结果?
上表给出了不同方法生成的语料中,领域术语和动词频率分布情况。可以看出LLM-based的方法能够得到的领域术语和动词最多,其次是TPLM-based的方法。
RAG系统中,为什么Markdown的方法和LLM-based的方法分别取得次优和最优结果?
采用t-SNE方法做了切片向量的聚类可视化,对于给定Query会发现LLM-based的方法和Markdown-based的方法得到的切片,在语义空间中距离Query相比其他更加地接近。
思考&应用
(1)在做表格-文本生成的时候,无论是否利用模型微调,基于大模型的方法多数情况下是最佳实践。但是RAG系统中,也可以考虑采用Markdown的方法
(2)基于表格的问答应用中,将表格(600*25)格按照行转换为json格式(字段名称采用中文表示),检索效果也不错
扫码加笔者好友,茶已备好,等你来聊~