中文拼写检纠错

一.基于统计语言模型的中文拼写纠错

1.流程图

流程图

2.实验结果

局部方法的实验结果：

局部方法

全局方法的实验结果：

全局方法

3.初步结论

缺点：

a.SLM对训练语料的规模和质量敏感。

b.错词检测策略灵活，变化较多。单纯的局部⽅法和全局方法都应该不是一个⾮常合理的方案。

c.检错准确率较低，全局⽅法的评估受错词阈值影响大。

优点：

a.训练速度和推断速度快，模型部署容易。

思考：

a.虽然在测试集上的准确率较低，但是从附录的测试来看，检测效果还不错。原因正在考虑。

b.检错的策略需要深入思考。

c.基于SLM的⽅案检错和纠错分两步走，纠错时目前想到的⽅案有两种，⼀种是基于词语搭配的⽅式，找出错词的前⼀个词作为Key，用Value替换检测出的错词，算句子的PPL或者n-gram得分，其中句子搭配可以基于依存句法分析或者搜狗语料库中给出了一个基于统计的搜索词搭配数据集，或者第三⽅构建的混淆集。

另⼀种⽅案是按照构建训练数据集的方式，基于百度输⼊入法的API，按照错词拼音的全拼和简拼方式构建K-V字典作为混淆集。

但是无论上述哪一种，检错都是最关键，最重要的一步。

d.考虑到部署，基于SLM的方案尚不成熟，故可能Transformer的方案会OK⼀一些。

e.End-2-End的DL⽅法的确是很棒的，省去了很多细节上的考察和思考，SLM还有很多细节值得去思考。