Skip to content
xuming edited this page Apr 2, 2021 · 1 revision

2018.08.07:

  • 过滤通用字词表(待添加);
  • 过滤高频字词表(待添加);
  • 适度调整错误检测的阈值(具体是detector.py中的threshold=1.4);
  • 优化错误修改的方法(具体是corrector.py中的纠错集生成方法_generate_items);
  • 补充形似、音似词表 (待添加);
  • 添加纠错映射词表(待添加)。

2021.04.02:

  • 新增专用于纠错任务深度模型,使用bert/ernie预训练模型,加入文本音似、形似特征。
  • 规则方法,改进generate_items疑似错字生成函数,提速并优化逻辑。
  • 预测提速,规则方法加入vertebi动态规划,深度模型使用beamsearch搜索结果,引入GPU + fp16预测部署。
  • 语言模型纠错ppl阈值参数,使用动态调整方法替换写死的阈值。
Clone this wiki locally