×
资源与产业

计算机软件及计算机应用论文_迁移学习在低资源

文章摘要:实体识别是信息抽取工作中的一项基础性工作。目前在缺乏足够的标注语料的低资源场景下如何有效的识别实体,仍是自然语言处理中的一项挑战性工作。本文结合预训练模型,采用一种“统一编码一分离解码”解决方案,学习大规模领域实体抽象边界信息,基于迁移学习,将大规模领域实体边界抽象信息迁移到低资源场景, 提高低资源场景实体识别精度。与现有方法不同的是,仅在解码前对特征向量进行适配。设计了一种自适应模块对统一编码方式得到的每一特征向量按照目标域的实体类型和标注方式维度进行单独解码,确定每个实体的标注方式,避免复杂的实体嵌套问题。基于公开数据集的实验结果表明:相较于BERT-BiLSTM-CRF基线模型,在医药领域低资源场景下,精确率提高4.00%,召回率提高5.40%,F1提高4.72%;在人事领域低资源场景下,精确率提高31.91%,召回率提高31.70%,F1提高31.86%。基于自主采集整理数据集的实验结果也表明了模型在低资源场景下进行实体识别的有效性,相较于Lattice-BERT模型,在精确率、召回率等方面有所提高。

文章关键词:

论文分类号:TP391.1;TP181

上一篇:环境科学与资源利用论文_中国低碳治理体系:理
下一篇:没有了

Top