Few-Shot论文

Alive~o.02024-09-242024-10-06

摘要

随着深度学习技术的发展，命名实体识别（NER）任务中传统的持续学习与增量学习方法逐渐暴露其局限性。这些方法通常需要重新访问并训练所有类别的数据，导致计算资源消耗巨大，并且在引入新知识时，容易遗忘已学的旧知识，产生灾难性遗忘问题。类增量学习（CIL）作为一种新的方法，能够在模型接触新的实体类别时，不访问旧类别数据，依然保持对旧类别的识别能力，从而有效节省计算资源。然而，面对长序列任务时，现有类增量学习方法对旧类别的遗忘问题依旧是挑战。

在此背景下，本文提出了一种基于少样本条件下的类增量NER模型训练方法，旨在进一步缓解灾难性遗忘问题，增强模型对新旧类别的平衡能力。本文方法的核心思想是结合少样本学习理论与NER问题，综合利用知识蒸馏、伪标签生成、合成数据增强等多种技术手段，在少样本条件下提升模型的泛化能力。同时，为模拟人脑的学习机制，我们引入学习与回顾（L&R）策略，定期回顾旧类别知识，以保持模型对新旧类别的认知平衡，确保模型在逐步引入新类别的过程中不会遗忘旧知识。

首先，在知识蒸馏过程中，通过构建新旧模型之间的知识传递，避免新类别知识覆盖旧类别知识。新模型通过学习旧模型的输出，使其在学习新类别时，保持对旧类别的识别能力。其次，针对少样本学习问题，本文采用伪标签生成和合成数据增强两种策略。伪标签生成通过利用已训练模型预测未标注数据中的实体类别，从而生成更多的训练数据，增强模型对新类别的泛化能力。合成数据增强则通过生成与新类别相关的未标注上下文，扩展了数据集，使模型在不需要访问旧类别数据的情况下，接触到更多的训练样本，进一步缓解数据不平衡和数据量不足的问题。最后，学习与回顾策略通过模拟人类的复习机制，在学习新类别的同时定期回顾旧类别的知识，强化模型对旧类别的记忆，有效防止灾难性遗忘问题的发生。

为了验证所提方法的有效性，本文在中国军事数据集上进行了实验测试。该数据集包含多个实体类别，实验中通过逐步引入新类别，对模型的增量学习能力进行评估。实验结果表明，本文提出的复合训练方法在缓解灾难性遗忘方面取得了显著的效果。与传统的知识蒸馏方法相比，不仅有效保持了对旧类别的识别能力，而且在少样本条件下显著提升了模型对新类别的泛化性能。此外，伪标签生成和合成数据增强策略的引入进一步扩展了训练数据集规模，提高了模型在数据稀缺情况下的适应性。学习与回顾策略则通过模拟人脑的学习机制，使得模型在长序列任务中表现出更好的稳定性与平衡性。实验数据中不同序列的F1分数进一步证明了该方法的优越性。

本文的主要贡献在于从多角度提出了一种面向少样本场景的类增量NER模型训练方法，综合利用知识蒸馏、伪标签生成、合成数据增强以及学习与回顾策略，全面缓解类增量NER中的灾难性遗忘、标签不完整、类别不平衡和少样本学习等问题。与传统方法相比，我们的方法在理论上丰富了类增量学习的研究，在实践中也展现出良好的适应性和泛化能力，能够在不断变化的动态任务环境中保持对新旧类别的平衡识别。该研究为未来的NER任务提供了新的思路，尤其在数据稀缺、类别动态变化的实际应用场景中，具有重要的应用价值和实践意义。

关键词：命名实体识别，类增量学习，少样本学习，知识蒸馏，伪标签生成，学习与回顾

1.发展现状

1. 1类增量学习

随着深度学习技术的飞速发展，传统的持续学习和增量学习方法逐渐暴露出其在实际应用中的局限性。尤其在命名实体识别（NER）任务中，模型需要能够适应不断变化的输入数据和新增的实体类别。持续学习通常依赖于在所有任务或类别上进行重新训练，这不仅计算资源消耗巨大，还可能导致模型在引入新知识时遗忘已学的旧知识，产生灾难性遗忘（Catastrophic Forgetting）。

为了解决这一问题，类增量学习（CIL）应运而生。类增量学习是逐步取代传统持续学习和增量学习的一种方法，尤其在NER任务中表现得尤为重要。其目标是使模型在接触新的实体类别时，能够在不访问旧类别数据的情况下，仍然保持对旧类别的识别能力。这种能力使得类增量学习能够在不断引入新类别或任务时，避免重新训练全模型，节省计算资源，并有效克服灾难性遗忘的问题。

1.1.1 传统学习方式的比较

持续学习（Continual Learning）：持续学习指的是模型逐渐学习多个任务而不丧失对先前任务的记忆。其核心挑战在于如何在添加新知识的同时，保持对旧任务性能的稳定。然而，持续学习难以有效解决灾难性遗忘，尤其在跨领域或跨类别任务中，模型的表现往往会显著下降。
增量学习（Incremental Learning）：增量学习与持续学习相似，但强调在不断接触新数据时逐步学习和改进。这种学习方式特别适用于数据快速增长且不可重复使用的场景。然而，增量学习同样面临对旧类别的遗忘问题，特别是在任务序列较长时，模型会逐渐失去对早期任务的记忆。
终身学习（Lifelong Learning）：终身学习的理念是希望模型在整个生命周期内能够积累知识并应用于未来任务。这种学习方式更关注长期的知识积累与迁移，但与持续学习和增量学习类似，灾难性遗忘仍然是核心难题。

这些学习方式的共同挑战在于灾难性遗忘（Catastrophic Forgetting），即模型在学习新任务时会遗忘掉已经学习过的旧任务或类别。因此，类增量学习在此基础上提出了专门应对灾难性遗忘的方法，特别适合那些需要逐步引入新类别的任务，如命名实体识别（NER）。

1.1.2 NER任务中的类增量学习

命名实体识别任务是信息抽取中的重要任务之一。传统的NER模型通常假设所有实体类别在训练阶段都是已知的，然而在实际应用中，新的实体类别可能会随着时间的推移不断出现。例如，在军事领域、医疗领域等专门的领域中，不断出现新的实体类型，这要求NER模型具备在不访问旧数据的情况下学习新实体的能力。

类增量NER的出现正是为了解决这一需求。与传统NER不同，类增量NER需要模型能够有效学习新类别，同时尽可能保留对旧类别的记忆。在这种场景中，类增量学习不仅要求模型具有良好的泛化能力，还必须较好地解决灾难性遗忘问题。

1.2 类增量学习中缓解灾难性遗忘的方法

在类增量学习中，灾难性遗忘是最主要的挑战之一。模型在学习新任务时，往往会逐渐遗忘掉之前学习过的任务，尤其在没有访问旧数据的情况下。这种现象在NER任务中尤为显著，因为实体类别的重叠和相似性使得模型容易在识别新实体时丧失对旧实体的区分能力。

为了解决这一问题，研究者提出了多种方法来缓解灾难性遗忘，主要包括以下几种方法：

知识蒸馏（Knowledge Distillation）：知识蒸馏通过让新模型在训练时学习旧模型的输出，从而保留旧模型对旧任务的知识。对于类增量NER任务，知识蒸馏可以在引入新实体类别时，确保模型不会遗忘之前学习过的类别。蒸馏的方法通常是在模型训练过程中引入额外的损失函数，使得新模型的输出与旧模型的输出尽可能接近，从而保持对旧类别的识别能力。
合成数据增强（Synthetic Data Augmentation）：合成数据增强是一种通过生成新的数据样本来增强模型泛化能力的方法。通过生成未标注的上下文文本并将其加入训练数据，模型可以在不需要访问旧数据的情况下学习到新的类别。合成数据增强的优势在于可以通过生成的上下文重新构建数据集，从而实现数据的多样化和丰富化，缓解数据不平衡和数据量不足的问题。
伪标签生成（Pseudo-labeling）：伪标签生成通过使用现有模型预测未标注数据中的实体类别，从而生成带有标签的数据进行训练。在类增量NER任务中，伪标签生成可以帮助模型扩展数据集，增强对新类别的学习能力。这一方法的核心思想是使用模型预测新的实体类别，产生“伪标签”，并将这些带有伪标签的数据加入训练集中。
学习与回顾（Learn & Review, L&R）：L&R方法通过让模型在学习新类别的同时，定期回顾旧类别，从而确保模型不会忘记旧任务。在类增量NER中，L&R方法通过使用合成数据进行回顾训练，使得模型能够在新类别的学习过程中保持对旧类别的记忆。该方法被证明比单纯的知识蒸馏更加有效，尤其在数据不平衡的情况下，能够显著提高模型的性能。

这些方法各有侧重，但其共同目标是通过各种技术手段缓解类增量学习中的灾难性遗忘问题，从而使模型在面对新任务时，仍然能够保留旧任务的知识。

1.3 传统NER与类增量NER的对比

传统NER模型在训练时，通常假设所有的实体类别在训练过程中都是已知的。模型一旦训练完成，便无法再扩展新类别，除非重新训练整个模型。然而，在实际应用中，特别是在动态变化的环境中，新的实体类别会不断出现，这对传统NER模型提出了极大的挑战。

传统NER的局限性：传统NER模型在处理新增实体类别时往往表现不佳，原因在于它们无法增量学习新类别。此外，传统NER在引入新类别时，需要访问之前的训练数据，这在许多实际场景中是不现实的（例如，隐私数据无法存储或共享）。
类增量NER的优势：类增量NER模型能够在不访问旧数据的情况下引入新的实体类别，同时保持对旧类别的识别能力。它通过知识蒸馏、伪标签生成和合成数据增强等技术手段，确保模型能够逐步学习新的实体类别，同时减少灾难性遗忘问题。与传统NER相比，类增量NER更具适应性，尤其在需要频繁更新和扩展类别的任务中。
灾难性遗忘问题的特异性：类增量NER中的灾难性遗忘问题比其他任务更加复杂，因为实体类别之间的相似性更高。新增类别往往与旧类别存在一定的重叠或相似之处，导致模型在学习新类别时容易遗忘旧类别。此外，实体类别的数量和多样性也给模型带来了更大的学习难度。

可见，类增量NER模型相较于传统NER模型在动态、变化的任务环境下具有更强的适应能力，同时其面临的灾难性遗忘问题也更加复杂，这使得现有的解决方案仍有进一步优化的空间。

2.存在的问题

类增量命名实体识别（NER）是一项复杂的任务，面临着在不断引入新实体类别时的诸多独特挑战。随着新实体的持续出现，模型不仅需要灵活适应这些变化，还必须保持对已学类别的准确识别。以下将详细讨论该领域当前存在的主要问题，并探讨这些问题与其他自然语言处理（NLP）任务中类增量学习的差异。这些分析有助于更清晰地理解类增量NER所面临的特定需求与挑战。

2.1 灾难性遗忘问题

灾难性遗忘是类增量学习中最为典型和显著的问题，也是类增量NER必须重点解决的核心挑战。模型在学习新实体类别时，容易遗忘掉之前已经学过的类别，这是由于在增量学习过程中，模型权重会调整为适应新任务，而使旧任务的权重被覆盖。这种现象在NER任务中尤为明显，因为实体类别之间的边界较模糊，新类别可能与旧类别存在高度相似性或重叠。

现有问题：

类增量NER中的灾难性遗忘不仅影响实体类别的识别准确性，还可能导致模型对未标注类别的错误预测。例如，模型在学习一个新的“炸弹”实体时，可能会误将之前学到的“导弹”实体标记为非实体。
灾难性遗忘不仅导致对旧类别的遗忘，还可能引发类别混淆问题。模型可能在新类别学习过程中，将相似的旧类别混淆，例如将“军舰”和“航天设备”错误地视为同一类别。
现有的方法（如知识蒸馏、数据增强等）在一定程度上缓解了灾难性遗忘，但它们仍然依赖于模型对数据分布的良好掌握，且在数据稀少的情况下（如少样本或零样本条件下），效果有限。

解决方案：

多任务学习策略：通过并行学习多个任务或实体类别，以减少类别间的混淆和灾难性遗忘。
增强型知识蒸馏：在类增量NER中，结合标签解释学习等方法，进一步优化知识蒸馏的效果，确保旧类别知识不会轻易丢失。
动态模型更新机制：动态更新模型权重，赋予不同类别不同的重要性，从而减少对旧类别知识的遗忘。

2.2 标签不完整问题

传统的方法依赖于大量的标注数据，但在实际场景中，完整标注数据的获取成本高昂，尤其是随着类别的不断扩展，标注的难度和代价也随之增加。在类增量NER任务中，模型通常只能访问部分实体类别的数据，导致数据集存在标签不完整的情况。

现有问题：

标签不完整导致模型在训练过程中对未标注的实体类别缺乏了解，进而影响对新实体的识别。在类增量场景下，模型可能会将未见过的实体标记为非实体，导致模型泛化能力下降。
标签不完整也加剧了类别间的不平衡问题。新加入的类别通常数据较少，而旧类别的数据更多，这种不均衡使得模型在训练时更容易倾向于识别旧类别，从而导致对新类别的识别能力不足。

解决方案：

伪标签生成：通过在未标注的数据中生成伪标签，使模型能够在有限的标注数据基础上进一步扩展数据集，弥补标签不完整的缺陷。
数据增强和合成数据：使用合成数据生成器生成更多样化的训练样本，帮助模型在标签不完整的情况下更好地捕捉新类别的特征。

2.3 类别不平衡和冲突问题

随着新类别的加入，旧类别的数据量往往远多于新类别，模型采样不均衡，样本较少的新类更容易识别成旧类。类别冲突问题主要体现在不同类别之间可能存在重叠，且会引入多样化的实体类型，较为相近的语义会造成模型的混淆，不利于正确学习分类，导致模型在区分相似类别时出现困扰。

现有问题：

类别不平衡容易导致模型偏向于预测频率较高的旧类别，而忽视新类别，特别是在新类别的数据非常少的情况下。模型会对大类别过拟合，而对小类别欠拟合。
类别冲突加剧了类别之间的混淆。例如，在军事领域，“导弹”和“炸弹”可能在文本中表现出相似的上下文，导致模型在识别时难以区分。
现有的NER模型通常假设类别之间是完全独立的，但在类增量学习中，类别之间往往有一定的关联性，模型需要具备区分相似类别的能力。

解决方案：

数据重采样和权重调整：通过对少数类进行过采样，或者对不同类别分配不同的权重，以缓解类别不平衡问题。
类间对比学习：采用对比学习方法，帮助模型更好地理解相似类别之间的区别，减少类别冲突带来的影响。

2.4 少样本学习问题

模型在引入新的实体类别时，通常只有极少的数据，甚至没有任何标注数据。这种数据极少的情况在类增量学习中非常常见，尤其是对于不断扩展的实体类别集合，标注成本高昂且数据获取难度大。

现有问题：

少样本问题导致模型无法有效地学习新实体类别的特征，这对于识别那些在训练中从未见过或见过很少样本的新实体来说，尤其困难。
现有的NER方法通常需要大量标注数据进行训练，因此在少样本或零样本条件下，传统的监督学习方法表现不佳。
类增量NER在这种情况下必须依赖于迁移学习或其他数据扩展技术，但这些技术在新类别的泛化能力上仍有局限。

解决方案：

基于迁移学习的少样本学习：通过迁移学习将旧类别的知识迁移到新类别上，从而实现少样本甚至零样本的NER任务。
基于生成模型的合成数据：使用生成模型创建合成数据，尤其是针对少样本或零样本条件下的数据不足问题，增强模型的泛化能力。

2.5 过拟合问题

在类增量NER任务中，过拟合问题常常由于数据不平衡、类别间相似性高等因素被进一步放大，模型在学习过程中可能会过度依赖特定的类别特征，导致在测试阶段的泛化能力下降。

现有问题：

新类别数据量通常较少，而旧类别数据量较多，模型容易在旧类别上过拟合。特别是在类增量学习中，模型不断扩展类别，而每次新增的数据量非常有限，这使得模型容易学习到新类别的噪声特征，而忽略其一般化特征。
在标签不平衡或类别冲突较为明显的情况下，模型会更倾向于记住某些特定的类别特征，进而丧失对整体数据分布的把控。

解决方案：

正则化技术：通过引入额外的正则化项来限制模型的复杂性，避免过拟合。L2正则化和dropout技术在一定程度上可以缓解此问题。
早停法：通过观察模型在验证集上的性能，尽早停止训练，避免模型在训练数据上过拟合。

综上，类增量NER面临的主要挑战包括灾难性遗忘、标签不完整、类别不平衡、类别冲突、少样本学习以及模型过拟合等。这些问题在与其他NLP任务的类增量学习相比时显得更加复杂且独特，必须针对这些问题提出专门的解决方案。通过结合现有的技术（如知识蒸馏、伪标签生成、合成数据增强等）以及创新的模型设计，有望有效应对这些挑战，并在类增量NER中取得更好的结果。

3.理论背景

3.1 类增量NER背景与挑战

随着信息提取任务在自然语言处理（NLP）中的重要性日益增加，命名实体识别（NER）任务作为信息抽取的核心任务之一，面临着越来越复杂的应用场景。在动态变化的环境中，如军事、医学或社交媒体等领域，新实体类别的不断涌现使得传统NER模型难以应对。传统的NER模型通常假设在训练阶段可以接触到所有实体类别的数据，而在部署后无法轻易适应新的类别，且会遗忘旧类别知识。这些限制在实际应用中显得尤为突出，特别是在标注数据有限的少样本条件下。

类增量学习通过逐步引入新类别的方式来克服这一局限，允许模型在学习新类别的同时保持对旧类别的认知。然而，类增量NER任务中最主要的挑战包括灾难性遗忘、标签不完整、类别不平衡和少样本/零样本学习问题。这些问题使得模型在逐步扩展新类别时，容易忘记旧类别或无法有效泛化新类别的特征。

3.2 解决思路

本文旨在针对类增量NER中的上述挑战，提出一种基于少样本条件下的类增量NER模型训练方法。该方法通过结合知识蒸馏、伪标签生成、合成数据增强等技术手段，从各方面缓解灾难性遗忘问题，增强新类别的识别能力，特别是在少样本甚至零样本的情况下。具体解决方案如下：

灾难性遗忘：通过知识蒸馏，将旧类别知识转移到新模型中，确保在学习新类别时不丢失对旧类别的记忆。
少样本学习：通过伪标签生成和合成数据增强，扩展少量的新类别样本，增加模型对新类别的泛化能力，特别是在数据稀缺或无法获取大量标注数据的场景中。
标签不完整与类别不平衡：通过生成伪标签和合成数据，解决数据集中由于标签不完整或类别数据不平衡引发的偏差问题，使模型在面对不同类别时表现更加均衡。

3.3 理论框架

3.3.1 少样本学习

少样本学习（Few-shot Learning，FSL）是指在仅有极少数据样本的情况下，模型仍能够对新任务进行有效学习的能力。少样本学习的理论基础源于迁移学习和元学习，其目标是通过从已有任务中学习到的知识迁移或泛化到新的任务上，以减少对大量标注数据的需求。

在本文中，少样本学习的理论与类增量NER结合起来，主要目的是在引入新类别时，由于标注成本高、数据稀缺，模型能够通过少量样本或零样本数据学习到新实体类别的特征。同时，通过结合伪标签生成与数据增强的方法，扩展现有的训练数据，从而进一步提高模型在少样本条件下的泛化能力。

3.3.2 知识蒸馏

知识蒸馏（Knowledge Distillation）是一种将复杂模型（教师模型）的知识传递给更简单模型（学生模型）的方法。在类增量学习中，知识蒸馏的作用是通过将旧模型的知识传递到新模型，防止新模型在学习新类别时遗忘之前的类别知识。

在本文中，知识蒸馏被用于缓解类增量NER中的灾难性遗忘问题。通过对旧类别的知识进行蒸馏，使新模型能够在学习新类别时，仍然保持对旧类别的识别能力。这一过程通过引入额外的损失函数，强制新模型的输出与旧模型一致，从而减少旧类别的知识遗忘。特别是在少样本条件下，知识蒸馏不仅有助于保持旧类别的记忆，还能帮助模型更有效地利用新类别的有限数据。

针对灾难性遗忘问题，知识蒸馏是解决灾难性遗忘的核心方法之一，通过在模型训练时保留旧类别的知识，防止新类别学习时的知识覆盖；针对标签不完整问题，通过蒸馏旧类别的知识，模型在新数据缺少旧类别标签的情况下，也能维持对旧类别的较高识别能力。

3.3.3 合成数据增强

合成数据增强（Synthetic Data Augmentation）是通过生成合成样本来扩展训练数据集的一种技术，通常用于应对数据稀缺和类别不平衡问题。合成数据增强通过训练生成模型（如LSTM或GPT）生成与原始数据分布类似的合成数据，并将其用于训练，以提高模型的泛化能力。

本文中合成数据增强主要用于少样本条件下的数据扩展和类别平衡。通过生成未标注的上下文或样本，模型可以在没有大量标注数据的情况下继续学习新类别的特征。这种方法不仅增加了新类别的样本数量，也使得模型对新类别的学习更加全面，进而减轻类别不平衡带来的影响。

针对类别不平衡问题，合成数据增强通过生成更多的新类别数据，弥补了数据不平衡的现象，使模型在训练时不会偏向旧类别；针对少样本学习问题，通过合成与新类别相关的上下文数据，模型可以在数据不足的情况下进行更充分的学习，提升对新类别的识别能力。

3.3.4 标签解释学习

标签解释学习方法适用于解决少样本命名实体识别中的泛化问题。为了应对少样本NER面临的仅凭少量的标注数据，模型很难准确识别和分类新的命名实体这一挑战，该方法通过在模型训练过程中引入多样化的实体类型及其详细的自然语言描述，使模型能够更好地理解和泛化未见过的实体类型。

在训练阶段，模型学习和理解这些标签的语义，然后在少量示例的情况下，将所学知识应用于识别和分类新的实体类型，提升模型的跨域和跨语言泛化能力，使其能够在未见过的领域或语言环境中依然表现出色，有效应对少样本条件下的NER任务。

3.3.5 伪标签生成

伪标签生成（Pseudo-labeling）是一种半监督学习方法，基本思路是利用现有模型预测未标注数据的标签，生成伪标签，并将这些带有伪标签的数据加入到训练集中，从而扩展数据集规模。

本文利用伪标签生成方法扩展少样本数据集，特别是在新实体类别数据稀缺的情况下。通过使用已训练模型预测未标注数据中的实体类别，将生成的伪标签与真实标注的数据混合使用，增强模型对新类别的泛化能力。这样可以有效缓解类增量NER中由于数据不足带来的问题。

针对少样本学习问题，伪标签生成通过在新类别上生成更多带伪标签的数据，扩大了数据集的规模，有效提高了模型在少样本条件下的学习能力；针对标签不完整问题，当新数据缺少部分实体类别的标注时，伪标签生成可以补全这些缺失的标签，从而提高模型的学习效果。

3.3.6 学习与回顾（L&R）

通过模拟人类通过不断复习旧知识来加深记忆的机制，在每个增量学习阶段结束后，通过回顾旧类别的知识，帮助模型保持对旧类别的认知。在学习新类别数据之后，模型会在增强后的数据集上进行再次训练，以重新强化对旧类别的记忆。

学习与回顾（L&R）策略不仅通过系统的复习和强化训练缓解了灾难性遗忘问题，还通过丰富的训练数据支持了少样本学习的有效性。这种结合使得模型在增量学习过程中更加灵活和稳健，能够在新旧类别之间实现良好的平衡。

3.4 理论方法总结

本文提出了一种综合知识蒸馏、伪标签生成、合成数据增强和L&R的类增量NER方法，重点解决类增量NER任务中的灾难性遗忘和少样本学习问题。

具体而言，模型在每个增量阶段的学习过程中，首先通过知识蒸馏保持对旧类别的认知，避免灾难性遗忘；然后使用伪标签生成来扩展少量的新类别数据，增加数据规模；最后，通过合成数据增强进一步增加数据集的多样性和数量，缓解类别不平衡及少样本问题。

4. 研究方法

通过结合人脑学习机制的类比，我们提出了一种基于少样本条件下的类增量NER方法。该方法的核心思想是从人类学习的过程汲取灵感，设计多种策略以缓解类增量学习中的灾难性遗忘、少样本学习、标签不完整及类别不平衡等问题。我们使用了知识蒸馏、伪标签生成、合成数据增强和**学习与回顾（L&R）**策略，以确保模型在逐步引入新类别时，能够同时保留旧类别的知识，且在少样本条件下具备较好的泛化能力。

4.1 人脑学习机制

人类学习新知识时通常依赖于复习旧知识、推理和联想，以及构建假设场景来提升记忆和理解能力。类比于此，我们的方法设计通过以下几个方面模拟了人脑学习的过程：

知识蒸馏：这一策略类似于人类在学习新知识时通过不断复习来巩固已学知识。通过知识蒸馏，我们将旧模型的知识传递给新模型，确保新模型在学习新类别的同时，不会遗忘旧类别。就像人类通过复习保持对旧知识的记忆一样，知识蒸馏使得模型在新旧类别的学习中达到平衡。
伪标签生成：伪标签生成则类似于人类通过联想和推理在不完全信息的情况下进行推测。当人类面对不确定的情境时，往往通过联想和类比做出预测和判断。伪标签生成通过已训练模型预测未标注数据中的实体类别，扩展数据集，帮助模型在少样本或零样本条件下提升对新类别的识别能力。
学习与回顾（L&R）策略：L&R策略模拟了人类通过反复回顾来提升记忆的过程。人类在学习新知识时，通常通过回顾之前学过的内容来增强记忆和理解。L&R策略在训练过程中，通过回顾旧类别的知识，帮助模型保持对旧类别的认知，并确保新旧类别的平衡。

本文提出了在少样本条件下的类增量NER方法，旨在解决类增量NER任务中的灾难性遗忘、少样本学习、标签不完整及类别不平衡等问题。我们的研究方法主要包括三个核心步骤：知识蒸馏（Knowledge Distillation）、伪标签生成（Pseudo-labeling）和合成数据增强（Synthetic Data Augmentation），并在这些方法的基础上结合**学习与回顾（Learn & Review, L&R）**框架，逐步构建类增量NER模型。

4.2 框架设计

为了验证我们所提出方法的有效性，本文使用了一个分步的增量学习框架。在每一阶段中，模型将逐步接触新的实体类别，并学习在少量标注数据或零样本情况下识别新类别。同时，在不访问旧类别数据的前提下，模型通过知识蒸馏、伪标签生成和合成数据增强技术，缓解对旧类别的遗忘。

核心思想是通过多步训练和逐步引入新类别，使模型具备类增量学习的能力，并能够在每次学习新类别时保持对旧类别的记忆能力，尤其在少样本条件下提升模型的泛化性能。

为了解决类增量NER任务中的核心问题，特别是灾难性遗忘和少样本学习，本研究设计了以下几种方法：

4.2.1知识蒸馏

知识蒸馏的核心作用是缓解灾难性遗忘。通过将旧模型对旧类别的知识蒸馏给新模型，使新模型能够在学习新类别的同时，保留对旧类别的记忆。蒸馏过程确保了新模型输出与旧模型在旧类别上的输出保持一致，从而避免了新知识覆盖旧知识的情况。通过这种方法，模型能够有效地在逐步引入新类别的过程中保留旧类别的识别能力。

训练过程中，旧模型的输出（即对旧类别的预测分布）被用作教师模型。新模型通过优化目标函数，使其在学习新类别的同时，保持输出与旧模型对旧类别的预测相一致。

损失函数包含两部分：一是用于学习新类别的标准交叉熵损失，二是用于保持旧类别知识的蒸馏损失，后者通过缩小新旧模型在旧类别上的预测差异来实现。

对于每一个新类别的学习，模型的总损失函数为：

$L=L_\mathrm{new}+\lambda\cdot L_\mathrm{distill}$

$L_\mathrm{new}$ 是针对新类别的标准交叉熵损失， $L_\mathrm{distill}$ 是针对旧类别知识的蒸馏损失，λ 是平衡这两者的系数。

通过知识蒸馏，模型可以有效保持旧模型对旧类别的识别能力，在学习新类的同时保留旧类的特性，可以很好地缓解由于安全性或存储问题使得数据对模型不可见导致的灾难性遗忘问题。

4.2.2 合成数据增强

合成数据增强通过生成与新类别相关的合成样本来解决类别不平衡和少样本学习问题。通过LSTM生成式模型生成与新类别相关的未标注上下文或样本，将这些合成数据添加到训练集中，使得模型能够接触到更多的新类别样本，从而平衡新旧类别的数据分布。这种方法类比于人类在理解新知识时，构建假设场景进行模拟学习，从而提升记忆和理解能力。

本文我们训练一个LSTM生成模型，旨在生成与新类别相关的未标注上下文或样本。通过训练LSTM模型，我们能够捕捉到数据集中的潜在模式，从而生成符合原始数据分布的合成文本。这些文本中包含与新类别相关的实体。而后将这些合成样本与真实标注数据和伪标签数据结合，形成增强后的训练集。最后使用包含合成数据的训练集，进一步训练当前模型，提高模型对新类别的适应能力。

首先，使用原始数据集进行LSTM模型的训练。通过大量的历史上下文数据，LSTM能够学习到不同实体类别的特征和相互关系。训练完成后，LSTM模型能够生成与新类别相关的文本。这些合成文本将包含新类别的实体，从而扩展模型的训练样本。

通过LSTM模型生成的未标注数据：

$D_{\text{synthetic}}=\{(x_{\text{synthetic}})\}$

在生成合成样本后，我们将这些合成数据与真实标注数据和伪标签数据结合，形成增强后的训练集：

$D^{\prime}=D_\text{labeled}\cup D_\text{synthetic}$

$D_\text{labeled}$ 是真实标注数据集,$ D_\text{synthetic}$是生成的文本数据。

针对类别不平衡问题，合成数据增强通过生成更多的新类别样本，有效缓解了类别不平衡的问题。新类别的合成样本数量显著增加，使得模型在训练时不至于过于偏向于旧类别，确保每个类别都能得到足够的关注，这种平衡的训练数据分布促使模型能够更好地学习新类别的特征，提升对各类别的识别能力。

针对少样本学习问题，合成数据的生成为新类别提供了额外的样本支持。即使在标注数据稀缺的情况下，生成的合成样本依然能够帮助模型学习到新类别的有效特征。通过构建与新类别相关的上下文数据，模型能够在数据不足的情况下进行更充分的学习，提升对新类别的识别能力。这一过程类似于人类在理解新知识时，通过构建假设场景进行模拟学习，从而增强记忆和理解能力。

4.2.3 标签解释学习

少样本命名实体识别通过学习样本中被标注的实体来训练模型，标签解释学习在于充分利用每个实体的标签信息，把传统模型应用的标签（如“PER”）进行解释扩充，通过学习和解释实体类型的自然语言描述（即标签的描述信息），在只有少量标注数据的情况下提高NER模型的泛化能力和性能。

首先，模型通过学习现有实体类型的自然语言描述来掌握如何识别和分类文本中的命名实体。具体来说，模型在一个NER标注数据集上进行训练，该数据集中包括了一组实体类型及其对应的描述。例如，“PER”标签可能对应描述为“person entity”，“船”标签可能对应描述为“水面上移动的交通工具”。模型通过这些描述来建立标签与其含义之间的关联，从而学会识别和分类这些实体类型。

然后，将模型应用于新的、未见过的实体类型。通过提供新的实体类型描述和少量标注示例，模型能够在少样本条件下执行NER任务。在此阶段，模型可以利用先前学到的标签解释知识，将新的实体类型描述映射到相应的NER任务中。这一过程允许模型在未见过的领域或实体类型上快速适应并进行命名实体识别。

通过增加标签解释学习阶段中实体类型的多样性和描述的详细程度，能够显著提升模型在少样本条件下的NER性能，尤其是在未见过的领域和跨语言环境中。通过这种数据驱动的启发式优化，模型在少样本NER任务中的表现得到了显著改善。

4.2.4 伪标签生成

伪标签生成通过预测未标注数据中的实体类别并为其生成伪标签，扩大数据集规模。模型会使用前一阶段训练好的模型来预测新类别数据的伪标签，并将这些伪标签数据与少量标注数据混合，作为当前阶段的训练集。这种方法特别适用于少样本或零样本的场景，类似于人类通过联想和推理进行推测，伪标签生成为模型提供了额外的数据资源，扩展了训练集规模。

针对新类别的少量标注数据，首先使用前一阶段的模型$ M_{k-1}$预测未标注数据中的潜在实体，并生成伪标签。给定输入数据 x，模型预测的伪标签 $\hat{y}$ 表示为：

$D_{\mathrm{pseudo}}=\{(x,\hat{y})\mid\hat{y}=M_{k-1}(x)\}$

$D_\text{pseudo}$ 是伪标签数据，包含了未标注样本及其对应的伪标签。

而后将伪标签数据与真实标注数据结合，形成增强版的训练集 $D^{\prime\prime}$ 。训练模型时，使用伪标签扩展数据集，结合标注数据集 $D_\text{labeled}$ 升模型对新类别的识别能力。构建增强后的数据集 $D^{\prime\prime}$ :

$D^{\prime\prime}=D_{\text{labeled}}\cup D_{\text{pseudo}}$

使用增强后数据集训练新的模型 $M_k$ ，使得模型能够接触到新类别的多种表示方式。

在训练过程中，损失函数应同时考虑真实标注数据和伪标签数据的贡献。损失函数为：

$L=L_{\mathrm{labeled}}+\alpha L_{\mathrm{pseudo}}$

$L_{\mathrm{labeled}}$ 是针对真实标注数据的损失， $L_{\mathrm{pseudo}}$ 是针对伪标签数据的损失, $\alpha$ 为超参数，确保模型不仅从标注数据中学习，还能从生成的伪标签中获取有价值的信息。

伪标签生成通过生成额外的伪标注数据，极大扩展了可供训练的数据集，帮助模型在数据稀缺的情况下学习新类别的特征。这种方法使得即使在少量标注样本的情况下，模型也能获得更多的训练数据，提升对新类别的识别能力。同时有效填补了数据集中未标注部分，确保模型在学习新类别时能够更全面地学习到不同的特征。这种填补使得模型可以在有限的标注数据下，更好地捕捉新类别的多样性。

4.2.5 学习与回顾

L&R策略通过模仿人类的复习过程，基于回顾旧知识的增量学习策略。在每一阶段的学习过程中，模型不仅学习新类别的数据，通过定期回顾旧类别的数据或知识进行“复习”。这种策略通过在回顾阶段使用合成数据和伪标签数据，帮助模型保持对旧类别的记忆，确保模型在引入新类别时仍然能够正确识别旧类别。在本文中，L&R策略与知识蒸馏、伪标签生成和合成数据增强相结合，提升了模型对新类别和旧类别的适应能力。

模型训练可以分为两个阶段：

1.学习阶段：模型首先在当前阶段的新类别数据上进行训练，并通过知识蒸馏学习旧类别的知识。训练目标是使模型尽可能准确地学习新类别，并通过引入蒸馏损失函数来保持对旧类别的记忆。

学习阶段的损失函数为：

$L_\mathrm{total}=L_\mathrm{new}+\lambda\cdot L_\mathrm{distill}$

其中， $L_\mathrm{new}$ 表示新类别的交叉熵损失， $L_\mathrm{distill}$ 表示旧模型（ $M_{k-1}$ ）与当前模型（ $M_k$ ）之间的蒸馏损失，λ是平衡新知识学习与旧知识保留的权重。

2.回顾阶段：在学习完新类别后，L&R策略通过合成数据增强和伪标签生成，构建一个更为丰富的训练集，帮助模型复习旧类别的知识。

增强的数据集包括两部分：合成数据和伪标签数据。通过LSTM生成模型生成的未标注上下文合成数据，使得模型在接触到新类别的同时，也能重新接触到旧类别的上下文信息。同时使用现有模型预测的未标注数据，生成带有伪标签的旧类别数据，扩大旧类别数据集规模。

回顾阶段的损失函数为：

$L_{\mathrm{review}}=L_{\mathrm{augmented}}+\alpha\cdot L_{\text{distill-old}}$

其中， $L_{\text{augmented}}$ 在增强数据集 $D^{\prime\prime}$ 上计算的损失， $L_{\text{distill-old}}$ 是基于旧类别的蒸馏损失，α是权衡回顾损失和蒸馏损失的超参数。

通过回顾旧知识，模拟人类的学习行为，不仅依赖于知识蒸馏，还通过直接复习旧类别的数据，主动学习强化对旧类别的记忆，并减少新类别学习过程中旧知识的丢失。

4.3 创新点

本文的方法设计通过模拟人脑的学习机制，主要从两方面解决类增量NER中的主要问题，设计思路和创新点包括：

从不同角度缓解灾难性遗忘：

知识蒸馏通过传递旧类别的知识，有效防止新知识覆盖旧知识，确保模型在学习新类别时，不会遗忘旧类别。
L&R策略通过复习旧类别知识，进一步强化模型对旧类别的记忆，避免模型在增量学习过程中丧失对旧类别的识别能力。

提升少样本学习的泛化能力：

伪标签生成通过在少样本条件下生成伪标注数据，扩展了新类别的数据集，帮助模型在标注数据不足的情况下，提升对新类别的学习效果。
合成数据增强则通过生成更多的合成样本，有效缓解了类别不平衡和少样本问题，使模型能够接触到更多的训练数据，提升对新类别的泛化能力。

本文的创新点在于通过结合多种策略，模拟人类的学习与记忆机制，提出了一种适用于少样本场景下的类增量NER解决方案，有效缓解了类增量NER中的灾难性遗忘和少样本问题。相比于传统方法，我们的综合训练方法在少样本和零样本条件下表现更为优越，不仅从理论上提升了模型对新旧类别的平衡能力，在实践中也展现出较强的适应性，能够在数据稀缺的情况下保持对新类别的良好学习效果，解决了实际应用中常见的数据稀缺和标签不完整的问题，具有重要的实践价值。

5.实验设计

5.1实验设置

遵循之前 NER 类增量学习的工作（Monaikul et al.， 2021），为了适应中国的情况，我们选择中国军事数据集作为我们的实验数据集。此数据集包含 6 个实体类，我们随机选择 5 个实体类的顺序来执行实验。表 1 显示了每个步骤使用的实体类。

5.2 方法比较

我们使用基于知识的蒸馏方法作为基线。此方法通过从前一个模型![img](file:///C:/WINDOWS/TEMP/msohtmlclip1/01/clip_image002.png)中提取当前模型来训练当前模型，其中包含新的实体。此外，我们还实现了数据扩充，这是一种使用合成数据来丰富数据集的方法。基于此，我们使用学习和复习方法来训练模型。我们还采用伪标记方法，在包含这些合成标签的数据集上训练我们的模型。

Sequence
S1: 1 -> 2 -> 3 -> 4 -> 5 -> 6 S2: 2 -> 4 -> 6 -> 1 -> 3 -> 5 S3: 6 -> 2 -> 1 -> 5 -> 4 -> 3 S4: 3 -> 6 -> 5 -> 2 -> 4 -> 1 S5: 5 -> 6 -> 2 -> 1 -> 3 -> 4