Embed but not Prepend: Prompts are more Suitable for Hiding Deep in Images
|Last edited: 2024-11-12
标签
MIA
备注
视觉提示方法
日期
介绍了一种用于低级结构分割的显式视觉提示方法。通过引入显式视觉提示,可以提高低级结构分割的准确性和效果。
Parameter-efficient fine-tuning (PEFT) 参数有效微调,所研究的方法本身
Prompt Tuning 提示微调:PEFT的一种微调范式,文中将它作为一种distribution calibrator使用
Embedded Prompt Tuning (EPT):基于Prompt Tuning,文章提出的方法
 

问题所在:

大规模数据预训练的基础模型在自然图像下游任务中取得了成功,但在医学图像分析中做的很少。
 
贡献:
  1. 一种新的高效的参数微调方法 (Embedded Prompt Tuning,EPT),解决了以往的prompt tuning 在提示引入方面的不足,使用Transformer表现出了更强的逼近能力。
  1. 开发了一个新的视角来理解prompt tuning:prompt是一个distribution calibrator(分布校准器)。从理论上直观地分析了EPT中逐块缩放和特征分离操作。
  1. 首次在MedFMC上对PEFT进行医学图像分类任务的综合基准评估(MedFMC是医学图像分类中基础模型适应的真实数据集和基准)MedFMC: A Real-world Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification | Papers With Code (X 射线中的胸部疾病筛查、病理病变组织筛查、内窥镜图像中的病变检测、新生儿黄疸评估和糖尿病视网膜病变分级)
  1. 实验结果nb,性能大大优于所有SOTA,并且微调过程耗时极短

相关方法介绍:

Parameter-Efficient Fine-Tuning
PEFT的目标是在将基础模型调整应用到下游任务时,通过微调尽可能少的参数来实现更高的性能。PEFT一般在三个位置对Transformer进行微调:input, backbone, and linear head。由于linear head(文章里拼错了)对于下游任务是必不可少的,因此通常需要对其进行微调。
PEFT更加注重input and backbone,并相应提出了两种具有代表性的方法: Prompt tuning and Adapter tuning
Prompt tuning将额外的token引入输入图像并对其进行微调。
Adapter tuning调优将精心设计的结构引入backbone并对其进行微调。
 

PEFT for Medical Image Analysis

  • 初期研究:PEFT开始被应用于将基础模型转移到医学图像分析场景中,Dutt等人(2023)进行了早期探索。
  • 提示调整的探索:DVPT He等人(2023)作为VPT的一个变体,开始探索提示调整在医学图像分析中的潜力。
  • 低秩适配器的应用:Zhang等人通过LoRA将SAM适应于医学领域,这是PEFT在医学图像分析中一个重要的进展。
  • 医学知识的整合:Wu等人提出了医学SAM适配器(Med-SA)和超提示适配器(HyP-Adpt),将医学知识和不同的提示调整策略纳入其中。
  • 跨领域小样本场景中的评估需求:尽管已经有一些初步的研究,但PEFT在跨领域小样本场景中的有效性仍需进一步评估。例如,VPPT Song等人在自然图像小样本场景中的研究,但未测试适配器调整,且领域差距不显著。
  • 基准的提出:Wang等人提出了MedFMC基准,以促进PEFT在医学领域的研究和应用。
  • 本文首次对PEFT在跨领域小样本场景中的有效性进行了全面评估,特别是针对医学图像分析的场景。

    实验(简单看看讨论部分)

    实验部分的总结

    主要结果 (Main Results)

    1. 总体表现
        • EPT 方法在三个数据集(Chest, Colon 和 Endo)上的 1-shot、5-shot 和 10-shot 分类任务中,整体表现显著优于其他 PEFT 方法。
        • EPT 在大多数情况下都表现得最好,特别是在 Chest 和 Endo 数据集中,分别超过第二名 Adapter 方法 2.05% 和 2.74%,超过 VPT 方法 5.09%。
    1. 提示调优效果
        • 在提示调优类别中,EPT 超过了 VPT 和 VP 方法。
        • EPT 方法在 Transformer 架构上具有更好的近似能力,突破了提示调优的局限性。
    1. 比较结果
        • EPT、VPT 和 VP 方法比 Linear 方法的表现要好,这表明提示调优可以缓解预训练数据分布对基础模型的负面影响,并在新领域中校准其性能。
        • 全参数微调 (Full) 方法表现较差,可能是由于过拟合的原因 。
         

        Tokens(令牌)细节

        在Transformer模型的上下文中是指输入数据被预处理和嵌入后的向量表示。这些令牌通常来自输入的图像或文本数据,在这里,我们讨论的是图像数据的情况。让我们详细解释一下它们的位置和处理过程。

        Original input tokens的位置和处理过程

      1. 图像数据的预处理
          • 输入图像被划分为多个小块(patches)。例如,一个224x224的图像可以被划分成16x16的图像块,每个块大小为16x16。
          • 每个图像块通过一个线性变换被映射到一个高维空间,形成Input tokens。这些令牌是图像块的向量表示。
      2. Input tokens的形成
          • 假设输入图像被划分为 N个图像块,那么每个图像块被转换为一个向量,这些向量合在一起构成Input tokens序列: 这里的X就是Original input tokens的集合。
      3. Input tokens的位置
          • 在Transformers模型中,这些Original input tokens \(X\) 在进入自注意力机制和Transformer层之前,会被加入位置编码(Positional Encoding),以保留它们在原始图像中的位置信息: 其中,是位置编码。
      4. 自注意力机制中的输入
          • 在自注意力机制中,Input tokens被用来计算查询(Q)、键(K)和值(V):
          • 注意力机制的输出是通过这些Input tokens的加权和计算出来的:
           
          notion image
          • 通过缩小同一类别样本的距离,实现分布校准,增加类别之间特征的分离度,提高模型在少样本学习中的表现。
          • 定义了类内距离,对于数据集 ,其中是第k类的第i个样本,使用类中心 表示,类内距离矩阵定义为: 类内距离越小,特征聚类程度越高,分离度越好。
          • 通过缩放操作可以进一步缩小类内距离,证明了缩放操作可以有效地提高类内聚类效果。
          notion image