Embed but not Prepend: Prompts are more Suitable for Hiding Deep in Images
标签
MIA
备注
视觉提示方法
日期
介绍了一种用于低级结构分割的显式视觉提示方法。通过引入显式视觉提示,可以提高低级结构分割的准确性和效果。
Parameter-efficient fine-tuning (PEFT) 参数有效微调,所研究的方法本身
Prompt Tuning 提示微调:PEFT的一种微调范式,文中将它作为一种distribution calibrator使用
Embedded Prompt Tuning (EPT):基于Prompt Tuning,文章提出的方法
问题所在:
大规模数据预训练的基础模型在自然图像下游任务中取得了成功,但在医学图像分析中做的很少。
贡献:
- 一种新的高效的参数微调方法 (Embedded Prompt Tuning,EPT),解决了以往的prompt tuning 在提示引入方面的不足,使用Transformer表现出了更强的逼近能力。
- 开发了一个新的视角来理解prompt tuning:prompt是一个distribution calibrator(分布校准器)。从理论上直观地分析了EPT中逐块缩放和特征分离操作。
- 首次在MedFMC上对PEFT进行医学图像分类任务的综合基准评估(MedFMC是医学图像分类中基础模型适应的真实数据集和基准)MedFMC: A Real-world Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification | Papers With Code (X 射线中的胸部疾病筛查、病理病变组织筛查、内窥镜图像中的病变检测、新生儿黄疸评估和糖尿病视网膜病变分级)
- 实验结果nb,性能大大优于所有SOTA,并且微调过程耗时极短
相关方法介绍:
Parameter-Efficient Fine-Tuning
PEFT的目标是在将基础模型调整应用到下游任务时,通过微调尽可能少的参数来实现更高的性能。PEFT一般在三个位置对Transformer进行微调:input, backbone, and linear head。由于linear head(文章里拼错了)对于下游任务是必不可少的,因此通常需要对其进行微调。
PEFT更加注重input and backbone,并相应提出了两种具有代表性的方法: Prompt tuning and Adapter tuning。
Prompt tuning将额外的token引入输入图像并对其进行微调。
Adapter tuning调优将精心设计的结构引入backbone并对其进行微调。
PEFT for Medical Image Analysis
- 初期研究:PEFT开始被应用于将基础模型转移到医学图像分析场景中,Dutt等人(2023)进行了早期探索。
- 提示调整的探索:DVPT He等人(2023)作为VPT的一个变体,开始探索提示调整在医学图像分析中的潜力。
- 低秩适配器的应用:Zhang等人通过LoRA将SAM适应于医学领域,这是PEFT在医学图像分析中一个重要的进展。
- 医学知识的整合:Wu等人提出了医学SAM适配器(Med-SA)和超提示适配器(HyP-Adpt),将医学知识和不同的提示调整策略纳入其中。
- 跨领域小样本场景中的评估需求:尽管已经有一些初步的研究,但PEFT在跨领域小样本场景中的有效性仍需进一步评估。例如,VPPT Song等人在自然图像小样本场景中的研究,但未测试适配器调整,且领域差距不显著。
- 基准的提出:Wang等人提出了MedFMC基准,以促进PEFT在医学领域的研究和应用。
- 本文首次对PEFT在跨领域小样本场景中的有效性进行了全面评估,特别是针对医学图像分析的场景。
实验(简单看看讨论部分)
实验部分的总结
主要结果 (Main Results)
- 总体表现:
- EPT 方法在三个数据集(Chest, Colon 和 Endo)上的 1-shot、5-shot 和 10-shot 分类任务中,整体表现显著优于其他 PEFT 方法。
- EPT 在大多数情况下都表现得最好,特别是在 Chest 和 Endo 数据集中,分别超过第二名 Adapter 方法 2.05% 和 2.74%,超过 VPT 方法 5.09%。
- 提示调优效果:
- 在提示调优类别中,EPT 超过了 VPT 和 VP 方法。
- EPT 方法在 Transformer 架构上具有更好的近似能力,突破了提示调优的局限性。
- 比较结果:
- EPT、VPT 和 VP 方法比 Linear 方法的表现要好,这表明提示调优可以缓解预训练数据分布对基础模型的负面影响,并在新领域中校准其性能。
- 全参数微调 (Full) 方法表现较差,可能是由于过拟合的原因 。
- 图像数据的预处理:
- 输入图像被划分为多个小块(patches)。例如,一个224x224的图像可以被划分成16x16的图像块,每个块大小为16x16。
- 每个图像块通过一个线性变换被映射到一个高维空间,形成Input tokens。这些令牌是图像块的向量表示。
- Input tokens的形成:
- 假设输入图像被划分为 N个图像块,那么每个图像块被转换为一个向量,这些向量合在一起构成Input tokens序列: 这里的X就是Original input tokens的集合。
- Input tokens的位置:
- 在Transformers模型中,这些Original input tokens \(X\) 在进入自注意力机制和Transformer层之前,会被加入位置编码(Positional Encoding),以保留它们在原始图像中的位置信息: 其中,是位置编码。
- 自注意力机制中的输入:
- 在自注意力机制中,Input tokens被用来计算查询(Q)、键(K)和值(V):
- 注意力机制的输出是通过这些Input tokens的加权和计算出来的:
- 通过缩小同一类别样本的距离,实现分布校准,增加类别之间特征的分离度,提高模型在少样本学习中的表现。
- 定义了类内距离,对于数据集 ,其中是第k类的第i个样本,使用类中心 表示,类内距离矩阵定义为: 类内距离越小,特征聚类程度越高,分离度越好。
- 通过缩放操作可以进一步缩小类内距离,证明了缩放操作可以有效地提高类内聚类效果。
Tokens(令牌)细节
在Transformer模型的上下文中是指输入数据被预处理和嵌入后的向量表示。这些令牌通常来自输入的图像或文本数据,在这里,我们讨论的是图像数据的情况。让我们详细解释一下它们的位置和处理过程。
Original input tokens的位置和处理过程

