Embed but not Prepend: Prompts are more Suitable for Hiding Deep in Images

标签

MIA

备注

视觉提示方法

日期

介绍了一种用于低级结构分割的显式视觉提示方法。通过引入显式视觉提示，可以提高低级结构分割的准确性和效果。

Parameter-efficient fine-tuning (PEFT) 参数有效微调，所研究的方法本身

Prompt Tuning 提示微调：PEFT的一种微调范式，文中将它作为一种distribution calibrator使用

Embedded Prompt Tuning (EPT)：基于Prompt Tuning，文章提出的方法

问题所在：

大规模数据预训练的基础模型在自然图像下游任务中取得了成功，但在医学图像分析中做的很少。

贡献：

一种新的高效的参数微调方法（Embedded Prompt Tuning，EPT），解决了以往的prompt tuning 在提示引入方面的不足，使用Transformer表现出了更强的逼近能力。

开发了一个新的视角来理解prompt tuning:prompt是一个distribution calibrator（分布校准器）。从理论上直观地分析了EPT中逐块缩放和特征分离操作。

首次在MedFMC上对PEFT进行医学图像分类任务的综合基准评估（MedFMC是医学图像分类中基础模型适应的真实数据集和基准）MedFMC: A Real-world Dataset and Benchmark For Foundation Model Adaptation in Medical Image Classification | Papers With Code （X 射线中的胸部疾病筛查、病理病变组织筛查、内窥镜图像中的病变检测、新生儿黄疸评估和糖尿病视网膜病变分级）

实验结果nb，性能大大优于所有SOTA，并且微调过程耗时极短

PEFT for Medical Image Analysis

初期研究：PEFT开始被应用于将基础模型转移到医学图像分析场景中，Dutt等人（2023）进行了早期探索。

提示调整的探索：DVPT He等人（2023）作为VPT的一个变体，开始探索提示调整在医学图像分析中的潜力。

低秩适配器的应用：Zhang等人通过LoRA将SAM适应于医学领域，这是PEFT在医学图像分析中一个重要的进展。

医学知识的整合：Wu等人提出了医学SAM适配器（Med-SA）和超提示适配器（HyP-Adpt），将医学知识和不同的提示调整策略纳入其中。

跨领域小样本场景中的评估需求：尽管已经有一些初步的研究，但PEFT在跨领域小样本场景中的有效性仍需进一步评估。例如，VPPT Song等人在自然图像小样本场景中的研究，但未测试适配器调整，且领域差距不显著。

基准的提出：Wang等人提出了MedFMC基准，以促进PEFT在医学领域的研究和应用。

本文首次对PEFT在跨领域小样本场景中的有效性进行了全面评估，特别是针对医学图像分析的场景。

实验（简单看看讨论部分）

实验部分的总结

主要结果 (Main Results)

总体表现：

EPT 方法在三个数据集（Chest, Colon 和 Endo）上的 1-shot、5-shot 和 10-shot 分类任务中，整体表现显著优于其他 PEFT 方法。

EPT 在大多数情况下都表现得最好，特别是在 Chest 和 Endo 数据集中，分别超过第二名 Adapter 方法 2.05% 和 2.74%，超过 VPT 方法 5.09%。

提示调优效果：

在提示调优类别中，EPT 超过了 VPT 和 VP 方法。

EPT 方法在 Transformer 架构上具有更好的近似能力，突破了提示调优的局限性。

比较结果：

EPT、VPT 和 VP 方法比 Linear 方法的表现要好，这表明提示调优可以缓解预训练数据分布对基础模型的负面影响，并在新领域中校准其性能。

全参数微调 (Full) 方法表现较差，可能是由于过拟合的原因。

Tokens（令牌）细节

在Transformer模型的上下文中是指输入数据被预处理和嵌入后的向量表示。这些令牌通常来自输入的图像或文本数据，在这里，我们讨论的是图像数据的情况。让我们详细解释一下它们的位置和处理过程。

Original input tokens的位置和处理过程

图像数据的预处理：

输入图像被划分为多个小块（patches）。例如，一个224x224的图像可以被划分成16x16的图像块，每个块大小为16x16。

每个图像块通过一个线性变换被映射到一个高维空间，形成Input tokens。这些令牌是图像块的向量表示。

Input tokens的形成：

假设输入图像被划分为 N个图像块，那么每个图像块被转换为一个向量，这些向量合在一起构成Input tokens序列：这里的X就是Original input tokens的集合。

Input tokens的位置：

在Transformers模型中，这些Original input tokens \(X\) 在进入自注意力机制和Transformer层之前，会被加入位置编码（Positional Encoding），以保留它们在原始图像中的位置信息：其中，是位置编码。

自注意力机制中的输入：

在自注意力机制中，Input tokens被用来计算查询（Q）、键（K）和值（V）：

注意力机制的输出是通过这些Input tokens的加权和计算出来的：

通过缩小同一类别样本的距离，实现分布校准，增加类别之间特征的分离度，提高模型在少样本学习中的表现。

定义了类内距离，对于数据集，其中是第k类的第i个样本，使用类中心 表示，类内距离矩阵定义为： 类内距离越小，特征聚类程度越高，分离度越好。

通过缩放操作可以进一步缩小类内距离，证明了缩放操作可以有效地提高类内聚类效果。