DL model feature extraction for t-SNE

icon

前言

我没做过这么无语的数据分析，踩了一万个坑，特此纪念，望周知

前面是具体流程，最后是经验总结

一、GPT，启动！

图像和其他数据的降维还是略有区别，如果是一维的数据，如信号等，可以直接进入sklearn中的函数，进行降维处理，图像则需要通过提取特征，然后展平再输入。

对于一般的模型，可以通过去掉最后一层的全连接层来实现特征的输出，即保留判断分类的依据，我们要做的，即是对提取出来的特征进行降维，来查看提取特征的能力。

这其实是一个很好的框架，过程清晰，代码量也很少，尽管我调了很多内容，换了颜色，但是最后的3D图实际效果可以说是非常怪异了：

ps. 附一个看到的Adobe家的调色网站，非常实用，搭配Adobe Illustrator更好用，以及一个看到的B站教程：

sci配色网址推荐——科研绘图必备_哔哩哔哩_bilibili

配色网站数目繁多，每个网站各有优势，一个个去试很浪费时间。基于操作简便和美观的两个原则，up从中选取了最适合科研的4个网址推荐给大家。做科研收藏这4个网址足够了。颜色选取对于科研的优先级虽然不是排在最前面的，但它实际上针对的是人共有的一种心理和生理特征。学有余力的同学可以研究研究，哪种颜色可以突出某类数据，让人一眼就能注意到它，哪些颜色可以让数据看起来处于同等重要的位置。如何通过颜色, 视频播放量 249504、弹幕量 27、点赞数 10531、投硬币枚数 7132、收藏人数 39215、转发人数 2994, 视频作者善木科研, 作者简介医学博士姐妹花，分享科研干货。数据挖掘、临床基础写作辅导、SCI课题设计公众号：善木科研，相关视频：顶级期刊配色分享（一），分享一组SCI论文配色图☜，史上最牛的颜色搭配网站，科研绘图-吸取nature插图精华画500的和5000的有啥区别？，顶级期刊配色分享二，2020-08-09 PPT绘制平面图，sci配色方案——顶刊论文色卡分享，Adobe Color功能讲解，顶刊论文配图配色分享，科研绘图AI教程-小白鼠画法全程干货！！

https://www.bilibili.com/video/BV1ZA4y1f75e/?spm_id_from=333.880.my_history.page.click&vd_source=9edab39b1d82a9701485d0ea28cc5e6d

(嗯……改天整一个配色专题吧)

与此同时，为了调整参数，也是用了网格搜索的方法：

点我查看现代炼丹术

最后的结果，不能说是效果甚微，只能说是于事无补。图就不放了，意义不大。

感谢我的舍友hy，为我提出一个新的思路：

“原图像和最后的差别大吗，就是处理前的降维图，和这个差别大吗，差别大的话你放对比图就完了”

于是想到用进入模型和不进入模型的结果进行对比，来展现模型的性能。是个非常不错的想法，但是我要睡觉了，明天再弄。

二、为什么要使用DataParallel！ 🥒🥒🥒

满怀着希望，我打开了kaggle，进行cv操作，分别写出进入模型和不进入模型的代码，一顿操作发现：

我得到的两个图片是一样的！！！

本来只是觉得相似，但是当我把两张图片放一起对比，仔细查看发现两张图片完全一样。难蚌。

与此同时，我也发现了一个事情，对于一般的模型。确实是可以直接去掉最后的全连接层，输出特征，但是我们的VTCNet在这里是不通用的：

在VTCNet模型中，则是需要去掉最后的卷积池化，不把特征变为输出，而不是简单的删去最后一个层，昨天完全没有意识到这一点，我忘了（

之后向学长求证了一下：

“没有全连接层，softmax应该是在损失函数之中，我最后这个模块的前面就类似于输出特征，差别就在于用线性层分类是利用线性层进行的分类学习，而我们这个方法是在卷积层的时候就把分类的内容学了，但这么做可以减少过拟合”

回到代码，我进行了测试：

输出如下：

于是很容易得到一个结论：

我们在去掉最后一个子层的操作时，把整个模型删掉了，这是一个空的模型

所以也就解释了前面，为什么得到了两个输出图像是完全一样的——毕竟根本没进模型啊！

现在有两个问题：

为什么删掉-1，也就是最后一个层的时候，整个模型都没有了

怎么才能删掉后面几个层，适应这个模型

后来几经试验发现，是DataParallel的问题

当时我尝试用T4×2来进行加速，于是加上了这个东西，最后虽然用的是一张P100进行计算，但是代码被保留了下来。在这个函数中，DataParallel会对模型进行封装，也就是变为一个整体，再分配到不同的GPU进行运算。而保存模型的时候，当然也是一个封装好的模型。其实解决这个东西很简单，只需要使用model.module即可解除封装，拿到真正的模型：

（这里写的很少，但是我真不知道这个知识点，浪费了巨——多的时间 😵一度想重跑模型了，但是又大概率复现不出来）

接下来的思路：

效果差->对比->是否进入模型效果相同->检查模型->模型问题

下一步是检查模型，发现需要从concat之后输出特征，然后展平，再降维分析