3_abstract_1_2

Aug 13, 2024 · Edwin.Liang

阶段性总结以及接下来工作

经过$1\_mushroom$和$2\_naturalScenes$两轮数据的简单摸索，已经初步了解了$cnn$模型的运作机制，$2\_naturalScenes$后续还有很多工作要做，比如将模型转化为$transformer$、$ConvNeXt$等，但是这两个模型有依赖关系，按照时间顺序先去链接$NLP$相关模型再去了解这两个模型可能会有事半功倍的效果，因此$CNN$部分的学习先短暂的在这里停留一下，等我了解完$NLP$再回来继续。

20240831灵感

$CNN$更擅长对底层特征进行提取，$transformer$更擅长对全局特征处理。

基于对Swin Transformer的简单了解，该模型将图像识别迁移到$transformer$中的主要想法就是将图片切割成一个个子图，然后将子图排列为向量然后再进行类似$NLP$的处理，这是将$NLP$技术套用到$CV$中的过程。

是不是也可以反过来，将词向量拼接成一个$N*N$的矩阵，再通过$CNN$中的技术处理，这样是否可以缩小$LLM$模型计算的规模，从而起到简化模型的作用，可以让同体量的$LLM$模型能够容纳更长的语句。