KureiSersen site

3_abstract_1_2

· Edwin.Liang

阶段性总结以及接下来工作

经过$1\_mushroom$和$2\_naturalScenes$两轮数据的简单摸索,已经初步了解了$cnn$模型的运作机制,$2\_naturalScenes$后续还有很多工作要做,比如将模型转化为$transformer$、$ConvNeXt$等,但是这两个模型有依赖关系,按照时间顺序先去链接$NLP$相关模型再去了解这两个模型可能会有事半功倍的效果,因此$CNN$部分的学习先短暂的在这里停留一下,等我了解完$NLP$再回来继续。

20240831灵感

$CNN$更擅长对底层特征进行提取,$transformer$更擅长对全局特征处理。

基于对Swin Transformer的简单了解,该模型将图像识别迁移到$transformer$中的主要想法就是将图片切割成一个个子图,然后将子图排列为向量然后再进行类似$NLP$的处理,这是将$NLP$技术套用到$CV$中的过程。

是不是也可以反过来,将词向量拼接成一个$N*N$的矩阵,再通过$CNN$中的技术处理,这样是否可以缩小$LLM$模型计算的规模,从而起到简化模型的作用,可以让同体量的$LLM$模型能够容纳更长的语句。