内容目录

📝 更新记录
2024-05-26：补充2023-2024年视觉模型最新进展，新增第六阶段架构分析
2023-11-15：增加对现有 CNN 规律的梳理
2023-09-15: 扩充第五阶段(2020至今)架构介绍，新增ConvNeXt分析
2020-03-01: 首次发布文章

CNN历程

第一阶段：奠基时代 (1998-2011)

LeNet-5 (1998)

创始人：Yann LeCun

主要架构：

7层结构：3个卷积层、2个池化层、2个全连接层
使用5×5卷积核
使用sigmoid/tanh激活函数

突破点：

首次成功应用于实际问题(手写数字识别)
确立了"卷积层-池化层-全连接层"的基本范式
引入权重共享概念减少参数量

局限性：

由于计算资源限制，网络较浅
当时缺乏现代训练技巧，如批量归一化、ReLU激活函数

LeNet-5的出现标志着CNN的正式诞生，但在随后的十年里，由于计算能力受限，其他传统机器学习方法表现优异，所以CNN发展缓慢，直到GPU计算能力的提升和大规模训练数据的出现才迎来转机。

第二阶段：深度学习爆发期 (2012-2014)

AlexNet (2012) - 深度学习革命的火种

创始人：Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

主要架构：

8层：5个卷积层、3个全连接层
首次大量使用ReLU激活函数
使用重叠最大池化（Overlapping Max Pooling）池化窗口大小大于步长，相邻输出单元有重叠的感受野，缓解过拟合，平滑特征过渡，扩大感受野（receptive field）
使用Dropout防止过拟合

突破点：

2012年ImageNet挑战赛冠军，错误率从26%降至15.3%
深度学习革命的标志性事件
证明GPU对训练深度网络的重要性
首次大规模使用数据增强(Data Augmentation):多尺度裁剪，水平翻转，PCA色彩扰动

ZFNet (2013) - 打开CNN黑盒

创始人：Matthew Zeiler与Rob Fergus

主要架构：

AlexNet的改进版
更小的第一层卷积核(7×7代替11×11)
更小的步长

突破点：

2013年ImageNet挑战赛冠军
首次通过可视化技术解释CNN内部工作机制
引入"（本质上是Transposed Convolution）转置卷积"(Deconvolution是反卷积)概念

贡献：

深入理解CNN的特征学习过程
为CNN可解释性研究奠定基础

VGGNet (2014) - 简洁但深入

创始人：牛津大学Visual Geometry Group团队

主要架构：

使用统一的3×3小卷积核堆叠
深度从11层(VGG11)到19层(VGG19)不等
2×2最大池化层
三个全连接层结构

突破点：

证明"深度"对性能的关键影响
用多个小卷积核替代大卷积核(两个3×3卷积层≈一个5×5卷积层，感受野相同，参数量和计算量也更低,但与后来的inception相比特征类型单一)
简洁统一的网络结构设计理念

影响：

至今仍被用作特征提取主干网络
简洁理念
首次系统研究网络深度的影响

GoogLeNet/Inception-v1 (2014) - 多尺度特征的智慧

创始人：Google

主要架构：

22层深度网络
引入"Inception模块"：并联多种尺寸卷积核
使用1×1卷积降维
引入辅助分类器帮助训练

突破点：

2014年ImageNet挑战赛冠军
大幅减少参数量(仅5M，比AlexNet少12倍)
引入模块化设计思想
解决了计算效率与模型表达能力的平衡问题

贡献：

证明复杂网络可以高效设计
1×1卷积成为标准设计工具
开启了"网络中的网络"设计范式

GoogLeNet从根本上改变了CNN的设计思路，后续网络结构设计不再是简单堆叠。

第三阶段：架构创新期 (2015-2017)

ResNet (2015) - 超深网络的突破

创始人：何恺明团队(Miscroft)

主要架构：

超深网络(从34层到152层，后续甚至到1000+层)
核心创新：残差块(Residual Block)
公式：H(x) = F(x) + x，直接添加输入到输出

突破点：

2015年ImageNet挑战赛冠军(3.57%错误率，首次超越人类)
根本性解决深度网络的退化问题
错误率从AlexNet的15.3%下降到3.57%

历史意义：

CNN史上最重要创新之一
使真正深层网络成为可能
ResNet及其变体至今仍是主流架构
残差学习成为深度学习标准技术

ResNet的出现是CNN历史上的里程碑事件。它不仅首次使网络深度突破百层，更重要的是提出了一种优雅的解决方案来克服深度网络的退化问题。残差连接这一简单而有效的设计，从此成为几乎所有深度网络的标准组件。

Inception-v2/v3 (2015) - 精益求精的模块设计

创始人：Google团队

主要架构：

改进的Inception模块
分解大卷积核(7×7分解为1×7和7×1)
引入批量归一化(Batch Normalization)
更有效的降维策略

突破点：

进一步减少参数量同时提高性能
成功应用卷积分解技术
证明非对称卷积的有效性

贡献：

非对称卷积设计影响后续轻量级网络
批量归一化成为标准训练技巧

引入了批量归一化(BN)和非对称卷积(AC)等创新

Inception-v4和Inception-ResNet (2016) - 架构融合的开端

创始人：Google团队

主要架构：

结合Inception架构和ResNet残差连接
更统一、更简化的Inception模块
使用残差缩放(Residual Scaling)防止不稳定性

突破点：

证明残差连接可与各种架构结合
提升训练速度和模型性能
展示架构混合的强大潜力

影响：

推动了模型融合与架构混合研究
为后续"混血"架构铺平道路

Inception-ResNet代表了CNN发展的新趋势：将不同架构的优势结合起来创造更强大的网络。这种"取长补短"的方法，为后续网络设计提供了全新思路。

DenseNet (2016) - 特征重用的极致

创始人：黄高团队

主要架构：

密集连接：每层与其前面所有层直接相连
特征重用：通过连接(不是相加)传递信息
瓶颈层设计减少参数量

突破点：

比ResNet使用更少参数达到类似性能
缓解梯度消失问题
提高特征传播效率
强大的正则化效果减少过拟合

贡献：

另一种解决深度网络训练问题的范式
影响后续特征重用和连接策略设计

如果说，ResNet是通过"捷径"解决深度网络训练问题，那么DenseNet则是通过"高速公路"实现了更加高效的特征传播。这两种方法虽然思路不同，但是都指向了同一个目标：那就是使得深度网络的训练更加稳定高效。DenseNet的密集连接机制带来了更强的特征重用能力和正则化效果。

第四阶段：高效与轻量化时代 (2017-2019)

MobileNet系列 (2017-2019) - 移动设备的AI革命

创始人：Google团队

主要架构：

深度可分离卷积：将标准卷积分解为深度卷积和点卷积
MobileNetV2引入倒置残差结构
MobileNetV3结合神经架构搜索和SE模块

突破点：

极大减少计算复杂度(比标准CNN减少8-9倍)
适用于移动和嵌入式设备
提出宽度乘子和分辨率乘子调整计算复杂度

意义：

开启轻量级CNN研究新方向
使深度学习在资源受限设备上实用化
影响所有后续移动端网络设计

MobileNet系列标志着CNN研究的重要转向：从追求极致性能到追求计算效率和实用性的平衡。这一转变使得深度学习能够走出云端数据中心，真正走入智能手机等日常设备，极大地扩展了CNN的应用场景。

SENet (2017) - 注意力机制的开创者

创始人：Jie Hu等人

主要架构：

引入"Squeeze-and-Excitation"(SE)模块
通过全局池化"压缩"特征
通过两个全连接层"激励"特征通道
可插入任何现有架构

突破点：

2017年ImageNet挑战赛冠军
显式建模特征通道间依赖关系
极小参数量增加(~10%)换来显著性能提升

影响：

开创通道注意力机制研究
影响后续所有注意力机制设计
SE模块成为标准组件被广泛采用

SENet的重要性远超其性能提升，它将"注意力"这一概念引入CNN设计，启发了后续一系列基于注意力机制的创新。这种轻量而有效的设计，也与当时追求效率的趋势完美契合。

EfficientNet (2019) - 网络缩放的科学方法

创始人：谷歌团队(Mingxing Tan, Quoc V. Le)

主要架构：

基于MobileNetV2的移动倒置瓶颈结构
使用SE模块
核心创新：复合缩放方法，同时平衡网络宽度、深度和分辨率

突破点：

首次系统性解决CNN缩放问题
以更少参数和计算量达到最先进性能
EfficientNet-B7：84.4%准确率，比前代大模型高出5%

意义：

提供CNN设计新范式
为网络规模与计算效率优化提供理论基础
成为轻量高效网络设计基准

EfficientNet代表了CNN设计的一个重要里程碑：从艺术走向科学。它通过系统性研究网络缩放问题，提供了一种平衡各维度的理论指导，使得模型设计不再完全依赖经验和直觉。这一方法论的影响远超网络本身的性能提升。

第五阶段：范式转变与融合 (2020-2022)

Vision Transformer (ViT, 2020) - 视觉模型的范式革命

创始人：Google团队

主要架构：

并非传统CNN，而是将Transformer直接应用于图像
将图像分割成固定大小的块序列
使用纯自注意力机制处理视觉任务

突破点：

证明非CNN架构可以胜任视觉任务
在大规模数据集上超越CNN性能
自注意力机制在视觉领域的成功应用

意义：

开启视觉模型新范式
促使视觉和语言模型架构统一
推动后续CNN与Transformer混合研究

ViT的出现是视觉模型发展史上的转折点，它挑战了CNN作为视觉任务唯一主导架构的地位。虽然严格意义来说，ViT不属于CNN家族，但它对CNN的发展产生了深远影响，促使研究人员重新思考视觉模型的设计原则。

Swin Transformer (2021) - 层次化视觉Transformer的里程碑

创始人：微软研究院团队(Ze Liu, Yutong Lin等)

主要架构：

层次化设计：采用类似CNN的多尺度特征层次
滑动窗口注意力机制(Shifted Window)：平衡计算效率和跨窗口连接
相对位置编码：增强空间位置感知能力
从粗到细的特征金字塔结构

突破点：

成功解决ViT在密集预测任务上的局限性
线性计算复杂度，显著优于标准全局自注意力
在目标检测和语义分割等下游任务表现卓越
COCO目标检测与ADE20K语义分割基准上取得SOTA成绩

意义：

弥合CNN与Transformer的设计鸿沟
为视觉Transformer走向实用应用铺平道路
影响后续大量视觉架构设计
成为分层视觉Transformer的典范

ConvNeXt (2022) - 传统与现代的完美融合

创始人：Meta

主要架构：

“现代化"的纯CNN设计
从Transformer借鉴设计理念重构CNN
保留CNN的局部归纳偏置

突破点：

证明经过现代化改造的CNN可匹敌Transformer性能
结合CNN高效计算与Transformer先进设计理念
在多种视觉任务上取得卓越性能

意义：

CNN与Transformer架构趋同
表明经典CNN仍有强大生命力
视觉模型两大范式相互借鉴的典范

ConvNeXt代表了CNN发展的最新方向：从Transformer中汲取灵感，保留CNN的优势，实现两种范式的融合。这种"反向借鉴"表明，经典CNN架构并未过时，而是在新思想的启发下获得了新生。

第六阶段：多元范式与高效融合 (2023-2024)

InternImage (2023) - 可变形卷积的极致应用

创始人：上海人工智能实验室与商汤科技团队

主要架构：

基于大规模可变形卷积网络(DCNv3)设计
多级特征提取与自适应感受野调整
解耦内容-位置建模与特征聚合
集成大规模数据训练策略

突破点：

首次证明纯卷积架构可在所有视觉任务上超越Transformer
实现自适应空间建模，无需显式注意力机制
在目标检测、实例分割等任务上取得SOTA成绩
提出大规模可变形视觉主干网络概念

意义：

重新确立卷积架构在视觉领域的主导地位
将可变形卷积从辅助组件提升为核心构建块
开创通用视觉主干网络新范式
弥合CNN与Transformer之间的性能差距

InternImage代表了传统卷积神经网络的再创新，通过将可变形卷积推向极致，实现了卷积架构对Transformer性能的超越。它证明了经典CNN思想在与新兴架构竞争中仍然具有强大潜力，为视觉架构设计提供了新的思路。

Vision Mamba (2024) - 状态空间模型的视觉革新

创始人：上海人工智能实验室

主要架构：

将选择性状态空间模型(SSM/Mamba)应用于视觉任务
双向扫描策略捕获2D图像中的远程依赖
线性计算复杂度，突破自注意力机制的二次方复杂度瓶颈

突破点：

比ViT更高效地建模长距离空间依赖
在相似参数量下取得与ViT竞争的性能
推理速度与内存消耗显著优于Transformer

技术细节：

使用扫描-聚合策略处理2D图像
结合CNN的局部感知能力和SSM的长程建模能力
通过硬件感知设计实现高效推理

意义：

开辟视觉模型的第三条技术路线
为计算资源受限场景提供高效选择
视觉与语言模型架构再次趋同

SAM (2023) - 分割一切的视觉基础模型

创始人：Meta AI Research

主要架构：

图像编码器、提示编码器和掩码解码器三部分组成
基于ViT的主干网络与轻量级掩码预测头
支持多种提示输入：点、框、文本或掩码
零样本分割能力和交互式分割设计

突破点：

在超过10亿掩码数据上训练的首个通用分割模型
能够对任意物体进行零样本分割
开创提示驱动的视觉理解新范式
SA-1B数据集创建，包含超过11亿掩码

意义：

开创视觉基础模型新方向
将交互式理解引入视觉模型设计
改变计算机视觉任务设计思路
为下游应用提供强大的视觉理解基础

SAM代表了视觉模型从固定任务走向通用基础模型的重要转折点。