CNN历程
目录
📝 更新记录
- 2024-05-26:补充2023-2024年视觉模型最新进展,新增第六阶段架构分析
- 2023-11-15:增加对现有 CNN 规律的梳理
- 2023-09-15: 扩充第五阶段(2020至今)架构介绍,新增ConvNeXt分析
- 2020-03-01: 首次发布文章
CNN历程
第一阶段:奠基时代 (1998-2011)
LeNet-5 (1998)
创始人:Yann LeCun
主要架构:
- 7层结构:3个卷积层、2个池化层、2个全连接层
- 使用5×5卷积核
- 使用sigmoid/tanh激活函数
突破点:
- 首次成功应用于实际问题(手写数字识别)
- 确立了"卷积层-池化层-全连接层"的基本范式
- 引入权重共享概念减少参数量
局限性:
- 由于计算资源限制,网络较浅
- 当时缺乏现代训练技巧,如批量归一化、ReLU激活函数
LeNet-5的出现标志着CNN的正式诞生,但在随后的十年里,由于计算能力受限,其他传统机器学习方法表现优异,所以CNN发展缓慢,直到GPU计算能力的提升和大规模训练数据的出现才迎来转机。
第二阶段:深度学习爆发期 (2012-2014)
AlexNet (2012) - 深度学习革命的火种
创始人:Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
主要架构:
- 8层:5个卷积层、3个全连接层
- 首次大量使用ReLU激活函数
- 使用重叠最大池化(Overlapping Max Pooling)池化窗口大小大于步长,相邻输出单元有重叠的感受野,缓解过拟合,平滑特征过渡,扩大感受野(receptive field)
- 使用Dropout防止过拟合
突破点:
- 2012年ImageNet挑战赛冠军,错误率从26%降至15.3%
- 深度学习革命的标志性事件
- 证明GPU对训练深度网络的重要性
- 首次大规模使用数据增强(Data Augmentation):多尺度裁剪,水平翻转,PCA色彩扰动
ZFNet (2013) - 打开CNN黑盒
创始人:Matthew Zeiler与Rob Fergus
主要架构:
- AlexNet的改进版
- 更小的第一层卷积核(7×7代替11×11)
- 更小的步长
突破点:
- 2013年ImageNet挑战赛冠军
- 首次通过可视化技术解释CNN内部工作机制
- 引入"(本质上是Transposed Convolution)转置卷积"(Deconvolution是反卷积)概念
贡献:
- 深入理解CNN的特征学习过程
- 为CNN可解释性研究奠定基础
VGGNet (2014) - 简洁但深入
创始人:牛津大学Visual Geometry Group团队
主要架构:
- 使用统一的3×3小卷积核堆叠
- 深度从11层(VGG11)到19层(VGG19)不等
- 2×2最大池化层
- 三个全连接层结构
突破点:
- 证明"深度"对性能的关键影响
- 用多个小卷积核替代大卷积核(两个3×3卷积层≈一个5×5卷积层,感受野相同,参数量和计算量也更低,但与后来的inception相比特征类型单一)
- 简洁统一的网络结构设计理念
影响:
- 至今仍被用作特征提取主干网络
- 简洁理念
- 首次系统研究网络深度的影响
GoogLeNet/Inception-v1 (2014) - 多尺度特征的智慧
创始人:Google
主要架构:
- 22层深度网络
- 引入"Inception模块":并联多种尺寸卷积核
- 使用1×1卷积降维
- 引入辅助分类器帮助训练
突破点:
- 2014年ImageNet挑战赛冠军
- 大幅减少参数量(仅5M,比AlexNet少12倍)
- 引入模块化设计思想
- 解决了计算效率与模型表达能力的平衡问题
贡献:
- 证明复杂网络可以高效设计
- 1×1卷积成为标准设计工具
- 开启了"网络中的网络"设计范式
GoogLeNet从根本上改变了CNN的设计思路,后续网络结构设计不再是简单堆叠。
第三阶段:架构创新期 (2015-2017)
ResNet (2015) - 超深网络的突破
创始人:何恺明团队(Miscroft)
主要架构:
- 超深网络(从34层到152层,后续甚至到1000+层)
- 核心创新:残差块(Residual Block)
- 公式:H(x) = F(x) + x,直接添加输入到输出
突破点:
- 2015年ImageNet挑战赛冠军(3.57%错误率,首次超越人类)
- 根本性解决深度网络的退化问题
- 错误率从AlexNet的15.3%下降到3.57%
历史意义:
- CNN史上最重要创新之一
- 使真正深层网络成为可能
- ResNet及其变体至今仍是主流架构
- 残差学习成为深度学习标准技术
ResNet的出现是CNN历史上的里程碑事件。它不仅首次使网络深度突破百层,更重要的是提出了一种优雅的解决方案来克服深度网络的退化问题。残差连接这一简单而有效的设计,从此成为几乎所有深度网络的标准组件。
Inception-v2/v3 (2015) - 精益求精的模块设计
创始人:Google团队
主要架构:
- 改进的Inception模块
- 分解大卷积核(7×7分解为1×7和7×1)
- 引入批量归一化(Batch Normalization)
- 更有效的降维策略
突破点:
- 进一步减少参数量同时提高性能
- 成功应用卷积分解技术
- 证明非对称卷积的有效性
贡献:
- 非对称卷积设计影响后续轻量级网络
- 批量归一化成为标准训练技巧
引入了批量归一化(BN)和非对称卷积(AC)等创新
Inception-v4和Inception-ResNet (2016) - 架构融合的开端
创始人:Google团队
主要架构:
- 结合Inception架构和ResNet残差连接
- 更统一、更简化的Inception模块
- 使用残差缩放(Residual Scaling)防止不稳定性
突破点:
- 证明残差连接可与各种架构结合
- 提升训练速度和模型性能
- 展示架构混合的强大潜力
影响:
- 推动了模型融合与架构混合研究
- 为后续"混血"架构铺平道路
Inception-ResNet代表了CNN发展的新趋势:将不同架构的优势结合起来创造更强大的网络。这种"取长补短"的方法,为后续网络设计提供了全新思路。
DenseNet (2016) - 特征重用的极致
创始人:黄高团队
主要架构:
- 密集连接:每层与其前面所有层直接相连
- 特征重用:通过连接(不是相加)传递信息
- 瓶颈层设计减少参数量
突破点:
- 比ResNet使用更少参数达到类似性能
- 缓解梯度消失问题
- 提高特征传播效率
- 强大的正则化效果减少过拟合
贡献:
- 另一种解决深度网络训练问题的范式
- 影响后续特征重用和连接策略设计
如果说,ResNet是通过"捷径"解决深度网络训练问题,那么DenseNet则是通过"高速公路"实现了更加高效的特征传播。这两种方法虽然思路不同,但是都指向了同一个目标:那就是使得深度网络的训练更加稳定高效。DenseNet的密集连接机制带来了更强的特征重用能力和正则化效果。
第四阶段:高效与轻量化时代 (2017-2019)
MobileNet系列 (2017-2019) - 移动设备的AI革命
创始人:Google团队
主要架构:
- 深度可分离卷积:将标准卷积分解为深度卷积和点卷积
- MobileNetV2引入倒置残差结构
- MobileNetV3结合神经架构搜索和SE模块
突破点:
- 极大减少计算复杂度(比标准CNN减少8-9倍)
- 适用于移动和嵌入式设备
- 提出宽度乘子和分辨率乘子调整计算复杂度
意义:
- 开启轻量级CNN研究新方向
- 使深度学习在资源受限设备上实用化
- 影响所有后续移动端网络设计
MobileNet系列标志着CNN研究的重要转向:从追求极致性能到追求计算效率和实用性的平衡。这一转变使得深度学习能够走出云端数据中心,真正走入智能手机等日常设备,极大地扩展了CNN的应用场景。
SENet (2017) - 注意力机制的开创者
创始人:Jie Hu等人
主要架构:
- 引入"Squeeze-and-Excitation"(SE)模块
- 通过全局池化"压缩"特征
- 通过两个全连接层"激励"特征通道
- 可插入任何现有架构
突破点:
- 2017年ImageNet挑战赛冠军
- 显式建模特征通道间依赖关系
- 极小参数量增加(~10%)换来显著性能提升
影响:
- 开创通道注意力机制研究
- 影响后续所有注意力机制设计
- SE模块成为标准组件被广泛采用
SENet的重要性远超其性能提升,它将"注意力"这一概念引入CNN设计,启发了后续一系列基于注意力机制的创新。这种轻量而有效的设计,也与当时追求效率的趋势完美契合。
EfficientNet (2019) - 网络缩放的科学方法
创始人:谷歌团队(Mingxing Tan, Quoc V. Le)
主要架构:
- 基于MobileNetV2的移动倒置瓶颈结构
- 使用SE模块
- 核心创新:复合缩放方法,同时平衡网络宽度、深度和分辨率
突破点:
- 首次系统性解决CNN缩放问题
- 以更少参数和计算量达到最先进性能
- EfficientNet-B7:84.4%准确率,比前代大模型高出5%
意义:
- 提供CNN设计新范式
- 为网络规模与计算效率优化提供理论基础
- 成为轻量高效网络设计基准
EfficientNet代表了CNN设计的一个重要里程碑:从艺术走向科学。它通过系统性研究网络缩放问题,提供了一种平衡各维度的理论指导,使得模型设计不再完全依赖经验和直觉。这一方法论的影响远超网络本身的性能提升。
第五阶段:范式转变与融合 (2020-2022)
Vision Transformer (ViT, 2020) - 视觉模型的范式革命
创始人:Google团队
主要架构:
- 并非传统CNN,而是将Transformer直接应用于图像
- 将图像分割成固定大小的块序列
- 使用纯自注意力机制处理视觉任务
突破点:
- 证明非CNN架构可以胜任视觉任务
- 在大规模数据集上超越CNN性能
- 自注意力机制在视觉领域的成功应用
意义:
- 开启视觉模型新范式
- 促使视觉和语言模型架构统一
- 推动后续CNN与Transformer混合研究
ViT的出现是视觉模型发展史上的转折点,它挑战了CNN作为视觉任务唯一主导架构的地位。虽然严格意义来说,ViT不属于CNN家族,但它对CNN的发展产生了深远影响,促使研究人员重新思考视觉模型的设计原则。
Swin Transformer (2021) - 层次化视觉Transformer的里程碑
创始人:微软研究院团队(Ze Liu, Yutong Lin等)
主要架构:
- 层次化设计:采用类似CNN的多尺度特征层次
- 滑动窗口注意力机制(Shifted Window):平衡计算效率和跨窗口连接
- 相对位置编码:增强空间位置感知能力
- 从粗到细的特征金字塔结构
突破点:
- 成功解决ViT在密集预测任务上的局限性
- 线性计算复杂度,显著优于标准全局自注意力
- 在目标检测和语义分割等下游任务表现卓越
- COCO目标检测与ADE20K语义分割基准上取得SOTA成绩
意义:
- 弥合CNN与Transformer的设计鸿沟
- 为视觉Transformer走向实用应用铺平道路
- 影响后续大量视觉架构设计
- 成为分层视觉Transformer的典范
ConvNeXt (2022) - 传统与现代的完美融合
创始人:Meta
主要架构:
- “现代化"的纯CNN设计
- 从Transformer借鉴设计理念重构CNN
- 保留CNN的局部归纳偏置
突破点:
- 证明经过现代化改造的CNN可匹敌Transformer性能
- 结合CNN高效计算与Transformer先进设计理念
- 在多种视觉任务上取得卓越性能
意义:
- CNN与Transformer架构趋同
- 表明经典CNN仍有强大生命力
- 视觉模型两大范式相互借鉴的典范
ConvNeXt代表了CNN发展的最新方向:从Transformer中汲取灵感,保留CNN的优势,实现两种范式的融合。这种"反向借鉴"表明,经典CNN架构并未过时,而是在新思想的启发下获得了新生。
第六阶段:多元范式与高效融合 (2023-2024)
InternImage (2023) - 可变形卷积的极致应用
创始人:上海人工智能实验室与商汤科技团队
主要架构:
- 基于大规模可变形卷积网络(DCNv3)设计
- 多级特征提取与自适应感受野调整
- 解耦内容-位置建模与特征聚合
- 集成大规模数据训练策略
突破点:
- 首次证明纯卷积架构可在所有视觉任务上超越Transformer
- 实现自适应空间建模,无需显式注意力机制
- 在目标检测、实例分割等任务上取得SOTA成绩
- 提出大规模可变形视觉主干网络概念
意义:
- 重新确立卷积架构在视觉领域的主导地位
- 将可变形卷积从辅助组件提升为核心构建块
- 开创通用视觉主干网络新范式
- 弥合CNN与Transformer之间的性能差距
InternImage代表了传统卷积神经网络的再创新,通过将可变形卷积推向极致,实现了卷积架构对Transformer性能的超越。它证明了经典CNN思想在与新兴架构竞争中仍然具有强大潜力,为视觉架构设计提供了新的思路。
Vision Mamba (2024) - 状态空间模型的视觉革新
创始人:上海人工智能实验室
主要架构:
- 将选择性状态空间模型(SSM/Mamba)应用于视觉任务
- 双向扫描策略捕获2D图像中的远程依赖
- 线性计算复杂度,突破自注意力机制的二次方复杂度瓶颈
突破点:
- 比ViT更高效地建模长距离空间依赖
- 在相似参数量下取得与ViT竞争的性能
- 推理速度与内存消耗显著优于Transformer
技术细节:
- 使用扫描-聚合策略处理2D图像
- 结合CNN的局部感知能力和SSM的长程建模能力
- 通过硬件感知设计实现高效推理
意义:
- 开辟视觉模型的第三条技术路线
- 为计算资源受限场景提供高效选择
- 视觉与语言模型架构再次趋同
SAM (2023) - 分割一切的视觉基础模型
创始人:Meta AI Research
主要架构:
- 图像编码器、提示编码器和掩码解码器三部分组成
- 基于ViT的主干网络与轻量级掩码预测头
- 支持多种提示输入:点、框、文本或掩码
- 零样本分割能力和交互式分割设计
突破点:
- 在超过10亿掩码数据上训练的首个通用分割模型
- 能够对任意物体进行零样本分割
- 开创提示驱动的视觉理解新范式
- SA-1B数据集创建,包含超过11亿掩码
意义:
- 开创视觉基础模型新方向
- 将交互式理解引入视觉模型设计
- 改变计算机视觉任务设计思路
- 为下游应用提供强大的视觉理解基础
SAM代表了视觉模型从固定任务走向通用基础模型的重要转折点。
文章对话
由AI生成的"小T"和"好奇宝宝"之间的对话,帮助理解文章内容