CNN历程

目录

📝 更新记录

  • 2024-05-26:补充2023-2024年视觉模型最新进展,新增第六阶段架构分析
  • 2023-11-15:增加对现有 CNN 规律的梳理
  • 2023-09-15: 扩充第五阶段(2020至今)架构介绍,新增ConvNeXt分析
  • 2020-03-01: 首次发布文章

CNN历程

第一阶段:奠基时代 (1998-2011)

LeNet-5 (1998)

创始人:Yann LeCun

主要架构

  • 7层结构:3个卷积层、2个池化层、2个全连接层
  • 使用5×5卷积核
  • 使用sigmoid/tanh激活函数

突破点

  • 首次成功应用于实际问题(手写数字识别)
  • 确立了"卷积层-池化层-全连接层"的基本范式
  • 引入权重共享概念减少参数量

局限性

  • 由于计算资源限制,网络较浅
  • 当时缺乏现代训练技巧,如批量归一化、ReLU激活函数

LeNet-5的出现标志着CNN的正式诞生,但在随后的十年里,由于计算能力受限,其他传统机器学习方法表现优异,所以CNN发展缓慢,直到GPU计算能力的提升和大规模训练数据的出现才迎来转机。

第二阶段:深度学习爆发期 (2012-2014)

AlexNet (2012) - 深度学习革命的火种

创始人:Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

主要架构

  • 8层:5个卷积层、3个全连接层
  • 首次大量使用ReLU激活函数
  • 使用重叠最大池化(Overlapping Max Pooling)池化窗口大小大于步长,相邻输出单元有重叠的感受野,缓解过拟合,平滑特征过渡,扩大感受野(receptive field)
  • 使用Dropout防止过拟合

突破点

  • 2012年ImageNet挑战赛冠军,错误率从26%降至15.3%
  • 深度学习革命的标志性事件
  • 证明GPU对训练深度网络的重要性
  • 首次大规模使用数据增强(Data Augmentation):多尺度裁剪,水平翻转,PCA色彩扰动

ZFNet (2013) - 打开CNN黑盒

创始人:Matthew Zeiler与Rob Fergus

主要架构

  • AlexNet的改进版
  • 更小的第一层卷积核(7×7代替11×11)
  • 更小的步长

突破点

  • 2013年ImageNet挑战赛冠军
  • 首次通过可视化技术解释CNN内部工作机制
  • 引入"(本质上是Transposed Convolution)转置卷积"(Deconvolution是反卷积)概念

贡献

  • 深入理解CNN的特征学习过程
  • 为CNN可解释性研究奠定基础

VGGNet (2014) - 简洁但深入

创始人:牛津大学Visual Geometry Group团队

主要架构

  • 使用统一的3×3小卷积核堆叠
  • 深度从11层(VGG11)到19层(VGG19)不等
  • 2×2最大池化层
  • 三个全连接层结构

突破点

  • 证明"深度"对性能的关键影响
  • 用多个小卷积核替代大卷积核(两个3×3卷积层≈一个5×5卷积层,感受野相同,参数量和计算量也更低,但与后来的inception相比特征类型单一)
  • 简洁统一的网络结构设计理念

影响

  • 至今仍被用作特征提取主干网络
  • 简洁理念
  • 首次系统研究网络深度的影响

GoogLeNet/Inception-v1 (2014) - 多尺度特征的智慧

创始人:Google

主要架构

  • 22层深度网络
  • 引入"Inception模块":并联多种尺寸卷积核
  • 使用1×1卷积降维
  • 引入辅助分类器帮助训练

突破点

  • 2014年ImageNet挑战赛冠军
  • 大幅减少参数量(仅5M,比AlexNet少12倍)
  • 引入模块化设计思想
  • 解决了计算效率与模型表达能力的平衡问题

贡献

  • 证明复杂网络可以高效设计
  • 1×1卷积成为标准设计工具
  • 开启了"网络中的网络"设计范式

GoogLeNet从根本上改变了CNN的设计思路,后续网络结构设计不再是简单堆叠。

第三阶段:架构创新期 (2015-2017)

ResNet (2015) - 超深网络的突破

创始人:何恺明团队(Miscroft)

主要架构

  • 超深网络(从34层到152层,后续甚至到1000+层)
  • 核心创新:残差块(Residual Block)
  • 公式:H(x) = F(x) + x,直接添加输入到输出

突破点

  • 2015年ImageNet挑战赛冠军(3.57%错误率,首次超越人类)
  • 根本性解决深度网络的退化问题
  • 错误率从AlexNet的15.3%下降到3.57%

历史意义

  • CNN史上最重要创新之一
  • 使真正深层网络成为可能
  • ResNet及其变体至今仍是主流架构
  • 残差学习成为深度学习标准技术

ResNet的出现是CNN历史上的里程碑事件。它不仅首次使网络深度突破百层,更重要的是提出了一种优雅的解决方案来克服深度网络的退化问题。残差连接这一简单而有效的设计,从此成为几乎所有深度网络的标准组件。

Inception-v2/v3 (2015) - 精益求精的模块设计

创始人:Google团队

主要架构

  • 改进的Inception模块
  • 分解大卷积核(7×7分解为1×7和7×1)
  • 引入批量归一化(Batch Normalization)
  • 更有效的降维策略

突破点

  • 进一步减少参数量同时提高性能
  • 成功应用卷积分解技术
  • 证明非对称卷积的有效性

贡献

  • 非对称卷积设计影响后续轻量级网络
  • 批量归一化成为标准训练技巧

引入了批量归一化(BN)和非对称卷积(AC)等创新

Inception-v4和Inception-ResNet (2016) - 架构融合的开端

创始人:Google团队

主要架构

  • 结合Inception架构和ResNet残差连接
  • 更统一、更简化的Inception模块
  • 使用残差缩放(Residual Scaling)防止不稳定性

突破点

  • 证明残差连接可与各种架构结合
  • 提升训练速度和模型性能
  • 展示架构混合的强大潜力

影响

  • 推动了模型融合与架构混合研究
  • 为后续"混血"架构铺平道路

Inception-ResNet代表了CNN发展的新趋势:将不同架构的优势结合起来创造更强大的网络。这种"取长补短"的方法,为后续网络设计提供了全新思路。

DenseNet (2016) - 特征重用的极致

创始人:黄高团队

主要架构

  • 密集连接:每层与其前面所有层直接相连
  • 特征重用:通过连接(不是相加)传递信息
  • 瓶颈层设计减少参数量

突破点

  • 比ResNet使用更少参数达到类似性能
  • 缓解梯度消失问题
  • 提高特征传播效率
  • 强大的正则化效果减少过拟合

贡献

  • 另一种解决深度网络训练问题的范式
  • 影响后续特征重用和连接策略设计

如果说,ResNet是通过"捷径"解决深度网络训练问题,那么DenseNet则是通过"高速公路"实现了更加高效的特征传播。这两种方法虽然思路不同,但是都指向了同一个目标:那就是使得深度网络的训练更加稳定高效。DenseNet的密集连接机制带来了更强的特征重用能力和正则化效果。

第四阶段:高效与轻量化时代 (2017-2019)

MobileNet系列 (2017-2019) - 移动设备的AI革命

创始人:Google团队

主要架构

  • 深度可分离卷积:将标准卷积分解为深度卷积和点卷积
  • MobileNetV2引入倒置残差结构
  • MobileNetV3结合神经架构搜索和SE模块

突破点

  • 极大减少计算复杂度(比标准CNN减少8-9倍)
  • 适用于移动和嵌入式设备
  • 提出宽度乘子和分辨率乘子调整计算复杂度

意义

  • 开启轻量级CNN研究新方向
  • 使深度学习在资源受限设备上实用化
  • 影响所有后续移动端网络设计

MobileNet系列标志着CNN研究的重要转向:从追求极致性能到追求计算效率和实用性的平衡。这一转变使得深度学习能够走出云端数据中心,真正走入智能手机等日常设备,极大地扩展了CNN的应用场景。

SENet (2017) - 注意力机制的开创者

创始人:Jie Hu等人

主要架构

  • 引入"Squeeze-and-Excitation"(SE)模块
  • 通过全局池化"压缩"特征
  • 通过两个全连接层"激励"特征通道
  • 可插入任何现有架构

突破点

  • 2017年ImageNet挑战赛冠军
  • 显式建模特征通道间依赖关系
  • 极小参数量增加(~10%)换来显著性能提升

影响

  • 开创通道注意力机制研究
  • 影响后续所有注意力机制设计
  • SE模块成为标准组件被广泛采用

SENet的重要性远超其性能提升,它将"注意力"这一概念引入CNN设计,启发了后续一系列基于注意力机制的创新。这种轻量而有效的设计,也与当时追求效率的趋势完美契合。

EfficientNet (2019) - 网络缩放的科学方法

创始人:谷歌团队(Mingxing Tan, Quoc V. Le)

主要架构

  • 基于MobileNetV2的移动倒置瓶颈结构
  • 使用SE模块
  • 核心创新:复合缩放方法,同时平衡网络宽度、深度和分辨率

突破点

  • 首次系统性解决CNN缩放问题
  • 以更少参数和计算量达到最先进性能
  • EfficientNet-B7:84.4%准确率,比前代大模型高出5%

意义

  • 提供CNN设计新范式
  • 为网络规模与计算效率优化提供理论基础
  • 成为轻量高效网络设计基准

EfficientNet代表了CNN设计的一个重要里程碑:从艺术走向科学。它通过系统性研究网络缩放问题,提供了一种平衡各维度的理论指导,使得模型设计不再完全依赖经验和直觉。这一方法论的影响远超网络本身的性能提升。

第五阶段:范式转变与融合 (2020-2022)

Vision Transformer (ViT, 2020) - 视觉模型的范式革命

创始人:Google团队

主要架构

  • 并非传统CNN,而是将Transformer直接应用于图像
  • 将图像分割成固定大小的块序列
  • 使用纯自注意力机制处理视觉任务

突破点

  • 证明非CNN架构可以胜任视觉任务
  • 在大规模数据集上超越CNN性能
  • 自注意力机制在视觉领域的成功应用

意义

  • 开启视觉模型新范式
  • 促使视觉和语言模型架构统一
  • 推动后续CNN与Transformer混合研究

ViT的出现是视觉模型发展史上的转折点,它挑战了CNN作为视觉任务唯一主导架构的地位。虽然严格意义来说,ViT不属于CNN家族,但它对CNN的发展产生了深远影响,促使研究人员重新思考视觉模型的设计原则。

Swin Transformer (2021) - 层次化视觉Transformer的里程碑

创始人:微软研究院团队(Ze Liu, Yutong Lin等)

主要架构

  • 层次化设计:采用类似CNN的多尺度特征层次
  • 滑动窗口注意力机制(Shifted Window):平衡计算效率和跨窗口连接
  • 相对位置编码:增强空间位置感知能力
  • 从粗到细的特征金字塔结构

突破点

  • 成功解决ViT在密集预测任务上的局限性
  • 线性计算复杂度,显著优于标准全局自注意力
  • 在目标检测和语义分割等下游任务表现卓越
  • COCO目标检测与ADE20K语义分割基准上取得SOTA成绩

意义

  • 弥合CNN与Transformer的设计鸿沟
  • 为视觉Transformer走向实用应用铺平道路
  • 影响后续大量视觉架构设计
  • 成为分层视觉Transformer的典范

ConvNeXt (2022) - 传统与现代的完美融合

创始人:Meta

主要架构

  • “现代化"的纯CNN设计
  • 从Transformer借鉴设计理念重构CNN
  • 保留CNN的局部归纳偏置

突破点

  • 证明经过现代化改造的CNN可匹敌Transformer性能
  • 结合CNN高效计算与Transformer先进设计理念
  • 在多种视觉任务上取得卓越性能

意义

  • CNN与Transformer架构趋同
  • 表明经典CNN仍有强大生命力
  • 视觉模型两大范式相互借鉴的典范

ConvNeXt代表了CNN发展的最新方向:从Transformer中汲取灵感,保留CNN的优势,实现两种范式的融合。这种"反向借鉴"表明,经典CNN架构并未过时,而是在新思想的启发下获得了新生。

第六阶段:多元范式与高效融合 (2023-2024)

InternImage (2023) - 可变形卷积的极致应用

创始人:上海人工智能实验室与商汤科技团队

主要架构

  • 基于大规模可变形卷积网络(DCNv3)设计
  • 多级特征提取与自适应感受野调整
  • 解耦内容-位置建模与特征聚合
  • 集成大规模数据训练策略

突破点

  • 首次证明纯卷积架构可在所有视觉任务上超越Transformer
  • 实现自适应空间建模,无需显式注意力机制
  • 在目标检测、实例分割等任务上取得SOTA成绩
  • 提出大规模可变形视觉主干网络概念

意义

  • 重新确立卷积架构在视觉领域的主导地位
  • 将可变形卷积从辅助组件提升为核心构建块
  • 开创通用视觉主干网络新范式
  • 弥合CNN与Transformer之间的性能差距

InternImage代表了传统卷积神经网络的再创新,通过将可变形卷积推向极致,实现了卷积架构对Transformer性能的超越。它证明了经典CNN思想在与新兴架构竞争中仍然具有强大潜力,为视觉架构设计提供了新的思路。

Vision Mamba (2024) - 状态空间模型的视觉革新

创始人:上海人工智能实验室

主要架构

  • 将选择性状态空间模型(SSM/Mamba)应用于视觉任务
  • 双向扫描策略捕获2D图像中的远程依赖
  • 线性计算复杂度,突破自注意力机制的二次方复杂度瓶颈

突破点

  • 比ViT更高效地建模长距离空间依赖
  • 在相似参数量下取得与ViT竞争的性能
  • 推理速度与内存消耗显著优于Transformer

技术细节

  • 使用扫描-聚合策略处理2D图像
  • 结合CNN的局部感知能力和SSM的长程建模能力
  • 通过硬件感知设计实现高效推理

意义

  • 开辟视觉模型的第三条技术路线
  • 为计算资源受限场景提供高效选择
  • 视觉与语言模型架构再次趋同

SAM (2023) - 分割一切的视觉基础模型

创始人:Meta AI Research

主要架构

  • 图像编码器、提示编码器和掩码解码器三部分组成
  • 基于ViT的主干网络与轻量级掩码预测头
  • 支持多种提示输入:点、框、文本或掩码
  • 零样本分割能力和交互式分割设计

突破点

  • 在超过10亿掩码数据上训练的首个通用分割模型
  • 能够对任意物体进行零样本分割
  • 开创提示驱动的视觉理解新范式
  • SA-1B数据集创建,包含超过11亿掩码

意义

  • 开创视觉基础模型新方向
  • 将交互式理解引入视觉模型设计
  • 改变计算机视觉任务设计思路
  • 为下游应用提供强大的视觉理解基础

SAM代表了视觉模型从固定任务走向通用基础模型的重要转折点。

文章对话

由AI生成的"小T"和"好奇宝宝"之间的对话,帮助理解文章内容