文章 on Jam Sylph's little universe

YOLOv5目标检测代码精读

Sun, 16 Oct 2022 00:00:00 +0000

YOLOv5目标检测代码精读

本文深入分析YOLOv5训练流程与数据增强机制，帮助个人梳理总结Yolov5这一目标检测模型的内部实现细节。

1. train.py 文件解析

1.1 Import 部分

import argparse
import math
import os
import random
import subprocess
import sys
import time
from copy import deepcopy
from datetime import datetime, timedelta
from pathlib import Path

try:
    import comet_ml  # must be imported before torch (if installed)
except ImportError:
    comet_ml = None

import numpy as np
import torch
import torch.distributed as dist
import torch.nn as nn
import yaml
from torch.optim import lr_scheduler
from tqdm import tqdm

FILE = Path(__file__).resolve()
ROOT = FILE.parents[0]  # YOLOv5 root directory
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))  # add ROOT to PATH
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative

import val as validate  # for end-of-epoch mAP
from models.experimental import attempt_load
from models.yolo import Model
from utils.autoanchor import check_anchors
from utils.autobatch import check_train_batch_size
from utils.callbacks import Callbacks
from utils.dataloaders import create_dataloader
from utils.downloads import attempt_download, is_url
from utils.general import (
    LOGGER,
    TQDM_BAR_FORMAT,
    check_amp,
    check_dataset,
    check_file,
    check_git_info,
    check_git_status,
    check_img_size,
    check_requirements,
    check_suffix,
    check_yaml,
    colorstr,
    get_latest_run,
    increment_path,
    init_seeds,
    intersect_dicts,
    labels_to_class_weights,
    labels_to_image_weights,
    methods,
    one_cycle,
    print_args,
    print_mutation,
    strip_optimizer,
    yaml_save,
)
from utils.loggers import LOGGERS, Loggers
from utils.loggers.comet.comet_utils import check_comet_resume
from utils.loss import ComputeLoss
from utils.metrics import fitness
from utils.plots import plot_evolve
from utils.torch_utils import (
    EarlyStopping,
    ModelEMA,
    de_parallel,
    select_device,
    smart_DDP,
    smart_optimizer,
    smart_resume,
    torch_distributed_zero_first,
)

LOCAL_RANK = int(os.getenv("LOCAL_RANK", -1))
RANK = int(os.getenv("RANK", -1))
WORLD_SIZE = int(os.getenv("WORLD_SIZE", 1))
GIT_INFO = check_git_info()

1.2 Train() 函数详解

Train()函数是YOLOv5训练的核心函数，负责整个训练流程的管理：

CNN历程

Sun, 01 Mar 2020 00:00:00 +0000

📝 更新记录

2024-05-26：补充2023-2024年视觉模型最新进展，新增第六阶段架构分析

2023-11-15：增加对现有 CNN 规律的梳理

2023-09-15: 扩充第五阶段(2020至今)架构介绍，新增ConvNeXt分析

2020-03-01: 首次发布文章

CNN历程

第一阶段：奠基时代 (1998-2011)

LeNet-5 (1998)

创始人：Yann LeCun

主要架构：

7层结构：3个卷积层、2个池化层、2个全连接层
使用5×5卷积核
使用sigmoid/tanh激活函数

突破点：

首次成功应用于实际问题(手写数字识别)
确立了"卷积层-池化层-全连接层"的基本范式
引入权重共享概念减少参数量

局限性：

由于计算资源限制，网络较浅
当时缺乏现代训练技巧，如批量归一化、ReLU激活函数

LeNet-5的出现标志着CNN的正式诞生，但在随后的十年里，由于计算能力受限，其他传统机器学习方法表现优异，所以CNN发展缓慢，直到GPU计算能力的提升和大规模训练数据的出现才迎来转机。

第二阶段：深度学习爆发期 (2012-2014)

AlexNet (2012) - 深度学习革命的火种

创始人：Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

主要架构：

8层：5个卷积层、3个全连接层
首次大量使用ReLU激活函数
使用重叠最大池化（Overlapping Max Pooling）池化窗口大小大于步长，相邻输出单元有重叠的感受野，缓解过拟合，平滑特征过渡，扩大感受野（receptive field）
使用Dropout防止过拟合

突破点：

2012年ImageNet挑战赛冠军，错误率从26%降至15.3%
深度学习革命的标志性事件
证明GPU对训练深度网络的重要性
首次大规模使用数据增强(Data Augmentation):多尺度裁剪，水平翻转，PCA色彩扰动

ZFNet (2013) - 打开CNN黑盒

创始人：Matthew Zeiler与Rob Fergus

主要架构：

AlexNet的改进版
更小的第一层卷积核(7×7代替11×11)
更小的步长

突破点：

2013年ImageNet挑战赛冠军
首次通过可视化技术解释CNN内部工作机制
引入"（本质上是Transposed Convolution）转置卷积"(Deconvolution是反卷积)概念

贡献：

Exploration of the Inception Architecture

Mon, 01 Jan 0001 00:00:00 +0000

📝 更新记录

2024-05-18:

增强了"自适应特征处理"部分，细化了三个层次的自适应机制

新增"瓶颈层设计模式"专题，深入分析降维-处理-升维的设计理念

2023-10-20:

全面修订文章结构，增强Inception思想普适性论述

补充Inception对现代网络设计的长期影响

2023-05-12:

扩充其他网络中的Inception影响

新增分割网络领域的Inception思想应用

2022-08-15:

更新YOLOv7部分内容

补充C2f模块与SPPF模块的Inception思想应用

2021-09-03:

增加YOLOv5相关内容

完善YOLO系列对Inception思想的演变分析

Exploration of the Inception Architecture

引言：从模块创新到设计范式

inception模块也就是2014年GoogleNet中的其中一个创新点，其本质就是并行多分枝，实现了在不同尺度上特征多样化的提取，这一思想影响了众多后续网络设计。

Inception设计原则的精髓

Inception模块打破了传统CNN的线性堆叠范式，引入了四个关键设计原则：

多尺度并行特征提取：同时使用不同感受野的卷积核捕获不同尺度的图像特征
计算效率优化：通过1×1卷积降维，实现的"瓶颈层"，减少计算量
网络宽度与深度平衡：在增加网络表达能力的同时避免参数数量爆炸
特征融合机制：通过通道拼接整合多路径提取的互补特征

YOLO系列中的Inception思想

YOLOv3：初步融合多尺度思想

特征金字塔结构：通过上采样和跳跃连接融合不同尺度特征，也就是多尺度特征表示
SPP (Spatial Pyramid Pooling) 模块：采用并行池化操作聚合不同感受野的特征信息

YOLOv4：Inception思想的系统性应用

Alexey Bochkovskiy团队

CSPDarknet53 backbone：采用CSP(Cross Stage Partial)连接，创建了多路径信息流，增强了特征重用，也就是并联
PANet (Path Aggregation Network) Neck：双向特征传递机制允许不同层次特征的有效融合，实现特征整合，使得各种信息更好融合
SPPCSP模块：在保留*空间金字塔池化(SPP)*多尺度处理能力的同时，通过CSP连接进一步提升了计算效率,达到计算效率优化

YOLOv5：Inception思想的精细化实现

Ultralytics

Focus模块：
- 不使用普通卷积，而是将图像像素进行重排
- 把2×2区域的像素分离成4个通道，类似"并行采样"
- 这种空间特征重组方式提高了信息密度，减少了计算量
- 体现了Inception的"不同方式并行处理输入"思想
C3模块：
- 改进版CSP结构，将输入分成两路
- 一路直接连接，一路通过多个残差块处理
- 这种"双路径"设计与Inception的并行分支思想相似
- 同时也提高了特征提取能力和计算效率
SPPF模块*：
- 将SPP模块优化为序列形式，减少计算开销
- 通过连续最大池化+特征融合实现多尺度特征提取
- 相比YOLOv4的SPPCSP，更加轻量高效

YOLOv7

WongKinYiu团队

introduction-to-yolo

Mon, 01 Jan 0001 00:00:00 +0000

yolo的历程

YOLO（You Only Look Once）是一种流行的实时目标检测算法，它以其高效的性能和较高的准确率而闻名。与传统的目标检测方法不同，YOLO将目标检测视为一个回归问题，直接从完整图像预测边界框和类别概率。

YOLO的基本原理

YOLO的核心思想是将整个图像划分为S×S的网格，每个网格负责预测包含在其中的目标。具体来说，每个网格预测：

B个边界框及其置信度
C个类别的条件概率

这种方法使YOLO能够在单次前向传播中完成目标检测，大大提高了处理速度。

YOLO的发展历程

YOLOv1

2016年，Joseph Redmon等人提出了第一版YOLO。YOLOv1虽然速度快，但准确率较低，尤其是对小目标的检测效果不佳。

YOLOv2/YOLO9000

YOLOv2引入了批量归一化、锚框等改进，并提出了YOLO9000，能够检测超过9000种不同的目标类别。

YOLOv3

YOLOv3使用了更复杂的骨干网络Darknet-53，并采用了多尺度预测，显著提高了对小目标的检测能力。

YOLOv4

YOLOv4引入了多种先进技术，如CSPDarknet53骨干网络、PANet路径聚合网络等，进一步提升了性能。

YOLOv5

YOLOv5由Ultralytics开发，提供了多种不同大小的模型（S、M、L、X），可以根据需求选择速度和准确率的平衡点。

YOLOv6、YOLOv7及更新版本

随着研究的深入，YOLO算法不断演进，推出了更高效、更准确的版本。

YOLO的应用场景

由于其实时性和较高的准确率，YOLO在多个领域有广泛应用：

自动驾驶：检测道路上的车辆、行人和交通标志
安防监控：识别异常行为和可疑物体
工业检测：检测产品缺陷
医学影像：辅助医生诊断疾病
零售分析：跟踪商店中的客户行为

实现YOLO的工具和框架

目前有多种工具和框架可以帮助开发者实现YOLO算法：

Darknet：YOLO的原始实现
PyTorch：提供了多种YOLO的实现版本
TensorFlow：也有YOLO的移植版本
ONNX：支持将YOLO模型转换为通用格式
OpenCV：提供了使用预训练YOLO模型的接口

结论

YOLO算法凭借其出色的速度和准确率平衡，已成为计算机视觉领域最受欢迎的目标检测算法之一。随着算法的不断改进和硬件的发展，YOLO的应用前景将更加广阔。

在未来的文章中，我将深入探讨YOLO的具体实现、训练技巧以及如何针对特定应用进行优化。敬请期待！

YOLOv5的dataloaders.py代码精读

Mon, 01 Jan 0001 00:00:00 +0000

在 yolov 5 目标检测任务中，我跑 train. Py 代码，在train_loader 中，那我就调用了create_dataloader 的函数，在该函数内部创建了LoadImagesAndLabels 类的实例作为 dataset，在这个 create_dataloader 函数最后返回一个 DataLoader和数据集:

-dataloaders. Py

PyTorch 数据集中的 `getitem` 方法工作原理

__getitem__ 是 Python 中的一个特殊方法（魔术方法），在 YOLOv 5 的 LoadImagesAndLabels 类中用于访问数据集中的单个样本。当您使用数据加载器或直接通过索引访问数据集时，这个方法会被调用。

访问流程

当执行以下操作时，__getitem__ 方法被调用：

直接从数据集访问：image, label = dataset[5]
通过 DataLoader 迭代：for images, labels in dataloader: ...

在 DataLoader 中，__getitem__ 会被多次并行调用（由 num_workers 参数决定），然后结果通过 collate_fn 方法合并为批次。

YOLOv 5 中 `getitem` 的工作流程

def __getitem__(self, index):
    # 1. 将传入的索引转换为实际使用的索引（处理线性、打乱或加权采样）
    index = self.indices[index]  
    
    # 2. 检查是否应用mosaic增强（基于配置和随机概率）
    if mosaic := self.mosaic and random.random() < hyp["mosaic"]:
        # 加载mosaic增强的图像和标签
        img, labels = self.load_mosaic(index)  # 这里是您想修改为load_mosaic9的地方
        shapes = None
        
        # 检查是否进一步应用mixup增强
        if random.random() < hyp["mixup"]:
            img, labels = mixup(img, labels, *self.load_mosaic(random.choice(self.indices)))
    else:
        # 3. 不使用mosaic时的常规图像加载和处理流程
        img, (h0, w0), (h, w) = self.load_image(index)
        
        # Letterbox处理
        shape = self.batch_shapes[self.batch[index]] if self.rect else self.img_size
        img, ratio, pad = letterbox(img, shape, auto=False, scaleup=self.augment)
        shapes = (h0, w0), ((h / h0, w / w0), pad)
        
        # 处理标签
        labels = self.labels[index].copy()
        if labels.size:
            labels[:, 1:] = xywhn2xyxy(labels[:, 1:], ratio[0] * w, ratio[1] * h, padw=pad[0], padh=pad[1])
            
        # 应用随机透视变换等增强
        if self.augment:
            img, labels = random_perspective(...)
    
    # 4. 标签格式转换
    nl = len(labels)
    if nl:
        labels[:, 1:5] = xyxy2xywhn(labels[:, 1:5], w=img.shape[1], h=img.shape[0], clip=True, eps=1e-3)
    
    # 5. 应用更多的增强技术（如果启用）
    if self.augment:
        # Albumentations增强
        img, labels = self.albumentations(img, labels)
        
        # HSV颜色空间增强
        augment_hsv(img, hgain=hyp["hsv_h"], sgain=hyp["hsv_s"], vgain=hyp["hsv_v"])
        
        # 上下翻转
        if random.random() < hyp["flipud"]:
            img = np.flipud(img)
            if nl:
                labels[:, 2] = 1 - labels[:, 2]
                
        # 左右翻转
        if random.random() < hyp["fliplr"]:
            img = np.fliplr(img)
            if nl:
                labels[:, 1] = 1 - labels[:, 1]
    
    # 6. 准备输出格式
    labels_out = torch.zeros((nl, 6))
    if nl:
        labels_out[:, 1:] = torch.from_numpy(labels)
        
    # 7. 图像格式转换：HWC->CHW, BGR->RGB
    img = img.transpose((2, 0, 1))[::-1]
    img = np.ascontiguousarray(img)
    
    # 8. 返回最终处理好的数据
    return torch.from_numpy(img), labels_out, self.im_files[index], shapes

DataLoader 如何使用 `getitem`

PyTorch 的 DataLoader 创建多个工作进程（worker）
每个 worker 负责获取批次中的部分样本，调用数据集的 __getitem__ 方法
所有样本收集完后，通过 collate_fn 函数合并为一个批次
最终批次传递给模型进行训练

修改 mosaic 增强

要将 4 图像 mosaic 修改为 9 图像 mosaic，您只需修改第 478 行的 self.load_mosaic(index) 为 self.load_mosaic9(index)。这样当启用 mosaic 增强时，系统会使用 9 张图片而不是 4 张图片来创建马赛克增强效果。

YOLOv8解码流程完全解析

Mon, 01 Jan 0001 00:00:00 +0000

YOLOv8解码流程完全解析

本文详细分析了YOLOv8目标检测算法中的预测解码和后处理机制，包括DFL(Distribution Focal Loss)解码、非极大值抑制(NMS)等关键环节。

1. 预测解码流程 (decode_predictions)

YOLOv8采用anchor-free设计，预测解码过程将网络输出转换为标准的边界框格式。整个流程可分为以下几个关键步骤：

1.1 网格点生成

为每个特征图生成参考点坐标和对应的stride值：

# 生成锚点和对应步长
anchors, strides = (x.transpose(0, 1) for x in 
                  self.make_anchors(predictions[1], self.stride, 0.5))
# anchors: 所有特征图的网格点坐标
# strides: 对应的stride值(8/16/32)

这一步完成了：

为三个特征图(P3/P4/P5)生成网格点
生成对应的stride值(P3:8, P4:16, P5:32)

1.2 特征图处理

将三个尺度的特征图预测结果统一处理，分离边界框和类别预测：

# 将三个特征图的预测结果拼接
x_cat = torch.cat([xi.view(1, self.nc + 16 * 4, -1) for xi in predictions[1]], 2)
# P3: (1, nc+64, 6400)  # 80*80=6400
# P4: (1, nc+64, 1600)  # 40*40=1600
# P5: (1, nc+64, 400)   # 20*20=400

# 分离边界框预测和类别预测
box, cls = x_cat.split((16 * 4, self.nc), 1)  
# box: (1, 64, 8400)  # 64=16*4，每个坐标用16个值编码
# cls: (1, nc, 8400)  # nc是类别数

维度解包为DFL解码做准备：

从MambaStock看Mamba

Mon, 01 Jan 0001 00:00:00 +0000

📝 更新记录

2024-06-16:

总结实验结果和未来改进方向

添加与其他模型的全面比较分析

完善技术洞察和最终结论

2024-06-15:

创建MambaStock论文复现文档

详细分析Mamba模型架构

实现MambaStock改进设计

从MambaStock看Mamba

1. Mamba模型架构回顾

根据论文，MambaStock结构是根据Mamba模型的改进，那先看Mamba模型的主要架构（mamba.py文件）

1.1 模型整体架构设计

Mamba采用层次化设计，由外向内可分为三层核心结构： Mamba → ResidualBlock → MambaBlock

class Mamba(nn.Module):
    def __init__(self, config: MambaConfig):
        super().__init__()
        self.layers = nn.ModuleList([ResidualBlock(config) for _ in range(config.n_layers)])
        self.norm_f = RMSNorm(config.d_model)

class ResidualBlock(nn.Module):
    def __init__(self, config: MambaConfig):
        super().__init__()
        self.mixer = MambaBlock(config)
        self.norm = RMSNorm(config.d_model)

class MambaBlock(nn.Module):
    def __init__(self, config: MambaConfig):
        # 各种layer的定义...

最外层结构是——Mamba类，创建了n_layer个ResidualBlock的list
中间层——其次每个ResidualBlock内部都有一个Mambablock作为核心的计算单元
最后在最内层——MambaBlock囊括了所有实际的计算逻辑，投影层+卷积层+SSM计算

这里的三层结构设计刚好就体现了现代深度学习架构的关键构思：模块化、残差连接以及层标准化

1.2 MambaConfig：参数化配置的精髓

@dataclass
class MambaConfig:
    d_model: int            # 模型维度 D
    n_layers: int           # 层数
    dt_rank: Union[int, str] = 'auto'   # Δ投影的秩
    d_state: int = 16       # 状态空间维度 N
    expand_factor: int = 2  # 扩展因子 E
    d_conv: int = 4         # 卷积核大小
      
    # Δ参数初始化相关配置
    dt_min: float = 0.001
    dt_max: float = 0.1
    dt_init: str = "random"
    dt_scale: float = 1.0
    dt_init_floor = 1e-4

精细的参数化配置使得模型具有高度可调整性，对比Transformer的配置来看，Mamba引入了多个特有参数：

文章 on Jam Sylph's little universe

YOLOv5目标检测代码精读

YOLOv5目标检测代码精读

1. train.py 文件解析

1.1 Import 部分

1.2 Train() 函数详解

CNN历程

📝 更新记录

CNN历程

第一阶段：奠基时代 (1998-2011)

LeNet-5 (1998)

第二阶段：深度学习爆发期 (2012-2014)

AlexNet (2012) - 深度学习革命的火种

ZFNet (2013) - 打开CNN黑盒

Exploration of the Inception Architecture

📝 更新记录

Exploration of the Inception Architecture

引言：从模块创新到设计范式

Inception设计原则的精髓

YOLO系列中的Inception思想

YOLOv3：初步融合多尺度思想

YOLOv4：Inception思想的系统性应用

YOLOv5：Inception思想的精细化实现

YOLOv7

introduction-to-yolo

yolo的历程

YOLO的基本原理

YOLO的发展历程

YOLOv1

YOLOv2/YOLO9000

YOLOv3

YOLOv4

YOLOv5

YOLOv6、YOLOv7及更新版本

YOLO的应用场景

实现YOLO的工具和框架

结论

YOLOv5的dataloaders.py代码精读

-dataloaders. Py

PyTorch 数据集中的 __getitem__ 方法工作原理

访问流程

YOLOv 5 中 __getitem__ 的工作流程

DataLoader 如何使用 __getitem__

修改 mosaic 增强

YOLOv8解码流程完全解析

YOLOv8解码流程完全解析

目录

1. 预测解码流程 (decode_predictions)

1.1 网格点生成

1.2 特征图处理

从MambaStock看Mamba

📝 更新记录

从MambaStock看Mamba

1. Mamba模型架构回顾

1.1 模型整体架构设计

1.2 MambaConfig：参数化配置的精髓

PyTorch 数据集中的 `getitem` 方法工作原理

YOLOv 5 中 `getitem` 的工作流程

DataLoader 如何使用 `getitem`