homework1.2

ruoye123456 / 2024-11-13 / 原文

输出网络结构，使用CNN，由卷积层，池化层和全连接层构成

将图像转化成tensor的时候做了简单的数据增强

# 数据预处理和数据增强
transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),  
    transforms.RandomCrop(32, padding=4),  
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))  
])

在训练时加入了权重衰减和学习率调度

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)  # 添加权重衰减
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)  # 学习率调度

使用tensorboard完成训练时的可视化

writer.add_scalar('Loss/train', sum_loss/len(train_loader), epoch)
writer.add_scalar('Accuracy/train', accuracy, epoch)

完成在验证集上的精度测试

def evaluate(model, dataloader, device):
    # 切换到推理模式
    model.eval()  
    correct = 0
    total = 0
    # 禁用梯度计算
    with torch.no_grad():  
        for images, labels in dataloader:
            images, labels = images.to(device), labels.to(device)

            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    accuracy = 100 * correct / total
    return accuracy

绘制混淆矩阵（get_predictions函数由GPT生成）

train_labels, train_preds = get_predictions(model, train_loader, device)
val_labels, val_preds = get_predictions(model, test_loader, device)

# 计算混淆矩阵
train_confm = confusion_matrix(train_labels, train_preds)
val_confm = confusion_matrix(val_labels, val_preds)

分析网络参数

网络深度

当深度浅时，参数较少，训练更快，适合处理简单的问题，对于复杂的模式识别问题，容易出现欠拟合
当深度深时，可以学习更复杂的特征，具有更好的泛化能力，但过深的网络可能导致梯度消失或梯度爆炸使得模型难以收敛

激活函数

ReLU：计算简单，收敛快，但当梯度过小时，神经元不再更新权重
Sigmoid：适合二分类问题，当梯度接近0时，容易导致梯度消失问题，不适合深层网络

神经元数量

神经元较少，模型参数少，计算速度快，存储需求小，适合处理简单问题或小数据集，可能导致欠拟合，无法学习到足够的特征
神经元较多，模型的容量增加，能够捕捉更多的细节和复杂的特征，可能导致过拟合，还会增加计算成本和内存需求

Softmax()

在损失函数为交叉熵时CrossEntropyLoss()里已经内嵌了softmax()层，无法比较是否使用对训练效果的影响
softmax()函数将网络的输出转换为一个概率分布，广泛应用于多分类任务中，同时softmax() 具有很好的梯度性质，能够平滑地更新模型的参数

homework1.2更多相关文章

今日报告-66

设置Windows10暂停更新3000天

AQS公平锁的流程

AMD锐龙7 7800X3D网游专项测试：竟比i9-13900KS强了15%

常用总线技术基本参数对比

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

设置Chrome浏览器自动升级

JavaScript – 小技巧 Tips

Winform无边框窗体实现拖动

STM32基础（一）

技术人的修炼---九五小庞

vue自定义事件用法及$emit

ODOO 科目配置4

sqlite 触发器 c#

postgresql在插入数据后怎么获取自增id

EF Core 的基本使用

error: failed to push some refs to 'https://github.com/*******/********.github.io.git'

编程语言能力对比

基于机器视觉的小车轨迹控制软件界面展示

随机推荐

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

BFS(Breath First Search 广度优先搜索)

Visual Studio Code（VSCode）中设置中文界面

影响黄金价格大幅波动的因素主要有哪些？

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha