李沐深度学习部分笔记及练习
预备知识数据操作广播机制对形状不同的张量进行相加操作,规则为a矩阵复制列,b矩阵复制行,将元素相加1234a = torch.arange(3).reshape((3, 1))b = torch.arange(2).reshape((1, 2))a, ba + b1234567(tensor([[0], [1], [2]]), tensor([[0, 1]]))tensor([[0, 1], [1, 2], [2, 3]])
节省内存1234Z = torch.zeros_like(Y)print('id(Z):', id(Z))Z[:] = X + Yprint('id(Z):', id(Z))
发现Z的id未变化,减少了内存开销
转换numpy对象123A = X.numpy()B = torch.tensor(A)type(A), type(B)
将大小为1的张量转换为python标量,调用item函数,或者float,int等函数进行类型转换123a = torch.tensor ...
sam入门
工作介绍基于分割大模型sam,通过微调等方法迁移到分割相关领域辅助模型训练。
相关文章Segment Anything原始SAM文章,给出了模型架构,训练方法。价值:学习到SAM基本输入输出形式,方便调用。代码:facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model. (github.com)
SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object and Boundary Constraints一个基于sam辅助训练的语义分割模型。SAM 仅限于生成没有类别信息的分割结果,提出了一种辅助训练方法。通过调用 ...
IIM论文笔记
概述IIM(Independent Instance Map segmentation)独立实例地图分割,被用于人群定位领域。特点如下:
端到端框架(end to end)
每个实例是不重叠的。通过将人群分割成独立的连通分量,获得位置和人群计数(分别为中心和分量的数目)
创新点:提出可微分二值化模块:(BM)
针对不同图像自适应地学习阈值图,以更准确地检测每个实例;
使用二进制预测和标签的损失直接训练模型。
主要方法:遵循启发式分支,并利用连通分量分割进行人群定位数据本文中所使用的数据类型为独立实例映射(Independent Instance Map),每个实例不重叠其中images文件夹下为真实图片,masks文件夹包含了每张图片对应的独立实例,展示如下:
NWPU-Crowd :是目前最大和最具挑战性的开源人群数据集。它包含标头点和框标签。共有5109张图片和2133238个注释实例。Shanghai Tech :包含两个子集:A部分有482张图像,共241677个实例,B部分包含716张图像,包括88,488个标记的头。UCF-QNRF :是一个密集的人群数据集,由1 ...
Norm_Softmax_VIT笔记
一些术语batch:批次,一批处理,batch_size:表示每个batch有多少样本LR(learning rate):学习率patch:补丁epoch:周期,阶段criterion:评判准则(一般用于命名损失函数)optimizer:优化器BP:反向传播算法(Back Propagation),通过计算误差的反向传播来更新网络的权重和偏置
Embedding:是指将高维的离散型数据(如词汇、用户ID等)转换为低维的连续型向量的过程,也可以指转换后的向量
感受野(Receptive Field):指在神经网络中,输出特征映射上的一个像素点对应在输入图像中的区域。感受野的大小取决于网络的架构和层数,它可以用来衡量网络对输入信息的感知范围和理解能力。
具体来说,感受野的大小在卷积神经网络(Convolutional Neural Network, CNN)中是递增的,随着网络层数的增加,感受野的大小也随之增加。在前面的卷积层中,每个像素点的感受野通常只是输入图像的一个小区域,但是在后面的卷积层中,每个像素点的感受野可以覆盖整个输入图像。这样,网络就可以学习到更全局的特征和上下文信息,以更 ...
斯坦福 cs231n笔记
图像分类目标所谓图像分类问题,就是已有固定的分类标签集合,然后对于输入的图像,从分类标签集合中找出一个分类标签,最后把分类标签分配给该输入图像。虽然看起来挺简单的,但这可是计算机视觉领域的核心问题之一,并且有着各种各样的实际应用。计算机视觉领域中很多看似不同的问题(比如物体检测和分割),都可以被归结为图像分类问题。
困难和挑战对于人来说,识别出一个像“猫”一样视觉概念是简单至极的,然而从计算机视觉算法的角度来看就值得深思了。以下为计算机视觉算法在图像识别方面遇到的一些困难,图像是以3维数组来表示的,数组中的元素是亮度值。
视角变化(Viewpoint variation)**:同一个物体,摄像机可以从多个角度来展现。
大小变化(Scale variation)**:物体可视的大小通常是会变化的(不仅是在图片中,在真实世界中大小也是变化的)。
形变(Deformation):很多东西的形状并非一成不变,会有很大变化。
遮挡(Occlusion):目标物体可能被挡住。有时候只有物体的一小部分(可以小到几个像素)是可见的。
光照条件(Illumination conditions):在像 ...
线性代数知识点(遗忘则补充)
第1章 行列式1.1 全排列和对换1.2 n阶行列式1.3 行列式的性质1.4 行列式按行(列)展开第2章 矩阵及其运算2.1 线性方程组和矩阵2.2 矩阵的运算2.3 逆矩阵2.4 Cramer法则第3章 矩阵的初等变换与线性方程组3.1 矩阵的初等变换3.2 矩阵的秩3.3 方程组的解第4章 向量组的线性相关性4.1 向量组及其线性组合4.2 向量组的线性相关性4.3 向量组的秩4.4 线性方程组解的结构4.5 向量空间第5章 相似矩阵及二次型5.1 向量的内积、长度及正交性5.2 方阵的特征值与特征向量5.3 相似矩阵5.4 对称矩阵的对角化5.5 二次型及其标准型5.6 正定二次型
机器学习笔记
统计学习方法赫尔伯特.西蒙:”如果一个系统能够通过执行某个过程改进它的性能,这就是学习。“
1.1 统计学习 基本概念
对象: 数据
目的: 对数据预测与分析
方法: 监督学习,无监督学习,强化学习
三要素: 模型,策略,算法
1.2 统计学习分类1.2.1监督学习:学习输入到输出的统计规律。
输入空间,输出空间,特征空间:输入与输出对成为样本
联合概率分布:假设输入X输出Y遵循联合分布概率P(X,Y),表示分布密度函数
假设空间:学习范围的确定
模型:用训练数据集学习一个模型,再用模型对测试样本集进行预测。由学习系统和预测系统完成。
1.2.2无监督学习:从无标注数据中学习预测模型,学习数据中的统计规律或潜在结构。
使用无标注数据学习或训练
可以用于对已有数据的分析,也可以对未来数据预测
1.2.3强化学习智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质为学习最优的序贯决策
智能系统与环境互动:在每一步t,智能系统在环境中观测到一个状态st和一个奖励rt,采取一个动作at。环境根据智能体选择的动作,决定t+1的状态与奖励。目标是长期奖励的最大化。
马尔可夫 ...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo server
More info: Server
Generate static files1$ hexo generate
More info: Generating
Deploy to remote sites1$ hexo deploy
More info: Deployment