learning专题

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文，可以看做19年的iccv的论文的衍生，在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的，应该是吧，这名字听起来就像。摘要abstract 我们解决异常检测的问题，即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型，而在训练时看不到异常样本，并在测试时使用重建误

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作摘要由于对“有意义”的定义不明确以及场景混乱，因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型（称为规律性）来解决此问题。体来说，我们提出了两种基于自动编码器的方法，以

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下：动机：论文的核心动机是解决伪装目标检测（COD）中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标，这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展，但现有方法仍面临有效分离目标和背景的难题，尤其是在伪装目标与背景特征高度相似的情况下。现有方法的不足之处：过于

One-Shot Imitation Learning

发表时间：NIPS2017 论文链接：https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位：Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

《Learning To Count Everything》CVPR2021

摘要论文提出了一种新的方法来解决视觉计数问题，即在给定类别中仅有少量标注实例的情况下，对任何类别的对象进行计数。将计数问题视为一个少样本回归任务，并提出了一种新颖的方法，该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外，还提出了一种新颖的适应策略，使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务，作者还引入了一个包含

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间：5 Jun 2024 论文链接：https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位：Rutgers University Motivation：学习一个通用的policy，可以执行一组不同的操作任务，是机器人技术中一个有前途的新方向。然而，

MaPLe(论文解读): Multi-modal Prompt Learning

Comment: Accepted at CVPR2023 摘要预训练的视觉语言模型（VL-PTMs）（比如CLIP）在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感，需要仔细选择提示模板才能表现良好。受到NLP领域的启发，最近的CLIP的自适应性方法开始学习提示作为文本输入，来微调CLIP以适应下游任务。本文能注意到，在CLIP的单个分支（语言或图像分支）中

A fault diagnosis method of bearings based on deep transfer learning

A fault diagnosis method of bearings based on deep transfer learning 基于深度迁移学习的轴承故障诊断方法 ABSTRACT 近年来，许多深度迁移学习方法被广泛应用于不同工况下的轴承故障诊断，以解决数据分布移位问题。然而，在源域数据差异较大、特征分布不一致的情况下，深度迁移学习方法在轴承故障诊断中的准确率较低，因此本文提出了一种

Matlab_learning_4（函数句柄）

含数句柄是MATLAB 6之后特有的语言结构; 优点：方便函数之间互相调用，兼容函数加载；拓宽子函数包括局部函数的适用范围；减少程序设计之中的冗余；提高重复执行的效率；数组、结构数组、细胞型数组能够结合定义数据；

Matlab_learning_3（变量检查 who / whos 命令）

一、变量检查在程序调试或变量的幅值过程中，往往需要检查工作空间的变量。变量的阶数及变量幅值内容。二、检查方式 1、工作空间窗口 2、命令窗口使用命令 >> who Your variables are: B C Y ans d x y <-<-<-<-<-<-<-<-<-<-<-<-<-<-<-<-

Matlab_learning_2（Pie‘s source code饼状图源码）

一、源代码 function hh = pie(varargin)%PIE Pie chart.% PIE(X) draws a pie plot of the data in the vector X. The values in X% are normalized via X/SUM(X) to determine the area of each slice of p

Matlab_learning_1（set(gcf,'MenuBar','none','Position',[X,Y,Z,W])）

一、首先举个例程： set(gcf,'MenuBar','none','Position',[X,Y,Z,W]);

Matlab_learning_0（linspace，std，size，ones，errorbar）

一、首先上一段代码 x=linspace(0,2*pi);y=sin(x);e=std(y)*ones(size(x)); errorbar(x,y,e,'d');%set(gcf,'MenuBar','none','Position',[400,350,350,250]); 二、函数解释 1.linsapce: linspace Linearly spac

零样本学习（zero-shot learning）——综述

-------本文内容来自对论文A Survey of Zero-Shot Learning: Settings, Methods, and Applications 的理解和整理，这里省去了众多的数学符号，以比较通俗的语言对零样本学习做一个简单的入门介绍，用词上可能缺乏一定的严谨性。一些图和公式直接来自于论文，并且省略了论文中讲的比较细的东西，如果感兴趣建议还是去通读论文注1：为了方便，文中

Deep Learning Techniques for Medical Image Segmentation: Achievements and Challenges

前言：该篇文章较为全面但稍偏简单的介绍医学图像分割的常见数据集、各种神经网络，以及常见的训练技巧等问题。一、重点摘录 2.5D approaches are inspired by the fact that 2.5D has the richer spatial information of neighboing pixels wiht less computational costs t

【Agent】Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents

1、问题背景传统的训练Agent方法是在静态数据集上进行监督预训练，这种方式对于要求Agent能够自主的在动态环境中可进行复杂决策的能力存在不足。例如，要求Agent在web导航等动态设置中执行复杂决策。现有的方式是用高质量数据进行微调来增强Agent在动态环境中的决策能力，但这往往会出现复合错误和有限的探测数据，最终导致结果不够理想。 2、提出方法 Agent Q 框架将蒙特卡洛树搜

Machine Learning Week2

Matlab for MAC 下载 address：ClickHere Matlab for MAC 学习地址：ClickHere Multivariate Linear Regression 当有更多信息提供来预测时用multivariate linear regression : n: 有多少已知信息（feature） x^(i): 第i 个training example的已知信息

Machine Learning week1

Machine Learning definition: Machine learning is a type of artificial intelligence (AI) that provides computers with the ability to learn without being explicitly programmed. (Ref) Supervised:有

Learning Policies for Adaptive Tracking with Deep Feature Cascades

Learning Policies for Adaptive Tracking with Deep Feature Cascades ICCV17 shotlight 作者：Chen Huang， CMU postdoctor，导师 Deva Ramanan summary 文章主要贡献在于速度与精度的权衡（AUC 0.638，fps 23），通过强化学习策略，来控制网络的深度，使得精度和

machine learning - 2

泛化误差也可以认为是预测时的误差。训练误差并不是越小越好，太小会过拟合。获得测试集合的方法： 1）： 2）：例如：k-折交叉验证法，就的每k个数据取一个座位测试集 3）：就像在一个抽奖盒里面摸，训练集摸n次，测试集摸m次，但是每摸一次会把小球放回盒子里查准率：猜“Yes”猜对的概率差全率：猜对答案是“Yes”的概率我们注意到（分为ABCD4个区）：当A减

【论文】A Collaborative Transfer Learning Framework for Cross-domain Recommendation

Intro 业界常见的跨域建模方案主要分为两种范式[22][32][5][36][17][14][20]：1) 将源样本和目标样本进行联合和混合，然后执行多任务学习技术，以提高在所有域中的性能；2) 使用混合或数据丰富的源域数据预先训练模型，然后在数据不足的目标域中对其进行微调，以适应新的数据分布。在第一种方法中，通过不同类型的网络设计来学习特定域特征和域不变特征，其中域指标通常用于识别域。在微

【论文笔记】Multi-Task Learning as a Bargaining Game

Abstract 本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaining game)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(Nash Bargaining Solution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。 1 Introduction 大部分MTL优化算法遵循一个通用方

综述翻译：Machine Learning-Based Cache Replacement Policies: A Survey 2021

摘要：虽然在提高命中率方便有了广泛进展，设计一个模拟Belady‘s 算法的缓存替换策略依旧很有挑战。现存的标准静态替换策略并不适合动态的内存访问模式，而计算机程序的多样性加剧了这个问题。有几个因素影响缓存策略的设计，如硬件升级，内存开销，内存访问模式，模型延时等。用机器学习的算法解决缓存替换的问题取得了令人惊讶的结果，并朝着具有成本效应的解决方案发展。在本文中，我们回顾了一些基于机器学习