via专题

论文《Face Alignment at 3000 FPS via Regressing Local Binary Features》笔记

论文:Face Alignment at 3000 FPS via Regressing Local Binary Features.pdf 实现:https://github.com/luoyetx/face-alignment-at-3000fps 摘要&介绍: 论文有两个新颖的点,一是采用局部二值特征,二是用局部性规则指导学习这些特征,最终的识别效果和实现速度俱佳。 论文首

Efficient Neighbourhood Consensus Networks via Submanifold Sparse Convolutions

本文的目的是输入一个image pair 然后得到他们的匹配   内存消耗大,推理时间长,对应关系局部性差。我们提出的修改可以减少10倍以上的内存占用和执行时间,并且效果相当。这是通过对包含试探性匹配的相关张量进行稀疏化,然后使用子流形稀疏卷积对其进行4D CNN后续处理来实现的。通过以更高的分辨率处理输入图像(这是可能的,因为减少了内存占用),以及通过一个新的两级对应重定位模块,定位精度显著

[深度学习论文笔记][AAAI 18]Accelerated Training for Massive Classification via Dynamic Class Selection

[AAAI 18] Accelerated Training for Massive Classification via Dynamic Class Selection Xingcheng Zhang, Lei Yang, Junjie Yan, Dahua Lin from CUHK & SenseTime paper link Motivation 这篇文章研究当分类器分类个数非常

步态识别论文(6)GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation

摘要: 视角变化导致步态外观存在显着差异。因此,识别跨视图场景中的步态是非常具有挑战性的。最近的方法要么在进行识别之前将步态从原始视图转换为目标视图,要么通过蛮力学习或解耦学习提取与相机视图无关的步态特征。然而,这些方法有许多约束,例如处理未知相机视图的难度。这项工作将视角变化问题视为域更改问题,并提出通过对抗性域适应来解决这个问题。这样,不同视角的步态信息被视为来自不同子域的数据。该方法侧重于

Shunted Self-Attention via Multi-Scale Token Aggregation

近期提出的ViT模型在各种计算机视觉任务上展现了令人鼓舞的结果,这要归功于能够通过自注意力对补丁或令牌的长期依赖性进行建模。然而这些方法通常指定每个令牌相似感受野。这种约束不可避免地限制了每个自注意力层在捕捉多尺度特征的能力。本文提出一种新的注意力,称为分流自注意力(Shunted Self-attention,SAA),允许ViT在每个注意力层的混合尺度上对注意力进行建模。SAA关键思想是将异构

【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理

Efficient Multimodal Fusion via Interactive Prompting(CVPR2023) 基于交互式提示的高效多模态融合方法减少针对下游任务微调模型的计算成本提出模块化多模态融合架构,促进不同模态之间的相互交互将普通提示分为三种类型,仅在单模态transformer深层添加提示向量,显著减少训练内存的使用 1 Introduction 提示微调方法采用顺

DeepI2P: Image-to-Point Cloud Registration via Deep Classification

文章地址https://openaccess.thecvf.com/content/CVPR2021/papers/Li_DeepI2P_Image-to-Point_Cloud_Registration_via_Deep_Classification_CVPR_2021_paper.pdf   摘要: 本文提出了DeepI2P:一种新颖的方法,用于图像与点云之间的跨模态注册。给定一幅图像(

论文解读-ASAP: Fast Mobile Application Switch via Adaptive Prepaging

研究背景:         用户使用移动设备同时打开多个App,很容易造成移动设备的内存紧缺。现有解决方法一般采用杀死守护进程(lmkd)来释放内存或者基于压缩算法的in-memory swap(ZRAM)方式, 这些方法会面临用户切换回被杀死的进程过程效率低下问题,且严重影响用户体验。         其中Android操作系统的in-memory swap机制:其特点是需要压缩和解压缩匿名

【图像超分】论文精读:Single Image Super-Resolution via a Holistic Attention Network(HAN)

第一次来请先看这篇文章:【超分辨率(Super-Resolution)】关于【超分辨率重建】专栏的相关说明,包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等) 文章目录 前言Abstract1. Introduction2 Related Work3 Holistic Attention Network (HAN) for SR3.1

BSP-Net: Generating Compact Meshes via Binary Space Partitioning精讲

在近日举行的 CVPR 2020 大会上,最佳论文、最佳学生论文等奖项悉数公布。加拿大西蒙弗雷泽大学陈之钦(Zhiqin Chen )等人的「BSP-Net」相关研究获得了最佳学生论文奖,他们的论文题目是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》。在最新一期的机器之心 CVPR 2020 线上论文分享中,西

【论文笔记】ResRep: Lossless CNN Pruning via Decoupling Remembering and Forgetting

Abstract 提出了ResRep,一种无损通道修剪的新方法,它通过减少卷积层的宽度(输出通道数)来缩小CNN的尺寸。 建议将CNN重新参数化为记忆部分和遗忘部分,前者学习保持性能,后者学习修剪。通过对前者使用常规 SGD 进行训练,对后者使用带有惩罚梯度的新颖更新规则进行训练,实现了结构化稀疏性,然后等效地将记忆和遗忘部分合并到层数更窄的原始架构中。 github仓库 1 Introdu

photomaker:customizing realistic human photos via stacked id embedding

PhotoMaker: 高效个性化定制人像照片文生图 - 知乎今天分享我们团队最新的工作PhotoMaker的技术细节。该工作开源5天Githubstar数已过6千次,已列入Github官方Trending榜第一位,PaperswithCode热度榜第一位,HuggingFace Spaces趋势榜第一位。项目主页在: PhotoMa…https://zhuanlan.zhihu.com/p/68

论文笔记 | MathDQN: Solving Arithmetric Word Problems via Deep Reinforcement Learning

简介 Lei Wang 和 Dongxiang Zhang团队在AAAI18上发表的文章,使用了DQN来解决MWP(Math Word Problem)问题。 Motivation 在将问题表达成一个表达式树的时候,有一种方法是枚举所有的操作数,组成树的叶子节点。这种方法所需的搜索空间很大,虽然有一些剪枝的算法可以运用,但仍不能满足需求。 在实践中,可以发现Deep Q-netwrok能够

Tokenize Anything via Prompting

SAM的延续,把SAM输出的token序列用来进行分类,分割和一个自然语言的decoder处理,但其实现在多模态的图像的tokenizer也几乎都是用VIT来实现的。一开始认为这篇文章可能是关于tokenize的,tokenize还是很重要的,后来看完,整体思路大概就是一般来做带类别的sam,目前是grounding dino+sam的思路,先用一个开放词汇检测的目标检测算法通过text将区域框出

You called this URL via POST, but the URL doesn't end in a slash and you have APPEND_SLASH set. Djan

报错信息如下 报错原因 from的action地址错误 解决方案 应该改成/regedits/ 试运行以后的截图

采用大语言模型进行查询重写——Query Rewriting via Large Language Models

文章:Query Rewriting via Large Language Models,https://arxiv.org/abs/2403.09060 摘要 查询重写是在将查询传递给查询优化器之前处理编写不良的查询的最有效技术之一。 手动重写不可扩展,因为它容易出错并且需要深厚的专业知识。 类似地,传统的查询重写算法只能处理一小部分查询:基于规则的技术不能推广到新的查询模式,并且基于综合的

iPhone Development Via Xcode5 vol.02

在这一章,我们的目标是做一个简单的应用,以此了解一些iOS开发的基本概念。 我们就做一个考试作弊应用,应用有一个选择器,选择器分两列,左侧是题目序号,右侧是题目答案,应用还有一个按钮,点一下就可以发送答案。从分析来看,我们的应用需要3个控件,一个标签,一个选择器以及一个按钮。在iOS开发中,选择器可以使用Picker View控件,这是一种固定大小的控件,使用滚轮显示。我们首先创建工程,点开Ma

iPhone Development Via Xcode5 vol.01

- 写在最前面的话 现在市面上的书大部分都基于Xcode3/Xcode4,很难照着示例的内容一步步走,有些内容也过时了。在学习过程中博主走了不少弯路,翻查了很多资料来解决版本差异问题。为了自己今后查阅方便,也为了跟我一样苦逼的孩纸们能有条捷径可走,我决定写一系列的博文记录下自己用Xcode学习iPhone开发的旅程,也希望自己能坚持下来,杜绝掉三分钟热度的毛病。 - Let's go!

讲座笔记 transfer learning via learning to transfer

transfer learning via learning to transfer Ying Wei 突然发现一年前听过师姐的讲座,当时没来得及细看文章,更详细的笔记见:论文笔记 背景: Transfer learning: 从标注数据多的领域到少的领域 Research issue: when, how, what to transfer? 有的语义相关,有的关联较少 Fo

图像分割论文阅读:Automatic Polyp Segmentation via Multi-scale Subtraction Network

这篇论文的主要内容是介绍了一种名为多尺度差值网络(MSNet)的自动息肉分割方法。 1,模型整体结构 整体结构包括编码器,解码器,编码器和解码器之间是多尺度差值模块模块(MSM),以及一个额外的不需要训练的LossNet提供额外的监督信息。(不需要训练也能有用效果这点说实话我很疑惑) 2,MSM模块 1)SU是MSM的基础构建块,定义为两个相邻层次特征图(FA和FB)之间的元素级差值,

【论文阅读】UniLog: Automatic Logging via LLM and In-Context Learning

注 由于其公司的保密政策,本文没有公开源代码,数据是公开的。 文章目录 摘要一、介绍二、背景和动机2.1、日志语句生成2.2、大语言模型2.3、上下文学习(In-Context Learning,ICL) 三、UNILOG3.1、模型骨干3.2、提示策略3.2.1、提示格式3.2.1、提示样例 3.3、预热策略 四、评估4.1、UniLog与现有的基于LLM的日志方法相比如何4.2、与微调相

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT 1 模型创新2 前期调研2.1 难以解决的问题 3 Method3.1 方法3.2 数据集3.2.1 RE3.2.2 NER3.2.3 EE 3.3 评价指标3.3.1 RE3.3.2 NER3.3.3 EE 4 效果 转载和使用规则:更多论文解读

论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Pr

Re-id via Discrepancy Matrix and Matrix Metric(IEEE Transactions on Cybernetics 2017)

Abstract         行人再识别(re-id)作为视频监控和取证应用中的一项重要任务,已得到广泛研究。先前用于解决行人再识别问题的研究工作主要集中于通过利用外观特征来构建稳健的向量描述,或者通过标记的向量来学习判别距离度量。基于人类的认知和识别过程,我们提出了一种新的模式,将特征描述从特征向量转换为差异矩阵。特别是,为了很好地识别行人,它将距离度量从向量度量转换为矩阵度量,矩阵度量由

论文阅读——Efficient and Robust Feature Selection via Joint L2,1-Norms Minimization

一、前言 最近因为对结构化多任务学习,以及对带范数目标函数求解的学习,一直都很想求解带L2,1范数的目标函数(其实这只是个过程),针对这样的不光滑目标函数,梯度下降法并不合适。 虽然sklearn中的MultiTaskLasso也是这样的目标函数,并且使用了坐标下降法来求解,但是当目标函数中的损失函数也用L2,1范数时我又懵圈了。 正当我琢磨是不是能把两部分合在一起求解一个L2,1范数时(其

复现Evolutionary Preference Learning via Graph Nested GRU ODE for Session-based Recommendation的GNG-ODE

恒源云中下载FileZilla用于上传数据,新建一个站点后 填写如下信息 在主页面打开jupyterlab 里面有各种操作台 选择终端 然后进入cd /hy-tmp内部 然后cd 所需目录之下 调用作者给出的 python -u scripts/main_ode.py --dataset-dir …/datasets/tmall --gnn GATConv --solver dopri5即可运行