论文阅读-基于扩散模型先验生成器的低复杂度MIMO信道估计
论文地址:[2403.03545]
Diffusion-based Generative Prior for Low-Complexity MIMO Channel
Estimation (arxiv.org)
摘要
本文提出了一种基于DM(diffusion
model)的信道估计器。相比其他的使用先验生成器的工作,该工作设计了一种“轻量级的,带有SNR信息的位置编码”的CNN,并在稀疏角域(sparse
angular
domain)学习。本文的估计策略避免了随机重采样,截断那些SNR低于给定导频观测值的逆向扩散步骤,使得估计器复杂度低且内存开销很小。
简介
生成模型可以学习复杂的数据分布,并且可以利用这一先验知识在无线通信上。DM和一些基于score的模型生成能力很强,但有非常大的计算开销(比如逆向过程中每一步都要用大型NN重采样),不能用到像信道估计这样的实时应用中。
近期有工作([2403.02957]
On the Asymptotic Mean Square Error Optimality of Diffusion Models
( ...
论文阅读-以cGAN作为未知信道的端到端无线通信系统
论文地址:Deep
Learning-Based End-to-End Wireless Communication Systems With
Conditional GANs as Unknown Channels | IEEE Journals & Magazine |
IEEE Xplore
摘要
本文将DNN应用于端到端的无线通信系统中,DNN的关键功能有:编码与调制、解码与解调。然而,我们需要对于瞬时通道传递函数(instantaneous
channel transfer
function)(例如信道状态信息,CSI)进行精确估计,使得能够让发射器(transmitter)DNN来学习最优化解码过程中的接收器增益(让梯度得以传播)。这项任务很有挑战性是因为:CSI在无线通信中随时间和空间变化,在设计收发器(transceiver)时很难获得。本文提出使用一种条件GAN来表示信道效果(channel
effects)并且沟通起发射器DNN和接收器DNN,使得发射器DNN的梯度可以从接收器DNN反向传播。特别是,应用了一个条件GAN以数据驱动的方式来建模 ...
HOI琐碎闲聊(三):利用扩散模型生成数据集的不断修改
HICO-DET数据集有明显的长尾分布现象,因此一种直接的方式是利用文生图模型生成人造数据集。在最开始,我们所拥有的只有600个hoi三元组对应的短语(如:a
photo of a person boarding a airplane)。
最开始,依据diffhoid论文给出的方法,生成人造数据集分为三步:第一步,生成提示词。把短语中的person替换成一个随机的人,race+human,比如asian
boy、black
man等等。然后再加上一些描述quality、details的词语,最终例子如:a
photo of a black young man reading a laptop,best quality,Vivid
Colors,urban,4K,warm lighting,front view,iphone
12。第二步,过滤。具体方法是:首先用一个先进的目标检测器(这里采用DINO)检测图中的人与物。遍历图中的物体(如果检测不出指定物体直接扔掉),找到与物体最近的人,然后:如果物体出现在指定的hoi三元组中,就分配对应的动作;否则,分配no
...
HOI琐碎闲聊(二):HICO-DET数据集分析
最近在利用stable
diffusion模型人工生成数据集,我们知道,HICO-DET包括117种动作,600种hoi类别,这600种hoi类别有着非常明显的长尾分布问题,如图所示:
至于动词,也有着很明显的长尾分布,不过我们主要考虑hoi三元组的分布。可以看出,大概前160个类别的数量非常稀少,我们打印出这160个类别对应的prompt的一部分(大概70个):
使用扩散模型生成虚拟数据集时,可以利用clip再过滤。以下是使用CLIP计算相似度结果,前者是正常配对,后者是错误配对(每个图片与上一个图片的提示词配对):
可以看出,我的实验中,大致的分水岭是0.25。进一步取500个图,画两张图:一种编码的text是非完整的prompt,只包括动词名词;另一类是原生prompt,结果见下。上图是非完整的,下图是完整的。
image-20240413201140788
二者基本无差。再检查低于0.25的图片时,一个神奇的现象是:大多数图片都是no
interaction的图片,比如:
HOI琐碎闲聊(一):HICO-DET数据集标注的内容到底是啥
在复现论文的时候,数据集这块肯定是要关注的。人物交互检测主要用两个数据集:HICO-DET和V-COCO。原初的HICO-DET标注是matlab格式的;从QPIC到之后的DiffHOI,数据集标注就成了JSON格式。之前没仔细关注过这个标注格式,但是看源代码的时候,由于json转化来的字典的一堆键看不懂啥意思,就顺着去研究数据集格式了。我们打开训练集json,看蓝色部分:
image-20240303231622884
这个字典有四个键:文件名,图像id,annotations,hoi_annotation。前面两个就不说了,这个annotations代表的是图像里的实例,也就是COCO数据集八十个类代表的物体。可以看到,这里的annotations长度为3,代表了图里有三个实例,给出了三个实例的类别和标注框。这张图片长这样:
image-20240303231847564
但是啊,这里有个比较坑的点。我们原始的HICO-DET数据集,它的objects的排序是这样的:
image-20240303231956745
...
复现diffhoi问题汇总
我已经昏迷了。
环境根据sd的git配,此外您需要额外装的包:
termcolor,addict,yapf=0.40.1,timm,这四个,pip就行,yapf别版本太高,会有bug,新版本FormatCode函数没有关键字参数verify了。
然后,按照diffhoi源代码,别忘了安装CLIP,编译可变形注意力机制的CUDA运算。否则,您会遇到没有模块MultiScaleDeformableAttention的错误。
测试时说有的数据在cpu有的在gpu上
engine.py里evaluate_hoi里在经过model前面加一句:
1targets = [{k: v.to(device) for k, v in t.items() if (k != 'filename' and k != 'id') } for t in targets]
这是因为,targets也就是标签信息里有很多tensor。从dataloader的collate_fn函数得知,targets其实是一个batch的元组,和samples还不一样,后者是一个自定义nestedtenso ...
人-物交互检测(四):GEN-VLKT
与CDN作者是一样的,他们继续改进了工作。论文地址:[2203.13954] GEN-VLKT: Simplify
Association and Enhance Interaction Understanding for HOI Detection
(arxiv.org),还有一篇解析文章:CVPR
2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法-阿里云开发者社区
(aliyun.com),代码仓库:YueLiao/gen-vlkt: Code for
our CVPR 2022 Paper "GEN-VLKT: Simplify Association and Enhance
Interaction Understanding for HOI Detection"
(github.com)。也是在这一篇文章,引入了CLIP对于HOI的作用。
摘要
HOI检测任务可以被分为两部分:关联人/物和理解交互。这篇论文里,作者从两方面展示并解决了传统query-driven的HOI检测器的缺点。①对于关联人物,先前的两分支方法需要复杂费力的后匹 ...
人-物交互检测(三):CDN
CDN的代码来自QPIC和DETR,然后衍生了GEN-ViKT,然后衍生成了Diffhoi。论文地址:[2108.05077] Mining the Benefits
of Two-stage and One-stage HOI Detection
(arxiv.org)。这里的实验分为CDN-S和CDN-L,意思是小规模和大规模,后续几篇论文也是这样的,先看这篇吧。
摘要
近些年来两阶段方法一直主导着HOI检测(当然这篇论文是2021年的,现在已经是transformer的时代了)。近期,一阶段HOI检测方法也变得流行起来。这篇论文里,作者旨在挖掘两种方法的优缺点。作者发现,传统两阶段方法主要在定位正面(positive)交互对样本时有问题,一阶段在多任务学习时不好做出权衡,也就是目标检测和动作分类。因此,一个关键问题就是,如何从两种传统方法中扬长避短。为此,作者提出了一个新的单阶段框架,以级联的方式解开人物检测和交互分类。具体来说,作者首先基于先进的检测器,把它们的交互分类部分移除,以此设计了一个人/物对生成器。然后作者设计了一个相对独立的交互分类器来分类每个人 ...
人-物交互检测(二):QPIC
论文地址:[2103.05399]
QPIC: Query-Based Pairwise Human-Object Interaction Detection with
Image-Wide Contextual Information
(arxiv.org)。本篇和上一篇HOTR非常相似,同时也建议大家多看看DETR。
摘要
作者提出了一个简单直观又强大的HOI检测方法。HOIs在一个图像空间的分布十分多样,现有的基于CNN的模型主要有以下三个缺点:1.不能利用图像全局信息;2.依赖人为定义的局部特征聚合,有时不能覆盖一些重要的上下文相关区域;3.如果HOI实例离得很近可能会混合在一起。
为了解决这些缺点,作者提出了基于transformer的特征提取器,其中注意力机制和query-based
detection起到关键作用。注意力机制在全图范围内聚合上下文相关的关键信息非常有效;同时呢,作者设计的query——每个query可以捕获最多一个h/o对——可以避免混合多个hoi实例的特征。这个基于transformer的特征提取器产出很有效的embeddings ...
人-物交互检测(一):HOTR
人物交互检测是检测图像中人、物体以及其交互关系的任务。目前常用的数据集有HICO和V-COCO。在很多年前,transformer还没有流行的时候,一些做法是:先利用faster
rcnn等提取出人、物的bbox,然后利用姿态特征提取网络(如openpose)提取人体姿态特征,然后再根据这些特征判断交互类别。显然这些做法比较低效,需要额外的后处理(相关论文可见:朴素实现的人-物交互(HOI)检测-论文阅读
| 雨白的博客小屋
(ameshiro77.cn),不过我没写完)。后来,transformer提出以后,也被成功的应用到了目标检测上(例如DETR),自然而然也被尝试利用在了人-物交互检测里。
本篇主要阅读HOTR论文,但是实际上这项工作的效果并不是太好。并且,现有HICO数据集长尾现象严重,在之后的博客我们会看到:最新的工作利用扩散模型等AI生成技术,扩充数据集,来达到更好的训练效果。另外,十分建议看本文前先看DETR,因为之后的QPIC和HOTR都跟DETR太像了。
论文链接:[2104.13682]
HOTR: End-to-End Human-O ...