最近在利用stable diffusion模型人工生成数据集,我们知道,HICO-DET包括117种动作,600种hoi类别,这600种hoi类别有着非常明显的长尾分布问题,如图所示:

image-20240410213107117

至于动词,也有着很明显的长尾分布,不过我们主要考虑hoi三元组的分布。可以看出,大概前160个类别的数量非常稀少,我们打印出这160个类别对应的prompt的一部分(大概70个):

image-20240410221259903

​ 使用扩散模型生成虚拟数据集时,可以利用clip再过滤。以下是使用CLIP计算相似度结果,前者是正常配对,后者是错误配对(每个图片与上一个图片的提示词配对):

image-20240413194832046

image-20240413194847872

​ 可以看出,我的实验中,大致的分水岭是0.25。进一步取500个图,画两张图:一种编码的text是非完整的prompt,只包括动词名词;另一类是原生prompt,结果见下。上图是非完整的,下图是完整的。

image-20240413195630035

image-20240413201140788

​ 二者基本无差。再检查低于0.25的图片时,一个神奇的现象是:大多数图片都是no interaction的图片,比如:

image-20240413201457256