HOI琐碎闲聊(二):HICO-DET数据集分析

最近在利用stable diffusion模型人工生成数据集，我们知道，HICO-DET包括117种动作，600种hoi类别，这600种hoi类别有着非常明显的长尾分布问题，如图所示：

至于动词，也有着很明显的长尾分布，不过我们主要考虑hoi三元组的分布。可以看出，大概前160个类别的数量非常稀少，我们打印出这160个类别对应的prompt的一部分(大概70个):

使用扩散模型生成虚拟数据集时，可以利用clip再过滤。以下是使用CLIP计算相似度结果，前者是正常配对，后者是错误配对(每个图片与上一个图片的提示词配对)：

可以看出，我的实验中，大致的分水岭是0.25。进一步取500个图，画两张图：一种编码的text是非完整的prompt，只包括动词名词；另一类是原生prompt，结果见下。上图是非完整的，下图是完整的。

二者基本无差。再检查低于0.25的图片时，一个神奇的现象是：大多数图片都是no interaction的图片，比如：