虽然研究人员已经为图像字幕提供了几个基准数据集,但我们并不知道任何大型视频描述数据集具有全面的类别和不同的视频内容。 In this paper we present MSR-VTT (standing ...
確定! 回上一頁