近日,网易互娱AI Lab的一篇关于图像生成的学术论文《General Image-to-Image Translation with One-Shot Image Guidance》被国际计算机视觉顶级学术会议ICCV 2023接收。网易互娱AI Lab提出了一种通用的基于单样本图像引导的图像编辑技术VCT(visual concept translator,视觉概念转换器),给单张参考图像,经过少量的优化步骤,即可把图中的物体或风格迁移至源图像,同时不改变源图像的整体结构。
VCT相较于以往的方案有以下优势:(1)应用泛化性:VCT不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。(2)视觉准确性:相较于近期文字编辑图像的方案,VCT利用图片进行参考引导。图片参考相比于文字描述,可以更加准确地实现对图片的编辑。(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如遮罩图或深度图)等方案来进行引导控制的方案,VCT直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,不需要额外的限制。