6月2日,来自剑桥大学、NAIST、腾讯AI Lab的研究人员们发布通用指令跟随模型(instruction-following model)PandaGPT。据介绍,PandaGPT可以执行复杂的任务,如生成详细的图像描述、编写受视频启发的故事、回答有关音频的问题。PandaGPT可同时接受多模态输入,并自然地组合它们的语义。

PandaGPT在文本、图像/视频、音频、深度、热(thermal)和IMU六种模态上展示了跨模态能力,但由于ImageBind提供的共享嵌入空间,它只能使用对齐的图像-文本对进行训练。研究人员希望PandaGPT可以作为构建通用人工智能(AGI)的第一步,它可以像人类一样全面地感知和理解不同形式的输入。

剑桥腾讯等提出AI大模型PandaGPT

项目主页:

https://panda-gpt.github.io/

GitHub地址:

https://github.com/yxuansu/PandaGPT

论文地址:

http://arxiv.org/abs/2305.16355