阿里巴巴云计算部门近期震撼发布了其最新的AI杰作——Qwen2-VL模型,该模型在视觉内容理解领域展现了前所未有的强大能力,无论是静态图片还是长达20分钟的视频内容,都能实现深度解析与实时互动。

阿里开源Qwen2-VL大模型,能理解超20分钟视频

🎉️访问产品详情,请前往:https://qwenlm.github.io/blog/qwen2-vl/

在众多顶尖AI模型中,Qwen2-VL脱颖而出,它在复杂的大学级问题解决、数学运算、文档与表格理解、多语言文本图像综合解读、广泛场景下的问答互动以及视频内容深度分析等方面,均展现出了卓越性能,甚至在多个第三方基准测试中超越了GPT-4o、Claude 3.5-Sonnet等业界标杆。尤为值得一提的是,该模型在文档理解方面展现出了显著优势。

Qwen2-VL的卓越之处不仅限于其静态图像分析能力,更在于其能够精准总结视频内容,快速响应相关询问,并实时维持流畅的对话体验,为用户提供即时、准确的视频内容见解。这一功能使得Qwen2-VL能够化身成为个人智能助理,在在线学习、技术支持及任何需要深度视频理解的场景中发挥关键作用。阿里巴巴官方已公开示例,展示了该模型如何精准解析并描述特定视频内容。

 

语言支持方面,Qwen2-VL同样表现出色,覆盖英语、中文及多种欧洲、亚洲语言(如日语、韩语、阿拉伯语、越南语等),确保全球用户都能畅享其强大功能。为更直观地展示其能力,阿里巴巴在GitHub上分享了丰富的应用案例。

为满足不同需求,Qwen2-VL提供了三个版本:Qwen2-VL-72B(拥有720亿参数)、Qwen2-VL-7B及Qwen2-VL-2B。其中,后两者在开源友好的Apache 2.0许可证下发布,鼓励企业界自由探索其商业应用潜力。而顶级性能的72B版本则采取专有许可证与API接入方式,为专业用户提供更高层次的服务。

Qwen2-VL还融入了多项创新技术,如Naive Dynamic Resolution,确保不同分辨率图像处理的一致性和精确性;Multimodal Rotary Position Embedding(M-ROPE)系统则实现了文本、图像与视频间位置信息的无缝同步与整合。

Qwen2-VL的发布,标志着阿里巴巴在视觉语言模型技术领域的又一重大突破。Qwen团队承诺将持续推动模型功能的升级与拓展,探索更多实际应用场景,引领AI技术的新一轮革新。