学到了吗_阿里云通义开源qwen2.5-vl_阿里云通义Qwen25-VL：增强视觉理解能力，操控手机电脑

作者：admin　日期：2025-03-11　点击数：0

【大河财立方记者陈薇】阿里云通义千问在1月28日凌晨开源了全新的视觉模型Qwen2.5-VL，推出了3B、7B和72B三个版本其中，旗舰版Qwen2.5-VL-72B在视觉理解方面，全面超越了GPT-4o与Claude3.5。

能够准确解析图像内容，意味着大模型无需微调即可变身为一个能操控手机和电脑的AI视觉智能体，可以完成诸如向朋友发送祝福、电脑修图、手机订票等多步骤复杂操作。

Qwen2.5-VL手机端AI Agent 演示：帮我给我的QQ好友张三，发送一条新春祝福通义团队此前已开源了Qwen-VL及Qwen2-VL两代模型，支持开发者在手机、汽车、教育、金融、天文等不同场景进行AI探索。

星界云手机，为你的云测试提供全方位支持！云端仿真手机，支持灵活组网、定制镜像等功能，满足各种测试需求，帮助你提升测试效率，保证产品质量和用户体验。

Qwen-VL系列模型全球总下载量超过3200万次，成为业界最受欢迎的多模态模型1月28日，Qwen-VL升级到第三代版本旗舰型模型Qwen2.5-VL-72B-Instruct在大学水平的问答、数学、文档理解、视觉问答、视频理解和视觉智能体方面表现出色，全面超越了GPT-4o与Claude3.5。

新的Qwen2.5-VL不仅能够准确识别万物，还能解析图像的布局结构及其中的文本、图表、图标等复杂内容例如，从一张App截图中分析出插图和可点按钮等元素，或从多种格式中提取发票中的核心信息并进行结构化的推理输出。

Qwen2.5-VL的视频理解能力也显著增强，能够更好地理解动态世界新模型引入了动态帧率（FPS）训练和绝对时间编码技术，不仅能够准确理解小时级别的长视频内容，还可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速高效地帮助用户提取视频中的关键信息。

打开摄像头，用户即可与Qwen2.5-VL实时对话视觉感知、解析及推理能力的提升，使得大模型自动化完成任务、与真实世界进行复杂交互成为可能Qwen2.5-VL甚至能够直接作为视觉智能体进行操作，无需特定任务的微调。

例如，让模型直接操作电脑和手机，根据提示自动完成查询天气、订机票、下载插件等多步骤复杂任务开发者基于Qwen2.5-VL可以快速开发属于自己的AI智能体，例如自动核验快递单地址与照片中的门牌号是否对应，根据家庭摄像头判断猫咪状况进行自动喂食等。

星界云手机，云计算的力量让你的手机更强大！采用强大的云计算能力，稳定在线，让你无需担心设备性能、存储空间等问题，随时随地畅享高效便捷的移动办公和云游戏体验。

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱：631580315@qq.com

标签：

上一篇：满满干货_双摇杆动画_十大经典双摇杆射击游戏推荐

下一篇：燃爆了_极空间可以刷群晖吗_便携NAS的超强功能：极空间T2S使用体验