您当前的位置: 首页 >> 热门资讯

国产adv游戏_《国产全AI游戏来了?大模型直接打造可交互的开放世界游戏》,万万没想到

作者:admin 日期:2025-01-07 点击数:0

普通人凭借创意就能制作游戏的梦想,正逐渐成为现实今年,AI在游戏生成领域的技术不断突破最近,国内游戏AI团队也取得了新的进展巨人网络推出了“千影 QianYing”有声游戏生成大模型,包括游戏视频生成大模型YingGame和视频配音大模型YingSound。

仅需一段文字或一张图片,就能生成模拟开放世界游戏的视频,并且这些视频具有声音、可交互性,用户可以操控角色完成多种动作无需游戏引擎,面向开放世界游戏简单来说,YingGame是一个专为开放世界游戏设计的视频生成大模型。

其研发团队来自巨人网络AI Lab和清华大学SATLab,该模型首次实现了角色多样动作的交互控制、自定义游戏角色,同时在游戏物理仿真方面表现出色精确模拟物理规律从生成的视频来看,无论是汽车碰撞、火焰燃烧等宏大场景,还是水中慢走、自动绕过障碍物等人物流动,都严格遵循物理规律。

丰富多样的动作控制交互性对于游戏至关重要YingGame能够理解用户的输入,如文本、图像或鼠标、键盘操作信号,从而实现对游戏角色多样动作的控制视频中展示了角色开枪、变身、施法、使用道具、攀爬、匍匐、跑跳等动作,相比其他同类模型更加流畅自然。

个性化角色与精细主体控制YingGame还支持通过输入角色图片来自定义生成角色,并对角色进行精细化控制,从AI捏脸进化到AI捏人。

第一人称视角的游戏沉浸感此外,模型还能生成第一人称视角的游戏画面,这种视角带来了很强的游戏沉浸感。

技术实现原理从技术角度讲,YingGame融合了跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及高效、高质量游戏视频训练数据生产管线,以实现具备交互能力的动作控制、角色自定义与精细主体控制、复杂运动与动作连续性等特性。

在交互性方面,YingGame运用了多个Interactive Network模块:用于理解用户输入的多模态交互方式的多模态交互网络——MMIN(Multi-Modal Interactive Network);用于生成复杂与连续角色动作的动作网络——IMN(Interactive Motion Network);用于自定义角色生成并提升角色生成质量的角色网络——ICN(Interactive Character Network)。

为了构建高质量训练数据,巨人AI团队设计了一套高效的游戏视频数据处理流程:根据场景与高光片段提取高质量视频,其中高光片段提取音频信息作为V2A训练集;依据运动得分、美学评分等筛选视频;通过vLLM-based video caption流程,并对结果进行clip score文本视频对齐评分过滤;

执行多任务数据处理,例如分割、主体检测、姿势估计、深度估计、相机运动估计等。

【星界云手机】,给你不一样的游戏体验!云端托管手游,挂机脚本助力,让你无需手动操作,轻松完成日常任务,同时享受游戏的乐趣。释放双手,让你更专注于游戏策略,成为游戏中的高手!

开启AI游戏有声时代除了YingGame,巨人还发布了专门针对视频配音场景的多模态音效生成大模型 YingSound“声音”是游戏的重要元素,在此之前,AI游戏生成领域尚未实现这一点YingSound由巨人网络AI Lab、西工大ASLP Lab和浙江大学等联合开发,它最突出的能力是:。

给无声视频添加音效,使音画同步YingSound具有强大的时间对齐能力和视频语义理解能力,能生成多种类型的高精细度音效,并适用于各种场景,如游戏视频、动漫视频、真实世界视频、AI生成视频等卓越的画面理解能力。

以下是一段游戏配音示例,通过演示视频可以看出,该模型能精准生成与场景匹配的音效,如开镜、炮轰、射击等声音,完美还原坦克进攻与士兵防守射击的声音,创造了沉浸式的游戏体验△视频源自《战地游戏》录屏在动漫场景中,模型展现了对复杂剧情的理解能力。

例如,在一段鸟儿互相扔蛋的动画中,模型生成了从惊讶到扔蛋、蛋飞行轨迹、接住蛋等一系列符合视频内容的音效△视频源自动画《Boom》片段再看小球快速移动的画面,模型生成的声音精准匹配画面动态变化,并根据不同状态生成相应场景音效,充分体现了其对动画内容的深入理解。

△视频源自3D动画短片《The Marble》片段在真实世界场景中,通过一段激烈的乒乓球对战视频,模型精准生成每次击球产生的音效,甚至包括球员跑动时鞋底与地面摩擦的声音,这展示了YingSound对视频整体语义的深刻理解和出色的音效生成能力。

测评表现优异研究团队公开了YingSound的两个核心模块:基于DiT的Flow-Matching构建的音效生成模块,以及多模态思维链(Multi-modal CoT)控制模块,为音效生成提供精准支持在音效生成模块中,团队基于DiT的Flow-Matching框架,提出了创新的音频-视觉融合结构(Audio-Vision Aggregator, AVA)。

该模块通过动态融合高分辨率视觉与音频特征,确保跨模态对齐效果通过多阶段训练策略,逐步从T2A过渡到V2A,并采用不同数据配比训练,使模型具备从文本、视频或二者结合生成高质量音效的能力同时,团队设计了多模态视频-音频链式思维结构(Multi-modal CoT),结合强化学习实现少样本情况下音效生成的精细控制,适用于短视频、动漫及游戏等配音场景。

团队精心构建了符合行业标准的V2A(video-to-audio)数据集,涵盖了电影、游戏、广告等多场景、多时长的音视频内容为确保数据质量,研究团队设计了完善的数据处理流程,涵盖数据收集、标注、过滤和剪辑。

针对不同视频类型的复杂性与差异性,团队基于多模态大语言模型(MLLMs)及人工标注,完成时间戳和声音事件的高质量标注同时,严格筛选,去除背景音乐干扰及音视频不同步的内容,最终生成符合行业标准要求的训练数据,为后续研究与开发提供了坚实基础。

客观指标测评显示,YingSound大模型在整体效果、时间对齐和视频语义理解等方面均达到业界领先水平。

长远来看,视频生成技术有望取代游戏引擎,给游戏行业带来颠覆性的变革仅凭文字描述就能创作游戏不再是天方夜谭这个领域的发展速度惊人,AI将推动游戏创作平权,未来游戏创作或许只受创作者想象力的限制年初时,史玉柱提到巨人网络正在探索打造一个AI游戏孵化平台,降低游戏制作门槛,让普通人也能参与游戏制作。

现在,年底交出了第一份成果,期待他们在AI游戏赛道上的下一步发展

【星界云手机】,让你游戏无极限!云端托管手游,配合挂机脚本,让你无需担心游戏中的种种繁杂操作,享受畅快游戏体验。解放你的双手,成为游戏的主宰!

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:631580315@qq.com

标签: