嗨,大家好,前几天OpenAI发布的GPT-o1大家都用上了嘛,体验下来怎么样?给我的感觉这个模型不太适合通用问题,比较适合推理性强的数学题以及一些逻辑性强和思维链有关的问题,对于搞科研或者开发者来说是非常友好的。好了,言归正传,今天分享一个震撼游戏界的项目,如果你是个爱玩游戏的同好,这个项目将来可能会改变玩游戏的方式。这是一个由香港科技大学、中国科学技术大学和腾讯LightSpped Studio联合研发的生成式开放世界游戏模型。

我们先来看一段致敬黑神话-悟空的Demo视频:

GameGen-O 概述


这是首个专为生成开放世界视频游戏而设计的扩散变换器模型。通过模拟广泛的游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,该模型实现了高质量、开放世界的生成。此外,它还提供了交互式可控性,从而允许游戏玩法模拟。 GameGen-O 的开发涉及从0开始的全面数据收集和处理工作。收集并构建了首个开放世界游戏数据集(OGameData),从100多个次世代开放世界游戏中收集了大量数据,并使用专有数据通道进行高效分类、评分、筛选和解耦注释。这个强大而广泛的 OGameData 构成了模型训练过程的基础。

GameGen-O 经历了两阶段训练过程,包括基础模型预训练和指令微调。在第一阶段,模型通过文本到视频和视频延续在 OGameData 上进行预训练,赋予 GameGen-O 开放世界游戏生成能力。在第二阶段,预训练模型被冻结,使用可训练的 InstructNet 进行微调,使其能够基于多模态结构指令生成后续帧。这整个训练过程赋予了模型生成和交互控制内容的能力。

特点
  • 高质量、开放域生成: 能够生成创新角色、动态环境、复杂动作和多样事件。
  • 交互式可控性: 允许实时游戏玩法模拟和内容控制。
  • 大规模数据集: 基于自建的 OGameData,包含来自100多个次世代开放世界游戏的数据。
  • 多模态结构指令: 通过 InstructNet 实现基于多种模态输入的精确控制。

这个模型的独特之处在于它能够创造出丰富多样的游戏元素,从角色和环境到动作和事件,都能以一种连贯和可控的方式生成。

核心技术


1. 扩散变换器模型

GameGen-O 的核心是一个扩散变换器模型,结合了扩散模型的生成能力和 Transformer 架构的序列建模能力。

2. 3D VAE (变分自编码器)

为了有效处理视频数据,GameGen-O 采用了 3D VAE:

  • 用于压缩视频片段
  • 进行了游戏领域特定的适应
3. 混合训练策略

模型采用了创新的混合训练策略:

  • 基础模型预训练和指令微调两阶段训练
  • 使用噪声注入技术增强模型鲁棒性

模型架构


GameGen-O 的整体架构
InstructNet架构设计

GameGen-O 的架构可以分为两个主要部分:

  1. Video DiT Foundation Model
    • 包含多个时空DiT块,用于处理视频数据
    • 使用Layer Norm、Self-attention和Cross-attention等技术

Video DiT Foundation Model是GameGen-O中负责视频生成的核心组件。它基于扩散变换器(Diffusion Transformer)架构,专门设计用于处理和生成高质量的视频游戏内容。

  1. InstructNet
    • 包含多个时空块,用于处理指令和操作提示
    • 使用zero linear技术进行模块间连接

InstructNet是GameGen-O模型中负责处理多模态指令和实现交互控制的关键组件。它的设计目的是将用户的指令(文字提示、按键操作提示)精确地转化为视频生成过程的控制信号。

OGameData: 模型的训练基础


大家都知道,一个可运行的模型基于算力、算法、数据,那这个GameGen-O 同样也离不开数据。 OGameData这个数据集的特点包括:

  • 来自 132 个次世代开放世界游戏的 32,000 个视频
  • 经过严格的筛选和注释流程
  • 包含两个子集:OGameData-GEN 和 OGameData-INS

数据处理流程:

  1. 原始数据收集 (从互联网和游戏录制)
  2. 视频级过滤 (去除不可玩内容)
  3. 场景切割 (使用 TransNetv3) [技术: 视频分割]
  4. 片段级过滤,包括:
    • 视角变化检测 (使用 CoTracker2) [技术: 运动追踪]
    • 运动检测 (使用 UniMatch) [技术: 运动分析]
    • 语义量化 (使用 CLIP) [技术: 视觉-语言预训练模型]
    • 美学量化 (使用 CLIP-AVA) [技术: 美学评估]
  5. 结构化注释 [技术: 自动化标注, 多模态对齐]

训练过程


GameGen-O 的训练分为两个主要阶段:

1. 基础模型预训练 [技术: 自监督学习, 预训练]
  • 使用 OGameData-GEN 数据集
  • 结合视频片段和文本条件进行训练
  • 使用 3D VAE 编码器压缩视频
  • 应用噪声注入技术增强模型鲁棒性
2. 指令微调 [技术: 指令学习, 微调]
  • 使用 OGameData-INS 数据集
  • 融合视频片段、结构化指令和键盘绑定信息
  • 固定基础模型权重,只训练 InstructNet
  • 实现多模态指令的精确控制

创新点

  1. 多模态指令控制: 通过 InstructNet 实现视频、文本和操作的融合控制 [技术: 多模态融合]
  2. 时空 DiT 架构: 专为视频生成设计的扩散变换器结构 [技术: 时空建模]
  3. 大规模游戏数据集: OGameData 为模型提供了丰富的训练资源 [技术: 大规模数据集]
  4. 两阶段训练策略: 基础预训练加指令微调,提高模型的生成能力和可控性 [技术: 迁移学习]

应用前景

GameGen-O 在游戏开发领域有着广泛的应用潜力:

AI辅助设计: 与人类设计师协作,提供创意灵感 [技术: 人机协作, 创意AI]

快速原型开发: 游戏设计师可以快速生成和可视化游戏概念 [技术: 快速原型生成]

内容生成: 自动生成大量多样化的游戏内容,如地形、建筑和NPC [技术: 程序化内容生成]

交互式故事创作: 基于玩家选择动态生成游戏剧情 [技术: 动态故事生成, 自适应游戏设计]

生成的游戏示例:

  1. 生成的角色

2. 生成的环境

3. 生成的人物操作

4. 生成的事件

5. 生成的开放场景

更多视频可以在gamegen-o博客文章观看。

OGameDataDemo

Environmental Basics: Show a lush, green countryside path lined with stone walls and trees under a sunset sky. Main Character: Have the main character riding steadily forward on horseback along the path. Environmental Changes: Slowly move the horse and rider deeper into the scene along the path. Sky/Lighting: Maintain consistent golden sunset lighting throughout. aesthetic score: 5.54, motion score: 8.45, camera motion: zoom_in, perspective: third, shot size: full.

环境基础知识:在日落的天空下展示一条郁郁葱葱的绿色乡村小径,两旁是石墙和树木。主角:让主角沿着小路骑马稳步前进。环境变化:沿着路径慢慢地将马和骑手移动到场景中的更深处。Sky/Lighting(天空/照明):始终保持一致的金色日落照明。美学得分:5.54,运动得分:8.45,摄像机运动:zoom_in,透视:第三,镜头尺寸:完整。

写在最后


好了,以上便是GameGen-O模型的整体介绍,该团队提到了即将发布开源版本的OGameData数据集。你对GameGen-O有什么看法?你认为它会如何改变游戏开发的未来?欢迎在加入微信公众号分享你的想法!

项目地址:GameGen-O: Open-world Video Game Generation