2025_NIPS_KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

一、文章主要内容总结
KORGym 是一款面向大语言模型(LLMs)推理能力评估的动态游戏平台,灵感源自 KOR-Bench 和 Gymnasium,旨在解决现有基准测试领域局限、依赖预训练数据等问题。平台包含 51 款文本及视觉类游戏,覆盖数学逻辑、控制交互、谜题、空间几何、策略、多模态六大推理维度,通过四大核心模块(推理、游戏交互、评估、通信)支持多轮交互、难度配置及强化学习(RL)集成。研究团队基于该平台对 19 款 LLMs 和 8 款视觉语言模型(VLMs)开展大规模实验,揭示了模型系列内一致的推理强弱特征、模态对性能的影响、推理范式的约束作用等关键发现,并验证了合适的强化学习能提升模型推理的均衡性。
二、创新点
- 设计了覆盖六大推理维度的 51 款多样化游戏,结合文本与多模态任务,实现对模型内在推理能力的全面评估,摆脱预训练知识干扰。
- 构建可扩展框架,支持增量开发、多轮评估、难度可调及稳定的强化学习集成,弥补现有游戏类基准在交互性和适配性上的不足。
- 开展大规模实证分析,覆盖 27 款主流模型,揭示了模型系列行为模式、推理范式影响、模态差异等关键洞察,为 LLM 推理研究提供新视角。
- 提出多维度聚合评分方法,通过对数变换、归一化等步骤,解决不同游戏评分尺度不一致问题,确保评估结果的公平性和可比性。











