频年来,多模态大模子(MLLMs)发展迅猛,从看图话语到视频长入赌钱赚钱软件官方登录,似乎无所不可。 但你是否想过:它们确实"看懂"并"想通"了吗? 模子在濒临复杂的、多要领的视觉推理任务时,能否像东说念主类相通推理和有蓄意? 为评估多模态大模子在视觉环境中,完成复杂任务推理的材干。清华大学团队受密室脱逃游戏启发,建议EscapeCraft:一个 3D 密室脱逃环境,让大模子在 3D 密室中通过解放探索寻找说念具,解锁出口。 该论文现在已入选 ICCV 2025。 EscapeCraft 环境...