谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

人脑网 4 月 26 日消息,科技媒体 marktechpost 昨日(4 月 25 日)发布博文,报道称谷歌 DeepMind 团队推出 QuestBench 新基准,通过约束满足问题(CSPs)框架,评估模型在推理任务中识别和获取缺失信息的能力。

现实挑战与信息获取需求

大型语言模型(LLMs)在推理任务中广受关注,涵盖数学、逻辑、规划和编码等领域。然而,现实世界的应用场景常常充满不确定性。

用户在提出数学问题时常忽略重要细节,机器人等自主系统也必须在部分可观测的环境中工作。这种理想化完整信息设定与现实不完备问题之间的矛盾,迫使 LLMs 发展主动信息获取能力。

人脑网援引博文介绍,识别信息缺口并生成针对性地澄清问题,成为模型在模糊场景中提供准确解决方案的关键。

QuestBench:评估信息缺口的新框架

为应对信息获取挑战,研究者推出了 QuestBench 基准,专门评估 LLMs 在推理任务中识别缺失信息的能力。

该基准将问题形式化为约束满足问题(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一个未知变量值即可解决目标变量的问题。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

QuestBench 覆盖逻辑推理(Logic-Q)、规划(Planning-Q)和小学数学(GSM-Q / GSME-Q)三个领域,按变量数量、约束数量、搜索深度和暴力搜索所需猜测次数四个难度轴分类,精准揭示模型的推理策略和性能瓶颈。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

模型性能与未来改进空间

QuestBench 测试了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等领先模型,覆盖零样本、思维链和四样本设置。测试于 2024 年 6 月至 2025 年 3 月间进行,涉及 288 个 GSM-Q 和 151 个 GSME-Q 任务。

谷歌 DeepMind 推 QuestBench 基准,测试 AI 模型的“补漏”能力

结果表明,思维链提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在规划任务中表现最佳。开源模型在逻辑推理上具竞争力,但在复杂数学问题上表现不佳。

研究指出,当前模型在简单代数问题上表现尚可,但随着问题复杂性增加,性能显著下降,凸显了在信息缺口识别和澄清能力上的改进空间。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/8557.html

(0)
人脑网的头像人脑网
上一篇 2025年4月26日 下午3:26
下一篇 2025年4月26日 下午3:27

相关推荐

  • 闪迪至尊超极速移动固态硬盘USB4版评测 超越SSD的三防猛兽

    移动固态硬盘,凭借TB级的容量和远超传统移动机械硬盘几倍、十几倍的速度,当仁不让地成为高效移动存储的代名词,为4K/8K超高清内容创作、海量文件备份带来了超乎想象的效率提升。国际知名品牌SanDisk闪迪之前曾经推出了代号为E30、E61、E81多款经典产品,深受用户喜爱。现在闪迪又推出一款全新的进阶级产品——至尊超极速移动固态硬盘USB4版,代号E82。 …

    2025年4月16日
    1300
  • 信号、定位、实用性全拉满!vivo Y300 Pro+上手实测

    在外观、性能和续航已经卷无可卷的中端手机市场,vivo Y300 Pro+试图从“全场景实用性”入手,打出自己的差异化。除了出色的屏幕、电池与处理器配置外,它在信号表现、定位精度和日常功能完整性方面也交出了一份极具诚意的答卷。本文就聚焦这三点,聊聊这款“全能国民手机”是否真的名副其实。 实测信号表现:地库、电梯、地铁里也稳得住 我们将Y300 Pro+放在高…

    2025年4月16日
    1400
  • 人像夜神的究极形态?OPPO Find X8 Ultra影像评测

    如今,影像能力已成为衡量一款手机是否可以称得上“超大杯”的必要条件。最近发布的OPPO Find X8 Ultra便凭借其全新的影像技术和配置,成为不少摄影爱好者和用户关注的焦点。接下来,我会根据我最近使用Find X8 Ultra的实际拍摄体验,带大家一起看看这次OPPO超大杯的影像实力。 1影像配置剖析 OPPO Find X8 Ultra搭载了超光影五…

    2025年4月11日
    700
  • 宁德时代磐石底盘亮相,120km/h正面碰撞不起火不爆炸!

    2025年4月23日,宁德时代高安全旗舰版滑板底盘——磐石底盘在上海车展正式公开亮相,该底盘由宁德时代旗下子公司时代智能研发生产。本次亮相的新一代磐石底盘以高安全、强性能及高度智能化为核心,搭载轴向磁通分布式电驱动系统、智能低压供配电系统,采用全线控技术,实现了120km/h正面碰撞不起火不爆炸。 120km/h不燃不爆,安全托底不惧碰撞 宁德时代磐石底盘通…

    2025年4月24日
    500
  • 使用佳能G4891喷墨一体机打印到底有多方便?

    对于有些家庭用户而言,日常会有给孩子打印照片的需求,那么选购一款打印机产品可以说非常有必要。在选购产品时,不仅仅要考虑打印机的打印质量,同时还应当考虑打印机的功能和易用性,这对于家庭用户来说直观重要。今天给大家评测这款佳能G4891喷墨一体机,看看这款打印机打印到底有多方便。 人性化的操控面板设计 首先在操控面板方面,佳能G4891一体机致力于为用户打造便捷…

    2025年4月12日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信