本文作者:访客

哥伦比亚大学研究:AI搜索工具平均准确率仅六成,且自信满满“不认错”

访客 2025-03-13 17:46:24 76502
哥伦比亚大学研究:AI搜索工具平均准确率仅六成,且自信满满“不认错”摘要: IT之家 3月13日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for...

IT之家 3月13日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款AI搜索引擎展开研究,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。

哥伦比亚大学研究:AI搜索工具平均准确率仅六成,且自信满满“不认错”

研究人员从20家新闻机构中随机挑选了200篇报道(每家10篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各AI搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。

测试结果显示,除Perplexity及其付费版外,其余AI搜索引擎的表现都不尽如人意。整体来看,AI搜索引擎提供的答案有60%是不准确的,而且AI对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型不仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。

即使承认了错误,ChatGPT仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是“无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search是唯一回答了所有200个新闻查询的AI工具,但其“完全正确”率仅28%,而“完全错误”率高达57%。

ChatGPT并非表现最糟的。X旗下的Grok AI表现尤为不堪,其中Grok-3 Search的错误率高达94%。微软Copilot也问题重重 —— 在200次查询中,有104次拒绝作答,剩下的96 次中,仅16次“完全正确”,14次“部分正确”,66次“完全错误”,总体错误率接近70%。

这些AI工具的开发公司并未公开承认这些问题,却仍向用户收取每月20至200美元(IT之家备注:当前约145至1449元人民币)的订阅费。此外,付费版 Perplexity Pro(20美元/月)和Grok-3 Search(40美元/月)比免费版回答得更多,但错误率也更高。

阅读
分享