本文作者:访客

首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

访客 2025-03-16 10:03:15 33465
首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了摘要: 如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能...

如果说去年没有自研类 GPT-4 模型是寸步难行,那么今年 AI 的发展方向愈发具象化——没有深度推理模型同样是万万不能。

首发体验|百度连发两个新模型对标DeepSeek,我让它挑西瓜、卖烧烤,细节全在这了

这也激发了大厂在 AI 叙事的新一轮竞赛,除了接入 DeepSeek ,腾讯元宝、阿里夸克等都密集推出自己的深度思考模式,争夺 AI 时代的超级应用。

百度也不例外,自年初以来,旗下百度文库、文小言 App 等产品陆续整合了 DeepSeek-R1 模型。

当然,自研模型与接入 DeepSeek 并非对立的选择,也无需在二者间做非此即彼的取舍。

在文心一言初次亮相两周年之际,百度今天正式发布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前进行了体验。

简单概括这两款模型的「人设」:

⽂⼼⼤模型 4.5:原⽣多模态基础⼤模型,擅长生成或解读图片、解答问题

深度思考 X1:深度思考模型,支持多⼯具调⽤

两款模型已在文心一言官网上线,附上免费使用

https://yiyan.baidu.com

挑西瓜、懂梗图、辨古画,文心 4.5 的多模态能力到底有多强?

先说文心 4.5,作为原⽣多模态基础⼤模型,它在多模态识别理解能力上给了我不少惊喜。

面对经典的挑西瓜环节,文心 4.5 给出了颜色、条纹、声音、瓜地等多种判断依据,但作为一个成熟且务实的 AI 老瓜农,它也没敢把话说死。

话糙理不糙,只有切开尝过才知道哪个西瓜最甜。

在识别「梗图」方面,文心 4.5 也手拿把掐。扔一张表情包试试水,它成功识别了这个猪猪侠的身份,而在另一张表情包的识别上,文心 4.5 不仅读懂字面意思,还能准确捕捉到背后的隐喻和言外之意。

这里有个小窍门,除了基本的分享功能,它的回答还能一键存百度网盘,或者自动生成文档,遇到 AI 的神回复还能随时收藏,操作衔接相当丝滑。

再考考理解力,脑筋急转弯走起。

「有一个字,人人见都会念错?是什么字?」这题它轻松拿下,没有被绕进去,逻辑推理过程条理清晰,还顺手抛出几个贴合主题的追问。

9.8 和 9.11 哪个大?小菜一碟。然而,我连续测试了几次「Strawberry 里有几个 r」,它的自信溢出屏幕,但也都接连翻车了。

来道能同时考究运算能力和图片识别能力的物理题。它先淡定分析结构,再逐一拆解选项,最后稳稳锁定正确答案 D,过程有理有据,颇有几分「物理课代表」的风采。

日常生活中,我经常会碰到一些不知出处的古画或者电影截图,最惯常的做法就是在社交平台上发帖和在评论区求助热心网友,现在或许可以丢给文心 4.5 试试。

经过测试,即便关闭联网搜索功能,它依然能一一精确作答。

除了图片,音频识别也不含糊,比如我随手用手机录了段《晴天》,它靠歌词秒认出歌曲,不过,碰上一些过于冷门小众的歌曲,就不太能指望它。

另外,不管是上传科技行业报告,还是前阵子李飞飞在 X 平台公开的那段 44 秒机器人最新成果演示视频,文心 4.5 的总结能力都让人挑不出毛病。

去年 11 月份,百度发布了检索增强的文生图技术 iRAG 技术,主打一个无幻觉,超真实。

其核心原理是将百度搜索的亿级图片资源与强大的基础模型能力相结合,通过检索真实可靠的图片数据,为生成图像提供精准的参考。现在文心 4.5 同样支持生成图片。

比方说,最近特斯拉市值波动剧烈。于是,我给世界首富马斯克谋了条出路,让文心 4.5 生成一张「马斯克夜晚摆摊卖烧烤」的照片,

烧烤摊还差个照片,别急,它还支持局部重绘功能,细节调整很人性化。

不过,它在生成文字上还有待改进,比方说,我想给马斯克「重绘」一个「马氏招牌」,要么文字模糊难以辨认,要么位置偏差,几轮尝试下来均以失败告终。

慢思考≠慢,X1 打开深度推理模型的正确使用方式?

再来说说,百度今天推出的深度推理模型 X1,这显然是对标 DeepSeek R1 的一款模型。

据官方介绍,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉发布的慢思考技术进化而来,理解、规划、反思、进化能力全面拉满,还支持多模态。

赶时间,把问题交给文心 4.5,复杂长任务则由深度推理能力更强的 X1 负责。

拿推荐广州美食这事来说,文心 4.5 只是潦草回答一些笼统的美食称呼,比如「肠粉」之类敷衍了事,而 X1 直接化身「贴心导游」,店名+地址一条龙奉上,更懂游客的心思。

面对经典的电车难题,X1 的思考时间并不算慢,分析得头头是道,还从不同伦理体系的角度聊了聊结果,深度和广度都在线。

再来一道更复杂的逻辑推理题,X1 的表现也可圈可点。

多⼯具调⽤是⽂⼼ X1 的特⾊之⼀。

官方表示,X1 目前已经解锁高级搜索、文档问答、图片理解、AI 绘图、代码解释器等多款工具。

我突发奇想,上传了一张心形图片,图片中实则嵌着一个数学公式,看似简单却颇具挑战性,毕竟从图像中提取数学信息需要较高的视觉理解和逻辑处理能力。

至于结果嘛,它顺利提取出公式内容,还解释了这个公式的含义。

复杂的文字生成能力也是 X1 的亮点,我首先要求 X1 生成一个 500 字的剧本,主题是「林黛玉倒拔垂杨柳」,剧本「以柔克刚」,保留了林黛玉的性格特征,还融入了戏剧化的冲突与转折。

紧接着,我进一步要求 X1 从心理学的角度分析这个剧本,并在此基础上润色出一版 1000 字的新剧本。

这次的任务显然更复杂,X1 运用的理论得当,虽然不算特别深刻,但对于一个 AI 模型来说,能在短时间内完成如此跨学科的解读,已属难能可贵。当然,也不是没有缺点,字数就没达到要求。

就回复而已,相比于 Deepseek 满嘴「通货膨胀」的社科黑话,X1 在语言输出上显然比较克制,表达更流畅也更接地气,多了一些直抵人心的温度。

DeepSeek 则以全面的思考见长,追求技术深度和思维广度,但语言上稍显疏远。

最近,科技博主 Alexander Doria 抛出个观点—— AI 领域的下一个发展周期将是「模型本身即产品」,谁能搞定模型训练,谁就握住了未来。

他还引用了 Databricks 投资人 Naveen Rao 的预测:

「未来 2-3 年,闭源 AI 提供商将停掉 API 服务,只有开源模型会继续提供 API,闭源公司会转而打造更独特的能力。」

反观国内市场,百度的表现颇具代表性。

自两年前文心一言发布以来,百度在自研模型上的投入持续加码,迭代节奏稳定,文心 4.5 和 X1 的亮相,同样是「模型即应用」趋势的最佳注脚。

前者靠万亿参数直击多模态能力,后者凭慢思考和多工具调用秀出推理肌肉。这种差异化的能力布局,精准契合了用户多样化的需求,更让模型本身从单纯的技术内核转变为可以直接上手使用的「产品」。

回溯历史,百度在搜索时代的技术积累和移动互联网时期的转型尝试,都曾让其站在风口之上,但也因节奏把握或市场竞争而错失一些先机。

映照当下,如果将 AI 比作「火种」,两年前的百度无疑是中国市场上最懂得用火的「普罗米修斯」。但奈何与过往一般,作为中国 AI「黄埔军校」的百度,却是起了个大早,赶了个晚集。

这离不开 AI 行业生态的潮水流动。

OpenAI CEO Sam Altman 曾在上月预测,使用固定级别 AI 的成本大约每 12 个月骤降 90%。

成本的快速下降削弱了闭源模式赖以生存的高壁垒,使得技术垄断的护城河逐渐变浅。与此同时,开源与免费的模式因其低门槛和高可及性,成为吸引用户、扩大技术影响力的新路径。

DeepSeek 和 Manus 接连在短时间快速渗透,也说明了目前 AI 产品还没有显著的壁垒,哪个体验更好用户就转向哪个,不会有一点留恋。

无论对于百度还是其他大厂,抑或独立开发者,似乎又回到了移动互联网兴起的草莽时代。

阅读
分享