海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

神奇!人类和海豚真的能实现跨物种交流了?!

当地时间4月14日(也是世界海豚日),谷歌CEO皮猜激动官宣:

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

划重点,这个海豚模型参数仅400M,小到能直接在谷歌Pixel 9手机上运行。

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

而且皮猜还说了,预计今年夏天会将其开源以促进科学合作。

这一消息也迅速引来大量网友围观,评论区一整个“哇声一片”:

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

更有意思的是,谷歌和OpenAI这对老冤家这一次又双叒对上了,OpenAI那边发布了GPT 4.1。

有网友直接辣评:GPT 4.1很好,但我对DolphinGemma更感兴趣。(你是懂拉踩的doge)

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

谷歌大模型破解海豚叫声

谷歌这次发布的AI基础模型DolphinGemma,经过训练可以学习海豚的发声结构,并生成类似的声音序列。

这和大语言模型中的预测下一个token类似,通过识别输入的海豚音频,来预测后续可能出现的声音,并最终解锁这些声音隐藏的潜在含义。

根据介绍,这一模型使用了谷歌独特的音频技术。

其中,SoundStream分词器能快速把海豚声音变成计算机能理解的信号,随后由适合处理复杂序列的模型架构进行处理。

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

当然,除了训练技术,最重要的环节还是在于获取数据

谷歌这次找了WDP( Wild Dolphin Project)合作,这家机构研究海豚社会数十年,拥有极为丰富的数据集。

具体而言,自1985年以来,WDP研究了巴哈马群岛中一个跨世代的野生大西洋斑点海豚(Stenella frontalis)群落。

通过这一“世界上持续时间最长的水下海豚研究项目”,最终积攒了数十年的水下视频和音频,并且每个海豚的身份、生活史和观察到的行为拥有细致匹配。

比如下面这些能够将海豚声音和行为联系起来的例子:

  • 标志性的口哨声,一般出现在母子相遇的场景
  • 打斗时经常会听到脉冲“尖叫声”
  • 求偶或追逐鲨鱼时常用“嗡嗡”声

下图展示了第一种情形。

左图:一只斑点海豚妈妈在幼崽觅食时观察着它,等幼崽觅食完毕后,它会用自己独特的口哨声呼唤它回来。

右图:声谱图显示的口哨声。

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

因此最终,DolphinGemma是基于WDP的野生大西洋斑点海豚声学数据库进行广泛训练。

另一方面,除了研究海豚的交流方式,WDP还进一步探索了“人机交互”方式。

该机构与佐治亚理工学院合作,开发了CHAT(Cetacean Hearing Augmentation Telemetry) 这款水下应用,其设计目的并非直接解读海豚复杂的自然语言,而是建立一套更简单的共享词汇。

具体来说,CHAT会将生成的合成哨声与海豚喜欢的特定物体联系起来,比如海藻、海草或研究人员使用的围巾。

然后通过人类教导,让天生好奇的海豚学会模仿这些哨声来请求这些物品。

最终,随着对海豚更多自然声音的理解,这些声音也可以被加入到系统中。

△CHAT示意图

概括而言,CHAT设备通过水下扬声器和麦克风实现声音的发送和接收,通过尝试模仿海豚发出的哨声来建立一种基本的沟通桥梁。

谷歌表示,Pixel 6(谷歌2021年10月发布)已经能够实时处理高保真海豚声音分析,而即将发布的Pixel 9(计划于2025年夏季投入使用)将在此基础上进行升级。

One More Thing

也有人好奇,为什么谷歌选了海豚而非更常见的猫狗来研究?

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

虽然官方这次未明确提及背后原因,但查阅广泛研究资料后可以得出一个结论:

这是因为海豚的“语言”和人类语言高度接近

一项发表在《皇家社会生物学通讯》的研究表明,海豚相互间交流的方式近乎于人类。

当一些海豚发出像吹口哨一样的声音时,这些声音是由特定组织震动发出的,其运作原理类似于人类和许多陆生生物的声带振动。

论文一作彼得·麦德森曾表示:

和海豚类似,事实上谷歌2024年9月还推出了一款鲸鱼声音识别模型,它能够识别出八种鲸鱼的独特叫声,并精细区分其中两种鲸鱼的不同发声类型。

而鲸鱼也和海豚一样,其语言和人类语言也具有相似性。

今年年初发表在《科学》杂志上的一项研究惊奇地发现,通过模仿儿童学习语言的过程,鲸鱼的歌声与人类使用的语言存在统计相似性。

这一发现不仅揭开了鲸歌的部分秘密,还为理解跨物种交流乃至AI语言模型提供了全新视角。

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

可以看到,谷歌首先考虑的还是这些与人类语言更接近的物种。

不过别着急,从DeepMind联创兼CEO哈萨比斯透露的想法来看,没准下一个就是狗了。(doge)

海豚语言被谷歌模型破译!实现跨物种交流,哈萨比斯:下一个是狗

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/5787.html

(0)
人脑网的头像人脑网
上一篇 2025年4月15日 下午3:23
下一篇 2025年4月15日 下午3:24

相关推荐

  • 重构训练框架,开源新方法:抛弃替代损失函数,仅需优化原始目标

    抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了: 消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。 来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG(Group Policy Gradient)。 GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法…

    2025年4月27日
    500
  • 首份空间智能研究报告来了!一文全面获得空间智能要素、玩家图谱

    AI的未来,绝不仅限于聊天机器人和数字世界。 物理世界的AI推进,已经开始。而且定义正在被包括李飞飞在内的大牛明确—— 空间智能。 空间智能是什么?包含哪些应用领域?如何系统性地看待空间智能?随着技术的不断进步,虚实融合边界持续消融,空间智能的阶段性成果、当前的认知和格局,正在愈发清晰。 在大量桌面研究、调研访问、数据分析之后,为了更好把握空间智能现状和未来…

    2025年4月26日
    400
  • 医疗界迎来重磅大模型,还有10多个场景的智能体!

    在人工智能技术重塑全球产业格局的浪潮中,医疗健康领域正迎来一场深刻的变革。4月9日,在2025中国国际医疗器械展览会(CMEF)同期,由联影举办的uAInnovation2025创新大会圆满落幕,来自产学研医各界嘉宾代表齐聚一堂,围绕数智涌现的未来医疗生态蓝图共话时代新篇。复旦大学附属中山医院副院长、党委书记顾建英,河南省人民医院副院长王梅云,中山大学肿瘤防…

    2025年4月11日
    1200
  • 超九成年轻人工作学习离不开AI,人均还有1.8个AI朋友丨Soul

    不是我说,年轻人群体到底怎么看AI、用AI啊??? 现在摆在眼前的有这样一份调研数据,给我们更直观的答案。参加调研的年轻人群们—— 一方面呈现出与新技术共生的状态。 超九成已习惯在工作学习时使用AI辅助创作;约两成年轻人已经通过AI赚到钱。 另一方面,他们中的大多数已经在使用AI获取情绪价值。 超七成愿意和AI虚拟人做朋友,约六成年轻人拥有虚拟伙伴,参与调研…

    2025年4月6日
    1300
  • 1450亿!马斯克xAI与X合并后再寻资金,将成第二大初创企业单轮融资

    马斯克xAI与X合并后,又有新动向! 彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。 如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。 届时,这笔交易也将成为继OpenAI(400亿美元)之后史上第二大初创企业单轮融资。 马斯克筹钱还债 按照彭博社的说法,马斯克这次寻求融资的…

    2025年4月27日
    500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信