中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

来自国内的光电混合芯片技术,登上最新顶刊Nature

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

这次的成果主要聚焦在了自主研发的光子计算处理器——PACE(Photonic Arithmetic Computing Engine)。

简单来说,PACE是一种基于光电混合的架构,它通过光执行矩阵向量乘法,可以实现超低延迟和高能效的计算。

根据论文中公开的数据显示,PACE在解决组合优化问题(如伊辛问题和最大割/最小割问题)时,计算延迟低至3纳秒,比传统GPU快了两个数量级。

这一突破的核心在于PACE的高度集成设计

这个系统集成了超过16000个光子组件,并通过创新的2.5D混合先进封装技术,将光子集成电路(PIC)与电子集成电路(EIC)无缝集成。

这种设计不仅解决了大规模光电系统集成中的技术难题,更为商业化落地奠定了基础。

而这个芯片技术,正是来自国内初创企业曦智科技

据了解,这是继八年前曦智科技创始人沈亦晨博士在Nature发表封面论文后,再一次登上这一顶刊。

那么PACE如此的速度,到底是如何做到的呢?

首次公开:16000个光子组件的高度集成

随着人工智能的快速发展,计算需求呈爆发式增长,传统电子计算面临着功耗、速度等方面的瓶颈。

光子计算凭借光的独特性质,如同时进行乘法和累加过程、数据传输能耗低、避免电阻损耗和发热问题等,成为极具潜力的替代方案,受到全球广泛关注。

然而,光子计算在发展过程中面临诸多挑战。一方面,集成光子学制造相对不成熟,缺乏先进的封装解决方案,导致大规模集成光子系统在性能提升、标准设计与验证以及封装等方面困难重重。

另一方面,光子计算在光学存储、计算精度(尤其在大规模复杂电路中)以及适配模型和算法等方面存在不足,限制了其商业化进程。

为此,曦智科技提出的PACE采用混合架构(首次对外公开),将光子集成电路(PIC)和电子集成电路(EIC)集成在一个系统级封装(SiP)中。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术
△PACE系统部署

PIC 负责执行光矩阵向量乘法(oMAC)操作,EIC则处理控制、迭代逻辑、数据输入输出、存储以及时钟控制等功能。

这种架构设计充分发挥了光子计算在速度和低延迟方面的优势,以及电子计算在逻辑处理和存储方面的长处。

在PIC中,团队设计了1×64光学数据模块和64×64权重模块执行oMAC操作。

光信号通过高性能光栅耦合器从外部激光阵列耦合进入电路,经过向量调制器阵列和权重调制器模块进行调制,最后在光电探测器阵列进行信号转换和合并。

EIC基于28-nm商业CMOS技术设计,PIC则是基于65-nm硅光子技术构建,单个芯片集成了超过16000个光子组件,实现了高度集成。

这种混合架构充分发挥了光计算的并行优势:光信号在波导中传输时天然完成乘加运算(oMAC),而电子电路则处理逻辑控制与数据存储。

实验数据显示,64×64矩阵运算延迟仅3纳秒,比传统GPU快500倍

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

除此之外,研究团队创造性地将光学矩阵运算应用于组合优化问题。

通过设计”噪声驱动递归算法”,PACE系统能够高效求解伊辛模型:

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

在求解63节点Max-cut问题时,系统经过平均537次迭代(耗时2.7μs)即可达到92.7%的收敛率,相比NVIDIA A10 GPU提速295倍。

更引人注目的是”图像搜索”演示,系统能从随机初始状态收敛到预设的”猫”图像目标。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

Nature审稿人对曦智科技团队在光子计算工程化方面作出的努力给予了高度肯定:

还全球首发了新一代光电计算卡

就在前不久的3月25日,曦智科技还正式推出全新一代光电混合计算卡 ——曦智天枢

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

曦智天枢深度融合了光芯片与电芯片的优势,采用先进的3D封装技术,是一款高度可编程的光电混合计算卡。

与前代产品相比,其在光电集成度、光子矩阵规模、计算精度及可编程性等方面均实现了显着提升。

它不仅支持科学计算(如伊辛算法),还增强了对ResNet50等商业算法的适配性,进一步拓宽了应用场景。

中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

曦智天枢采用非相干架构设计,具备出色的抗干扰能力和高计算精度。

其核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,通过3D先进封装技术实现协同工作,主频速率达1GHz,输出精度为8bit。

光芯片面积提升至600平方毫米,器件数量超过四万个,集成度大幅提高。

此外,其最大支持128×128矩阵规模,运算能力和灵活性均得到显着增强。用户可通过API自由配置计算矩阵系数,实现更高效的优化与适配。

在软件方面,产品搭载了曦智光电混合计算软件栈,支持主流框架如PyTorch和ONNX,用户可通过曦智编译器灵活构建高效的应用模型。

不仅如此,平台还支持用户自定义算子,进一步扩展了算法开发的灵活性。

对此,沈亦晨博士表示:

参考链接:
https://www.nature.com/articles/s41586-025-08786-6

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/5401.html

(0)
人脑网的头像人脑网
上一篇 2025年4月14日 下午3:16
下一篇 2025年4月14日 下午3:16

相关推荐

  • 1450亿!马斯克xAI与X合并后再寻资金,将成第二大初创企业单轮融资

    马斯克xAI与X合并后,又有新动向! 彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。 如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。 届时,这笔交易也将成为继OpenAI(400亿美元)之后史上第二大初创企业单轮融资。 马斯克筹钱还债 按照彭博社的说法,马斯克这次寻求融资的…

    2025年4月27日
    500
  • 7B小模型写好学术论文,新框架告别AI引用幻觉

    学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。 现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCop…

    2025年4月11日
    2200
  • 挤爆字节服务器的Agent到底啥水平?一手实测来了

    “字节版Manus”有多能打?量子位实测在此。 △扣子智能体生成的活动介绍网页 我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。 结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。 不过在指令遵循方面,还是比较“有自己的想法”。…

    2025年4月23日
    500
  • GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

    GPT-4o会画吉卜力、会「自拍」,但是能拼好乐高吗? 你有没有想过这样的问题: 近年来,随着多模态大语言模型的迅速发展,视觉理解、图文对齐、语言生成等能力不断突破,仿佛人类助手已触手可及。 但在需要多步骤空间感知与逻辑推理的复杂场景中。 例如机器人装配、自动驾驶决策、3D物体理解等,多模态大模型的真实“空间智商”究竟如何? 为此,上海人工智能实验室联合同济…

    2025年4月23日
    700
  • 刚刚,智谱一口气免费开源6款模型,200 tokens/秒成商用速度之最

    就在刚刚,智谱一口气上线并开源了三大类最新的GLM模型: 沉思模型GLM-Z1-Rumination 推理模型GLM-Z1-Air 基座模型GLM-4-Air-0414 若是以模型大小(9B和32B)来划分,更是可以细分为六款。 首先是两个9B大小的模型: GLM-4-9B-0414:主攻对话,序列长度介于32K到128K之间 GLM-Z1-9B-0414:…

    2025年4月15日
    1900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信