全球首次!上海交大陈一彤,一作兼通讯,最新Science!
米测MeLab

陈一彤博士,上海交通大学集成电路学院(信息与电子工程学院)图像通信与网络工程研究所,助理教授。2019年本科毕业于清华大学钱学森班,2024年博士毕业于清华大学自动化系。2018-2019年在美国哈佛大学医学院学术访问。
长期从事高速、低功耗光电智能计算芯片及其应用研究,在Nature,Science,Nature Photonics,Nature Electronics, Science Advances, CCF-A期刊等国际顶尖期刊和会议发表多篇研究论文。国际首次实现复杂视觉智能任务中,实测光电智能计算芯片端到端速度较国际顶尖芯片提升三千六百倍,能效提升百万倍,相关成果被新华社、人民日报、光明日报、科技日报等报道。相关研究入选国家自然科学基金委优秀资助成果等。长期担任Nature系列、IEEE Trans系列等审稿人。

特别说明:本文由米测技术中心原创撰写,旨在分享相关科研知识。因学识有限,难免有所疏漏和错误,请读者批判性阅读,也恳请大方之家批评指正。
编辑丨风云
研究背景
大规模生成式人工智能(AI)正面临严峻的算力短缺压力。尽管光子计算在决策任务中表现卓越,但由于集成规模有限、维度转换耗时以及依赖地面真值的训练算法,其在生成式任务中的应用仍然困难重重。目前的电子芯片在处理大型生成模型时能耗极高且存在显著延迟,迫切需要开发新型芯片架构以实现高效、超快的生成式神经网络。
关键问题
目前,芯片的合成主要存在以下问题:
1、集成规模与神经元数量受限
现有的集成光子计算芯片通常仅受限于数十到数千个神经元,而先进的生成模型通常需要数百万个神经元来学习和嵌入海量高维信息,导致光子芯片难以处理复杂的生成任务。
2、维度转换与训练算法瓶颈
模拟光信号的恒定维度阻碍了有效的特征提取,且传统光子芯片依赖预定义的地面真值进行优化,无法适应生成式AI输出此前不存在数据的需求,缺乏独立于真值的训练算法。
新思路
有鉴于此,上海交通大学陈一彤研究团队研制了一种名为LightGen的全光芯片,用于大规模智能视觉生成,这也是国际首次实现的大规模全光生成式AI芯片。通过在芯片上集成数百万个光子神经元,并利用提出的光学潜空间(OLS)改变网络维度以及基于贝叶斯的训练算法,LightGen实验性地实现了高分辨率语义图像生成、去噪、风格迁移、三维生成和操控。其实测端到端计算速度和能量效率均比最先进的电子芯片高出两个数量级以上,为加速大型视觉生成模型铺平了道路。
技术方案:
1、开发了LightGen 芯片架构
LightGen芯片集成超200万光子神经元,全图处理具有高分辨率图像,保持了结构连续性和语义完整性。
2、建立了光学潜空间(OLS)与BOGT训练算法
LightGen建立光学潜空间(OLS)改变光信号维度,配合BOGT算法,实现了数据生成与特征提取,生成效果与电子领域VAE相当。
3、评估了LightGen芯片性能评估与多场景应用
LightGen计算速度、能量效率和计算密度远超先进电子芯片,可执行高分辨率图像生成等任务,具备强可解释性和操控性。
技术优势:
1、开发了超大规模的集成架构
作者研制了名为LightGen的全光生成芯片,通过3D封装在136.5 mm2内集成了超过200万个光子神经元,突破了光子芯片难以承载大规模生成模型的瓶颈。
2、建立了创新维度转换与训练机制
作者建立了光学潜空间(OLS)实现全模拟信号的维度转换,并提出了基于贝叶斯的无监督训练算法(BOGT),使芯片能够独立于地面真值进行高效训练和语义操控。
技术细节
LightGen 芯片架构与大规模集成
LightGen 芯片由光子编码器、光学潜空间(OLS)和光子生成器三大核心组件构成。为了克服现有光子芯片神经元数量较少的局限(通常仅为数十到数千个),研究团队利用 3D 封装技术,在仅为 136.5 mm2 的芯片面积内集成了超过 200 万个光子神经元。其中,光子编码器由一系列紧凑的衍射超构表面组成,能够在小于 35 mm2 的空间内从高维图像域提取低维特征,并利用光的振幅和相位进行信息编码。这种高集成度带来的核心优势在于,LightGen 能够直接处理 512×512 像素及以上的高分辨率图像,而无需像传统光纤或波导芯片那样将图像分割成小块(patch)处理。这种全图处理能力避免了分块处理导致的块间相关性丢失和不连续接缝(discrete commissures),从而在处理倾斜角度等全局特征转换时,能够展现出远超传统方法的结构连续性和语义完整性。

图 光生芯片(LightGen)的架构
光学潜空间(OLS)与BOGT训练算法
针对模拟光信号维度恒定导致特征提取困难的瓶颈,LightGen 建立了光学潜空间 (OLS),利用多模光学特性和单模光纤阵列的模态转换实现全光维度的改变。在 OLS 中,只有基础模态能够耦合,这在物理上实现了对模拟散斑维度的转换,并使提取的特征服从特定的概率分布。为了适配生成式任务,研究者提出了 BOGT(基于贝叶斯的无监督训练算法)。该算法不再依赖预定义的地面真值(ground truth),而是通过光子编码器计算样本的特征分布 Q(Z∣X),并利用改进的 KL 散度约束其接近潜域的先验分布 P(Z)。这使得 LightGen 能够从优化特定输出数据转向建模底层概率分布,从而具备生成此前不存在的数据的能力。实验证明,OLS 展现了极佳的连续性和自洽性,通过在 OLS 中进行采样,芯片可以平滑地生成不同类别、毛色及背景的动物头像,其聚类效果与电子领域的 VAE 等模型相当。

图 OLS建立
性能评估与多场景应用
在性能指标上,LightGen实现了质的飞跃:其实测端到端计算速度达到 3.57 × 104 TOPS,能量效率达 6.64 × 102 TOPS/W,计算密度为 2.62 × 102 TOPS/mm2。这些指标比目前最先进的电子芯片(如 NVIDIA A100)高出两个数量级以上。在应用层面,LightGen 成功执行了高分辨率图像生成、去噪、风格迁移及 3D 视觉操控等任务。以图像生成为例,它能生成具有逼真皮毛纹理和眼睛反光细节的动物图像,其分类准确率与自然图像数据集(AFHQ)相当。在 3D 生成任务中,LightGen 表现出类似 NeRF 的能力,通过调整 OLS 中的特定值,可以精准操纵生成物体的 3D 视角和语义特征(如座椅靠背高度、扶手样式等),且互不干扰。这种基于物理特征的语义控制,使得 LightGen 在保持超快速度的同时,具备了极强的可解释性和操控性,为未来可持续的大规模 AI 加速奠定了基础。

图 使用LightGen进行语义生成、去噪和风格转换的实验结果

图 LightGen三维语义生成实验结果
展望
LightGen作为一种全光语义生成 AI 芯片,通过3D封装集成数百万神经元,并结合光学潜空间和无监督贝叶斯训练算法,成功突破了光子计算在集成规模、维度转换和训练模式上的三大瓶颈。该芯片在实现与前沿电子AI模型相当的生成性能的同时,提供了数个数量级的速度与效率优势,为下一代可持续、超高速的人工智能算力架构提供了切实可行的路径。
参考文献:
YITONG CHEN, et al. All-optical synthesis chip for large-scale intelligent semantic vision generation. Science, 2025, 390(6779):1259-1265
DOI: 10.1126/science.adv7434
https://www.science.org/doi/10.1126/science.adv7434
版权声明:
本平台根据相关科技期刊文献、教材以及网站编译整理的内容,仅用于对相关科学作品的介绍、评论以及课堂教学或科学研究,不得作为商业用途。