分论坛四:大模型高效架构与优化
分论坛日程
| 时间 | 报告人 | 单位 | 报告题目 | |
| 14:30 - 15:10 | 冷静文 | 上海交通大学 | 数据流体系架构研究进展 | |
| 15:10 - 15:50 | 杨仝 | 北京大学 | iFairy: 首个复数量化大模型 | |
| 15:50 - 16:30 | 肖朝军 | 清华大学 | 高效稀疏注意力架构研究 | |
| 16:30 - 16:50 | 场间休息 | |||
| 16:50 - 17:30 | 王欢 | 西湖大学 | Model redundancy vs. Data redundancy – The two paths towards efficient MLLMs based on approximated computing | |
| 17:30 - 18:10 | 柏昊立 | 华为诺亚 | 大模型量化稀疏:挑战、方法与机遇 | |
主席简介
林洲汉(中国人民大学)
个人简介:林洲汉,上海交通大学人工智能学院副教授、John Hopcroft计算机科学中心副主任,国家海外高层次青年人才。他创立的LUMIA实验室聚焦于自监督学习、语言模型新架构和预训练研究。实验室近年来提出了预训练记忆体Memory Decoder、基于生成式模型GFlowNets的大语言模型RL算法FlowRL等。他博士师从于深度学习领域图灵奖得主Yoshua Bengio,谷歌学术总引用量10000余次。
讲者简介
01 数据流体系架构研究进展
冷静文(上海交通大学)
个人简介:冷静文,上海交通大学教授,博士生导师,上海期智研究院PI,主要研究方向为面向人工智能的新型计算系统的设计,主持了优青、面上等多项自然科学基金以及龙头企业横向项目。在国际一流的会议和期刊上发表了八十多篇论文和相关国内国际专利,获得过DAC, PACT等多个国际会议的最佳论文提名奖,以及华为公司奥林帕斯奖(2023年)、IEEE体系结构年度最佳论文优胜奖(IEEE Micro Top Picks Hornorable Mention,2022年),以及阿里巴巴达摩院青橙奖(2020年)。
演讲概要:大模型的算力需求两年内增长了240倍,远超遵循摩尔定律的芯片制程所带来的提升。因此,计算架构的演进以及计算数值格式的革新成为了计算效率提升的关键。本次报告将分析GPU架构上大模型加速的主要优劣势,并分享研究团队在数据流体系架构上的一些进展。数据流是天然的数据驱动并行执行模型,能够有效地驱动大量计算和存储资源,有望成为新一代的大模型加速引擎。
02 iFairy: 首个复数量化大模型

杨仝(北京大学)
个人简介:杨仝,北京大学PKU-DS实验室负责人,北京大学计算机学院研究员,北京大学人工智能研究院研究员,教育部青年长江学者,北大-小米大模型联合实验室主任,北大-360大模型联合实验室主任,北大-开物金如意人工智能联合实验室主任,北大临港-九章云极大模型联合实验室主任,北大临港大模型研发中心主任。主要研究方向为大语言模型关键技术与概率数据结构。实验室云集了众多优秀本硕博学生100人,包括IMO、IOI、IBO、IPHO、NOI、CMO、CNBO、CChO 金牌。近年发表一作/通信作者CCF A类论文100余篇。提出首个复数大模型iFairy,实现了2比特的量化精度超过了量化前16比特实数大模型。课题组研发的FairyR1模型以5%参数超越Deepseek满血版R1的数学和代码性能,已在北大校园网提供大模型服务。获得中国电子学会技术进步一等奖(排名第二)、6次获得华为火花奖(全国最多),1次奥林帕斯先锋奖。研究成果获得了国家自然科学基金委员会网站4次报道、教育部科技发展中心1次。
演讲概要:iFairy 是首个复数 2-bit 训练时量化方案,也是首个预训练复数大模型,创新性地将模型权重限定在复数集合 {±1, ±i} 上。借助相位映射与 PhaseQuant 策略,矩阵乘法可退化为符号翻转、实虚部交换和加减运算,从而几乎完全消除乘法指令。该方法在保持 Transformer 架构兼容性的同时,将存储需求压缩至 FP16 的约 1/8,大幅降低推理延迟和能耗。实验结果表明,iFairy 在语言建模和若干下游任务中性能接近甚至超越同规模全精度实数模型,展现出超低比特、硬件友好的潜力,为未来端侧部署和跨学科应用拓展了新思路。
03 高效稀疏注意力架构研究
肖朝军(清华大学)
个人简介:肖朝军,清华大学计算机系博士后,主要研究方向为高效大模型架构,曾获钱伟长中文信息处理科学技术奖一等奖,博士后创新人才支持计划,清华大学水木学者,清华大学优秀博士论文等荣誉。
演讲概要:当前大模型技术正在经历从预训练规模法则(Pre-training Scaling Law)向推理时规模法则(Inference-Time Scaling Law)的重要转变。面向未来,大模型能力势必朝着全天候、高复杂度任务处理的方向发展。然而,随着序列长度的快速增长,传统注意力机制面临着计算复杂度和存储开销急剧增加的挑战。本次报告将聚焦于长文本处理场景下的稀疏注意力机制研究,阐述大模型稀疏注意力架构的设计原则、核心技术挑战以及相应的解决方案。
04 Model redundancy vs. Data redundancy – The two paths towards efficient MLLMs based on approximated computing

王欢(西湖大学)
个人简介:王欢,浙江大学学士、硕士,美国东北大学博士,2024年6月加入西湖大学任特聘研究员,创立高效智能计算实验室(Efficient Neural Computing and Design Lab, ENCODE Lab),担任独立PI、博导。王欢博士专注于Efficient AI、MLSys、计算机视觉相关的理论、算法、应用研究,发表顶会顶刊论文35+篇。担任人工智能领域内众多顶会顶刊审稿人、AAAI/ICLR/CVPR领域主席。获CVPR’23 Outstanding Reviewer Award、 2024华为火花奖、2024华为AI青年学者基金等。主持国自然青年项目、参与省科技厅重点项目等。
演讲概要:Many attempts try to improve the efficiency of MLLMs, through exact computing or approximated computing. The latter is represented by several classic techniques such as model compression, token compression, and dynamic routing (MoE, MoD, etc). In this talk, we will first introduce the historical background of these techniques, then talk about the recent advances, highlighting the recent publications of our lab, and discuss the reasons underpinning the paradigm shifts. Finally, some general summaries and takeaways will conclude the talk.
05 大模型量化稀疏:挑战、方法与机遇

柏昊立(华为诺亚方舟实验室)
个人简介:柏昊立博士,华为香港研究所研究员,负责香港基础模型实验室。主要研究方向为大语言模型与推理加速。目前在国际顶级会议发表论文40余篇,提交发明专利10余项,谷歌学术1200余次。担任NeurIPS 2025领域主席,以及NeurIPS,ICML, ICLR等会议程序委员会委员。代表性工作包括BinaryBERT首个二值化预训练语言模型,FlatQuant 无损4bit大模型量化算法,落地华为计算产品线,昇腾芯片,华为自动驾驶等多个产品线。开源成果在Github社区获得超4K星标。曾获得ACML 2016最佳学生论文亚军奖。
演讲概要:随着大模型日益增长的尺寸与上下文窗口,降低大模型推理成本是工业界关注的核心问题。模型量化与稀疏化是降低模型推理成本的常用手段,然而大模型中存在异常值,精度敏感,难以微调等问题,导致模型压缩存在诸多公开挑战。本次报告将回顾大模型压缩加速的近期代表性工作,如异常值处理,旋转量化,压缩感知训练等热点研究,归纳学界与业界近年研究趋势。最后,报告将展望大模型在慢思考和智能体时代,量化与稀疏研究面临的新机遇。