
学位论文简介
本论文面向多模态 Transformer 模型的高效推理需求,从视觉输入与跨模态融合带来的 Token 冗余、矩阵乘为主的数据移动主导型开销、以及多 GPU 场景下调度瓶颈等关键问题出发,从算法—硬件协同、PIM–GPU 异构协同与多 GPU 协同调度三个层面提出协同优化方案,并通过端到端实验验证其有效性。主要工作内容和创新点如下:
(1) 针对多模态大模型推理中视觉 Token 冗余严重导致算力与访存双重浪费的问题,研究基于指令引导的软硬件协同优化方法。本文提出指令引导的多模态高效推理框架,将基于注意力的视觉 Token 剪枝、指令引导的跨模态语义分组、基于差分嵌入的高效注意力机制、动态提前退出有机集成。在此基础上,本文进一步面向上述优化设计专用硬件加速器,以差分计算引擎作为主算力单元,并集成剪枝、分组索引与提前退出判断等模块,实现从算法到架构的协同落地。实验结果表明,该方法在无需额外训练的情况下,在典型基准数据集上精度损失可控,同时在端到端性能上相较多种基线获得显著加速。
(2) 针对多模态 Transformer 推理中矩阵乘密集导致的数据搬移成为主要瓶颈的问题,研究 PIM–GPU 协同优化的高效推理系统。本文在 PIM 与 GPU 组成的异构平台上提出面向多模态 Transformer 的协同推理框架,将任务划分形式化为同时受算力与带宽约束的卸载与负载均衡问题。面向推理中普遍存在的变长输入特征,提出变长感知的 PIM 优化器,降低碎片化提升利用率,同时扩展 TVM 编译后端以统一生成可部署的 PIM 与 GPU 执行代码。实验结果表明,该协同推理框架可在多种多模态 Transformer 模型与典型推理场景下获得显著端到端加速。
(3) 针对多模态大模型在线推理在多 GPU 环境下面临的调度不可观测导致的队头阻塞问题,研究 kernel 级可观测性驱动的多 GPU 协同调度优化方法。采用 kernel 插桩与块级进度统计,实现细粒度可观测;调度器以算子依赖序列为调度单位,结合流资源池完成统一的分配与回收,并通过主从控制确保调度序列确定性对齐,引入时延反馈校准实现优先级持续纠偏;最后提出了 EP+D 分离并行策略。实验评估表明,该方法能够在多模态大模型在线服务场景下有效改善时延与吞吐。
主要学术成果
学术论文:
[1] Shengyi Ji, Chubo Liu, Yan Ding, Qing Liao, Zhuo Tang. A Real-time Execution System of Multimodal Transformer through PIM-GPU Collaboration[C]//Proceedings of the 61st ACM/IEEE Design Automation Conference. 2024: 1-6. (第一作者,CCF A类会议)
[2] Peng Peng, Shengyi Ji, M. Tamer Özsu & Lei Zou. Minimum motif-cut: a workload-aware RDF graph partitioning strategy[J]. The VLDB Journal, 2024, 33(5): 1517-1542. (导师一作本人二作,CCF A类期刊)
[3] Peng Peng, Shengyi Ji, Zhen Tian, Hongbo Jiang, Weiguo Zheng, Xuecang Zhang. Locality Sensitive Hashing for Optimizing Subgraph Query Processing in Parallel Computing Systems[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 1885-1896. (导师一作本人二作,CCF A类会议)
[4] Shengyi Ji, Peng Peng, Jian Hu, Lei Zou, Zhen Huang & Zheng Qin. PEG: a partial evaluation-based distributed RDF graph system[C]//International Conference on Database Systems for Advanced Applications. Cham: Springer Nature Switzerland, 2023: 658-662.(第一作者,CCF B类会议)
[5] Shengyi Ji, Yan Ding, Haotian Wang, Chubo Liu, Wanli Chang, Leilei Lou, Kenli Li. IGMLLM: Instruction-Guided Efficient Acceleration for Multimodal Large Language Models. Proceedings of the 63st ACM/IEEE Design Automation Conference. 2026. (第一作者,CCF-A类会议,在审)