答辩公告
我的位置在: 首页 > 答辩公告 > 正文
胡杞霖博士生预答辩公告
浏览次数:日期:2025-11-26编辑:

学位论文简介

本论文从数论变换中数据流局部性不足、访存成为性能瓶颈这一问题出发,首先从静态访存行为分析的角度研究了通用程序在 CPU 上的缓存性能建模,分析包括 NTT 在内的典型算子的性能局限性,进而面向 FPGA 平台设计中等规模和大规模 NTT 的加速方案,并在片上与片外访存两个层面开展系统优化研究。主要工作内容和创新点如下:

(1) 针对通用程序访存行为难以在无运行时开销下进行高精度建模的问题,研究轻量级的静态缓存行为分析方案。本文提出了一个与具体硬件平台解耦的缓存未命中分析框架,在控制流图和程序状态图基础上建立缓存抽象状态模型,引入基于输入感知的路径选择策略与路径动态拼接机制,有效缓解传统静态分析中的路径预测不准确与路径爆炸的问题。实验结果表明,在典型基准程序上,该框架在保持较高分析精度的同时显著降低了分析开销,为后续算法加速设计提供了参考。此外,以 NTT 算子作为代表性工作负载,结合性能分析工具对其分析,验证了多项式系数和旋转因子跨步访问导致的访存瓶颈,为后续基于 FPGA 平台的 NTT 加速方案奠定了基础。

(2) 针对中等规模 NTT FPGA 片上实现时面临参数多样、旋转因子并行访问存在严重的问题,研究基于片上访存优化的 NTT 加速方案。本文提出了一个基于FPGA片上访存优化的 NTT 加速方案,构建性能与资源成本模型,根据多项式维度、模数和 FPGA 资源约束自动生成不同并行度的硬件架构。在架构层面,提出重排蝶形单元组、系数洗牌模块以及无冲突的旋转因子打包与分发策略,从根本上消除高并行蝶形单元的访存冲突。实验结果表明,所生成的片上 NTT 加速器在延迟、吞吐率和资源利用方面均较现有可比方案有明显提升。

(3) 针对四步 NTT 在大规模参数下引入矩阵转置和随机片外访存、导致 HBM 带宽难以有效利用的问题,提出了一个基于片外访存优化的大规模 NTT 加速方案。本文在配备 HBM FPGA 平台上构建堆叠式 NTT 处理单元,结合周期洗牌策略与矩阵转置引擎,将算法固有的非顺序访问重组为 HBM 友好的顺序突发访问,并对大位宽模乘单元进行针对性优化,以匹配隐私计算场景下的宽模数需求。同时,集成面向四步 NTT 的设计空间探索方案,自动搜索非平衡分解参数及并行度配置,实现片上计算、片上存储与 HBM 带宽的协同优化。实验评估表明,在典型大规模 NTT 参数下,本方案能够在保证灵活性的同时显著提升整体性能和带宽利用率。


主要学术成果

学术论文:

[1] Qilin Hu, Yan Ding, Chubo Liu, Keqin Li, Kenli Li, and Albert Y. Zomaya. CBANA: A Lightweight, Efficient, and Flexible Cache Behavior Analysis Framework[J]. IEEE Transactions on Computers, 2024, 73(9): 2262–2274. (第一作者,CCF A类期刊)

[2] Qilin Hu, Haotian Wang, Chubo Liu, Keqin Li, and Kenli Li. HiFA: A High-Performance and Flexible Acceleration Framework for Large-Size Number Theoretic Transform[J]. ACM Transactions on Reconfigurable Technology and Systems, 2025.(已录用)(第一作者,CCF B类期刊)

[3] Dilshan Kumarathunga, Qilin Hu, and Zhenman Fang. AutoNTT: Automatic Architecture Design and Exploration for Number Theoretic Transform Acceleration on FPGAs[C]//Proceedings of the 2025 IEEE 33rd Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM). 2025: 1–9. (第二作者,CCF C类会议)


发明专利:

[4] 李肯立, 刘楚波, 许浩烁, 胡杞霖, 陈玥丹. 缓存访问的静态分析法方法、装置、设备及存储介质。 (第四发明人,授权,专利号:CN118277293A)