Please wait a minute...
 首页  期刊介绍 期刊订阅 联系我们 横山亮次奖 百年刊庆
 
最新录用  |  预出版  |  当期目录  |  过刊浏览  |  阅读排行  |  下载排行  |  引用排行  |  横山亮次奖  |  百年刊庆
清华大学学报(自然科学版)  2022, Vol. 62 Issue (5): 943-951    DOI: 10.16511/j.cnki.qhdxxb.2022.22.007
  计算机科学与技术 本期目录 | 过刊浏览 | 高级检索 |
面向新一代神威超级计算机的高效内存分配器
王豪杰, 马子轩, 郑立言, 王元炜, 王飞, 翟季冬
清华大学 计算机科学与技术系, 北京 100084
Efficient memory allocator for the New Generation Sunway supercomputer
WANG Haojie, MA Zixuan, ZHENG Liyan, WANG Yuanwei, WANG Fei, ZHAI Jidong
Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
全文: PDF(6068 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 随着应用程序规模的增大,应用程序对计算资源的需求也日益增加,超级计算机为满足这一需求提供了良好的平台。传统的超级计算机主要面向科学计算程序,而近年来应用的多样化对超级计算机的软硬件设计提出了新要求。该文在新一代神威超级计算机上发现了在动态运行模式下内存分配的性能问题,并针对神威的体系结构特征和应用特征,设计了高效的内存分配器——SWAlloc。实验结果表明: SWAlloc可以将超大规模机器学习训练框架八卦炉的内存分配速度提升至多75 839倍;对随机生成的内存分配记录和标准测试程序集PARSEC中的内存分配记录的测试结果,验证了SWAlloc在不同应用上的通用性和高效性,可将神威超级计算机上PARSEC的内存分配效率提升至多51倍(平均提升36%)。SWAlloc已经布署于新一代神威超级计算机上,并用于SWPytorch、SWTensorFlow等超大规模应用。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王豪杰
马子轩
郑立言
王元炜
王飞
翟季冬
关键词 内存分配超级计算机高性能计算机器学习    
Abstract:Supercomputers provide enormous computing power for large applications. Traditional supercomputers have mainly targeted scientific computing problems. However, other applications have new requirements for the both supercomputer software and hardware designs. The New Generation Sunway supercomputer has an inefficient memory allocator when running in the dynamic mode. This study develops an efficient memory allocator, SWAlloc, that reduces the memory allocation time of the brain scale pretrained model training framework, BaGuaLu, by up to 75 839 times. Evaluations using PARSEC also show that SWAlloc can speed up the memory allocation by up to 51 times (36% on average). SWAlloc has been deployed on the New Generation Sunway supercomputer for use by various large applications, including SWPytorch and SWTensorFlow.
Key wordsmemory allocation    supercomputer    high performance computing    machine learning
收稿日期: 2021-09-09      出版日期: 2022-04-26
基金资助:国家自然科学基金项目(U20A20226)
通讯作者: 翟季冬,副教授,E-mail:zhaijidong@tsinghua.edu.cn      E-mail: zhaijidong@tsinghua.edu.cn
作者简介: 王豪杰(1995—),男,博士后。
引用本文:   
王豪杰, 马子轩, 郑立言, 王元炜, 王飞, 翟季冬. 面向新一代神威超级计算机的高效内存分配器[J]. 清华大学学报(自然科学版), 2022, 62(5): 943-951.
WANG Haojie, MA Zixuan, ZHENG Liyan, WANG Yuanwei, WANG Fei, ZHAI Jidong. Efficient memory allocator for the New Generation Sunway supercomputer. Journal of Tsinghua University(Science and Technology), 2022, 62(5): 943-951.
链接本文:  
http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2022.22.007  或          http://jst.tsinghuajournals.com/CN/Y2022/V62/I5/943
  
  
  
  
  
  
  
  
  
  
[1] KURTH T, TREICHLER S, ROMERO J, et al. Exascale deep learning for climate analytics[C]//SC18:International Conference for High Performance Computing, Networking, Storage and Analysis. Dallas, USA, 2018:649-660.
[2] LIN H, ZHU X W, YU B W, et al. ShenTu:Processing multi-trillion edge graphs on millions of cores in seconds[C]//SC18:International Conference for High Performance Computing, Networking, Storage and Analysis. Dallas, USA, 2018:706-716.
[3] FU H H, LIAO J F, YANG J Z, et al. The Sunway TaihuLight supercomputer:System and applications[J]. Science China Information Sciences, 2016, 59(7):072001.
[4] BIENIA C, KUMAR S, SINGH J P, et al. The PARSEC benchmark suite:Characterization and architectural implications[C]//2008 International Conference on Parallel Architectures and Compilation Techniques (PACT). Toronto, Canada, 2008:72-81.
[5] KNOWLTON K C. A fast storage allocator[J]. Communications of the ACM, 1965, 8(10):623-624.
[6] VON PUTTKAMER E. A simple hardware buddy system memory allocator[J]. IEEE Transactions on Computers, 1975, 24(10):953-957.
[7] BRYANT R E, O'HALLARON D R. Computer systems:A programmer's perspective[M]. Upper Saddle River, USA:Prentice Hall, 2003.
[8] BONWICK J. The slab allocator:An object-caching kernel memory allocator[C]//USENIX Summer 1994 Technical Conference. Boston, USA, 1994:87-98.
[9] AL-YATAMA A, AHMAD I, AL-DABBOUS N. Memory allocation algorithm for cloud services[J]. The Journal of Supercomputing, 2017, 73(11):5006-5033.
[10] KHALED H. Enhancing recursive brute force algorithm with static memory allocation:Solving motif finding problem as a case study[C]//2019 14th International Conference on Computer Engineering and Systems (ICCES). Cairo, Egypt, 2019:66-70.
[11] PUPYKINA A, AGOSTA G. Optimizing memory management in deeply heterogeneous HPC accelerators[C]//2017 46th International Conference on Parallel Processing Workshops (ICPPW). Bristol, UK, 2017:291-300.
[12] 曾非一, 桑楠, 熊光泽. 嵌入式系统内存管理方案研究[J]. 单片机与嵌入式系统应用, 2005(1):5-7. ZENG F Y, SANG N, XIONG G Z. Study on memory management scheme of embedded systems[J]. Microcontrollers & Embedded Systems, 2005(1):5-7. (in Chinese)
[13] 宋敏超, 李少波. 一种新型嵌入式动态内存分配算法[J]. 计算机应用, 2017, 37(S2):244-247, 254. SONG M C, LI S B. A new embedded dynamic memory allocation algorithm[J]. Journal of Computer Application, 2017, 37(S2):244-247, 254. (in Chinese)
[14] 高珂, 陈荔城, 范东睿, 等. 多核系统共享内存资源分配和管理研究[J]. 计算机学报, 2015, 38(5):1020-1034. GAO K, CHEN L C, FAN D R, et al. Shared memory resources allocation and management research on multicore systems[J]. Chinese Journal of Computers, 2015, 38(5):1020-1034. (in Chinese)
[15] 李涛, 李慧, 谷建华, 等. 基于ACE的并发编程模式和池式内存分配的研究[J]. 计算机工程与设计, 2006, 27(1):26-28. LI T, LI H, GU J H, et al. Study of concurrency programming pattern and pooled memory allocation using ACE[J]. Computer Engineering and Design, 2006, 27(1):26-28. (in Chinese)
[16] 魏海涛, 姜昱明, 李建武, 等. 内存管理机制的高效实现研究[J]. 计算机工程与设计, 2009, 30(16):3708-3712. WEI H T, JIANG Y M, LI J W, et al. Research of high efficient implementation of memory management mechanism[J]. Computer Engineering and Design, 2009, 30(16):3708-3712. (in Chinese)
[17] 杨雷, 吴珏, 陈汶滨. 实时系统中动静结合的内存管理实现[J]. 微计算机信息, 2005, 21(19):15-16, 101. YANG L, WU Y, CHEN W B. The actualization of dynamic and static memery management in RTOS[J]. Microcomputer Information, 2005, 21(19):15-16, 101. (in Chinese)
[18] 谢长生, 刘志斌. Linux2.6内存管理研究[J]. 计算机应用研究, 2005(3):58-60. XIE C S, LIU Z B. Research on Linux memory management[J]. Application Research of Computers, 2005(3):58-60. (in Chinese)
[19] 杜娇, 钱育蓉, 张猛, 等. 基于写页面热度的混合内存页面管理策略[J]. 东北师大学报(自然科学版), 2021, 53(2):53-59. DU J, QIAN Y R, ZHANG M, et al. Hybrid-memory page management strategy based on write page popularity[J]. Journal of Northeast Normal University (Natural Science Edition), 2021, 53(2):53-59. (in Chinese)
[20] 张峰, 翟季冬, 陈政, 等. 面向异构融合处理器的性能分析、优化及应用综述[J]. 软件学报, 2020, 31(8):2603-2624. ZHANG F, ZHAI J D, CHEN Z, et al. Survey on performance analysis, optimization, and applications of heterogeneous fusion processors[J]. Journal of Software, 2020, 31(8):2603-2624. (in Chinese)
[21] 杜小勇, 卢卫, 张峰. 大数据管理系统的历史、现状与未来[J]. 软件学报, 2019, 30(1):127-141. DU X Y, LU W, ZHANG F. History, present, and future of big data management systems[J]. Journal of Software, 2019, 30(1):127-141. (in Chinese)
[22] WALKER D W, DONGARRA J J. MPI:A standard message passing interface[J]. Supercomputer, 1996, 12(1):56-68.
[1] 吴浩, 牛风雷. 高温球床辐射传热中的机器学习模型[J]. 清华大学学报(自然科学版), 2023, 63(8): 1213-1218.
[2] 代鑫, 黄弘, 汲欣愉, 王巍. 基于机器学习的城市暴雨内涝时空快速预测模型[J]. 清华大学学报(自然科学版), 2023, 63(6): 865-873.
[3] 任建强, 崔亚鹏, 倪顺江. 基于机器学习的新冠肺炎疫情趋势预测方法[J]. 清华大学学报(自然科学版), 2023, 63(6): 1003-1011.
[4] 安健, 陈宇轩, 苏星宇, 周华, 任祝寅. 机器学习在湍流燃烧及发动机中的应用与展望[J]. 清华大学学报(自然科学版), 2023, 63(4): 462-472.
[5] 赵祺铭, 毕可鑫, 邱彤. 基于机器学习的乙烯裂解过程模型比较与集成[J]. 清华大学学报(自然科学版), 2022, 62(9): 1450-1457.
[6] 曹来成, 李运涛, 吴蓉, 郭显, 冯涛. 多密钥隐私保护决策树评估方案[J]. 清华大学学报(自然科学版), 2022, 62(5): 862-870.
[7] 陆思聪, 李春文. 基于场景与话题的聊天型人机会话系统[J]. 清华大学学报(自然科学版), 2022, 62(5): 952-958.
[8] 李维, 李城龙, 杨家海. As-Stream:一种针对波动数据流的算子智能并行化策略[J]. 清华大学学报(自然科学版), 2022, 62(12): 1851-1863.
[9] 刘强墨, 何旭, 周佰顺, 吴昊霖, 张弛, 秦羽, 沈晓梅, 高小榕. 基于机器学习和瞳孔响应的简易高性能自闭症分类模型[J]. 清华大学学报(自然科学版), 2022, 62(10): 1730-1738.
[10] 马晓悦, 孟啸. 用户参与视角下多图推文的图像位置和布局效应[J]. 清华大学学报(自然科学版), 2022, 62(1): 77-87.
[11] 赵高峰, 乔磊, 张玉良, 孙建华, 陈华. 适用于非均质岩石破坏模拟的偏心四维弹簧模型[J]. 清华大学学报(自然科学版), 2021, 61(8): 818-826.
[12] 汤志立, 王雪, 徐千军. 基于过采样和客观赋权法的岩爆预测[J]. 清华大学学报(自然科学版), 2021, 61(6): 543-555.
[13] 王志国, 章毓晋. 监控视频异常检测:综述[J]. 清华大学学报(自然科学版), 2020, 60(6): 518-529.
[14] 宋宇波, 祁欣妤, 黄强, 胡爱群, 杨俊杰. 基于二阶段多分类的物联网设备识别算法[J]. 清华大学学报(自然科学版), 2020, 60(5): 365-370.
[15] 芦效峰, 蒋方朔, 周箫, 崔宝江, 伊胜伟, 沙晶. 基于API序列特征和统计特征组合的恶意样本检测框架[J]. 清华大学学报(自然科学版), 2018, 58(5): 500-508.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 《清华大学学报(自然科学版)》编辑部
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn