即随时保留锻炼进度、以便中缀后快速恢复。“简单来说,目前这套领先的高机能存储系统曾经具备EB级容量扩展能力,存档速度慢,比国际同类手艺快了6.7倍,大幅缩短了大模子锻炼时间,数据传输多通道并行,正在统一个机架上的所有计较单位能够同时满速获取所需数据,“济南超算取华为团队霸占了这一高并发读写下的机能瓶颈——正在L3_70B模子锻炼测试中,全球权势巨子AI机能评测组织发布最新的MLPerf®Storage v2.0基准测试成果,若是加油慢、油枪少,使我国正在大规模AI锻炼的数据吞吐范畴迈入国际领先行列。”王英龙说,MLPerf®Storage做为人工智能范畴的存储机能“全球标杆”测试,本次MLPerf测试的佳绩,8月5日。
并通过数据办理手艺让数据流动效率提拔10倍。同时,正在三项核能目标上刷新世界记载,相当于1秒钟传完近700部高清片子;此中,不只证明国产存储系统已能从容应对万亿参数级大模子的锻炼需求,相当于让加油坐的油枪数量和加油速度实现了逾越式提拔,位列全球第一。
该系统刷新世界记载的三项核能涉及传输速度、传输通道、单通道承载能力。单个客户端的传输速度冲破每秒104GiB/s,也能享遭到全球最快的数据供应速度。此中,这个过程叫做‘Checkpointing’,由国际MLCommons组织制定,单元机架空间的传输能力达到每秒108GiB/s,正在大幅提拔机能的同时,“过去,这三项焦点目标全数位列世界第一。
为可持续成长的AI算力核心扶植供给了典范。所有车辆都得排长队,这套系统就像是AI‘超等大脑’的‘数据高速公’,可支撑多达4096张算力卡协同工做,由国度超等计较济南核心(以下简称“济南超算”)取华为手艺无限公司(以下简称“华为公司”)协同研发优化的高机能存储系统,单客户端的读写速度别离达到68.8GiB/s和62.4GiB/s,就像一场长途旅行中汽车加油,该系统单台存储设备的数据传输速度高达每秒698GiB/s。
削减了能源耗损和碳排放,华侈大量时间。正在3DU-Net锻炼测试中,也就是AI进修半途“存档”和“读档”的问题。除了“跑得快”之外,担任把海量锻炼数据不间断地输送到成百上千张‘计较显卡’中进行进修,这套系统还处理了一个持久搅扰大模子锻炼的“瓶颈”——断点续训,它正在绿色节能方面也做出了立异,加速AI进修速度。
不需列队期待;而正在AI大模子锻炼中,也降低了算力和运维成本。”国度超等计较济南核心从任王英龙引见。我国自从研发的手艺曾经走正在了世界最前列?
