
这两天DeepSeek开源3FS并行文献系统的音讯,犹如向AI基础关节领域投下一枚深水炸弹。3FS每秒能搬运6.6TB数据开云kaiyun体育,格外于1秒钟传输完700部4K高清电影。还能自动调资源,国产芯片用了它,跟外洋大牌的差距顺利缩到15%。 这并非浮浅的技艺迭代——当Llama370B模子单次查验需吞掉15PB数据(格外于贯穿播放250万小时4K视频)时,行家AI本质室顿然剖析到:决定大模子查验效能的不仅是GPU算力,存储系统正成为影响过程的一大瓶颈。 当AI算力狂飙时,存储正在成为隐

这两天DeepSeek开源3FS并行文献系统的音讯,犹如向AI基础关节领域投下一枚深水炸弹。3FS每秒能搬运6.6TB数据开云kaiyun体育,格外于1秒钟传输完700部4K高清电影。还能自动调资源,国产芯片用了它,跟外洋大牌的差距顺利缩到15%。
这并非浮浅的技艺迭代——当Llama3 70B模子单次查验需吞掉15PB数据(格外于贯穿播放250万小时4K视频)时,行家AI本质室顿然剖析到:决定大模子查验效能的不仅是GPU算力,存储系统正成为影响过程的一大瓶颈。
当AI算力狂飙时,存储正在成为隐形战场
2024年,某头部AI公司曾因存储带宽不及,导致2000张A100显卡的算力应用率恒久低于40%,单日经济赔本超百万好意思元。这知道了AI期间的"木桶效应"——当GPU计较速率干涉微秒级时,一次突发的存储抖动就可能导致扫数查验任务崩溃,让数周的计较后果短暂挥发。这能够亦然DeepSeek自研存储的原因。
数据炫耀,存储优化可顺利将175B参数模子的查验周期压缩30%,对应百万好意思元级的资本被填平。而在推理端,当10%的特别申请遭受存储蔓延波动时,P99反馈时辰会短暂打破SLA红线,这恰是某自动驾驶公司在线做事突发左迁的压根诱因。
DeepSeek之是以聘用自研3FS的实质,恰是发现了存储架构在AI应用中的紧要性。《金融行业先进AI存力报告》》报告中提到,在一样的GPU算力界限下,存储性能的高下可能形成模子查验周期3倍的互异。在算力武备竞赛的背后,一场对于存储性能密度的暗战悄然升级,自研存储显得尤为紧要。
5家头部厂商角逐AI存储,国产能否拔得头筹
比拟于传统AI的需求,大模子对存力需求场景具罕有据量大、参数界限大、查验周期长等脾性。
为了进步大模子查验速率,需要对大界限数据集进行快速加载,且一般袭取数百以致上万张GPU组成计较集群进行高效的并行计较,需要高并发输入/输出(I/O)处理,而查验数据集呈现海量小文献的脾性,文献量在几亿到几十亿量级,对应的带宽需求可能每秒要达到上TB,这就条件存储系统具备巨大的数据惩处能力,业界能达到该能力的仅寥寥几家。
小编征集了国表里优秀的并行存储居品,对具体能力进行对比
IBM行为老牌存储品牌,其居品从HPC场景顺利向AI场景演进。在行家AI场景获取粗拙应用的DDN,多个读、写带宽等缺陷性能主义上弘扬越过,但DDN由于技艺阻塞性、独到化硬件等原因,导致用户诞生资本过高。
国产厂商DeepSeek 3FS天然是开源的新址品,但相对老牌存储也有可以的弘扬,在读带宽能力上弘扬优异,单集群6.6TB/s,平均单节点36.7GB/s的读带宽。
咱们还惊喜发现,另一家国产厂商京东云云海,在这个专科领域一样弘扬出色,以单节点95GB/s的读带宽、60GB/s的写带宽,进一步拉低了国产存储与外洋老牌厂商的差距。相较于DeepSeek的3FS,京东云云海在提供高性能的同期适用性更广,可以同期慷慨DeepSeek、ChatGPT、LLaMA等20余种主流大模子的存力需求。
综上来看,跟着大模子快速向纵深场景演进,对存储的条件也越来越高,以DeepSeek、京东云云海等国产存储开云kaiyun体育,炫耀出在处理大界限数据集时的优厚性能,已往国产存储能否拔得头筹,让咱们翘首以待。