产品新闻

迎接AI大模型时代的存储挑战

2024-06-06 13:46:44 admin 2469
在数智化的AI时代,构建以数据为关键要素的数字经济,是推动高质量发展的必然要求。以ChatGPT为代表的大模型持续火热,在带动算力,尤其是智能算力需求爆发的同时,也带来了用于大模型训练与大模型推理的海量大数据的需求。

而随着AI大模型的进一步发展和普及,以及AGI的落地,数据存储的规模将继续扩大,数据的价值还将得到进一步提升。大模型训练、推理所需的IT基础设施除了提供高密度的算力,还需要提供高扩展性的存力,这对数据存储的容量、性能、扩展性及拥有成本提出新的要求。

视音频存储,超融合存储,分布式存储,好云帷,NAS存储


大模型训练所需的数据十分庞大:以视音频、图片、电子文档为代表的各种“原料”信息,其规模从TB级别直接跨越到PB级别,未来的AGI时代更是将达到EB级别(1EB=1024PB)。能否保有持续的存储容量扩展,将成为存储技术在AI时代面临的首要挑战,存储器的容量不足,将导致大模型的发展受限,无法实现持续的进化。


视音频存储,超融合存储,分布式存储,好云帷,NAS存储


数据资料准备好之后将转入AI训练环节, 主要涉及到训练数据的调用读取,以及检查点的保存和加载。训练数据需要尽可能快的读取,不能给计算环节拖后腿,而检查点主要要求高带宽吞吐、尽量减少训练中断的时间,毕竟每一次训练的每一分钟都在烧钱,存储器如果带宽不足或响应较慢,都会制约整个AI训练流程的效率。

视音频存储,超融合存储,分布式存储,好云帷,NAS存储


伴随着AI 应用的不断发展和数据量的增长,目前主流知名大模型已经可以达到百亿甚至千亿的参数规模,未来的AGI大模型甚至会达到万亿的参数规模。大模型对存储器的扩展性提出了更高的要求,不仅存储容量不能有“天花板”,还要求并发的IO性能也要同步扩展上去。


基于上述三大挑战,北京精一强远科技有限公司全新推出了云汉集群文件系统V4.0版本,它采用软件定义存储的设计理念,结合多项先进技术,是AI大模型业务的最佳存力平台。

云汉集群文件系统采用Scale-Out的并行框架单个集群支持4096个节点的大规模部署,可用容量高达5EB,可满足行业大模型工作流的数据处理需要。
视音频存储,超融合存储,分布式存储,好云帷,NAS存储
在性能方面,云汉集群文件系统V4.0支持100Gb以太网的高速传输通道,可提供单节点3000MB/s以上的高带宽吞吐能力;同时,由于采用了RDMA技术,存储节点之间的通信延迟大幅降低,间接提高了集群存储系统的响应速度。
此外,随着闪存技术日渐成熟,云汉V4.0还优化了全闪存的部署方案,配合私有协议客户端的使用,单台客户端主机的数据访问能力可达2000MB/s,集群存储访问延迟低于10ms,特别适合大模型训练及高性能计算场景使用。