焱融科技CTO文涛:存储稳定性对于大模型训练至关重要

焱融科技CTO文涛:存储稳定性对于大模型训练至关重要

       今日 AI 领域的创业热潮,宛如美国 19 世纪中期的淘金盛况。各大巨头纷纷斥巨资投身于大模型的角逐之中,而初创企业在这个领域的投资门槛也从昔日的 5000 万美金飙升到了如今的 1 亿美金。各路大佬“趋之若鹜”,“百模大战”硝烟弥漫。然而在这股浪潮中,却有这样一家公司,以其独特的视角和策略脱颖而出。早在 2018 年,他们便前瞻性地布局 AI 数据存储赛道,为国内众多知名 AI 公司提供高性能数据存储解决方案。

       张文涛,华中科技大学计算机专业硕士,毕业后一直在存储领域深耕,先后在 IBM、金山云等国内外巨头,从事相关的技术研发工作,成功参与了多个云存储产品的从 0 到 1 的落地与研发工作。期间,他还结识了一群怀揣梦想、充满激情的创业伙伴。正是这群志同道合、能力互补的精英,于 2016 年携手创立了焱融科技,共同开启了一段崭新的创业征程。

       无论是大厂精英还是创业公司 CTO,张文涛始终深耕存储领域。他亲眼见证了存储技术的全貌与演进,对于大多数人而言较为模糊的存储概念,在张文涛的眼中却有着明确的演变脉络。从早期 PC 机或服务器上简单插盘的单机存储,到 20 年前兴起的集中式存储,再到 Google“GFS”论文引领的分布式存储风潮,以及近年来 CV 场景下”小文件的高性能存储”的兴起,直至 NVMe SSD 普及、SSD 价格下降所带来的高性能存储革新……张文涛对这些历程与掌故总能娓娓道来,其专业知识与深厚热爱显而易见。

       加入焱融,深耕存储领域新篇章文涛将他的专业与热爱倾注于焱融科技,自公司创立之初,焱融科技便深耕软件定义存储领域,紧跟时代步伐,以前瞻性的战略布局和深厚的技术积累为基石。公司从业务方向、存储介质、网络介质到中间配套框架等多个维度进行了全面而深入的规划和布局。同时,焱融科技敏锐捕捉客户的核心需求,在不同时期和阶段,开发并推出基于存储底座的多样化功能和特性,不断推动存储领域的持续进步与发展,为客户创造更多价值。

       凭借焱融科技自身在文件存储产品领域的深厚基因,公司成功将优势聚焦于 AI、高性能计算等场景。在不到十年的时间里,焱融科技已在基因测序、自动驾驶、量化分析等 AI 领域积累了丰富的客户资源和实践经验。这些成功案例不仅为相关领域提供了宝贵的参考方案,更使焱融科技成为国内专注于 AI 存储的技术先锋,引领着行业的发展方向。

焱融科技CTO文涛:存储稳定性对于大模型训练至关重要

       随着存储与网络技术的持续优化,客户对数据价值挖掘、存储软件效率、低延时及高性能特性的需求日益旺盛,全闪存储逐渐取代机械硬盘,成为市场主流。焱融科技敏锐洞察市场动向,于 2022 年迅速推出企业级全闪分布式文件存储一体机——追光 F8000X。该产品与包括 NVIDIA 在内的国内外顶尖算力设备厂商及高速网络解决方案提供商开展深度技术合作,成为国内首批支持 Infiniband 网络和英伟达 GPU Direct Storage 技术的创新企业。在英伟达网络中国实验室,追光 F8000X 成功完成与 NVIDIA 400Gbps NDR InfiniBand 的适配及性能调优,实现单 x86 架构存储节点高达 90GBps、300 万 IOPS 的业内顶尖性能,为行业树立了崭新的技术标杆。

       焱融科技 AI 数据存储”隐形冠军”之路 在当今技术圈,AI 无疑是热议的焦点。我也就此契机,向文涛请教了 AI 场景对数据存储所带来的影响。文涛从三个维度深入剖析了 AI 对存储行业带来的挑战,展现了他对行业的深刻洞察:

       1. AI 大模型对存储提出了前所未有的挑战:在 CV 时代,单卡或单机多卡配置尚能轻松应对小模型训练,但随着大模型时代的到来,训练模式已经升级到多机多卡的集群分布方式。这不仅导致单位训练周期显著增长,还伴随着 GPU 节点软硬件故障风险,使训练任务中断的可能性大增。为避免在重启过程中损失过多,定期执行 checkpoint 操作变得至关重要。这一过程中,需要在最短时间内将庞大的模型加载至所有 GPU,这对存储带宽提出了巨大的挑战。若带宽不足,加载过程将耗时过长,严重影响整体训练效果,因此高效、稳定的存储系统成为了大模型训练的关键。

       2. 稳定性对于大模型训练而言至关重要:一旦存储稳定性出现波动,大模型训练失败的风险便会急剧上升。这要求存储系统不仅要具备高性能,还要具备出色的稳定性,以应对大模型训练过程中的各种挑战。因此,存储行业的从业者需要不断提升技术水平,确保存储系统的稳定性和可靠性。

       3. 焱融科技面临着来自竞争方面的挑战:随着大模型研发的兴起,一些公司可能会倾向于自建数据中心或自主采购 GPU 卡,以满足其大规模模型的训练需求。然而,在英伟达卡受限、GPU 采购受阻的情况下,他们可能会转向实力强劲、拥有万卡规模的公有云进行模型训练。国内的一线供应厂商大都提供类似的服务和解决方案,这给焱融科技等尚在发展阶段的创业公司带来了巨大的竞争压力,焱融科技需要不断创新、提升服务质量和技术水平,以应对激烈的市场竞争。

       随着 AI 技术的不断进步,大模型训练因其庞大的数据处理量和实时性要求,对存储系统提出了更高的性能要求。焱融科技发现对大多数进行 AI 模型训练的客户而言,数据具有阶段性热点访问的特点,超过一定时间后,80% 以上的数据逐步趋冷,焱融科技通过与顶尖大模型客户紧密合作,创新性地提出了“智能分层”解决方案,客户可根据策略定义冷热数据层,冷数据自动流动至本地或公有云对象存储中,向上仍然为业务提供标准的文件访问接口,数据在冷热数据层之间流动对业务完全透明。在保证热层数据高性能的同时,降低了数据存储成本,提升了数据可靠性。

       大模型落地全流程中,不同阶段往往采取不同的存储类型,如数据处理阶段采用对象存储,大模型训练阶段采用高性能的全闪分布式文件存储。过往训练数据在不同阶段的流动往往通过手动复制,等待时间较久。焱融科技提供 Dataload 智能数据加载功能,打通对象存储与文件存储,一键实现跨存储空间数据加载。如一键将公有云上的数据加载到全闪存储中进行训练,训练完成后又一键导出到对象存储中。

焱融科技CTO文涛:存储稳定性对于大模型训练至关重要

图:大模型场景下焱融全闪存储 F8000X 解决方案

       在国产化浪潮中,焱融科技也积极响应国家号召,推动国产化一体机的发展。张文涛提到,随着国产技术生态的成熟,公司与国产服务器厂商紧密合作,致力于提供高性能的国产化存储解决方案,以满足国内市场对国产化产品的需求。同时,专业的测试团队和售后团队为客户提供全方位的技术支持和服务保障,让客户无后顾之忧。

       焱融科技持续技术创新

       领先存储市场的奥秘 谈及焱融科技的发展与成长,文涛总深感其成功之道在于技术创新。这种创新不仅源于公司内部的研发实力,更得益于与客户的紧密合作与共创。在文涛总看来,焱融很多有竞争力的功能和解决方案,都是和客户一起共创构建出来的。正是这种内外结合、相互促进的模式,使得焱融科技能够保持领先地位,不断迈向新的高峰。

       2019 年,焱融科技和国内知名 AI 语音训练企业一起,冲击全球 IO500 性能测试,进入世界前六。在全闪存储技术日益盛行的今天,尽管其价格已有所调整,但对于客户而言,整体成本依然偏高,于是焱融科技凭借其独树一帜的技术方案,成功帮助客户大幅降低了整个基础设施的成本,为客户带来了实实在在的效益。

       再以焱融科技与某头部自动驾驶企业的合作为例。作为自动驾驶领域的领军企业,该企业凭借先进的发展理念和强大的多云数据解决方案能力,持续引领行业创新。然而,在 AI 训练过程中,他们面临着从第三方购买数据集后,数据从对象存储到文件存储的流转问题。焱融科技针对这一独特场景特点,与客户紧密合作,共同研究并制定了一套高效、流畅的解决方案。通过技术创新和深度合作,这一数据流转过程得以自动化,无需人为干预,大大提高了工作效率和数据处理的准确性。

        焱融科技在深入理解客户场景、需求的前提下,合作共创了其他一系列开创性的业务解决方案。真正做到了“既能领先于市场,又能和客户一起成长”的双赢局面。

本文转载自:,不代表科技讯之立场。原文链接:http://v.mrkbao.com/news/111202404251138295178233152.html

(0)
陈晨陈晨管理团队

相关推荐

发表回复

登录后才能评论