当地时间周日,有外媒报道了关于英伟达Blackwell处理器灾情的消息。英伟达新一代Blackwell处理器在高容量服务器机架中遭遇了严重的过热问题。这一技术难题不仅导致了设计上的多次调整,还迫使项目延期,引发了谷歌、Meta和微软等主要客户对能否按计划部署Blackwell服务器的深切担忧。
据知情人士透露,Blackwell GPU是英伟达专为人工智能(AI)和高性能计算(HPC)领域设计的高端产品。然而,在配置72个处理器的服务器机架中,其过热问题尤为突出。这类服务器机架的功耗极高,每个机架的功耗最高可达120千瓦。过热问题不仅迫使英伟达多次修改机架设计,还限制了GPU的性能发挥,甚至存在损坏硬件的风险。
面对这一技术挑战,英伟达迅速采取行动,要求供应商调整机架设计,并与合作伙伴共同优化散热系统。尽管这种工程改进在大规模技术发布中属于常规步骤,但无疑进一步推迟了产品的交付时间。英伟达发言人对此向路透社表示,公司正与云服务提供商紧密合作,设计调整是正常研发流程的一部分。英伟达希望通过这种合作,确保最终产品在性能和可靠性方面均能达到预期标准,并尽快解决当前的技术瓶颈。
从相关报道中获悉,经过修订的Blackwell GPU于今年10月底才正式进入量产阶段,预计最快将于明年1月底出货。这一延期对于依赖英伟达GPU训练最强大AI模型的谷歌、Meta、微软等科技巨头而言,无疑将对其研发计划和产品发布产生不可避免的影响。
值得一提的是,英伟达在今年3月曾展示了Blackwell芯片,并当时表示计划在第二季度发货。然而,由于过热问题的出现,这一计划不得不被迫推迟。
此次Blackwell处理器的过热问题再次凸显了高端芯片研发过程中的复杂性和不确定性。英伟达作为GPU领域的领军企业,将如何克服这一技术难题,并尽快将产品推向市场,值得业界密切关注。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/693613.html