数据中心中的人工智能意味着必须解决功率和物理结构问题
数据中心变得越来越复杂。它结合了云,人工智能(AI)和其他需要更多空间,功能和连接性的先进技术。AI人员通常会处理足够的服务器性能来完成任务,但这只是资源链的开始。现在,公司开始研究扩大AI使用范围所面临的更广泛的基础架构挑战。
在技术上,我们习惯于三到五年的周期。尽管技术复杂,但其中很多都是短暂的。物理基础架构并非如此。计划新设施时,通常预期其至少有二十至二十五年的使用寿命。这种差异既带来预算挑战,也带来运营挑战。
因此,高性能计算(HPC),人工智能和其他技术的新需求造成了数据中心问题,而不仅仅是软件。设施挑战不仅是添加新的功能更强大的服务器时如何优化机架空间。这超出了新电源需求的考虑范围。例如,新的电力需求会产生更多的热量,这意味着新的HVAC(供暖,通风,空调)需求。建筑物是否有足够的屋顶空间,屋顶可以增加重量吗?这些是程序员通常不会考虑的问题。
Serverfarm销售和营销高级副总裁Arun Shenoy表示:“ NVIDIA可以告诉客户他们需要多少台DGX-2服务器,以及机架中可以容纳多少台。“了解重量,电源散热以及这些服务器对现有设施的其他影响不是NVIDIA的工作。” 尽管Serverfarm长期致力于数据中心的房地产管理,但该公司意识到,可以更好地从服务器到设施的其余部分进行向外链接,从而增加价值,以便对数据中心的性能进行准确的分析并帮助规划。延长了有形建筑资产的生产寿命。
由于Serverfarm提供SaaS服务,因此该公司可以分析来自多个数据中心的有关多个级别的实际功耗的信息。这有助于创建实际功率估算。制造商列出了最大功耗,因此一家计划最大功率基础设施的公司浪费了资本支出(CAPEX)来构建实际消耗不需要的电源。尽管开发人员对此并不关心,但商人必须这样做。Shenoy说:“通常,实际使用量是制造商规定的70%或更少。” “通过使用真实信息,公司可以更好地控制其在数据中心建设和维护中的CAPEX。”
电源管理的另一个方面是跟踪机架消耗。例如,如果特定机架开始使用的电量比预期功耗多20%,则需要报告和检查。使用功耗信息来改善数据中心管理有助于控制CAPEX和运营支出(OPEX)。
尽管当前的系统无法跟踪应用程序在机架中的哪些服务器上运行的能力,但管理人员可以在系统顶部提供该信息。我最终看到了更紧密的搭配,但这是早期。
至少,对于AI的新数据中心应用程序来说,好处之一是为深度学习而开发的较新系统本身就是一种学习体验。一个从多个数据中心引入相似数据的电源分析系统将有助于降低风险,并更好地控制公司转向采用AI驱动的解决方案的成本。
组织中对AI的支持要比单纯的软件或对AI将要解决的业务挑战的了解要多。基础设施很重要,而且价格不菲。了解功耗,以更好地延长现有数据中心的寿命,并改善数据中心的扩展和新中心的开发,对于帮助AI具有成本效益至关重要。