亚马逊云技术启动了基于NVIDIA Blackwell的现代且极
- 编辑:admin -亚马逊云技术启动了基于NVIDIA Blackwell的现代且极
亚马逊云技术的计算机服务和自动学习副总裁戴维·布朗(David Brown)预见了一种探讨解决复杂问题的方法的系统。它基于允许我们推断从科学数据集到商业代码和文档的实际时间可能性。这种射线推理不是对未来的想法,而是亚马逊云的Aiazon Cloud Technology的生产环境中发生了一些事情。我们的客户目前在许多领域建立AI系统,包括药物的研究和开发,业务搜索和软件开发。 AI系统量表令人惊讶,这仅仅是开始。 Amazon Cloud Technology宣布,Amazon EC2 P6E-GB200超动IA系统。 Ultraver P6E-GB200旨在培训和部署最大,最复杂的AI模型。今年早些时候,亚马逊云技术基于NVIDIA Blackwell GPU启动了Amazon EC2 P6-B200的实例,该实例支持支持广泛的计算机和高性能计算机工作负载。基于亚马逊云技术的大型,安全和可靠的GPU基础架构的丰富经验,亚马逊EC2 P6E-GB200 Ultraver和Amazon P6-B200的实例可帮助客户继续超过AI技术的限制。 AI的需求,Amazon EC2 P6E-GB200的需求表示是迄今为止,Amazon Cloud Technology最强大的GPU产品,该产品呈现高达72 GPU NVIDIA BLACKWELL。将每个Ultrasorbr与P5 Inband NCHO(HBM3E)的实例进行比较。单个NVLINK域的计算机功率增加了20倍以上,并且内存能力增加了11倍以上。 Amazon EC2 P6E-GB200 Ultraser接纳了高达28.8 TBP的第四代弹性织物网络(EFAV4)的网络。 Amazon EC2 P6-B200实例为广泛的AI场景提供了灵活的选择。每个实例配备了八个通过NVLink互连的GPU NVIDIA BLACKWELL,其1.4TB Of高带宽内存,EFAV4网络带宽的3.2TBP和第五代的可实现可伸缩处理器。与AM中Azon EC2 P5EN的实例相比,Amazon EC2 P6-B200实例是GPU计算机功率的2.25倍,视频内存容量的1.27倍,视频带宽是1.6倍。如何选择Amazon EC2 P6E-GB200与Amazon EC2 P6-B200?关键取决于特定的工作负载需求和客户体系结构首选项。基于亚马逊云技术的核心优势的连续创新不仅介绍了Nvidia Blackwell在Amazon Cloud Technology中的技术进步,还介绍了基础架构的整体创新。在计算机科学,网络,运营,维护和住宿服务领域的深层文化和实践的基础上,亚马逊云技术希望整合NVIDIA Blackwell的所有特征,并遵守高度可靠和性能的客户,并与Amazon Clou一起获得D技术。实例的强大安全性和稳定性。已经提到了一些原因,为什么客户选择在Amazon Cloud技术上实施GPU工作负载。它们是Amazonsomos云的技术,非常意识到,OLOGO的侧重于云实例的安全性和稳定性。 Hehardware,软件和固件专用于亚马逊硝基系统具有必不可少的隔离机制,以确保包括Amazon Cloud Technology员工在内的任何人都无法访问客户机密的负载或数据。除了安全性外,硝基亚马逊系统基本上彻底改变了基础架构的维护和优化方式。该系统负责处理网络,存储和其他I/O功能,并在系统继续运行时接受固件更新,漏洞维修和性能优化。此特征无效时间更新,称为“真实时代更新ES”,并且在具有极高连续性要求的当前AI生产环境中尤为重要。中断可能会对商业进度产生严重的影响。亚马逊EC2 P6E-GB200和Amazon EC2 EC2 P6-B200均配备了第六代系统。但是,这些安全性和稳定性效果并不是首次具有创新的nionro架构的安全性,因为nitro架构既可以持续又可以持续良好的保护效果。大型环境意味着,AI基础架构的挑战不仅用于超焦点尺度,还可以保证在第三代EC2 EC2 EC2超级群中实现Amazon EC2 P6E -GB200 Ultraser的持续性能和可靠性。欧元超过80%。这不仅显着提高了能源效率,而且有效地降低了可能的位点。为了在Hyperscala实施中提供持续的性能,Amazon Cloud Technology一直在与弹性织物适配器(EFA)和SU可扩展且可靠的数据报协会合作,这是一个可扩展且可靠的数据报,智能地封闭了多个网络路由之间的流量,这使该系统可以在会召集或失败的情况下继续工作稳定。亚马逊云技术继续优化第四代EFA的性能。与使用EFAV3相比,配备了Amazon EC2 P6E-GB200和Amazon EC2 P6-B200 EFAV4 EFAV4的实例可以通过分布式培训提高集体沟通速度高达18%。基础设施效率虽然亚马逊EC2 P6-B200实例使用了经过验证的空气冷冻建筑,但Amazon EC2 P6E-GB200 Ultrasting使用冷却解决方案Quid允许更大的NVLINK域体系结构达到更高的计算机密度,从而改善了系统的一般性能。 P6E-GB200具有创新的机械冷却设计,可以在新的和现有数据中心的柔性芯片级别上进行液体冷却,这允许液体冷却加速器以及空冷的存储网络以及设备和设备。这种灵活的冷却体系结构使亚马逊云技术可以以较低的成本达到更高的性能和效率。使用Amazon Cloud Amazon Cloud Amazon Technology启用Nvidiambackwell,简化了Amazon EC2 EC2 P6E-GB200 Ultraver和Amazon EC2 P6-B200的授权过程,该实例允许客户在维护现有操作和保留模式的同时快速使用Blackwell GPU。 Amazon Sagemaker Hyperpod Amazon Sagemaker Hyperpods非常适合希望加速AI发展并减少基础设施和集群OP的投资的客户精神。此服务大型提供了一个管理且可靠的基础架构,该基础架构允许您自动配置和管理GPU组。亚马逊云技术还继续改善其亚马逊萨吉式制造商Hyperpod,并增加了创新的特征,例如灵活的培训计划,以帮助客户获得可预测的培训周期并控制预算内的培训任务。 Amazon Sagemaker Hyperpod承认Amazon EC2 P6E-GB200 Ultraver和Amazon EC2 P6-B200的实例,通过优化在同一NVLINK域内维护工作负载,以获得最大的性能。 Amazon Cloud Technology还创建了一个完整的多级恢复机制。 AmazoSageMakerHyperPod可以自动替换失败的NodeWith在同一NVLINK域中的预配置备份实例。 Incorporated面板提供了使用GPU,内存,工作负载指标和Ultra提供的服务器操作状态的全面可视化。亚马逊EKS,亚马逊弹性的Kubernetic Service(Amazon EKS),用于大型AI工作负载,如果他们更喜欢使用Kubernets来管理其基础架构,则通常会优选控制平面。亚马逊EKS继续在亚马逊EKS推动创新,包括亚马逊EKS混合节点功能。这允许在设施中同时管理GPU,而Amazon EC2 GPU可以在同一集群中进行管理,从而使其在AI的工作负载中具有灵活性。亚马逊EKS通过节点Administhrados组的Amazon EC2 P6E-GB200 Ultraver和Amazon EC2 P6-B200实例的自动配置和管理。对于Amazon EC2 P6E-GB200 Ultraserver,Amazon Cloud Technology是GB200 NVL72体系结构。我们正在创建拓扑意识,以识别时钟并自动将超服务ID和网络拓扑信息添加到节点中,以实现最佳的工作负载编程。客户可以选择实现专门用于多个的节点的组Ultracellbars或单个Ultracellbar,这使他们更加灵活地训练基础设施架构。 Amazon EKS还监视GPU错误和加速器,并传递与Kubernetes控制平面相关的信息,以接收其他处理。 NVIDIA DGX Amazon Cloud Technology的NVIDIA DGX云也可以在NVIDIA DGX Cloud中获得。 DGX Cloud是一个统一的AI平台。该体系结构在各个级别都具有多个节点和推理的培训功能,并集成了NVIDI Full AI软件stacka。客户可以利用最新的NVIDIA性能优化解决方案,比较评估方法和技术经验,以提高效率和性能。该平台提供NVIDIA专家提供的灵活服务截止日期选项和全面服务,以帮助客户加速其AI项目。发布是一个重要的里程碑,但这只是开始。随着AI能力的持续快速发展,下属结构客户不仅需要满足当前的需求,而且还承认了许多未来的可能性。亚马逊EC2 P6E-GB200的Ultraver和Amazon EC2 P6-B200的实例已准备好通过多个级别的连续创新(包括计算,网络,运营和住宿服务)来实现这些可能性。我们期望客户的未来。