如果服务器内存会导致过度休眠故障,AMD将发布
- 编辑:admin -如果服务器内存会导致过度休眠故障,AMD将发布
关于7月2日的新闻,技术媒体Faronx昨天发表了一篇博客文章,告知AMD已发布了一系列新的补丁,以解决由过度的视频记忆和本能加速器引起的系统中的冬眠问题。他引用了一篇博客文章:该服务器配备了八种带有192 GB视频内存的设备,如果系统内存超过2TB,则Hiberna和故障系统。 AMD工程师塞缪尔·张(Samuel Chang)解释说,在冬眠期间,系统试图将视频内存迁移到GTT或共享内存,并解释说,过多的视频内存可能会使系统停留而无需内存。塞缪尔·张(Samuel Zhang)在最后一个补丁中说,现代数据中心DGPU通常配备了非常大的VRAM。配备了上述DGPU(192GB VRM * 8)和系统内存冬眠的服务器由于内存不足而失败。根本的原因是整个备忘录VRAM在休眠期间迁移到GTT或共享内存。在这两种情况下,它们都在系统和内核的内存试图将这些页面复制到冬眠图像中。在最坏的情况下,这将在系统的内存中创建两个VRAM内存的副本,而2TB的存储器不足以存储冬眠图像。该解决方案包括两个更改:1。MigreGTT到共享存储器并要求GTT页面。 2。写强制共享存储页面以交换记录并发布共享存储页面。在冬眠的预备阶段将GTT迁移到共享记忆之后,它一直在解冻阶段恢复阻尼对象(观察到收集8 dgpu需要50分钟)。这是不需要的,因为GPU对于随后的睡眠阶段不需要。第三个补丁是省略减压阶段中减震器物体的恢复,从而减少睡眠时间。