AMD планирует создать суперкомпьютер с 1,2 млн графических процессоров для конкуренции с Nvidia — в 30 раз больше графических процессоров, чем у самого быстрого суперкомпьютера в мире

Спрос на дополнительные вычислительные мощности в центрах обработки данных растет ошеломляющими темпами, и AMD сообщила, что у нее были серьезные запросы на создание отдельных кластеров искусственного интеллекта, содержащих 1,2 миллиона графических процессоров или более.

Признание AMD стало результатом продолжительной дискуссии о будущем AMD в дата-центрах, которую The Next Platform провел с Форрестом Норродом, EVP AMD и генеральным директором Datacenter Solutions Group. Один из самых откровенных ответов касался крупнейшего кластера обучения искусственному интеллекту, который кто-то всерьез рассматривает.

Когда его спросили, подавала ли компания запросы на кластеры размером до 1,2 миллиона графических процессоров, Форрест ответил, что оценка практически соответствовала действительности.

1,2 миллиона графических процессоров — абсурдная цифра (ошеломляющая, как пошутил Форест позже в интервью). Кластеры для обучения искусственному интеллекту часто создаются из нескольких тысяч графических процессоров, подключенных высокоскоростным соединением через несколько серверных стоек или меньше. Напротив, создание кластера с искусственным интеллектом на 1,2 миллиона графических процессоров кажется практически невозможным.

Мы можем только представить, какие подводные камни кому-то придется преодолеть, чтобы попытаться создать кластер искусственного интеллекта с более чем миллионом графических процессоров, но задержка, мощность и неизбежность аппаратных сбоев — вот несколько факторов, которые сразу приходят на ум.

Рабочие нагрузки с искусственным интеллектом чрезвычайно чувствительны к задержкам, особенно к остаточным задержкам и выбросам, при которых некоторые передачи данных занимают намного больше времени, чем другие, и снижают нагрузку. Кроме того, современным суперкомпьютерам приходится устранять сбои графического процессора или другого оборудования, которые в их масштабах происходят каждые несколько часов. Эти проблемы станут гораздо более очевидными при масштабировании до 30-кратного размера крупнейших известных на сегодняшний день кластеров. И это еще до того, как мы коснемся энергоснабжения размером с атомную электростанцию, необходимого для достижения такой смелой цели.

Даже самые мощные суперкомпьютеры в мире не масштабируются до миллионов графических процессоров. Например, самый быстрый в эксплуатации суперкомпьютер на данный момент, Frontier, «всего» имеет 37 888 графических процессоров.

Цель создания кластеров на миллион GPU говорит о серьезности гонки ИИ, которая формирует 2020-е годы. Если это возможно, кто-то попытается это сделать, если это означает увеличение вычислительной мощности ИИ. Форест не сказал, какая организация рассматривает возможность создания системы такого масштаба, но упомянул, что «очень трезвые люди» рассматривают возможность потратить от десятков до сотен миллиардов долларов на кластеры обучения ИИ (именно поэтому вообще рассматриваются миллионы кластеров с графическими процессорами).

искусственный интеллект
Comments (0)
Add Comment