Ученые из Института вычислительных технологий Китайской академии наук (CAS) представили усовершенствованный 256-ядерный многочиплетный вычислительный комплекс и планируют масштабировать его до 1600-ядерного чипа, который используют всю пластину как одно вычислительное устройство.
Увеличивать плотность транзисторов с каждым новым поколением чипов становится все труднее и труднее, поэтому производители микросхем ищут другие способы повышения производительности своих процессоров, включая архитектурные инновации, большие размеры кристаллов, многокристальные конструкции и даже масштабирование пластин в чипы. Последние пока создает только Cerebras, но, похоже, китайские разработчики тоже присматриваются к этой технологии. Судя по всему, они уже создали 256-ядерную многокристальную схему и изучают способы масштабирования пластины, используя всю пластину для создания одного большого чипа.
Ученые из Института вычислительных технологий Китайской академии наук представили усовершенствованный 256-ядерный многочиплетный вычислительный комплекс под названием Zhejiang Big Chip. Мультичиплетная конструкция состоит из 16 чиплетов, содержащих по 16 ядер RISC-V каждый и соединенных друг с другом обычным симметричным многопроцессорным способом (SMP) с использованием сети на кристалле, чтобы чиплеты могли совместно использовать память. Каждый чиплет имеет несколько межкристальных интерфейсов для подключения к соседним чиплетам через 2,5D-интерпозер и исследователи говорят, что конструкция масштабируется до 100 чиплетов или до 1600 ядер.
Чипсеты Zhejiang производятся по технологическому процессу 22 нм, предположительно компанией Semiconductor Manufacturing International Corp. (SMIC). Неизвестно сколько энергии будет потреблять 1600-ядерная сборка, соединенная между собой с помощью промежуточного устройства и изготовленная на 22-нм производственном узле. Однако, как отмечает The Next Platform, ничто не мешает CAS создать чип размером с пластину с 1600 ядрами, который значительно оптимизирует энергопотребление и производительность за счет уменьшения задержек.
Исследователи отмечают, что многочиплетные конструкции могут быть использованы для создания процессоров для экзафлопсных суперкомпьютеров, чем сегодня занимаются AMD и Intel. «Для текущих и будущих экзафлопсных вычислений мы прогнозируем, что иерархическая архитектура чиплетов станет мощным и гибким решением», — пишут исследователи. «Иерархическая архитектура чиплетов спроектирована как множество ядер и множество чиплетов с иерархическим соединением. Внутри чиплета ядра обмениваются данными с использованием межкомпонентного соединения со сверхнизкой задержкой, в то время как между чиплетами происходит соединение с низкой задержкой, что является преимуществом передовой технологии упаковки, так что задержка внутри чиплета и эффект NUMA в такой системе с высокой масштабируемостью могут быть сведены к минимуму.» Между тем исследователи CAS предлагают использовать для таких сборок многоуровневую иерархию памяти, что потенциально может вызвать трудности с программированием таких устройств.
«Иерархия памяти включает основную память, встроенную и внечиплетную память», — говорится в описании. «Память этих трех уровней различается по пропускной способности, задержке, энергопотреблению и стоимости. В обзоре архитектуры иерархического чиплета несколько ядер соединяются через перекрестный коммутатор и используют общий кэш. Модуль соединен между собой через сеть внутри чиплета. Несколько модулей образуют чиплет, и чиплет соединяются между собой через сеть между чиплетами, а затем подключается к внешней памяти. Чтобы в полной мере использовать такую иерархию, необходима тщательная разработка. «Разумное использование пропускной способности памяти для балансировки рабочей нагрузки различных вычислительных иерархий может значительно повысить эффективность системы чиплетов. Правильное проектирование ресурсов сети связи может гарантировать совместное выполнение чиплетами задач с общей памятью».