Этот 21-ядерный чип был спроектирован в топологии 28 нм, реализован как вычислительный ускоритель для серверов, обладает пиковой производительностью в 512 ГФЛОПС. Он ориентирован на обработку больших потоков данных в реальном времени и позволяет, по заверению разработчиков, решать задачи самого широкого спектра - не только нейросетевые.

нейропроцессор NM6408 Россия процессор 21-ядерный чип
Процессор NM6408

Одна из наиболее перспективных областей применения новинки - обработка нейросетевыми приложениями больших массивов видеоданных, например, с камер с высоким разрешением. Потенциальные заказчики - транспортная индустрия (авто и железнодорожная), предприятия сферы безопасности, энергетические компании и т. д. «Кроме того, поскольку наши чипы обладают расширенными техническими характеристиками (например, широкий температурный режим), то можно говорить об устройствах, работающих в тяжелых погодных условиях, например, на Крайнем Севере», - отмечают в компании.

 

Процессоры NM6408 выпускаются на Тайване. «Как только в России появятся фабрики 28 нм, перенесем производство в нашу страну», -  обещают разработчики.

 

В «Модуле» уверены, что на данный момент в России у новинки прямых конкурентов нет, потому что полностью готовыми нейропроцессорами ни один другой отечественный разработчик не располагает. «
Это нейропроцессор с самой высокой производительностью на российском рынке (все остальные процессоры тоже у нас, они менее производительные) и по своим характеристикам может соревноваться с мировыми лидерами»

 

На базе нового процессора уже разработан высокопроизводительный вычислительный модуль МС127.04 - для работы в составе встраиваемой вычислительной техники и специализированных высокопроизводительных систем, а также для построения систем цифровой обработки сигналов и машинного зрения.

 

Стоимость разработки

 

Разработка нейропроцессора происходила в рамках исполнения госконтракта с Минпромторгом на выполнение соответствующих опытно-конструкторских работ (ОКР). Он был подписан сторонами в марте 2014 г. за 480 млн руб. со сроком исполнения до 26 декабря 2017 г.

 

«ОКР был сдан вовремя, - утверждают разработчики. -  В течение 2018 г. шло освоение серийного производства: разрабатывалась инструментальная плата, проводилось тестирование, писался соответствующий софт для работы на процессоре и т. д.».

 

На все разработки, которые финансируются Минпромторгом, у «Модуля» с министерством заключены лицензионные соглашения, которые предоставляют право производить и реализовывать устройства.

 

Как показали испытания, российская разработка в разы эффективнее аналогичных устройств, а по цене –
на 30% дешевле. Розничная стоимость серийного NM6408 названа в районе 4700 рублей.

 

 

Технические подробности

 

Типовая потребляемая мощность чипа - 20 Вт, максимальная - 35 Вт. Температурный диапазон, в рамках которого может функционировать процессор, - от -60°C до +85°C.

 

Ряд российских источников уже окрестил разработку как мощнейший российский процессор и конкурент NVIDIA. На самом деле имеет место манипуляция фактами, хотя среди российских разработок чего-то близкого действительно нет. Пиковая производительность SoC NM6408 достигает 512 гигафлопс на операциях FP32. В пояснительной записке представители центра действительно ссылаются на гетерогенную архитектуру SoC NVIDIA Xavier и архитектуру Volta, но лишь с целью проиллюстрировать пример смешанных архитектур.
По факту 512 гигафлопс -  это уровень графики GPU Maxwell в составе SoC NVIDIA Tegra X1 пятилетней давности.

нейропроцессор NM6408 Россия процессор 21-ядерный чип

Упрощенная общая структурная схема СнК NM6408

Как и в случае NVIDIA Xavier, SoC NM6408 состоит из ядер компании ARM, но вместо ядер CUDA использует фирменные векторные ядра NeuroMatrix НТЦ «Модуль». В общем случае решение состоит из пяти ядер ARM Cortex-A5 и 16 векторных ядер NeuroMatrix (NMC4). Сборка разбита на четыре кластера, каждый из которых управляется своим ядром ARM Cortex-A5 на частоте 800 МГц. В состав каждого кластера входит по 4 векторных ядра NMC4 на частоте 1 ГГц. Производительность 512 гигафлопс - это вычисления с одинарной точностью (FP32). Разрядность выполнения векторных операций может меняться (уменьшаться), что приведёт к росту производительности в случае FP16, FP8 и FP4. Операции с двойной точностью также доступны для обработки, но тогда скорость работы для FP64 будет снижена до 128 гигафлопс.

 

 

Четыре ядра ARM Cortex-A5 из кластеров имеют кеш-память команд и данных по 32 Кбайт, а пятое ядро, осуществляющее общее управление, дополнительно располагает кеш-памятью L2 объёмом 512 Кбайт.
Кроме этого ядра располагают внутренней иерархической памятью общим объёмом 9,25 Мбайт (74 Мбит). Для обращения к системной памяти предусмотрено пять интерфейсов DDR3 с пропускной способностью
6,4 Гбит/с каждый. В организации многопроцессорных конфигураций помогут четыре  дуплексных  высокоскоростных  коммуникационных  порта  с  пропускной  способностью 2  Гбит/с в каждом направлении. В наличии интерфейсы PCIe2.0 x4, порты Ethernet 10/100, SPI и GPIO.

нейропроцессор NM6408 Россия процессор 21-ядерный чип

Топология иерархического блока РС (слева) и полная топология СнК NM6408 (справа)

Решение выпускается с использованием 28-нм техпроцесса (скорее всего -  на линиях TSMC, но официального подтверждения этому нет). Площадь кристалла 83 мм2. Число транзисторов - 1,05 млрд. Корпус - BGA 1444, шаг выводов 1 мм, 40 × 40 мм FlipСhip. Максимальная потребляемая мощность не более 35 Вт. Сборка ориентирована на первичную обработку сигналов и работу с многослойными нейронными сетями. Это машинное обучение и элементы искусственного интеллекта.