Одной из самых больших проблем в вычислительной технике на сегодня является «стена памяти», она же задержка передачи данных в процессор с чипов памяти DRAM. Растущая популярность ИИ-приложений только усугубила эту проблему, потому что развитые нейросети, которые способны находить лица в толпе, понимать речь или рекомендовать нам товары, редко помещаются в несколько мегабайт встроенной кэш-памяти процессора.

В декабре на IEEE International Electron Device Meeting (IEDM) отдельные исследовательские группы из Соединенных Штатов и ​​Бельгии сообщили, что нашли выход. По их словам, новая ОЗУ, созданная из оксидных полупроводников и встроенная в слои над процессором, способна хранить биты в сотни или тысячи раз дольше, чем текущие коммерческие модули DRAM, и может обеспечить огромную экономию площади и энергии как для обычных ПК, так и для мощных серверов с развитыми нейросетками.

Ячейки памяти DRAM в наших компьютерах состоят из одного транзистора и одного конденсатора каждая — это так называемая конструкция 1T1C. Чтобы записать бит в ячейку, транзистор включается и происходит заряд (1) или разряд (0) конденсатора. Для чтения с него снимается и измеряется заряд (если он есть).

Такой способ быстр, дешев и потребляет мало энергии, но имеет некоторые недостатки. Во-первых, чтение бита разряжает конденсатор, поэтому чтение подразумевает под собой и последующую запись бита обратно в память. Более того, даже если вы не обращаетесь к ячейке, конденсатор все еще будет самостоятельно разряжаться через транзистор. Таким образом, все ячейки необходимо периодически обновлять, чтобы сохранить данные. В современных чипах DRAM это происходит каждые 64 миллисекунды.

Принцип работы DRAM.

Встраивание DRAM в процессорный чип — идея не новая, и она тоже имеет свои ограничения. «Проблема с монолитной конструкцией 1T1C всегда заключалась в сложности создания конденсаторов и транзисторов со сверхнизкой утечкой с использованием техпроцесса, предназначенного для логических транзисторов [процессора]», — говорит Ариджит Райчоудхури, профессор электротехники и вычислительной техники из Технологического института Джорджии, который работает над новой встроенной памятью DRAM. «Хорошие конденсаторы сложно сделать на тонких техпроцессах, используемых для логических схем».

Вместо этого новая встроенная память DRAM состоит только из двух транзисторов, без конденсатора (2T0C). Такая схема также работает, потому что затвор транзистора представляет собой естественный, хотя и небольшой, конденсатор. Таким образом, заряд, представляющий бит, может храниться там. Этот дизайн имеет некоторые ключевые преимущества, особенно для задач ИИ.

Во-первых, для записи и чтения используются разные устройства, объясняет Райчоудхури. Таким образом, вы можете читать данные из ячейки 2T0C DRAM, не разрушая и не перезаписывая их. Все, что вам нужно сделать — это посмотреть, течет ли ток через транзистор, затвор которого удерживает заряд. Если заряд есть, он включит транзистор и потечет ток. Если заряда нет, то и ток не потечет.

Легкое чтение особенно важно для искусственного интеллекта, потому что нейронные сети, как правило, считывают данные по крайней мере три раза за каждую запись, сказал участникам IEDM Хорхе Гомес, аспирант Университета Нотр-Дама, также занимающийся новым типом памяти.


Принцип работы 2T0C DRAM. Бит хранится в емкости правого транзистора и помещается туда левым транзистором. Заряд на затворе правого транзистора означает, что через него может течь ток, что дает возможность отдельными транзисторами управлять чтением и записью.

Но схема 2T0C плохо работает с кремниевыми логическими транзисторами, говорит Райчоудхури. Любой бит сразу же утечет, ​​потому что емкость затвора транзистора слишком мала, а утечка через транзисторы слишком велика. Поэтому исследователи обращаются к полупроводниковым устройствам, сделанным из аморфных оксидов — они, например, используются для управления пикселями в некоторых дисплеях.

Они обладают несколькими замечательными качествами. Например, они могут пропускать большой ток, что ускоряет запись, а в выключенном состоянии утечка заряда очень низка, что увеличивает срок хранения битов. Команда из США использовала в качестве полупроводника оксид индия, легированный на 1% вольфрамом.

По словам Райчоудхури, ток включения такого полупроводника «один из лучших для оксидных транзисторов». «Это дает вам достаточную скорость чтения и записи для проведения логических операций. В то же время токи отключения действительно малы… на два-три порядка меньше, чем у кремния». Фактически, команде пришлось создать сверхбольшую версию чипа, чтобы вообще хоть как-то замерить утечки тока.

Не менее важно и то, что подобные оксиды можно обрабатывать при относительно низких температурах. Это означает, что DRAM, сделанная из них, может быть встроена в слои межсоединений над кремнием процессора, без повреждения вычислительных схем ниже. Такое построение ячеек памяти обеспечивает быстрый прямой доступ к CPU с высокой пропускной способностью, тем самым эффективно разрушая «стену памяти».


Разумеется, большинство современных CPU имеют встроенную память (кэш), но ее объемы редко превышают десятки мегабайт. А гигабайты ОЗУ обычно «далеко».

При моделировании трех распространенных нейронных сетей команда сравнила одно-, четырех- и восьмиуровневые версии своей технологии с 22-нанометровой встроенной DRAM 1T1C в процессорах IBM Power8. Поскольку для управления встроенной памятью DRAM 2T0C требуется часть вычислительных ресурсов процессора, использование только одного слоя новой памяти на самом деле не дает вам преимущества с точки зрения площади чипа, необходимой для хранения всех данных нейронной сети. Но 4-слойная 2T0C DRAM сократила площадь чипа, необходимую для встроенной памяти, примерно в 3,5 раза, а 8-слойная — в 7,3 раза.

Точно так же встроенная DRAM 2T0C показала преимущество в производительности по сравнению со встроенной DRAM 1T1C, если использовать больше одного уровня. Например, с одним квадратным миллиметром четырех или восьми слоев новой встроенной DRAM нейронной сети ResNet-110 ни разу не пришлось обращаться за пределы чипа для хранения данных. Это потенциально огромная экономия времени и энергии по сравнению с конструкцией 1T1C, потому что даже в случае с топовым Power8 с 96 МБ кэша L3 та же нейросеть хранит данные вне кристалла (в обычной «медленной» ОЗУ) примерно 70% времени.

Исследователи из бельгийской компании Imec представили аналогичную встроенную память 2T0C на IEDM с использованием в качестве полупроводника оксидов индия, галлия и цинка (так называемый IGZO-полупроводник, который часто встречается в LCD- и OLED-матрицах). Это потенциально снижает стоимость производства, однако старший научный сотрудник Imec Аттилио Бельмонте указал, что IGZO необходимо отжигать в присутствии кислорода, чтобы «залечить» дефекты в материале, вызванные кислородными вакансиями («дырками»). Это приводит к уменьшению количества свободных электронов в IGZO-полупроводниках, которые способствуют протеканию тока, но без этого создаваемые устройства не работают как переключатели.

Необходимость в этой «кислородной пассивации» имеет несколько негативных последствий для конструкции устройств IGZO DRAM, включая выбор и положение задействованных диэлектриков. В оптимизированном устройстве, разработанном Imec, слой IGZO-памяти лежит поверх слоя диоксида кремния и покрыт оксидом алюминия. Эта комбинация особенно хорошо работает для контроля утечки, которая истощает ячейку.


Принцип работы IGZO DRAM.

В итоге новые ячейки памяти 2T0C, созданные Imec, в среднем хранили данные 200 секунд, и 25 процентов ячеек удерживали свои биты более 400 секунд, что в тысячи раз дольше времени хранения информации в обычных ячейках DRAM. В ходе последующих исследований команда ученых из Imec надеется использовать другую фазу IGZO, чтобы увеличить время удерживания битов до 100 часов.

Такое время хранения помещает IGZO уже в сферу энергонезависимой памяти, такой как резистивная и магнитная ОЗУ (PRAM и MRAM). Многие группы ученых сосредоточены на использовании таких типов встроенной памяти для ускорения задач ИИ. Однако Райчоудхури говорит, что встроенная память DRAM 2T0C имеет преимущество перед ними.

По его словам, PRAM и MRAM требуют большой ток для записи, и на данный момент этот ток должен поступать от транзисторов в самом процессоре, что усложняет схему и увеличивает ее размеры. Что еще хуже, такие типы памяти наверняка будут переключаться медленнее, чем DRAM. «Все, что основано на заряде, обычно будет быстрее, по крайней мере, для процесса записи», — говорит он. Насколько точно 2T0C DRAM будет быстрее мы узнаем только с выходом процессоров с такой памятью. И это время приближается, говорит Райчоудхури.




iGuides в Telegram — t.me/igmedia
iGuides в Яндекс.Дзен — zen.yandex.ru/iguides.ru