Влияние кэш-памяти на производительность компьютера
Всем пользователям хорошо известны такие элементы компьютера, как процессор, отвечающий за обработку данных, а также оперативная память (ОЗУ или RAM), отвечающая за их хранение. Но далеко не все, наверное, знают, что существует и кэш-память процессора(Cache CPU), то есть оперативная память самого процессора (так называемая сверхоперативная память).
Функция кэш-памяти
В чем же состоит причина, которая побудила разработчиков компьютеров использовать специальную память для процессора? Разве возможностей ОЗУ для компьютера недостаточно?
Действительно, долгое время персональные компьютеры обходились без какой-либо кэш-памяти. Но, как известно, процессор – это самое быстродействующее устройство персонального компьютера и его скорость росла с каждым новым поколением CPU. В настоящее время его скорость измеряется миллиардами операций в секунду. В то же время стандартная оперативная память не столь значительно увеличила свое быстродействие за время своей эволюции.
Вообще говоря, существуют две основные технологии микросхем памяти – статическая память и динамическая память. Не углубляясь в подробности их устройства, скажем лишь, что статическая память, в отличие от динамической, не требует регенерации; кроме того, в статической памяти для одного бита информации используется 4-8 транзисторов, в то время как в динамической – 1-2 транзистора. Соответственно динамическая память гораздо дешевле статической, но в то же время и намного медленнее. В настоящее время микросхемы ОЗУ изготавливаются на основе динамической памяти.
Примерная эволюция соотношения скорости работы процессоров и ОЗУ:
Таким образом, если бы процессор брал все время информацию из оперативной памяти, то ему пришлось бы ждать медлительную динамическую память, и он все время бы простаивал. В том же случае, если бы в качестве ОЗУ использовалась статическая память, то стоимость компьютера возросла бы в несколько раз.
Именно поэтому был разработан разумный компромисс. Основная часть ОЗУ так и осталась динамической, в то время как у процессора появилась своя быстрая кэш-память, основанная на микросхемах статической памяти. Ее объем сравнительно невелик – например, объем кэш-памяти второго уровня составляет всего несколько мегабайт. Впрочем, тут стоить вспомнить о том, что вся оперативная память первых компьютеров IBM PC составляла меньше 1 МБ.
Кроме того, на целесообразность внедрения технологии кэширования влияет еще и тот фактор, что разные приложения, находящиеся в оперативной памяти, по-разному нагружают процессор, и, как следствие, существует немало данных, требующих приоритетной обработки по сравнению с остальными.
История кэш-памяти
Строго говоря, до того, как кэш-память перебралась на персоналки, она уже несколько десятилетий успешно использовалась в суперкомпьютерах.
Впервые кэш-память объемом всего в 16 КБ появилась в ПК на базе процессора i80386. На сегодняшний день современные процессоры используют различные уровни кэша, от первого (самый быстрый кэш самого маленького объема – как правило, 128 КБ) до третьего (самый медленный кэш самого большого объема – до десятков МБ).
Сначала внешняя кэш-память процессора размещалась на отдельном чипе. Со временем, однако, это привело к тому, что шина, расположенная между кэшем и процессором, стала узким местом, замедляющим обмен данными. В современных микропроцессорах и первый, и второй уровни кэш-памяти находятся в самом ядре процессора.
Долгое время в процессорах существовали всего два уровня кэша, но в CPU Intel Itanium впервые появилась кэш-память третьего уровня, общая для всех ядер процессора. Существуют и разработки процессоров с четырехуровневым кэшем.
Архитектуры и принципы работы кэша
На сегодняшний день известны два основных типа организации кэш-памяти, которые берут свое начало от первых теоретических разработок в области кибернетики – принстонская и гарвардская архитектуры. Принстонская архитектура подразумевает единое пространство памяти для хранения данных и команд, а гарвардская – раздельное. Большинство процессоров персональных компьютеров линейки x86 использует раздельный тип кэш-памяти. Кроме того, в современных процессорах появился также третий тип кэш-памяти – так называемый буфер ассоциативной трансляции, предназначенный для ускорения преобразования адресов виртуальной памяти операционной системы в адреса физической памяти.
Упрощенно схему взаимодействия кэш-памяти и процессора можно описать следующим образом. Сначала происходит проверка наличия нужной процессору информации в самом быстром — кэше первого уровня, затем — в кэше второго уровня, и.т.д. Если же нужной информации в каком-либо уровне кэша не оказалось, то говорят об ошибке, или промахе кэша. Если информации в кэше нет вообще, то процессору приходится брать ее из ОЗУ или даже из внешней памяти (с жесткого диска).
Порядок поиска процессором информации в памяти:
Для управления работой кэш-памяти и ее взаимодействия с вычислительными блоками процессора, а также ОЗУ существует специальный контроллер.
Схема организации взаимодействия ядра процессора, кэша и ОЗУ:
Следует отметить, что кэширование данных – это сложный процесс, в ходе которого используется множество технологий и математических алгоритмов. Среди базовых понятий, применяющихся при кэшировании, можно выделить методы записи кэша и архитектуру ассоциативности кэш-памяти.
Методы записи кэша
Существует два основных метода записи информации в кэш-память:
- Метод write-back (обратная запись) – запись данных производится сначала в кэш, а затем, при наступлении определенных условий, и в ОЗУ.
- Метод write-through (сквозная запись) – запись данных производится одновременно в ОЗУ и в кэш.
Архитектура ассоциативности кэш-памяти
Архитектура ассоциативности кэша определяет способ, при помощи которого данные из ОЗУ отображаются в кэше. Существуют следующие основные варианты архитектуры ассоциативности кэширования:
- Кэш с прямым отображением – определенный участок кэша отвечает за определенный участок ОЗУ
- Полностью ассоциативный кэш – любой участок кэша может ассоциироваться с любым участком ОЗУ
- Смешанный кэш (наборно-ассоциативный)
На различных уровнях кэша обычно могут использоваться различные архитектуры ассоциативности кэша. Кэширование с прямым отображением ОЗУ является самым быстрым вариантом кэширования, поэтому эта архитектура обычно используется для кэшей большого объема. В свою очередь, полностью ассоциативный кэш обладает меньшим количеством ошибок кэширования (промахов).
Заключение
В этой статье вы познакомились с понятием кэш-памяти, архитектурой кэш-памяти и методами кэширования, узнали о том, как она влияет на производительность современного компьютера. Наличие кэш-памяти позволяет значительно оптимизировать работу процессора, уменьшить время его простоя, а, следовательно, и увеличить быстродействие всей системы.
Источник
Системный кэш: что это, для чего используется и как изменить его размер в Windows?
Большинство пользователей компьютеров слышали о понятии системного кэша, но только далеко не все четко себе представляют, что это такое и для чего нужно. А многие, до конца не разобравшись, какая роль отводится этому компоненту в операционной системе, сразу пытаются производить с ним действия, касающиеся изменения размера. Насколько целесообразно производить изменение установленных по умолчанию параметров — рассмотрим далее.
Для чего нужен кэш, и насколько целесообразно его увеличение?
Начнем с того, что есть несколько видов кэша. Системный кэш, как уже понятно, используется под нужд Windows, а кэш программ предназначен для корректного функционирования приложений. Чаще всего с понятием кэша пользователи сталкиваются при работе с интернет-браузерами. Но что это такое и для чего нужно? Кэш, вне зависимости от типа, является своеобразным хранилищем временных файлов, за счет использования которых увеличивается скорость загрузки программы или открытие тех же страниц в Интернете. То есть пользователь имеет дело с неким резервируемым на жестком диске пространством, которое используется операционной системой или отдельно взятым приложением. Как увеличить системный кэш или кэш программ, пока не рассматриваем. Для начала давайте определимся, стоит ли это вообще делать? С одной стороны, нет ничего плохого в том, чтобы зарезервировать для хранения временных файлов побольше места на диске. Так думает большинство рядовых пользователей. Но на самом деле кэш можно увеличивать только до определенной степени, поскольку установка слишком большого размера приведет к тому, что системе при выполнении какой-то операции придется перебрать слишком много объектов для загрузки, пока она найдет необходимый. Соответственно, и время запуска программ существенно снизится. Кроме того, следует обратить внимание, что кэш резервируется на жестком диске, а скорость обращения к нему может существенно снижаться, например при возникновении ошибок, фрагментации файлов и т. д.
Как увеличить системный кэш в Windows 7 или в другой системе?
Теперь перейдем непосредственно к изменению размера резервируемого пространства. Для начала рассмотрим системный кэш Windows 7.
Для автоматического увеличения его размера необходимо использовать меню свойств компьютера с переходом к дополнительным настройкам. В параметрах быстродействия на вкладке «Дополнительно» необходимо отметить пункт оптимизации работы фоновых служб и кэша. Считается, что именно таким способом можно несколько снизить нагрузку на оперативную память и ускорить запуск программ.
Параметры файла подкачки
Иногда наряду с изменением размера кэша в сторону увеличения некоторые специалисты рекомендуют произвести дополнительные действия с так называемым файлом подкачки, который отвечает за работу и использование виртуальной памяти – такого же резервируемого объема на жестком диске, но используемого для выгрузки программных компонентов в случае нехватки оперативной памяти. Как и в случае с системным кэшем, нужно быть предельно осторожным. При малом объеме ОЗУ файл подкачки действительно можно немного увеличить, установив для него значение, которое в 1,5-2 раза превышает определяемое или рекомендуемое системой по умолчанию. Но и тут следует помнить, что при установке слишком большого объема можно добиться обратного эффекта, когда программы в приоритете будут производить обращение не к оперативной, а к виртуальной памяти. Повторимся: скорость доступа к винчестеру ниже, чем к планкам ОЗУ. Из-за этого мы получаем торможение программ при запуске или в процессе работы.
Негласно считается, что при установленных объемах оперативной памяти на уровне 8 Гб и более файл подкачки можно отключить вовсе, что никаким образом не скажется на работоспособности системы в отрицательную сторону. Наоборот, иногда можно добиться повышения производительности.
Параметры системного кэша в системном реестре
Параметры виртуальной памяти или кэша можно поменять и в системном реестре. Что касается стандартного автоматизированного увеличения системного кэша Windows 10, его лучше производить как раз именно в этом редакторе (regedit). Здесь нужно использовать ветку HKLM и через раздел SYSTEM и параметры текущего контроля перейти к папке MemoryManagement.
Здесь нас интересуют два параметра: DisablePagingExecutive и LargeSystemCache, которым могут быть присвоены значения либо нуля (отключение), либо единицы (включение). Первый ключ фактически дублирует отключение виртуальной памяти, а второй увеличивает системный кэш (система будет использовать не 8 Мб, установленных по умолчанию, а всю память, за исключением последних 4 Мб).
Настройки кэша в веб-обозревателях
В браузерах тоже имеются настройки, относящиеся к кэшу. Соответственно, резервируемый объем можно изменить. Для этого используются соответствующие настройки. Правда, в зависимости от разработчика самого обозревателя они могут находиться в совершенно разных разделах.
Например, в старой версии «Оперы» опции выставляются в настройках истории. В новой модификации браузера следует использовать свойства ярлыка, а в пути к исполняемому файлу в поле типа объекта дописать сочетание —disk-cache-size=Объем и нужный размер кэша в килобайтах (например, для 1 Гб это будет 1073741824 Кб).
Очистка кэша
С изменением размера кэша вроде бы все понятно. В завершение остается добавить, что производить очистку кэша рекомендуется если не постоянно, то хотя бы периодически, поскольку накопление временных файлов может существенно замедлять работу и системы, и программ. Производить эти действия в Windows можно путем обычной очистки системного диска, в браузерах – очисткой истории посещений, кэша и файлов Cookies.
Более удобным является использование всевозможных программ-оптимизаторов, в которых необходимо просто задействовать соответствующие модули оптимизации системы и очистки конфиденциальности в разделе выполнения проверки и устранения проблем в один клик.
Источник
Зачем процессорам нужен кэш и чем отличаются уровни L1, L2, L3
Во всех центральных процессорах любого компьютера, будь то дешёвый ноутбук или сервер за миллионы долларов, есть устройство под названием «кэш». И с очень большой вероятностью он обладает несколькими уровнями.
Наверно, он важен, иначе зачем бы его устанавливать? Но что же делает кэш, и для чего ему разные уровни? И что означает «12-канальный ассоциативный кэш» (12-way set associative)?
Что такое кэш?
TL;DR: это небольшая, но очень быстрая память, расположенная в непосредственной близости от логических блоков центрального процессора.
Однако мы, разумеется, можем узнать о кэше гораздо больше…
Давайте начнём с воображаемой волшебной системы хранения: она бесконечно быстра, может одновременно обрабатывать бесконечное количество операций передачи данных и всегда обеспечивает надёжное и безопасное хранение данных. Конечно же, ничего подобного и близко не существует, однако если бы это было так, то структура процессора была бы гораздо проще.
Процессорам бы тогда требовались только логические блоки для сложения, умножения и т.п, а также система управления передачей данных, ведь наша теоретическая система хранения способна мгновенно передавать и получать все необходимые числа; ни одному из логических блоков не приходится простаивать в ожидании передачи данных.
Но, как мы знаем, такой волшебной технологии хранения не существует. Вместо неё у нас есть жёсткие диски или твердотельные накопители, и даже самые лучшие из них далеки от возможностей обработки, необходимых для современного процессора.
Великий Т’Фон хранения данных
Причина этого заключается в том, что современные процессоры невероятно быстры — им требуется всего один тактовый цикл для сложения двух 64-битных целочисленных значений; если процессор работает с частотой 4 ГГЦ, то это составляет всего 0,00000000025 секунды, или четверть наносекунды.
В то же время, вращающемуся жёсткому диску требуются тысячи наносекунд только для нахождения данных на дисках, не говоря уже об их передаче, а твердотельным накопителям — десятки или сотни наносекунд.
Очевидно, что такие приводы невозможно встроить внутрь процессоров, поэтому между ними будет присутствовать физическое разделение. Поэтому ещё добавляется время на перемещение данных, что усугубляет ситуацию.
Увы, но это Великий А’Туин хранения данных
Именно поэтому нам нужна ещё одна система хранения данных, расположенная между процессором и основным накопителем. Она должна быть быстрее накопителя, способна одновременно управлять множеством операций передачи данных и находиться намного ближе к процессору.
Ну, у нас уже есть такая система, и она называется ОЗУ (RAM); она присутствует в каждом компьютере и выполняет именно эту задачу.
Почти все такие хранилища имеют тип DRAM (dynamic random access memory); они способны передавать данные гораздо быстрее, чем любой накопитель.
Однако, несмотря на свою огромную скорость, DRAM не способна хранить такие объёмы данных.
Одни из самых крупных чипов памяти DDR4, разработанных Micron, хранят 32 Гбит, или 4 ГБ данных; самые крупные жёсткие диски хранят в 4 000 раз больше.
Итак, хоть мы и повысили скорость нашей сети данных, нам потребуются дополнительные системы (аппаратные и программные), чтобы разобраться, какие данные должны храниться в ограниченном объёме DRAM, готовые к обработке процессором.
DRAM могут изготавливаться в корпусе чипа (это называется встроенной (embedded) DRAM). Однако процессоры довольно малы, поэтому в них не удастся поместить много памяти.
10 МБ DRAM слева от графического процессора Xbox 360. Источник: CPU Grave Yard
Подавляющее большинство DRAM расположено в непосредственной близости от процессора, подключено к материнской плате и всегда является самым близким к процессору компонентом. Тем не менее, эта память всё равно недостаточно быстра…
DRAM требуется примерно 100 наносекунд для нахождения данных, но, по крайней мере, она способна передавать миллиарды битов в секунду. Похоже, нам нужна ещё одна ступень памяти, которую можно разместить между блоками процессора и DRAM.
На сцене появляется оставшаяся ступень: SRAM (static random access memory). DRAM использует микроскопические конденсаторы для хранения данных в виде электрического заряда, а SRAM для той же задачи применяет транзисторы, которые работают с той же скоростью, что и логические блоки процессора (примерно в 10 раз быстрее, чем DRAM).
Разумеется, у SRAM есть недостаток, и он опять-таки связан с пространством.
Память на основе транзисторов занимает гораздо больше места, чем DRAM: в том же размере, что чип DDR4 на 4 ГБ, можно получить меньше 100 МБ SRAM. Но поскольку она производится по тому же технологическому процессу, что и CPU, память SRAM можно встроить прямо внутрь процессора, максимально близко к логическим блокам.
С каждой дополнительной ступенью мы увеличивали скорость перемещаемых данных ценой хранимого объёма. Мы можем продолжить и добавлять новые ступени,, которые будут быстрее, но меньше.
И так мы добрались до более строгого определения понятия кэша: это набор блоков SRAM, расположенных внутри процессора; они обеспечивают максимальную занятость процессора благодаря передаче и сохранению данных с очень высокими скоростями. Вас устраивает такое определение? Отлично, потому что дальше всё будет намного сложнее!
Кэш: многоуровневая парковка
Как мы говорили выше, кэш необходим, потому что у нас нет волшебной системы хранения, способной справиться с потреблением данных логических блоков процессора. Современные центральные и графические процессоры содержат множество блоков SRAM, внутри упорядоченных в иерархию — последовательность кэшей, имеющих следующую структуру:
На приведённом выше изображении процессор (CPU) обозначен прямоугольником с пунктирной границей. Слева расположены ALU (arithmetic logic units, арифметико-логические устройства); это структуры, выполняющие математические операции. Хотя строго говоря, они не являются кэшем, ближайший к ALU уровень памяти — это регистры (они упорядочены в регистровый файл).
Каждый из них хранит одно число, например, 64-битное целое число; само значение может быть элементом каких-нибудь данных, кодом определённой инструкции или адресом памяти каких-то других данных.
Регистровый файл в десктопных процессорах довольно мал, например, в каждом из ядер Intel Core i9-9900K есть по два банка таких файлов, а тот, который предназначен для целых чисел, содержит всего 180 64-битных целых чисел. Другой регистровый файл для векторов (небольших массивов чисел) содержит 168 256-битных элементов. То есть общий регистровый файл каждого ядра чуть меньше 7 КБ. Для сравнения: регистровый файл потоковых мультипроцессоров (так в GPU называются аналоги ядер CPU) Nvidia GeForce RTX 2080 Ti имеет размер 256 КБ.
Регистры, как и кэш, являются SRAM, но их скорость не превышает скорость обслуживаемых ими ALU; они передают данные за один тактовый цикл. Но они не предназначены для хранения больших объёмов данных (только одного элемента), поэтому рядом с ними всегда есть более крупные блоки памяти: это кэш первого уровня (Level 1).
Одно ядро процессора Intel Skylake. Источник: Wikichip
На изображении выше представлен увеличенный снимок одного из ядер десктопного процессора Intel Skylake.
ALU и регистровые файлы расположены слева и обведены зелёной рамкой. В верхней части фотографии белым обозначен кэш данных первого уровня (Level 1 Data cache). Он не содержит много информации, всего 32 КБ, но как и регистры, он расположен очень близко к логическим блокам и работает на одной скорости с ними.
Ещё одним белым прямоугольником справа показан кэш инструкций первого уровня (Level 1 Instruction cache), тоже имеющий размер 32 КБ. Как понятно из названия, в нём хранятся различные команды, готовые к разбиению на более мелкие микрооперации (обычно обозначаемые μops), которые должны выполнять ALU. Для них тоже существует кэш, который можно классифицировать как Level 0, потому что он меньше (содержит всего 1 500 операций) и ближе, чем кэши L1.
Вы можете задаться вопросом: почему эти блоки SRAM настолько малы? Почему они не имеют размер в мегабайт? Вместе кэши данных и инструкций занимают почти такую же площадь на чипе, что основные логические блоки, поэтому их увеличение приведёт к повышению общей площади кристалла.
Но основная причина их размера в несколько килобайт заключается в том, что при увеличении ёмкости памяти повышается время, необходимое для поиска и получения данных. Кэшу L1 нужно быть очень быстрым, поэтому необходимо достичь компромисса между размером и скоростью — в лучшем случае для получения данных из этого кэша требуется около 5 тактовых циклов (для значений с плавающей запятой больше).
Кэш L2 процессора Skylake: 256 КБ SRAM
Но если бы это был единственный кэш внутри процессора, то его производительность наткнулась бы на неожиданное препятствие. Именно поэтому в ядра встраивается еще один уровень памяти: кэш Level 2. Это обобщённый блок хранения, содержащий инструкции и данные.
Он всегда больше, чем Level 1: в процессорах AMD Zen 2 он занимает до 512 КБ, чтобы кэши нижнего уровня обеспечивались достаточным объёмом данных. Однако большой размер требует жертв — для поиска и передачи данных из этого кэша требуется примерно в два раза больше времени по сравнению с Level 1.
Во времена первого Intel Pentium кэш Level 2 был отдельным чипом, или устанавливаемым на отдельной небольшой плате (как ОЗУ DIMM), или встроенным в основную материнскую плату. Постепенно он перебрался в корпус самого процессора, и, наконец, полностью интегрировался в кристалл чипа; это произошло в эпоху таких процессоров, как Pentium III и AMD K6-III.
За этим достижением вскоре последовал ещё один уровень кэша, необходимый для поддержки более низких уровней, и появился он как раз вовремя — в эпоху расцвета многоядерных чипов.
Чип Intel Kaby Lake. Источник: Wikichip
На этом изображении чипа Intel Kaby Lake в левой части показаны четыре ядра (интегрированный GPU занимает почти половину кристалла и находится справа). Каждое ядро имеет свой «личный» набор кэшей Level 1 и 2 (выделены белыми и жёлтым прямоугольниками), но у них также есть и третий комплект блоков SRAM.
Кэш третьего уровня (Level 3), хоть и расположен непосредственно рядом с одним ядром, является полностью общим для всех остальных — каждое ядро свободно может получать доступ к содержимому кэша L3 другого ядра. Он намного больше (от 2 до 32 МБ), но и намного медленнее, в среднем более 30 циклов, особенно когда ядру нужно использовать данные, находящиеся в блоке кэша, расположенного на большом расстоянии.
Ниже показано одно ядро архитектуры AMD Zen 2: кэши Level 1 данных и инструкций по 32 КБ (в белых прямоугольниках), кэш Level 2 на 512 КБ (в жёлтых прямоугольниках) и огромный блок кэша L3 на 4 МБ (в красном прямоугольнике).
Увеличенный снимок одного ядра процессора AMD Zen 2. Источник: Fritzchens Fritz
Но постойте: как 32 КБ могут занимать больше физического пространства чем 512 КБ? Если Level 1 хранит так мало данных, почему он непропорционально велик по сравнению с кэшами L2 и L3?
Не только числа
Кэш повышает производительность, ускоряя передачу данных в логические блоки и храня поблизости копию часто используемых инструкций и данных. Хранящаяся в кэше информация разделена на две части: сами данные и место, где они изначально располагаются в системной памяти/накопителе — такой адрес называется тег кэша (cache tag).
Когда процессор выполняет операцию, которой нужно считать или записать данные из/в память, то он начинает с проверки тегов в кэше Level 1. Если нужные данные там есть (произошло кэш-попадание (cache hit)), то доступ к этим данным выполняется почти сразу же. Промах кэша (cache miss) возникает, если требуемый тег не найден на самом нижнем уровне кэша.
В кэше L1 создаётся новый тег, а за дело берётся остальная часть архитектуры процессора выполняющая поиск в других уровнях кэша (при необходимости вплоть до основного накопителя) данных для этого тега. Но чтобы освободить пространство в кэше L1 под этот новый тег, что-то обязательно нужно перебросить в L2.
Это приводит к почти постоянному перемешиванию данных, выполняемому всего за несколько тактовых циклов. Единственный способ добиться этого — создание сложной структуры вокруг SRAM для обработки управления данными. Иными словами, если бы ядро процессора состояло всего из одного ALU, то кэш L1 был бы гораздо проще, но поскольку их десятки (и многие из них жонглируют двумя потоками инструкций), то для перемещения данных кэшу требуется множество соединений.
Для изучения информации кэша в процессоре вашего компьютера можно использовать бесплатные программы, например CPU-Z. Но что означает вся эта информация? Важным элементом является метка set associative (множественно-ассоциативный) — она указывает на правила, применяемые для копирования блоков данных из системной памяти в кэш.
Представленная выше информация кэша относится к Intel Core i7-9700K. Каждый из его кэшей Level 1 разделён на 64 небольших блока, называемые sets, и каждый из этих блоков ещё разбит на строки кэша (cache lines) (размером 64 байта). «Set associative» означает, что блок данных из системы привязывается к строкам кэша в одном конкретном сете, и не может свободно привязываться к какому-то другому месту.
«8-way» означает, что один блок может быть связан с 8 строками кэша в сете. Чем выше уровень ассоциативности (т.е. чем больше «way»), тем больше шансов на кэш-попадание во время поиска процессором данных и тем меньше потери, вызываемые промахами кэша. Недостатки такой системы заключаются в повышении сложности и энергопотребления, а также понижении производительности, потому что для каждого блока данных нужно обрабатывать больше строк кэша.
Инклюзивный кэш L1+L2, victim cache L3, политики write-back, есть даже ECC. Источник: Fritzchens Fritz
Ещё один аспект сложности кэша связан с тем, как хранятся данные между разными уровнями. Правила задаются в inclusion policy (политике инклюзивности). Например, процессоры Intel Core имеют полностью инклюзивные кэши L1+L3. Это означает, что одни данные в Level 1, например, могут присутствовать в Level 3. Может показаться, что это пустая трата ценного пространства кэша, однако преимущество заключается в том, что если процессор совершает промах при поиске тега в нижнем уровне, ему не потребуется обыскивать верхний уровень для нахождения данных.
В тех же самых процессорах кэш L2 неинклюзивен: все хранящиеся там данные не копируются ни на какой другой уровень. Это экономит место, но приводит к тому, что системе памяти чипа нужно искать ненайденный тег в L3 (который всегда намного больше). Victim caches (кэши-жертвы) имеют похожий принцип, но они используются для хранения информации, переносимой с более низких уровней. Например, процессоры AMD Zen 2 используют victim cache L3, который просто хранит данные из L2.
Существуют и другие политики для кэша, например, при которых данные записываются и в кэш, и основную системную память. Они называются политиками записи (write policies); большинство современных процессоров использует кэши write-back — это означает, что когда данные записываются на уровень кэшей, происходит задержка перед записью их копии в системную память. Чаще всего эта пауза длится в течение того времени, пока данные остаются в кэше — ОЗУ получает эту информацию только при «выталкивании» из кэша.
Графический процессор Nvidia GA100, имеющий 20 МБ кэша L1 и 40 МБ кэша L2
Для проектировщиков процессоров выбор объёма, типа и политики кэшей является вопросом уравновешивания стремления к повышению мощности процессора с увеличением его сложности и занимаемым чипом пространством. Если бы можно было создать 1000-канальные ассоциативные кэши Level 1 на 20 МБ такими, чтобы они при этом не занимали площадь Манхэттена (и не потребляли столько же энергии), то у нас у всех бы были компьютеры с такими чипами!
Самый нижний уровень кэшей в современных процессорах за последнее десятилетие практически не изменился. Однако кэш Level 3 продолжает расти в размерах. Если бы десять лет назад у вас было 999 долларов на Intel i7-980X, то вы могли бы получить кэш размером 12 МБ. Сегодня за половину этой суммы можно приобрести 64 МБ.
Подведём итог: кэш — это абсолютно необходимое и потрясающее устройство. Мы не рассматривали другие типы кэшей в CPU и GPU (например, буферы ассоциативной трансляции или кэши текстур), но поскольку все они имеют такую же простую структуру и расположение уровней, разобраться в них будет несложно.
Был ли у вас компьютер с кэшем L2 на материнской плате? Как насчёт слотовых Pentium II и Celeron (например, 300a) на дочерних платах? Помните свой первый процессор с общим L3?
На правах рекламы
Наша компания предлагает в аренду серверы с процессорами от Intel и AMD. В последнем случае — это эпичные серверы! VDS с AMD EPYC, частота ядра CPU до 3.4 GHz. Максимальная конфигурация — 128 ядер CPU, 512 ГБ RAM, 4000 ГБ NVMe.
Источник
Зависимость эффективности большой кэш памяти от производительности оперативной памяти
Данная статья является продолжением прошлого теста в котором было произведено сравнение производительности при величине кэш памяти L3 2 и 4 МБ на ядро. Также в ней была приведена необходимая теоретическая часть, которая отвечает на вопрос — из-за чего увеличение кэша в принципе приводит к росту производительности процессора. Но если коротко — то на самом деле роста производительности — нет, есть только уменьшение потерь производительности, вызванных простоями процессора из-за того, что ему сложно организовать свою работу, когда нужных данных нет в кэш памяти. Соответственно, чем больше кэша, тем реже случаются вынужденные простои процессора.
К слову, для любителей теорий заговора отмечу, что увидеть глазами когда именно происходят простои — нельзя. Программы мониторинга загрузки процессора фиксируют наличие у процессора задач как таковых, возможно ли процессору сейчас или невозможно решить задачу — программы мониторинга не знают. Но в моменты вынужденного простоя из-за подсистемы памяти — задачи перед процессором стоят, так что процессор по мониторингу «выглядит» занятым. Есть, конечно, способы запечатлеть простои (в случае когда мы не можем напрямую сравнить производительность), но они довольно условные. Я знаю таких способа два. Один подходит всегда, второй только в играх. Всегда можно оценить энергопотребление. Если задача одна и та же то с вынужденными простоями процессор будет потреблять меньше энергии. То есть если вы не знаете — приносит прирост производительности в вашей задачи разгон памяти или кэша, то можно одну и ту же задачу запустить с разгоном и без и сравнить показания датчиков отвечающих за измерение потребляемой энергии или величины потребляемого тока процессорных ядер. Второй метод, для игр, сложнее. И потребует запись логов процента загрузки процессора и в игре нужно выбрать, для теста с разгоном и без, аналогичную локацию или использовать встроенный в игру бенчмарк. Если производительность в игре была ограничена процессором, то особого ума не надо, вы по FPS увидите разницу, но если производительность ограничена видеокартой, то FPS (в случае если видеокарте хватает своей видеопамяти) от разгона памяти не увеличится. Но тут увидеть прирост производительности можно именно по проценту загрузки процессора. При равном FPS (равном объёме работы для процессора) процент загрузки процессора с разгоном памяти и кэша будет ниже. То есть ту же самую работу процессор будет выполнять быстрее, и чаще находится в простое, ожидая пока видеокарта отрисовывает кадр.
Вернёмся к основной теме
В прошлом тесте было выяснено, что увеличение объём кэша (сюрприз) приводит к росту производительности.
Рост производительности при удвоении объёма кэш памяти
И рост этот зависит от самого софта. Если алгоритм требует минимума данных и вылизан до предела, то производительность и с малым объёмом кэш памяти стремится к теоретической производительности процессора. И чем задача менее оптимизирована (в силу принципов работы и задачи программы или кривости программиста), тем больше она зависит и от объёма кэш памяти и от его производительности.
С этим всё понятно. Результаты предсказуемые, увидеть их, конечно же было интересно, но тест тот был подготовительным и должен был быть частью этого теста.
Многоходовочка
Дело в том, что есть менее очевидное сравнение. А именно — как ведёт себя прирост от объёма кэш памяти в случае разной оперативной памяти.
Тут не всё настолько просто, как может показаться и есть два предположения.
Дело в том, что данные в кэш памяти «появляются» с двух сторон. Данные (блоками) поступают из оперативной памяти после того как процессор, после промаха в кэш, инициализировал необходимость передачи данных ближе к себе из оперативной памяти. И второй источник откуда данные поступают в кэш L3 — это передача данных от выполненных операций процессором. То есть процессор выполнил операцию, и данные автоматически записываются в кэш, они, если говорить про L3 становятся доступны и другим ядрам и т.д.
И исходя из двух источников поступления данных встаёт закономерный вопрос:
Как оперативная память влияет на эффективность роста объёма кэш памяти?
И развитей событий может быть два:
- Процессору постоянно нужны данные, находящиеся в оперативной памяти, и если память достаточно медленная, то в кэш записи будут происходить медленно и слишком редко (на фоне скорости работы процессора), то есть постоянно терять актуальность, и будут ограничиваться как пропускной способностью оперативной памяти, так и задержками оперативной памяти. Что приведёт к тому, что не имеет значение насколько большой кэш, так как там будет лежать старый «мусор» в не зависимости от размера этого кэша. То есть для этого предположения верно, что при разгоне оперативной памяти разница в производительности от увеличения объёма кэша станет больше. Для понимания рассмотрим простой гипотетический пример. Допустим есть компьютер с оперативной памятью 2133 МГц и с оперативной памятью 3600 МГц. И на том и на другом мы увеличиваем объём кэш памяти в два раза. Если это предположение верно, то мы должны получить результаты, допустим — прирост от роста кэша на памяти 2133 МГц — 5%, а прирост от роста кэша на оперативной памяти 3600 МГц — 10%.
- Большая часть выполняемых операций используют только что созданные процессором данные, которые и так уже находятся в кэше. То есть промахи в кэш — это редкое явление. С медленной памятью каждый из промахов будет сильнее влиять на производительность, с быстрой памятью — слабее влиять на производительность. То есть для этого предположения верно, что при разгоне оперативной памятиразница в производительности от увеличения объёма кэша станет меньше. Допустим есть компьютер с оперативной памятью 2133 МГц и с оперативной памятью 3600 МГц. И на том и на другом мы увеличиваем объём кэш памяти в два раза. Если это предположение верно, то мы должны получить результаты, допустим — прирост от роста кэша на памяти 2133 МГц — 10%, а прирост от роста кэша на оперативной памяти 3600 МГц — 5%.
В этом тесте мы и будем разбираться в том, какое из предположений верное.
Забегая вперёд — скажу, что представить результаты теста визуально довольно сложно, так что высказанным ранее предположениям дадим цветовые обозначения. Первое предположение — зелёное, второе предположение — красное (к сожалению некоторым дальтоникам этот тест будет сложен для визуального восприятия, но результаты и выводы будут описаны и текстом).
Перейдём к тестам
Начнём с бенчмарков которые плохо реагируют на память и кэш.
Однопоточный CPU-z тест
Немного остановлюсь на том что за таблица такая и как её читать.
У нас в тесте есть 4 конфигурации системы:
- ОЗУ 2133 МГц L3 8 МБ
- ОЗУ 2133 МГц L3 16 МБ
- ОЗУ 3600 МГц L3 8 МБ
- ОЗУ 3600 МГц L3 16 МБ
Задача сравнить разницу между разницей (всё сложно)…
Задача — определить разницу между 8 и 16 МБ кэша на ОЗУ 2133 МГц (разница между конфигурациями 1 и 2), далее — определить разницу между 8 и 16 МБ кэша на ОЗУ 3600 МГц (разница между конфигурациями 3 и 4). А потом сравнить две разницы, то есть понять что больше — разница между 1 и 2 или разница между 3 и 4. Именно это сравнение и позволит понять какое предположение верно: зелёное (1) или красное (2).
Для понимания того как читать результаты рассмотрим первый пример подробнее:
- ОЗУ 2133 МГц L3 8 МБ — 468,9
- ОЗУ 2133 МГц L3 16 МБ — 470,9
- ОЗУ 3600 МГц L3 8 МБ — 466,2
- ОЗУ 3600 МГц L3 16 МБ — 466,7
Разница между 1 и 2 — «+0,4%»
Теперь мы сравниваем «+0,4%» и «+0,1%» и получаем, что с 2133 МГц прирост выше, то есть верно «красное» предположение. Формально именно красным цветом должен был быть покрашен центральный прямоугольник на слайде результата, но так как 0,4 и 0,1 — это погрешности, то прямоугольник не окрашен вообще никак.
В многопоточном CPU-z результаты следующие:
Многопоточный CPU-z
Разница между 3,3 и 3% — слишком мала, чтобы сделать выводы. Даже несмотря на то, что все результаты — это усреднение трёх измерений 0,3% разницы — это результат не превышающий погрешности.
CINEBENCH R20 тоже плохо реагирует и на кэш и на память.
CINEBENCH R20
Опять разница не превышающая погрешности теста.
На этом бенчмарки которые мало отражают разгон памяти и кэша, и изменения кэша заканчиваются.
Как и следовало ожидать — им без разницы что там с памятью.
Переходим к тестам, которые любят и память и кэш.
И первым будет Win-rar
Результаты в Win-rar
С медленной памятью — прирост от увеличения объёма кэша L3 составил «+46,6%», с разогнанной памятью рост составил — «+35%». То есть верно второе предположение. Больший объём L3 позволил реже совершать промахи в кэш, от чего влияние от разгона памяти становится менее значимым.
Другой архиватор — 7-zip показывает схожие результаты.
Результаты в 7-Zip
Опять прирост с медленной памятью — выше, чем с быстрой.
Остались только игры
Первая игра: Far Cry5
Результаты в Far Cry 5
Можно увидеть, что без разгона памяти прирост от увеличения размера кэш памяти оказался существенно ниже, чем прирост от увеличения кэш памяти с разогнанной памятью. А это значит, что эффективность работы кэш памяти оказалась без разгона памяти низкой, что согласуется не со второй теорией, как в синтетических тестах, а с первой теорией.
Можно сравнить прирост не только цифрами, но и на графиках. Вот так выглядят графики распределения плотности вероятности мгновенного FPS от увеличения размера кэш памяти с разогнанной памятью.
Прирост виден невооружённым взглядом
А вот какой прирост без разгона памяти:
Прироста почти нет
Вторая игра: Watch Dogs 2
Результаты в Watch Dogs 2
Тут, к сожалению, ничего не видно. А значит и интересного сказать по этому поводу ничего не получится =(
Для того чтобы лучше оценить реальность работы в играх нужно больше игры в тесты, возможно, когда-нибудь будет расширенное тестирование. Пока же можно сделать выводы, что, несмотря на то, что вторая (красная) гипотеза на практике должна быть преобладающей — первая (зелёная) тоже может случатся, в том числе, и в реальных задачах.
У этой статьи существует и видеоверсия.
Источник