Instruction per Cicle
Jul. 18th, 2024 07:24 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Первым компьютером который выдал 1IPC был CDC6600, микропроцессором Intel MCS-48
LINKS-1 добился 2,5 но надо понимать что это огромный суперкомпьютер из Z80.
Микропроцессоры же
Hitachi 6309 повторил успех Интел.
Сега System 16 использовала 4 таких почти камня.
Motorola 68040 достигла 1.1
PowerPC 601 1.971
Превзошёл это только Intel Pentium Pro НО архитектурно это было 2,5 к предыдущим то есть уровень LINKS-1.
Intel Pentium III Drake Klamath 3.4
AMD Athlon Barton 4.1
Core 2 имели 4.8
E5450 5.9 так как были без HT и с кешем 12
Nehalem 7,46
Sandy Bridge Haswell 7,46 с патчами безопасности без них 8,61
Ну а потом с первых Zen и Skylake 10-11
Это и есть эквиваленты всего этого при равной частоте.
Не так уж и много. И да конечно 775 равен 6/11 0,55 при том же количестве ядер и частоты, но на очень многое хватает и видео декодируют часто видеокарты. Почему как бы не вопили разные что ааа старое - и что ? Хватает же.
Да игры или работа в новых пакетах графики нет но а много ли кому это надо ?
Опять таки Drake был реальный прорыв технологий.
В тоже время надо понимать что хотя ARM выполняет за цикл больше инструкций но очень часто одна инструкция x86 заменяет 5-6 инструкций на ARM .
ARM хорош для обработки больших массивов с малым количеством инструкций НО GPU для этого лучше так как там скаляр он VLIW и нет наследования ARM который ничуть не меньше x86. Да там убрали 32 битные инструкции так и в x86 они занимают мало и в основном простаивают не влияя на TDP. Если их убрать в x86 то экономия транзисторов будет незначительная наследуемая часть всего 8 миллионов транзисторов на ядро в процессоре современном 1,8 миллиарда транзисторов на ядро. Так что отключение инструкций это 0,45% экономии. Ничто.
В тоже время ARM Cortex-A78 6 инструкций за такт НО они далеко не всегда эквивалент. Если это обработка массива то да, а если это приложение например игра то ... В среднем это будет 2.8 это не так плохо это почти Drake. Надо понимать что маленькие ядра в три раза слабее. А более старые до 64 бит ... Слёзы. Разница малых ядер в два три раза. Почему A7 это кошмар был с самого начала. Это уровень 486 компьютера.
Neoverse они же M1 16 IPC НО опять таки на реальных задачах это 7.2 где то то есть x86 современным которые в стоке с заплатками и только с большими ядрам они уступают. Но да это уже почти уровень Нехалем.
Ну и реклама и ложь помогают продавать более слабую архитектуру. Ну и да есть момент энергопотребление. Ядер ARM64 Neoverse оно в два раза меньше чем на x86. Но опять таки это важно при маленьком кэше. На малых ядрах оно ниже в 10 раз реально при той же вычислительной мощности. НО ядра эти дохлые и уже на новых 510 и новее оно выросло на 15%. Просто попытка добиться компромисса. Самое экономное это ARM Cortex-A34. Но вычислительные мощности у неё слёзы. И частотой это не обойти так как есть пределы экономности для техпроцесса. Например для 45 нм это 1000 МГц, 28 1400, 14 лучшие 2200 а после рост резкий потребления. И дальше изменений практически нет 2600 на N6 предел.
Так что надо ускорять и малые ядра достигнув максимума на ARM Cortex-A34. Ну M33 в теории меньше потребляет в реальности нет. Так как 32 битный.
Так что могут ли ARM достигнуть уровня x86 ну они core 2 обошли хотя могут быть затыки, в среднем не значит всегда так как до 6 инструкций заменяет и тогда при самой неудачной последовательности 16 прерывращется в Drake. Писать под ARM если не халтурить сложнее больше ответственности особенно на компиляторах и фреймворках. Хотя это и не кошмар VLIW.
А скорость. Проблема в том что даже если быть осторожным предел в теории где то 16 инструкций и есть. То есть они никогда по вычислению на такт на нитку не достигнут x86 но у них лучше возможности для разгона из-за в двое ниже потребления на такт на ядро.
Но это не в два раза так как с ростом частоты рост потребления не линеен а геометрический. И в итоге в настольном сегменте и серверах гонку выиграет новая архитектура EPYC с облегченным ядром. Не маленьким а просто меньше Кеша и ряд других упрощений. Потеря их в производительности на такт 12-15% максимум а среднем 7-8% но энергопотребление падает на 40-45% то есть практически до уровня ARM ну чуть больше но при этом нет таких проседаний.
У Neoverse средний 7,2 максимальный 16. У Epyc 10.2 если разделить на 1.07 9.53. а для задач вычисления матриц есть NPU который даёт 32 легко.
То есть у ARM в серверах есть шанс но не на уровне максимальной производительности а на средний и ниже сегмент.
В настольных системах у ARM положение ещё хуже. Так как там энергопотребление не имеет значения а вычислительные мощности имеют.
В мобильных системах ARM держится исключительно на яблокофилах и очень богатых и тупых странах типа США где деньги не считают. Хотя тут не всё так печально но проблема в неадекватных ценах на ARM ноутбуки которые никогда не достигнут уровня x86. Того же ценового диапазона.
В планшетах и смартфонах напротив альтернативы ARM нет из-за показателей энергоэффективности.
Но сказка что вот x86 закончились но есть же ARM это обман. ARM есть для смартфонов.
И там они достигли предела. Быстрее не будет. Никак не будет.
Новой энергосберегающей технологии нет и быть не может. Учите физику.
Алгоритмически из ARM выжали всё. Когда X4 включается батарея садится очень быстро и вовсе не и за экрана.
А720 хорош. А А520 потребляет больше A34 на инструкцию на 25%. Но деваться некуда. Так пишут приложения что требуют мощных и маленьких ядер. Хотя A34 это PowerPC 750 между прочим. Первые iMac на таких были да и не первые а если посмотреть на частоты то 2200 МГц на 14 нм это будет ну как p3-500. То есть xp если была на ARM и 64 запустилась бы на нескольких ядрах. Но так полноценный макос 10.4 тигр может работать на таком. Он не хуже XP был да и висты. А сейчас это слишком мало для фоновых задач...
Но в реальности никаких перспектив у ARM обойти предел итераций процессоров нет.
Дальше же со временем будут больше производителей процессоров. И они сильно упадут в цене а разработчики пойдут на улицу многие.
Что же касается китайцев Zhaoxin это ядро уровня Drake макисимум Barton. Даже не Core 2. Но это ядро вполне рабочее. И для совместимости сойдёт. Хотя уход с x86 в какой-то мере в Китае благодаря веб есть.
Почему все эти бульдозеры не любили потому что они были часто на уровне Коре 2. А бобкаты на уровне Бартонов а то и драйков. Ядро Заоксин же это да на Бартон очень похоже хотя WinChip и VIA. Кстати конкретно это это наследник Cyrix. Был такой у меня.
LINKS-1 добился 2,5 но надо понимать что это огромный суперкомпьютер из Z80.
Микропроцессоры же
Hitachi 6309 повторил успех Интел.
Сега System 16 использовала 4 таких почти камня.
Motorola 68040 достигла 1.1
PowerPC 601 1.971
Превзошёл это только Intel Pentium Pro НО архитектурно это было 2,5 к предыдущим то есть уровень LINKS-1.
Intel Pentium III Drake Klamath 3.4
AMD Athlon Barton 4.1
Core 2 имели 4.8
E5450 5.9 так как были без HT и с кешем 12
Nehalem 7,46
Sandy Bridge Haswell 7,46 с патчами безопасности без них 8,61
Ну а потом с первых Zen и Skylake 10-11
Это и есть эквиваленты всего этого при равной частоте.
Не так уж и много. И да конечно 775 равен 6/11 0,55 при том же количестве ядер и частоты, но на очень многое хватает и видео декодируют часто видеокарты. Почему как бы не вопили разные что ааа старое - и что ? Хватает же.
Да игры или работа в новых пакетах графики нет но а много ли кому это надо ?
Опять таки Drake был реальный прорыв технологий.
В тоже время надо понимать что хотя ARM выполняет за цикл больше инструкций но очень часто одна инструкция x86 заменяет 5-6 инструкций на ARM .
ARM хорош для обработки больших массивов с малым количеством инструкций НО GPU для этого лучше так как там скаляр он VLIW и нет наследования ARM который ничуть не меньше x86. Да там убрали 32 битные инструкции так и в x86 они занимают мало и в основном простаивают не влияя на TDP. Если их убрать в x86 то экономия транзисторов будет незначительная наследуемая часть всего 8 миллионов транзисторов на ядро в процессоре современном 1,8 миллиарда транзисторов на ядро. Так что отключение инструкций это 0,45% экономии. Ничто.
В тоже время ARM Cortex-A78 6 инструкций за такт НО они далеко не всегда эквивалент. Если это обработка массива то да, а если это приложение например игра то ... В среднем это будет 2.8 это не так плохо это почти Drake. Надо понимать что маленькие ядра в три раза слабее. А более старые до 64 бит ... Слёзы. Разница малых ядер в два три раза. Почему A7 это кошмар был с самого начала. Это уровень 486 компьютера.
Neoverse они же M1 16 IPC НО опять таки на реальных задачах это 7.2 где то то есть x86 современным которые в стоке с заплатками и только с большими ядрам они уступают. Но да это уже почти уровень Нехалем.
Ну и реклама и ложь помогают продавать более слабую архитектуру. Ну и да есть момент энергопотребление. Ядер ARM64 Neoverse оно в два раза меньше чем на x86. Но опять таки это важно при маленьком кэше. На малых ядрах оно ниже в 10 раз реально при той же вычислительной мощности. НО ядра эти дохлые и уже на новых 510 и новее оно выросло на 15%. Просто попытка добиться компромисса. Самое экономное это ARM Cortex-A34. Но вычислительные мощности у неё слёзы. И частотой это не обойти так как есть пределы экономности для техпроцесса. Например для 45 нм это 1000 МГц, 28 1400, 14 лучшие 2200 а после рост резкий потребления. И дальше изменений практически нет 2600 на N6 предел.
Так что надо ускорять и малые ядра достигнув максимума на ARM Cortex-A34. Ну M33 в теории меньше потребляет в реальности нет. Так как 32 битный.
Так что могут ли ARM достигнуть уровня x86 ну они core 2 обошли хотя могут быть затыки, в среднем не значит всегда так как до 6 инструкций заменяет и тогда при самой неудачной последовательности 16 прерывращется в Drake. Писать под ARM если не халтурить сложнее больше ответственности особенно на компиляторах и фреймворках. Хотя это и не кошмар VLIW.
А скорость. Проблема в том что даже если быть осторожным предел в теории где то 16 инструкций и есть. То есть они никогда по вычислению на такт на нитку не достигнут x86 но у них лучше возможности для разгона из-за в двое ниже потребления на такт на ядро.
Но это не в два раза так как с ростом частоты рост потребления не линеен а геометрический. И в итоге в настольном сегменте и серверах гонку выиграет новая архитектура EPYC с облегченным ядром. Не маленьким а просто меньше Кеша и ряд других упрощений. Потеря их в производительности на такт 12-15% максимум а среднем 7-8% но энергопотребление падает на 40-45% то есть практически до уровня ARM ну чуть больше но при этом нет таких проседаний.
У Neoverse средний 7,2 максимальный 16. У Epyc 10.2 если разделить на 1.07 9.53. а для задач вычисления матриц есть NPU который даёт 32 легко.
То есть у ARM в серверах есть шанс но не на уровне максимальной производительности а на средний и ниже сегмент.
В настольных системах у ARM положение ещё хуже. Так как там энергопотребление не имеет значения а вычислительные мощности имеют.
В мобильных системах ARM держится исключительно на яблокофилах и очень богатых и тупых странах типа США где деньги не считают. Хотя тут не всё так печально но проблема в неадекватных ценах на ARM ноутбуки которые никогда не достигнут уровня x86. Того же ценового диапазона.
В планшетах и смартфонах напротив альтернативы ARM нет из-за показателей энергоэффективности.
Но сказка что вот x86 закончились но есть же ARM это обман. ARM есть для смартфонов.
И там они достигли предела. Быстрее не будет. Никак не будет.
Новой энергосберегающей технологии нет и быть не может. Учите физику.
Алгоритмически из ARM выжали всё. Когда X4 включается батарея садится очень быстро и вовсе не и за экрана.
А720 хорош. А А520 потребляет больше A34 на инструкцию на 25%. Но деваться некуда. Так пишут приложения что требуют мощных и маленьких ядер. Хотя A34 это PowerPC 750 между прочим. Первые iMac на таких были да и не первые а если посмотреть на частоты то 2200 МГц на 14 нм это будет ну как p3-500. То есть xp если была на ARM и 64 запустилась бы на нескольких ядрах. Но так полноценный макос 10.4 тигр может работать на таком. Он не хуже XP был да и висты. А сейчас это слишком мало для фоновых задач...
Но в реальности никаких перспектив у ARM обойти предел итераций процессоров нет.
Дальше же со временем будут больше производителей процессоров. И они сильно упадут в цене а разработчики пойдут на улицу многие.
Что же касается китайцев Zhaoxin это ядро уровня Drake макисимум Barton. Даже не Core 2. Но это ядро вполне рабочее. И для совместимости сойдёт. Хотя уход с x86 в какой-то мере в Китае благодаря веб есть.
Почему все эти бульдозеры не любили потому что они были часто на уровне Коре 2. А бобкаты на уровне Бартонов а то и драйков. Ядро Заоксин же это да на Бартон очень похоже хотя WinChip и VIA. Кстати конкретно это это наследник Cyrix. Был такой у меня.