FLOPS

Материал из Википедии — свободной энциклопедии
(перенаправлено с «Флопс»)
Перейти к навигации Перейти к поиску
Производительность суперкомпьютеров
Название год флопсы
флопс 1941 100
килофлопс 1949 103
мегафлопс 1964 106
гигафлопс 1987 109
терафлопс 1997 1012
петафлопс 2008 1015
эксафлопс 2022 1018
зеттафлопс не ранее 2030[1][2] 1021
иоттафлопс не ранее 2045 1024
роннафлопс н/д 1027
кветтафлопс н/д 1030
Рост производительности суперкомпьютеров

FLOPS (также flops, flop/s, флопс или флоп/с; акроним от англ. FLoating-point OPerations per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от флопс, образуемые путём использования приставок СИ.

FLOP или FLOPS[править | править код]

Существуют разногласия насчёт того, допустимо ли использовать слово FLOP от англ. FLoating point OPeration в единственном числе (и такие варианты как flop или флоп). Некоторые считают, что FLOP (флоп) и FLOPS (флопс или флоп/с) — синонимы, другие же полагают, что FLOP — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы), а FLOPS — мера производительности, способность выполнять определённое количество операций с плавающей запятой за секунду.

Флопс как мера производительности[править | править код]

Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день являются тесты производительности LINPACK, в частности HPL, используемый при составлении рейтинга суперкомпьютеров TOP500[источник не указан 264 дня].

Одним из важнейших достоинств измерения производительности во флопсах является то, что данная единица до некоторых пределов может быть истолкована как абсолютная величина и вычислена теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результатов работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Границы применимости[править | править код]

Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, флопс подвержен влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.

Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться; более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.

Так, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 петафлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.

Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность видеопроцессора игровой приставки PlayStation 3 составляет 192 гигафлопса[3], а видеоускорителя приставки Xbox 360 и вовсе 240 гигафлопсов[3], что сравнимо с суперкомпьютерами двадцатилетней давности. Столь высокие показатели объясняются тем, что указана производительность над числами 32-разрядного формата[4][5], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[6][7]. Кроме того, данные приставки и видеопроцессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[8] и тяжело сравнить с другими системами.

Пиковая производительность[править | править код]

Для подсчёта максимального количества флопс для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей запятой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в ЭВМ CDC 6600 в 1964 году. Массовое производство компьютеров с суперскалярной архитектурой началось с выпуском процессора Pentium в 1993 году. Процессор конца 2000-х годов, Intel Core 2, также является суперскалярным и содержит 2 устройства вычислений над 64-разрядными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4 операций за 1 такт в каждом ядре[9][10][11]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3,5 ГГц, теоретический предел производительности составляет 4х4х3,5=56 гигафлопс, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3 ГГц — 2х4х3=24 гигафлопс, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK.

AMD Phenom 9500 sAM2+ с тактовой частотой 2,2 ГГц: 2200 МГц × 4 ядра × 4⋅10−3 = 35,2 Гигафлопса
Для четырёхъядерного процессора Core 2 Quad Q6600: 2400 МГц × 4 ядра × 4⋅10−3 = 38,4 Гигафлопса.

Более новые процессоры могут исполнять до 8 (например, Sandy и Ivy Bridge, 2011—2012 гг, AVX) или до 16 (Haswell и Broadwell, 2013—2014 гг, AVX2 и FMA3) операций над 64-битными числами с плавающей запятой в такт (на каждом ядре)[11]. В последующих процессорах ожидается исполнение 32 операций в такт (Intel Xeon Skylake, Xeon *v5, 2015 г, AVX512)[12]

Sandy и Ivy Bridge c AVX: 8 Флопс/такт двойной точности[13], 16 Флопс/такт одинарной точности
Intel Core i7 2700:/Intel Core i7 3770: 8*4*3900 МГц = 124,8 Гфлопс пиковая двойной точности, 16*4*3900 = 249,6 Гфлопс пиковая одинарной точности.

Intel Haswell/Broadwell с AVX2 и FMA3: 16 Флопс/такт двойной точности[13]; 32 одинарной точности Флопса/такт
Intel Core i7 4770: 16*4*3900 МГц = 249,6 Гигафлопса пиковая двойной точности, 32*4*3900 = 499,2 Гфлопс пиковая одинарной точности.

Причины широкого распространения[править | править код]

Несмотря на большое число существенных недостатков, флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.

В различных алгоритмах, кроме возможности выполнять большое количество математических действий в ядре процессора, может потребоваться пересылка больших объёмов данных через подсистему памяти, и их производительность будет сильно ограничена из-за этого, например, как в уровнях 1 и 2 библиотек BLAS[11]. Однако, алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени, и они обычно достигают типичной производительности до 80-95 % от теоретического максимума.

Обзор производительности реальных систем[править | править код]

Из-за высокого разброса результатов теста LINPACK приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.

Суперкомпьютеры[править | править код]

Уно[править | править код]

Кило[править | править код]

Мега[править | править код]

Гига[править | править код]

Тера[править | править код]

Пета[править | править код]

Экса[править | править код]

  • Frontier (2022) — 1,194 эксафлопса(пиковая мощность 1,679 эксафлопса) -США
  • OceanLight (2022) — 1,05 эксафлопса(пиковая мощность 1,300 эксафлопса)-Китай[источник?]
  • Tianhe-3 (2022) — 1,300 эксафлопса(пиковая мощность 1,700 эксафлопса)-Китай[источник?]
  • Shuguang (2023) — 2,000 эксафлопса(пиковая мощность 2,400 эксафлопса)-Китай[источник?]
  • Sunway (2024) — 5,000 эксафлопса(пиковая мощность 6,000 эксафлопса)-Китай[источник?]

Зетта[править | править код]

Основная статья: Zettascale computing

В период с 2030 по 2035 год ведущими компаниями мира планируется создать суперкомпьютер мощностью 1 зеттафлопс. Планируемая потребляемая мощность от 80 до 120 Мегаватт, энергоэффективность: 10 терафлопс/ватт, пропускная способность ввода-вывода: 10-100 петабайт/сек, объем памяти: 1,0 зеттабайт.

Процессоры персональных компьютеров[править | править код]

Пиковая производительность двойной точности[27]

  • Zilog Z80 + математический сопроцессор AMD Am9512, 3 МГц (1977—1980) ~ 1-2 килофлопса[28]
  • Intel 80486DX/DX2 (1990—1992) — до 30-50 Мфлоп/с[29]
  • Intel Pentium 75-200 МГц (1996) — до 75-200 Мфлоп/с[29][30]
  • Intel Pentium III 450—1133 МГц (1999—2000) — до 450—1113 Мфлоп/с[29][30]
  • Intel Pentium III-S (2001) 1 — 1,4 ГГц — до 1 — 1,4 Гфлоп/с[30]
  • МЦСТ Эльбрус 2000 300 МГц (2008) — 2,4 Гфлоп/с
  • Intel Atom N270, D150 1,6 ГГц (2008—2009) — до 3,2 Гфлоп/с[29]
  • Intel Pentium 4 2,5-2,8 ГГц (2004) — до 5 — 5,6 Гфлоп/с[29]
  • МЦСТ Эльбрус-2С+ 500 МГц, 2 ядра (2011) — 8 Гфлоп/с
  • AMD Athlon 64 X2 4200+ 2,2 ГГц, 2 ядра (2006) — 8,8 Гфлоп/с
  • Intel Core 2 Duo E6600 2,4 ГГц, 2 ядра (2006) — 19,2 Гфлоп/с
  • МЦСТ Эльбрус-4С (1891ВМ8Я, Эльбрус v.3) 800 МГц, 4 ядра (2014) — 25 Гфлоп/с[31]
  • Intel Core i3-2350M 2,3 ГГц, 2 ядра (2011) — 36,8 Гфлоп/с
  • Intel Core 2 Quad Q8300 2,5 ГГц, 4 ядра (2008) — 40 Гфлоп/с
  • AMD Athlon II X4 640 3,0 ГГц, 4 ядра (2010) — 48 Гфлоп/с
  • Intel Core i7-975 XE (Nehalem) 3,33 ГГц, 4 ядра (2009) — 53,3 Гфлоп/с
  • AMD Phenom II X4 965 BE 3,4 ГГц, 4 ядра (2009) — 54,4 Гфлоп/с
  • AMD Phenom II X6 1100T 3,3 ГГц , 6 ядер (2010) — 79,2 Гфлоп/с
  • Intel Core i5-2500K (Sandy Bridge), 3,3 ГГц, 4 ядра (2011) — 105,6 Гфлоп/с
  • МЦСТ Эльбрус-8С (Эльбрус v.4) 1,3 ГГц, 8 ядер (2016) — 125 Гфлоп/с[32][33]
  • AMD FX-8350 4 ГГц, 8 ядер (2012) — 128 Гфлоп/с[34]
  • Intel Core i7-4930K (Ivy Bridge), 3,4 ГГц, 6 ядер (2013) — 163 ГФлоп/с
  • Loongson-3B1500 (MIPS64), 1,5 ГГц, 8 ядер (2016) — до 192 ГФлоп/с[35]
  • AMD Ryzen 7 1700X (Zen), 3,4 ГГц, 8 ядер (2017)[36] — 217 ГФлопс[37]
  • МЦСТ Эльбрус-8СВ (Эльбрус v.5) 1,5 ГГц, 8 ядер (2020 — план)[38] — 288 Гфлоп/с[39][40]
  • IBM Power8 4,4 ГГц, 12 ядер (2013), 290 Гфлоп/с
  • Intel Core i7-5960X (Extreme Edition Haswell-E), 3,0 ГГц, 8 ядер (2014) — 384 Гфлоп/с (до 350 Гфлоп/с достижимо на практике[41])
  • Intel Core i9-9900k (Coffee Lake), 3,6 ГГц, 8 ядер (2018)[42] — 460 Гфлоп/с[43]
  • AMD Ryzen 7 3700X (Zen 2), 3,6 ГГц, 8 ядер (2019)[44] — 460 ГФлопс[43]
  • МЦСТ Эльбрус-12С 2 ГГц, 12 ядер (2020 — план) — 576 Гфлоп/с
  • МЦСТ Эльбрус-16С 2 ГГЦ, 16 ядер (2021 — план) — 768 Гфлоп/с[45].
  • AMD Ryzen 9 3950X (Zen 2), 3,5 ГГц, 16 ядер (2019)[46] — 896 ГФлоп/с[47]
  • Loongson 3D5000 (Loongarch64), 2 ГГц, 32 ядра (2022) — 1 терафлопс
  • Loongson 3D6000 (Loongarch64), 2,5 ГГц, 32 ядра (2023) — 2 терафлопса
  • Loongson 3E7000 (Loongarch64), 2,7 ГГц, 64 ядра (2024— план) — 4,2 терафлопса
  • AMD EPYC 7H12 (Zen 2), 3,3 ГГц, 64 ядра (2019)[48] — 4,2 терафлопса[49]
  • AMD EPYC Genoa 9654 (Zen4), 2,15 ГГц, 96 ядер (2022) — 8,1 терафлопса
  • AMD EPYC Bergamo 9754 (Zen4), 2,15 ГГц, 128 ядер (2023) — 10,9 терафлопса
  • PEZY‑SC3 (MIMD) 1,33 ГГц, 8192 ядра (2022) — FP64-21,8 Тфлопс, FP32-43,6 Тфлопс, FP16-87,2 Тфлопс
  • PEZY‑SC4 (MIMD) 1,6 ГГц, 16384 ядра (2023) — FP64-52,5 Тфлопс, FP32-105 Тфлопс, FP16-210 Тфлопс
  • PEZY‑SC5 (MIMD) 2 ГГц, 32768 ядра (2025-2027) — FP64-183 Тфлопс, FP32-366 Тфлопс, FP16-732 Тфлопс

Количество операций FLOP за такт для разных архитектур[править | править код]

Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре. В следующем ниже списке указаны названия микроархитектур, а не семейства процессоров.

(single) — одинарной точности; (double) — двойной точности[50]

  • Intel P5 & P6 (no ISEs) + Pentium Pro & Pentium II = 1 (single); 1 (double)
  • P6 (только Pentium III) = 4 (single); 1 (double)
  • Bonnell (Atom) = 4 (Single); 1 (Double)
  • NetBurst = 4 (single); 2 (double)
  • Pentium M & Enhanced Pentium M = 4 (single); 2 (double)
  • Core, Penryn, Nehalem & Westmere = 8 (single); 4 (double)
  • Sandy Bridge & Ivy Bridge = 16 (single); 8 (double)
  • Haswell, Broadwell, Skylake, Kaby Lake & Coffee Lake = 32 (single); 16 (double)
  • Skylake-X, Skylake-SP, Cascade Lake-X (Xeon Gold & Platinum) = 64 (single); 32 (double)[51][52]
  • Bonnell, Saltwell, Silvermont & Airmont = 6 (single); 1.5 (double)
  • MIC («Knights Corner» Xeon Phi) = 32 (single); 16 (double)
  • MIC («Knights Landing» Xeon Phi) = 64 (single); 32 (double)[51]
  • AMD K5 & K6 = 0.5 (single); 0.5 (double)
  • K6-2 & K6-III = 4 (single); 0.5 (double)
  • K7 = 4 (single); ? (double)
  • K8 = 4 (single); 2 (double)
  • K10/Stars = 8 (single); 4 (double)
  • Husky = 8 (single); 4 (double)
  • Bulldozer, Piledriver, Steamroller & Excavator (Суммарно на пару ядер — модуль[53]) = 16 (single); 8 (double)
  • Bobcat = 4 (single); 1.5 (double)
  • Jaguar, Puma and Puma+ = 8 (single); 3 (double)
  • Zen, Zen+ = 16 (single); 8 (double)
  • Zen 2 = 32 (single); 16 (double)
  • МЦСТ Эльбрус 2000 (E2K) = 16 (single); 8 (double)[54][55]
  • Эльбрус версии 3 = 16 (single); 8 (double)
  • Эльбрус версии 4 = 24 (single); 12 (double)[56][57]
  • Эльбрус версии 5 = 48 (single); 24 (double)[58][59]

Процессоры карманных компьютеров[править | править код]

  • КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 мегафлопса
  • Intel XScale PXA270 520 МГц — 1,6 мегафлопса
  • Intel XScale PXA270 624 МГц — 2 мегафлопса
  • Samsung Exynos 4210 2х1600 МГц — 84 мегафлопса
  • Apple A6 — 645 мегафлопсов (по оценке программы LINPACK)
  • Apple A7 — 833 мегафлопса (по оценке программы LINPACK)[60]
  • Apple A8 — 1,4 гигафлопса[61]
  • Apple A9 — 225,6 гигафлопс(fp32),56,4 гигафлопс (fp64)
  • Apple A10 — 365 гигафлопс(fp32), 91 гигафлопс (fp64)[62]
  • Apple A11 — 462 гигафлопс(fp32),116 гигафлопс (fp64)
  • Apple A12 — 536 гигафлопс(fp32)134 гигафлопс (fp64)
  • Apple A13 — 620 гигафлопс(fp32),155 гигафлопс (fp64)
  • Apple A14 — 824 гигафлопс(fp32), 206 гигафлопс (fp64)[62]
  • Apple A15 — 998 гигафлопс(fp32),250 гигафлопс (fp64)
  • Apple A16 — 1119 гигафлопс(fp32),280 гигафлопс (fp64)
  • Apple A17 Pro — 1252 гигафлопс(fp32),313 гигафлопс (fp64)

Распределённые системы[править | править код]

  • Bitcoin — имеет значительное количество специализированных вычислительных ресурсов, но решает исключительно целочисленные задачи (вычисление хеш-суммы SHA256). Практически все вычислители реализованы в виде специальных заказных микросхем (ASIC), которые технически не способны производить вычисления над числами с плавающей запятой. Следовательно, оценивать сеть Bitcoin с помощью флопсов в настоящее время некорректно.[63][64][65] Ранее, до 2011 года в сети использовались только ЦПУ и ГПУ, которые могут обрабатывать как целочисленные, так и плавающие данные, и оценка во флопсах получалась из метрики hash/s с помощью эмпирического коэффициента в 12,7 тысячи.[66][67] Например, на апрель 2011 мощность сети оценивалась таким методом примерно в 8 петафлопсов.[68]
  • Folding@home — более 2,6 эксафлопса на 23 апреля 2020 года, что делает его самым мощным и крупнейшим проектом распределённых вычислений в мире.
  • BOINC — более 41,5 петафлопса на март 2020 года[69]
  • SETI@home — 0,66 петафлопса (на 2013 год)[70]
  • Einstein@Home — более 5,2 петафлопсов на март 2020 года[71]
  • Rosetta@home — более 1,4 петафлопсов на март 2020 года.

Игровые приставки[править | править код]

Указаны операции с плавающей запятой над 32-разрядными данными

Графические процессоры[править | править код]

Теоретическая производительность (FMA; гигафлопсы):

Графический процессор Год выпуска Техпроцесс Гигафлопсов, для 32-разрядных вычислений Гигафлопсов, для 64-разрядных вычислений Источник
GeForce RTX 4090 (AD102) 2022 4 нм 82580 1290
GeForce RTX 3090 (GA102) 2020 8 нм 29 388 918,4
Geforce RTX 2080 Ti (TU102) 2018 12 нм 13450 420,2 [83]
GeForce GTX 1080 (GP104) 2016 16 нм 8873 (Boost) 277 (Boost)
GeForce GTX 780 Ti (GK110-425-B1) 2013 28 нм 5046 210
GeForce GTX 680 (GK104) 2012 28 нм 3090,4 128,8
Radeon HD 7970 (Tahiti) 2012 28 нм 3789 947-1024 [84]
Radeon HD 6990 (2xCayman) 2011 40 нм 2x2550 = 5100 2x637 = 1274 [84]
Radeon HD 5970 (2xRV870) 2009 40 нм 2x2320 = 4640 2x464 = 928 [84]
Radeon R9 Fury X (Fuji) 2015 28 нм 8602 538 [84]

Человек и калькулятор[править | править код]

Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода-вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность простейших обычных карманных калькуляторов составляет порядка 10 флопсов и более.

Если не брать исключительные случаи (см. феноменальный счётчик), то обычный человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой, таким образом говоря о производительности человека как вычислительного аппарата, приходится использовать такие единицы, как миллифлопсы и даже микрофлопсы.

См. также[править | править код]

Примечания[править | править код]

  1. Новый поворот Архивная копия от 11 сентября 2013 на Wayback Machine Берд Киви, «Мир ПК», № 07, 2012: «Если нынешняя скорость прогресса суперкомпьютеров будет сохраняться, то следующий рубеж производительности в 1 экзафлопс, или квинтиллион (10^18) операций в секунду, ожидается достичь к 2019 г. … полагают, что компьютер производительностью один зеттафлопс (10^21 , или секстиллион операций) можно будет построить примерно к 2030 г. Более того, заранее припасены термины и для следующих вычислительных рубежей — йоттафлопс (10^24) и „ксерафлопс“ (10^27).»
  2. Пета, экза, зетта, йотта… Архивная копия от 3 декабря 2013 на Wayback Machine Берд Киви, «Компьютерра», Дата: 16 июля 2008 года: «За этим рубежом должны последовать зеттафлопс (10^21), йоттафлопс (10^24) и „ксерафлопс“ (10^27).»
  3. 1 2 3 PLAYSTATION 3のグラフィックスエンジンRSX. Дата обращения: 30 декабря 2016. Архивировано 17 сентября 2016 года.
  4. http://ixbtlabs.com/articles3/video/rv670-part1-page1.html Архивная копия от 13 января 2010 на Wayback Machine floating-point ALUs .. support for FP32 precision
  5. Архивированная копия. Дата обращения: 17 августа 2009. Архивировано 5 июля 2009 года. these are single precision GPU peak numbers
  6. Архивированная копия. Дата обращения: 17 августа 2009. Архивировано 15 октября 2009 года. HPL is a software package that solves a dense linear system in double precision (64 bits)
  7. [1] Архивная копия от 1 сентября 2009 на Wayback Machine [2] Архивная копия от 1 сентября 2009 на Wayback Machine HPL Faq entries for precision
  8. Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems) Архивная копия от 4 декабря 2008 на Wayback Machine
  9. SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle. Дата обращения: 28 сентября 2017. Архивировано 16 марта 2012 года.
  10. The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP). Дата обращения: 20 июля 2010. Архивировано 24 мая 2010 года.
  11. 1 2 3 Jack Dongarra. Adaptive Linear Solvers and Eigensolvers (англ.). Argonne Training Program on Extreme-scale Computing. Argonne National Laboratory (13 августа 2014). Дата обращения: 13 апреля 2015. Архивировано из оригинала 24 апреля 2016 года.
  12. Jack Dongarra, Peak Performance — Per Core Архивная копия от 22 декабря 2015 на Wayback Machine / A Look at High Performance Computing, 2015-10-15 (англ.)
  13. 1 2 http://sites.utexas.edu/jdm4372/2016/11/22/sc16-invited-talk-memory-bandwidth-and-system-balance-in-hpc-systems/ Архивная копия от 2 февраля 2017 на Wayback Machine http://sites.utexas.edu/jdm4372/files/2016/11/Slide20.png Архивная копия от 2 февраля 2017 на Wayback Machine
  14. Вычислительная мощность: от первого ПК до современного суперкомьютера. Дата обращения: 19 марта 2020. Архивировано 19 марта 2020 года.
  15. The Emergence of Numerical Weather Prediction: from Richardson to the ENIAC Архивная копия от 2 декабря 2013 на Wayback Machine, 2011
  16. IBM создала самый мощный суперкомпьютер в мире Архивная копия от 4 июля 2008 на Wayback Machine (рус.), Lenta.ru Архивная копия от 9 ноября 2012 на Wayback Machine, 9 июня 2008 года
  17. T-PLATFORM A-CLASS CLUSTER, XEON E5-2697V3 14C 2.6GHZ, INFINIBAND FDR, NVIDIA K40M Архивная копия от 29 ноября 2014 на Wayback Machine // Top 500, November 2014
  18. Новый рейтинг TOP500 суперкомпьютеров Архивная копия от 21 ноября 2014 на Wayback Machine // Компьютерра, 18 ноября 2014: «… кластер A-Class, созданный компанией „Т-Платформы“ для Научно-исследовательского вычислительного центра МГУ.»
  19. Новый суперкомпьютер в МГУ вошел в Top500 Архивная копия от 17 ноября 2016 на Wayback Machine // Мир ЦОД, Открытые системы, 19.11.2014: «В новом суперкомпьютере МГУ всего пять вычислительных стоек с 1280 узлами на базе 14-ядерных процессоров Intel Xeon E5-2697 v3 и ускорителей NVIDIA Tesla K40 с общей емкостью оперативной памяти более 80 Тбайт. … Каждая стойка суперкомпьютера потребляет около 130 кВт»
  20. Christofari — NVIDIA DGX-2, Xeon Platinum 8168 24C 2.7GHz, Mellanox InfiniBand EDR, NVIDIA Tesla V100 Архивная копия от 3 января 2020 на Wayback Machine — top500, 2019-11
  21. Видео-презентация суперкомпьютера Кристофари. SberCloud. Дата обращения: 27 декабря 2019. Архивировано 17 декабря 2019 года.
  22. Сбербанк создал самый мощный в России суперкомпьютер. РИА Новости (20191108T1123+0300Z). Дата обращения: 8 ноября 2019. Архивировано 8 ноября 2019 года.
  23. Японский суперкомпьютер обогнал по производительности китайский Архивная копия от 5 ноября 2011 на Wayback Machine (рус.)
  24. Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List Архивная копия от 11 сентября 2017 на Wayback Machine, TOP500 News Team | July 16, 2012 (англ.)
  25. Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power Архивная копия от 3 июля 2017 на Wayback Machine // PCWorld, Computers, Oct 29, 2012 (англ.)
  26. Перспективные особенности Tianhe-2 Архивная копия от 28 ноября 2014 на Wayback Machine // «Открытые системы», № 08, 2013
  27. Производительность вычислений одинарной точности у большинства процессоров ровно в 2 раза выше указанных значений.
  28. От 1200 до 4900 рабочих тактов процессора на выполнение 1 инструкции двойной точности в зависимости от их типа, операции одинарной точности выполнялись примерно в 10 раз быстрее: https://datasheetspdf.com/pdf/1344616/AMD/Am9512/1 Архивная копия от 26 декабря 2019 на Wayback Machine (страница 4)
  29. 1 2 3 4 5 Ryan Crierie. http://www.alternatewars.com/BBOW/Computing/Computing_Power.htm (англ.). Alternate Wars (13 марта 2014). Дата обращения: 23 января 2015. Архивировано 23 января 2015 года.
  30. 1 2 3 Jack J. Dongarra. Performance of Various Computers Using Standard Linear Equations Software (англ.) (15 июня 2014). Дата обращения: 23 января 2015. Архивировано 17 апреля 2015 года.
  31. Микропроцессор Эльбрус-4С. МЦСТ. Дата обращения: 28 июня 2015. Архивировано из оригинала 4 июня 2014 года.
  32. Центральный процессор «Эльбрус-8С» (ТВГИ.431281.016). АО "МЦСТ". Дата обращения: 16 декабря 2017. Архивировано 30 марта 2018 года.
  33. По шесть 64 разрядных FMAC блоков в каждом ядре: 8 х 1,3 х 6 х 2 = 124,8 ГФлоп/с пиковой производительности при вычислениях двойной точности
  34. По два 128 разрядных FMAC блока в каждом модуле, объединяющем пару ядер, работающих на частоте 4 ГГц: 4х4х2х2х128/64 = 128 ГФлоп/с пиковой производительности при вычислениях двойной точности
  35. Alex Voica. New MIPS64-based Loongson processors break performance barrier (англ.) (3 сентября 2015). Дата обращения: 4 февраля 2017. Архивировано из оригинала 5 февраля 2017 года.
  36. Архивированная копия. Дата обращения: 26 декабря 2019. Архивировано 27 июня 2019 года.
  37. По два 128 разрядных FMAC блока в каждом ядре: 8 х 3,4 х 2 х 2 х 128/64 = 217,6 Гфлоп/с пиковой производительности при вычислениях двойной точности
  38. Микропроцессор «Эльбрус-8СВ» (ТВГИ.431281.023). АО "МЦСТ". Дата обращения: 16 декабря 2017. Архивировано 27 декабря 2019 года.
  39. Первый Эльбрус-8СВ. Дата обращения: 23 сентября 2017. Архивировано 23 сентября 2017 года.
  40. По шесть 128 разрядных FMAC блоков в каждом ядре: 8 х 1,5 х 6 х 2 х 128/64 = 288 Гфлопс пиковой производительности при вычислениях двойной точности
  41. Linpack performance Haswell E (Core i7 5960X and 5930K) — Puget Custom Computers. Дата обращения: 15 января 2015. Архивировано 27 марта 2015 года.
  42. Процессор Intel® Core™ i9-9900K (16 МБ кэш-памяти, до 5,00 ГГц) Спецификации продукции. Дата обращения: 26 декабря 2019. Архивировано 5 марта 2021 года.
  43. 1 2 По два 256 разрядных FMAC блока в каждом ядре: 8 х 3,6 х 2 х 2 х 256/64 = 460 ГФлоп/с
  44. Архивированная копия. Дата обращения: 26 декабря 2019. Архивировано 27 июня 2019 года.
  45. Микропроцессор Эльбрус 16С (получены первые инженерные образцы). Дата обращения: 30 января 2020. Архивировано 4 января 2020 года.
  46. Архивированная копия. Дата обращения: 26 декабря 2019. Архивировано 24 июля 2019 года.
  47. По два 256 разрядных FMAC блока в каждом ядре: 16 х 3,5 х 2 х 2 х 256/64 = 896 ГФлоп/с
  48. AMD EPYC 7H12 Specs (англ.). TechPowerUp. Дата обращения: 10 октября 2021.
  49. AMD представила свой самый производительный 64-ядерный процессор. iXBT.com. Дата обращения: 10 октября 2021. Архивировано 10 октября 2021 года.
  50. architecture — How to compute the single-precision data and double-precision data peak performance for Intel(R) Core™ i7-3770 CPU — Stack Overflow. Дата обращения: 15 октября 2017. Архивировано 22 октября 2015 года.
  51. 1 2 Обзор Intel® Advanced Vector Extensions 512 (Intel® AVX-512). Дата обращения: 24 декабря 2019. Архивировано 24 декабря 2019 года.
  52. Указанное количество инструкций за такт способны исполнять только старшие представители этих архитектур, продающиеся под маркетинговыми наименованиями Xeon Platinum и Xeon Gold начиная с серии 6ххх, которые имеют по два 512 разрядных FMAC блока в каждом ядре для выполнения AVX-512 инструкций. У всех младших моделей: Xeon Bronze, Xeon Silver и Xeon Gold 5ххх один из FMAC блоков отключен и поэтому максимальный темп исполнения инструкций с плавающей точкой снижен в 2 раза.
  53. Блок обработки операций с плавающей запятой (FPU) является общим на модуль — пару ядер процессора. При одновременном исполнении плавающих операций на обоих ядрах он разделяется между ними.
  54. Краткое описание архитектуры Эльбрус/Эльбрус. Дата обращения: 26 декабря 2019. Архивировано 11 июня 2017 года.
  55. Данная микроархитектура относится к классу VLIW и имеет 6 параллельных каналов исполнения инструкций, 4 из которых оснащены 64 разрядными блоками вычислений с плавающей точкой типа FMAC.
  56. Эльбрус-8С (ТВГИ.431281.016) / Эльбрус-8С1 (ТВГИ.431281.025) — центральный процессор 1891ВМ10Я / 1891ВМ028/МЦСТ. Дата обращения: 16 декабря 2017. Архивировано 30 марта 2018 года.
  57. В 4 м поколении архитектуры 64 разрядные FMAC блоки имеются уже на всех 6 каналах исполнения инструкций.
  58. Эльбрус-8СВ (ТВГИ.431281.023) — центральный процессор 1891ВМ12Я/МЦСТ. Дата обращения: 16 декабря 2017. Архивировано 27 декабря 2019 года.
  59. В 5 м поколении архитектуры разрядность всех FMAC блоков была увеличена с 64 до 128.
  60. Сергей Уваров. Подробный обзор и тестирование Apple iPhone 5s. IXBT.com (23 сентября 2013). Архивировано 2 октября 2013 года.
  61. Apple A8 SoC — NotebookCheck.net Tech. Дата обращения: 15 января 2015. Архивировано 20 декабря 2014 года.
  62. 1 2 Apple A10 - Сравнительные характеристики и тесты ЦП. Дата обращения: 22 января 2022. Архивировано 22 января 2022 года.
  63. [3] Архивная копия от 30 августа 2017 на Wayback Machine // Gizmodo, 5/13/13: «Because Bitcoin miners actually do a simpler kind of math (integer operations), you have to do a little (messy) conversion to get to FLOPS. .. new ASIC miners—machines .. do nothing but mine Bitcoins—can’t even do other kinds of operations, they’re left out of the total entirely.»
  64. [4] Архивная копия от 3 декабря 2013 на Wayback Machine // SlashGear, May 13, 2013: «Bitcoin mining technically doesn’t operate using FLOPS, but rather integer calculations, so the figures are converted to FLOPS for a conversion that most people can understand more. Since the conversion process is a bit weird, it’s led to some experts calling foul on the mining figures.»
  65. [5] Архивная копия от 27 ноября 2013 на Wayback Machine // ExtremeTech: «As Bitcoin mining doesn’t rely on floating-point operations, these estimates are based on opportunity costs. Now that we have hardware with application-specific integrated circuits (ASIC) designed from the ground up to do nothing but mine Bitcoins, these estimates become even more fuzzy.»
  66. [6] Архивная копия от 3 декабря 2013 на Wayback Machine // CoinDesk [неавторитетный источник]: «Two, the estimates used to convert hashes to flops (resulting in about 12,700 flops per hash) date to 2011, before ASIC devices became the norm for bitcoin mining. ASICs don’t handle flops at all, so the current comparison is very rough.»
  67. [7] Архивная копия от 3 декабря 2013 на Wayback Machine // VR-Zone: «A conversion rate of 1 hash = 12.7K FLOPS is used to determine the general speed of the network contribution. The estimate was created in 2011, before the creation of ASIC hardware solely designed for bitcoin mining. ASIC doesn’t use floating point operations at all,… Thus, the estimate doesn’t have any real-world meaning for such hardware.»
  68. Bitcoin Watch, архивная копия от 2011-04-08: «Network Hashrate TFLOP/s 8007»
  69. BOINC Архивировано 19 сентября 2010 года.
  70. BOINCstats:SETI@home Архивировано 3 мая 2012 года.
  71. BOINCstats:Einstein@Home. Дата обращения: 16 апреля 2012. Архивировано 21 февраля 2012 года.
  72. 1 2 Console Specs. Дата обращения: 7 декабря 2017. Архивировано 10 апреля 2021 года.
  73. PSP Specs Revealed Processing speed, polygon rate and lots more. Архивная копия от 28 июля 2009 на Wayback Machine // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»
  74. Update: How many FLOPS are in game consoles? Архивная копия от 9 ноября 2010 на Wayback Machine // TG Daily, May 26, 2008
  75. Cell Broadband Engine Architecture and its first implementation. IBM developerWorks (29 ноября 2005). Дата обращения: 6 апреля 2006. Архивировано 24 января 2009 года.
  76. Exploiting the Performance of 32 bit Floating Point Arithmetic in Obtaining 64 bit Accuracy. University of Tennessee (31 июля 2005). Дата обращения: 11 февраля 2011. Архивировано 18 марта 2011 года.
  77. Philip Wong (2013-05-22). "Xbox One vs. PS4 vs. Wii U [update]" (англ.). CNET Asia, Games & Gear. Архивировано из оригинала 3 декабря 2013. Дата обращения: 29 ноября 2013. {{cite news}}: Неизвестный параметр |deadlink= игнорируется (|url-status= предлагается) (справка)
  78. Anand Lal Shimpi. The Xbox One: Hardware Analysis & Comparison to PlayStation 4 (англ.). Anandtech[en] (22 мая 2013). Архивировано 2 октября 2013 года.
  79. Спецификация PS4. Дата обращения: 22 июня 2013. Архивировано из оригинала 20 июня 2013 года.
  80. Технические характеристики. Playstation. Дата обращения: 14 декабря 2018. Архивировано 4 мая 2019 года.
  81. Sony раскрыла характеристики новой PlayStation. РИА Новости (20200318T2333+0300). Дата обращения: 20 марта 2020. Архивировано 20 марта 2020 года.
  82. What You Can Expect From the Next Generation of Gaming (англ.). Xbox Wire (24 февраля 2020). Дата обращения: 24 февраля 2020. Архивировано 24 февраля 2020 года.
  83. NVIDIA GeForce RTX 2080 Ti Specs | TechPowerUp GPU Database
  84. 1 2 3 4 Сравнительные таблицы графических карт AMD (ATI) Radeon. Дата обращения: 24 февраля 2012. Архивировано 28 февраля 2012 года.

Ссылки[править | править код]