13.04.2012 | wolfsanek | (98)
1 - Немного об архитектуре Kepler 2 - Zotac GeForce GTX 680 (ZT-60601-10P) 3 - Методика тестирования 4 - Результаты тестирования. Ч.1 5 - Результаты тестирования. Ч.2. Выводы Отобразить одной страницей
В бесконечной гонке за первенство на рынке графических ускорителей AMD удалось одержать очередную победу, выпустив Radeon HD 7970 на базе чипа, изготовленного по нормам 28-нм технологического процесса. За новоявленным одночиповым королем графики последовал младший брат в лице Radeon HD 7950 и видеокарты среднего ценового диапазона. Ситуация напоминает стремительную экспансию AMD во времена Radeon HD 5000. Пока NVIDIA рассказывала про чудесную архитектуру Fermi, конкуренты уже успешно продавали реальные видеокарты нового поколения. GeForce GTX 480 появился лишь спустя полгода после Radeon HD 5870 и вышел не только быстрее, но и значительно горячее и шумнее. В этот раз переход на новую архитектуру Kepler и новый техпроцесс у NVIDIA снова затянулся. Премьера флагмана опять грозила припоздниться на немалый срок, поэтому компания вначале даже планировала запуск новых продуктов в среднем ценовом сегменте. Однако после релиза старшего Radeon стратегия была изменена. Представители компании снисходительно заявили, что от Radeon HD 7900 они ожидали большего , а их новинка теперь уж точно будет супер-пупер и просто вне конкуренции. После этого начали появляться слухи о преобразовании продукта, который мог стать GeForce GTX 660, в ускоритель уровнем повыше — GeForce GTX 680.
Все в итоге так и оказалось. Новый флагман NVIDIA базируется на графическом процессоре GK104. Сам индекс, оканчивающийся на 4, намекает на родство с GF114 и GF104 , давших жизнь многочисленным модификациям GeForce GTX 560/460.
Архитектура Kepler напоминает Fermi. В основе графического процессора — независимые кластеры GPC (Graphics Processing Cluster). У GK104 их 4, как и у GF100/GF110. Но если старые процессоры содержали по четыре мультипроцессора (Streaming Multiprocessor) на один кластер, то у Kepler их два. Зато мультипроцессоры (которые теперь обозначены аббревиатурой SMX) значительно изменились.
SMX намного производительнее старых SM. Один мультипроцессор теперь состоит из 192 стрим-процессоров (CUDA cores в интерпретации NVIDIA), 16 текстурных блоков, 32 блоков специальных фукций SFU и 32 LD/ST для загрузки и хранения данных. Один SM у старых GPU имел в своем активе лишь 32 потоковых процессора, четыре текстурных блока, четыре SFU и 16 LD/ST. Разница огромная. Связана она и с тем, что у Kepler все блоки работают на одной частоте. Удвоенная частота вычислительных блоков Fermi позволяла за один такт 16 ядрам выполнять 32 инструкции, т.е. обрабатывать так называемый warp, который распределяет между мультипроцессорами GigaThread Engine. Каждое CUDA ядро состоит из FPU и ALU. Даже с учетом удвоенной частоты вычислительных ядер у предшественников можно говорить о трехкратном росте вычислительной мощности мультипроцессора благодаря большему числу ядер. А 32 SFU обеспечивают четырехкратное преимущество в скорости выполнения сложных математических операций. Не изменился объем кэш-памяти L1, которыйпо прежнему 64 КБ у каждого мультипроцессора.
Увеличение количества вычислительных блоков потребовало удвоения числа планировщиков (Warp Scheduler), каждый из которых связан с двумя диспетчерами (Dispatch Unit). Но при этом логика управления была упрощена, что сделано в угоду экономии площади чипа и общего снижения энергопотребления. В Fermi планировщик полностью отслеживал зависимости внутри исполняемого кода и перераспределял потоки, теперь часть этих функций выполняется на этапе компиляции кода. Порядок выполнения предопределяется заранее, а планировщик лишь распределяет потоки.
Еще один неприятный момент — уменьшение кэш-памяти L2. Топовый процессор прошлого поколения нес на борту 768 КБ, а у нынешнего флагмана лишь 512 КБ. Но выросла его пропускная способность, озвучиваемая разница составляет 73%. Скорость атомарных операций выше в несколько раз. Вышло меньше, но значительно быстрее.
Изменилось соотношение движков растеризации и ROP. Одному Raster Engine теперь соответствует один большой ROP, который обрабатывает 8 пикселов за такт (поэтому говорят о 32 ROP). У GF110 соотношение было 4:6, т.е. в целом обрабатывалось 48 пикселей за такт. Новое соотношение NVIDIA считает более оптимальным.
Четыре мультипроцессора и 32 ROP роднят новичка с GeForce GTX 560/460. Усиливает сходство и 256-битная шина памяти, которой в топовых видеоадаптерах NVIDIA не было уже много лет. Графический процессор GK104 оснащен лишь четырьмя 64-битными контроллерами. Пропускная способность памяти должна компенсироваться высокой частотой микросхем GDDR5, что стало возможно благодаря переработанным контроллерам. Не секрет, что первые видеокарты Fermi не радовали высокими частотами памяти. Представители пятисотой серии в этом плане стали получше. У GeForce GTX 680 еще больший прогресс. Это первая видеокарта, память которой функционирует на эффективной частоте 6008 МГц, что позволяет достичь идентичной пропускной способности с 384-битным GeForce GTX 580. Но вот у Radeon HD 7970 с 512-битной шиной ПСП выше почти на 38%.
Объем памяти GeForce GTX 680 тоже меньше, чем у флагмана AMD — 2 ГБ против 3 ГБ. Но реально три гигабайта востребованы сейчас разве что в мультимониторных конфигурациях. Даже в 2560x1440 третий гигабайт будет актуален в редких играх. В Full HD двух гигабайт пока хватает с лихвой. К примеру, из всех наших тестов в 1920x1080 даже полтора гигабайта смог загрузить только Crysis 2 с улучшенными текстурами.
Как уже говорилось выше, основной задачей инженеров NVIDIA было достигнуть наилучшего соотношения производительности и энергоэффективности. Значительный прогресс по этому показателю иллюстрирует следующий слайд.
Высокая производительность GeForce GTX 680 обеспечивается и высокой частотой GPU. В придачу новинка обзавелась еще автоматическим разгоном GPU Boost. Эта технология является аналогом Turbo-технологий у CPU. GK104 может поднимать свою частоту в моменты не максимальной загрузки, когда TDP ниже предела 195 Вт. На аппаратном уровне отслеживается загрузка графического процессора и памяти, осуществляется контроль мощности и температуры. На основании всех этих данных GPU ускоряется до определенного уровня и работает на этой частоте, пока не превысит порог TDP.
Видеоадаптер | GeForce GTX 680 | GeForce GTX 580 | GeForce GTX 480 |
Ядро | GK104 | GF110 | GF100 |
3500 | 3000 | 3200 | |
Техпроцесс, нм | 28 | 40 | 40 |
Площадь ядра, кв. мм | 294 | 520 | 526 |
1536 | 512 | 480 | |
Количество текстурных блоков | 128 | 64 | 60 |
Количество блоков рендеринга | 32 | 48 | 48 |
Частота ядра, МГц | 1006+ | 772 | 701 |
1006+ | 1544 | 1401 | |
Шина памяти, бит | 256 | 384 | 384 |
Тип памяти | GDDR5 | GDDR5 | GDDR5 |
Частота памяти, МГц | 6008 | 4008 | 3696 |
Объём памяти, МБ | 2048 | 1536 | 1536 |
11.1 | 11 | 11 | |
Интерфейс | PCI-E 3.0 | PCI-E 2.0 | PCI-E 2.0 |
195 | 244 | 250 |
Есть у Kepler и эксклюзивные возможности, которые пока не реализованы в DirectX 11. Новый графический процессор получил поддержку технологии Bindless Textures. В старых GPU шейдерная программа обращалась к 128 текстурам через специальную таблицу. Bindless Textures позволяет работать с текстурами напрямую без таблицы привязки. И одна шейдерная программа может использовать до миллиона текстур. Вот только использовать такие возможности можно пока лишь в OpenGL или при помощи NVAPI.
NVIDIA разработала еще один более качественный метод сглаживания под названием TXAA. Он сочетает в себе аппаратные методы MSAA и постобработку готового кадра. Предлагается два режима TXAA. Один соответствует по качеству 8x MSAA, а по производительности 2x MSAA. Другой режим еще более качественный при сопоставимой производительности с работой алгоритма 4x MSAA.
Еще одно новшество — Adaptive VSync. Обычная вертикальная синхронизация позволяет избавиться от разрывов кадров (tearing), когда fps превышает частоту обновления монитора. Но включение этой функции в ресурсоемких играх, когда видеокарта просто не в состоянии выдать положенные 60 fps, приводит к общему падению производительности. Adaptive VSync динамически включается и отключается в зависимости от fps. Если видеокарта выдает более 60 кадров в секунду, включается синхронизация, если меньше — выключается. Таким образом Adaptive VSync позволит минимизировать вероятность разрывов кадра без дополнительного снижения fps в тяжелых сценах. Эту функцию можно будет включить для любого приложения в панели управления.
GeForce GTX 680 поддерживает одновременный вывод на четыре монитора. В режиме 3D Vision Surround возможен вывод 3D-изображения на три монитора. Ранее это было возможно лишь с GeForce GTX 590 . В мультимониторном стерео-режиме четвертый экран можно задействовать для просмотра браузера, электронной почты и других приложений.
Поддерживаются интерфейсы DisplayPort 1.2 и HDMI 1.4a с многопоточным выводом звука. Видеокарта может выводить изображение на мониторы Ultra High Definition с разрешением 3840x2160.
Процессор GK104 обзавелся специальным блоком NVENC для аппаратного кодирования видео в формате H.264 с поддержкой разрешений вплоть до 4096x4096. Производительность NVENC намного быстрее кодирования с помощью CUDA, при этом обещано энергопотребление на уровне 10 Вт. Для максимального ускорения можно вместе с NVENC параллельно задействовать и CUDA. Поддержка кодирования при помощи NVENC уже присутствует в программе Cyberlink MediaEspresso, в ближайшее время к ней присоединятся Cyberlink PowerDirector и Arcsoft MediaConverter.
После рассмотрения технических особенностей GK104 и основных характеристик GeForce GTX 680 настало время познакомиться с самой видеокартой для изучения ее конструктивных особенностей.
К нам в руки попала видеокарта от Zotac. Упаковка немного изменилась. Ранее топовые GeForce компания предлагала в компактных блестящих коробках с изображением драконов. Нынешняя упаковка больше, но выглядит проще.
Комплектация богатая:
Возле колодки с разъемами питания есть посадочное место под второй разъем. Так что вполне возможно появление в продаже референсных моделей с традиционным расположением разъемов при использовании нестандартного охлаждения. Некоторые из таких видеокарт уже мелькали в нашей новостной ленте. Дизайн платы отличается от GeForce GTX 580.
Технология GPU Boost простым геймерам-оверклокерам жизнь никак не усложнит. Порядок разгона прост: вначале поднимаем предел энергопотребления, потом разгоняем. Без увеличения предела не обойтись, ведь частоты видеокарты зависят от уровня энергопотребления. Вполне может случиться, что видеокарта будет сбрасывать частоты ниже тех, что вы установили при разгоне. Тогда прирост производительности не будет соответствовать приросту по частотам. Кстати, одним лишь увеличением предела тоже можно немного разогнать GPU, не изменяя его базовую частоту, он будет все время работать с наибольшим ускорением.
Мы установили максимальный предел энергопотребления в 132%, но все равно достигнуть полной стабильности при базовой частоте свыше 1200 МГц не удавалось. После длительного подбора частот и прогона разных тестов, остановились на +190 МГц. То есть базовая частота в итоге составила 1196 МГц. Напряжение даже не пришлось повышать, оно само увеличивается с увеличением частоты. Память стабильно заработала на 6848 МГц.
Отметим еще, что разгон мы осуществляли при максимальных оборотах вентилятора. Режим мало практичный, ведь шум очень высокий. Впрочем, и частоты разогнанного Radeon HD 7970 в нашем тестировании достижимы на референсе только при высоких оборотах и шуме. Поэтому основные конкуренты в равных условиях. А мы получим возможность сравнить потенциал каждой видеокарты.
Характеристики тестируемых видеокарт
Видеоадаптер | GeForce GTX 680 | GeForce GTX 580 | Radeon HD 7970 |
Ядро | GK104 | GF110 | Tahiti |
Количество транзисторов, млн. шт | 3500 | 3000 | 4312 |
Техпроцесс, нм | 28 | 40 | 28 |
Площадь ядра, кв. мм | 294 | 520 | 365 |
Количество потоковых процессоров | 1536 | 512 | 2048 |
Количество текстурных блоков | 128 | 64 | 128 |
Количество блоков рендеринга | 32 | 48 | 32 |
Частота ядра, МГц | 1006+ | 772 | 925 |
Частота шейдерного домена, МГц | 1006+ | 1544 | 925 |
Шина памяти, бит | 256 | 384 | 384 |
Тип памяти | GDDR5 | GDDR5 | GDDR5 |
Частота памяти, МГц | 6008 | 4008 | 5500 |
Объём памяти, МБ | 2048 | 1536 | 3072 |
Поддерживаемая версия DirectX | 11.1 | 11 | 11.1 |
Интерфейс | PCI-E 3.0 | PCI-E 2.0 | PCI-E 3.0 |
Заявленная максимальная потребляемая мощность, Вт | 195 | 244 | 250 |
Тестовый стенд
Конфигурация тестового стенда следующая:
Методика тестирования
Игры расположены в алфавитной порядке в соответствии с их полным названием. В конце приведены результаты тестирования в 3DMark 11.
При разрешении 1920x1080 все параметры и дальность прорисовки установлены на максимум, сглаживание 8x. Тестирование проводилось на самом первом уровне после первой контрольной точки. По четыре раза переигрывалась коротенькая сценка: идем по шоссе к фонарю, потом камера пролетает сквозь затуманенный лес и показывает маяк, продолжаем движение до разрушенного моста. Измерения производились с помощью Fraps. Минимум производительности приходится на момент пролета камеры над лесом во время фиксации на маяке.
Выставлены максимальные настройки качества изображения под DirectX 11, детализация «экстремальная», сглаживание 8x MSAA. Использовался встроенный тест производительности, который прогонялся по четыре раза. В случае большого разброса результатов проводились дополнительные прогоны теста. Проведено тестирование при дополнительной активации эффектов PhysX высокого качества. Для GeForce использовалось аппаратное ускорение PhysX средствами видеокарты, в системе с Radeon вся нагрузка естественно ложилась на центральный процессор.
Частота кадров измерялась при помощи Fraps. Выбрана миссия «Молот и наковальня» (Rock and a hard place). После первой контрольной точки мы спускаемся по склону холма в долину до укреплений врага. Тестовая сценка включала кроме спуска начало перестрелки при штурме первого ряда укреплений. Огонь велся по двум точкам из-за укрытия через прицел. С учетом простого спуска общий порядок действий легко повторим, а итоговые результаты не зависят от случайных факторов. Плюс в кадре находится не только большая площадь с детализированными текстурами, но и световые эффекты выстрелов, и взрывы. Это помогает создать максимально адекватную картину реальной производительности как в сложных насыщенных сценах одиночной кампании, так и в многопользовательских схватках. Все параметры детализации и качества на Ultra под DirectX 11, задействован максимально возможный режим сглаживания AA4x.
Два пятикратных прогона демо Ambush из Crysis Warhead Benchmarking Tool. Настройки графики максимальные (Enthusiast) под DirectX 10 при сглаживании AA8x.
С последними обновлениями и текстурным паком Crysis 2 является одной из самых ресурсоемких современных игр. Но вот нормальных средств тестирования для игры по-прежнему нет. Результаты Adrenaline Crysis 2 Benchmark Tool далеки от реальности. К примеру, если в этом тесте карта выдавала более 70 fps, то в реальной игре 50. Бенчмарк от NVIDIA (oaMan) должен быть более объективным, потому как моделируют более сложную сцену. Вот только подружить его с нашей версией Crysis 2 нам так и не удалось (судя по иностранным форумам, мы такие не одни). В итоге приходиться действовать по старинке, переигрывая определенный эпизод игры с измерением fps при помощи Fraps.
По три четыре раза переигрывалась небольшая сценка на первом уровне. Прогулка по парковой аллейке сопровождалась расстрелом водной поверхности и группы камней (именно в такие моменты наблюдаются сильные просадки fps). В итоге тест получился хоть и короткий, но разнообразный и насыщенный, с обилием сложных геометрических объектов и поверхностей, для которых используется тесселяция, плюс дым из множества частиц и динамически изменяющаяся поверхность воды. Результаты могут немного отличаться от старых тестов, потому как теперь мы увеличили количество стрельбы, чтобы немного повысить нагрузку. Все настройки графики Ultra, включены текстуры повышенного разрешения.
Встроенный тест производительности (трасса Aspen), четыре прогона для уменьшения погрешности. Разрешение 1920x1080, все настройки графики максимальные (High и Ultra) при сглаживании 8x MSAA.
Deus Ex: Human Revolution
Данная игра отличается низкими требованиями к видеокарте, что вполне объясняется скромными возможностями графического движка, хотя поддержка DirectX 11 имеется. Для теста специально подобрана сценка, в которой задействованы разные визуальные эффекты. Дело в том, что кроме улучшенной системы освещения под DirectX 11 используются еще эффекты глубины резкости и тесселяция для персонажей. Сам тест включал небольшую пробежку по ярко совещенной взлетной площадке до вертолета и начало диалога Адама с Фаридой. В диалогах нам как раз и демонстрируют крупным планом персонажей, а задний план «прячется» за эффектом Depth of field. С учетом ярко освещенного фона и бликующей поверхности вертолета, нагрузка на видеокарту лишь повышается. Так что такая простая сценка вполне позволит судить о реальной производительности в игре. Настройки максимальные под DirectX 11, включено «краевое сглаживание». Четыре повтора.
Hard Reset
Ранее тесты в этой игры производились в «ручном» режиме — переигрывался небольшой эпизод и замерялся fps при помощи Fraps. Этот метод наиболее точно отображал ситуацию в игре. Мы специально подобрали уровень «Шоссе» и главу «Госпиталь» с насыщенными световыми эффектами, где расстреливали из энергетического оружия машины в стеклянном ярко освещенном туннеле. Множество взрывов, вспышек и разных визуальных эффектов — все как во время самых горячих перестрелок с множеством врагов. Но после разразившейся полемики в нашей Конференции сделан выбор в пользу более простого встроенного теста производительности. В нем камера пролетает над улицам ночного города, насыщенных взрывами и вспышками эпизодов немного. Поэтому итоговые результаты по среднему fps высокие. И мы бы рекомендовали ориентироваться на минимальный fps, потому как именно он покажет, насколько плавно будет идти игра во время динамичных перестрелок.
Максимальные настройки качества («Высоко»), сглаживание AA4x, разрешение 1920x1080. Пять прогонов встроенного теста для уменьшения погрешности.
Максимальные настройки качества, сглаживание в режиме 8x. Дополнительные параметры в виде размытия фона и улучшенной воды, которые доступны только на решениях GeForce, не активировались. По четыре раза прогонялся встроенный тест производительности «Бетонные джунгли» (Concrete Jungle), минимальный fps фиксировался с помощью Fraps.
Использовался специальный бенчмарк, который был выпущен независимо от игры. По два раза прогонялся наиболее тяжелый Test B при максимальных настройках качества под DirectX 11. Минимальный fps фиксировался с помощью Fraps. Ранее мы отмечали, что обходились без него по причине странных просадок на некоторых видеокартах в последней сцене, буквально за секунду за окончания теста. Ситуация не изменилась, такие просадки заметны на всех GeForce и на некоторых Radeon. Хотя если сравнивать графики частоты кадров на разных картах, ясно, что реальный минимум у всех приходится на сцену в середине теста. А падение частоты кадров до одного и того же уровня на разных графических решением на предпоследней секунде теста никак не определяется мощностью этих самых графических решений. Поэтому мы просто прерывали Fraps перед этой сценой. Сглаживание 4x MSAA. MSAA в режиме 8x поддерживается лишь на Radeon, для GeForce предлагаются уже режимы CSAA.
Metro 2033
Стандартный тест производительности, демо Frontlines. Настройки графики Very High под DirectX 11, включены тесселяция и эффект Depth of Field. Дополнительно проведены тесты со сглаживанием AA4x. Итоговые данные — среднее значение по итогам трех пятикратных прогонов демо-записи.
Saints Row: The Third
Эту игру ранее мы уже использовали для тестирования Radeon HD 7970 и Radeon HD 7950. В этот раз подобрана чуть более сложная сценка с множеством источников освещения. Это первая прогулка по городу после перестрелки в самолете. Пробегаем через переулок красных фонарей до машины, которую нам предлагают украсть, и расстреливаем ее из автомата. Настройки графики Ultra в разрешении 1920x1080 при сглаживании 8x MSAA. Четыре повтора для уменьшения погрешности.
Для тестирования выбрана площадь с обелиском на первом уровне «Лето в Каире». Территория предварительно зачищена от врага и сам тест включал простую пробежку по данной площади сквозь зеленые насаждения. Даже без перестрелок и взрывов сцена очень тяжела из-за обильной растительности и большой территория с детализированным окружением. Разрешение 1920x1080, качество графики на Ultra. Некоторые параметры установлены в еще более высокое значение: технология и качество Parralax, качество объемного освещения, плотность теней. Сглаживание MSAA в режиме 8x. Поэтому на графике эти настройки обозначены как Ultra+. Для иллюстрации наших нестандартных настроек ниже приведены соответствующие скриншоты из меню игры.
Sid Meier"s Civilization 5
Максимальные настройки графики под DirectX 11, сглаживание AA8x. Запускался Late Game View benchmark, который включает глобальную детализированную карту с множеством объектов на ней. Карта изначально сделана для мониторов с соотношением сторон 16:10, поэтому вне зависимости от настроек разрешения тестовая сценка будет рендериться в 1680x1050 или 1920x1200. На мониторе Full HD будет работать только 1680x1050. Поэтому данная игра единственная, в которой задействовано такое разрешение. Итоговый результат в баллах, а не в fps. Отметим еще, что учитывался лишь Full Render Score при полнофункциональном рендеринге.
The Elder Scrolls V: Skyrim
Для тестирования выбрана самая первая скриптовая сценка, в которой заключенных везут в город по горной дороге. С помощью Fraps измерялась частота кадров от момента появления логотипа The Elder Scrolls до проезда через ворота (130 секунд). Камера в фиксированном положении. После приглашения осмотреться ее положение изменялось так, чтобы по центру была дорога и открывался больший обзор вдаль. Настройки графики Ultra при сглаживании AA8x. Активированы текстуры повышенного разрешения. Ограничение в 60 fps отключено путем добавления строки iPresentInterval=0 в Skyrim.ini.
Использовался встроенный тест производительности. Настройки графики установлены на максимум, плюс активированы все дополнительные возможности рендеринга для DirectX 11, которые сама игра не включает при выборе максимального качества. Поэтому наши настройки обозначены как Ultra+. Тестирование проводилось при сглаживании MSAA в режимах 4x и 8x.
Тест прогонялся по два раза для каждого режима. Минимальный fps фиксировался Fraps.
Тестирование проводилось при максимальных настройках качества без активации «запредельного качества» и при включении этого параметра. В этой игре некоторые параметры при выборе максимального профиля настроек можно поднять еще выше. Поэтому приводим скриншоты наших настроек.
Тест проводился на профиле настроек Performance (1280x720) и Extreme (1920x1080). На графиках приведен общий итоговый балл и GPU Score.
Энергопотребление
Во время игрового тестирования измерялся уровень общего энергопотребления тестового стенда. Для того, чтобы сравнение энергопотребления видеокарт было максимально объективным, мы проводили замеры в нескольких приложениях. На эту роль выбрано 8 ресурсоемких игр, большинство из которых тестировалось автоматическими средствами, т.е. при помощи встроенных тестов. Список игр, в которых проводились замеры, следующий:
Вначале рассмотрим результаты без всяких дополнительных манипуляций.
Ну а теперь взглянем на ситуацию после сворачивания по Alt+Tab. Сразу отметим, что результаты Radeon HD 7970 после этой операции немного падали, и мы использовали старые данные тестирования до сворачивания. А то совсем бы нечестно вышло по отношению к конкуренту.
Deus Ex: Human Revolution
Встроенный тест производительности Hard Reset демонстрирует преимущество GeForce GTX 680 над Radeon HD 7970 в 17% и 9% по среднему и минимальному fps. Но тут, похоже, мы уже уперлись в возможности центрального процессора, что наглядно демонстрирует мизерный прирост от разгона у GeForce GTX 680. Еще стоит отметить, что по минимальному показателю у новичка снова большой разброс. Возможно, новый драйвер это поправит и увеличит преимущество над конкурентом.
Энергопотребление
Вначале немного комментариев об остальных участниках тестирования. В роли GeForce GTX 580 у нас выступал видеоадаптер Zotac GeForce GTX 580 AMP! Edition. Это полный референс, но слегка разогнанный. Для тестирования корректировались не только его частоты, но и рабочее напряжение — оно снижалось до 1,0 В. В Crysis 2 пришлось устанавливать 1,013 В. В разгоне видеокарта работала при напряжении 1,113 В. Референсного Radeon HD 7970 у нас на руках не было. Замещает его MSI R7970 Lightning на пониженных частотах. Но столь сложная технологически плата не может быть экономнее более простого референса. Да еще у нашего экземпляра было немного завышено напряжение, но это мы компенсировали, зафиксировав его на стандартных 1,175 В (контроль велся с помощью мультиметра). При разгоне видеокарта функционировала при напряжении 1,218 (а это уже данные программного мониторинга).
Выводы
Что же мы имеем в итоге? Из восемнадцати тестовых приложений GeForce GTX 680 проиграл Radeon HD 7970 в четырех, ситуация в Crysis 2 тоже складывается не в пользу новичка, в Serious Sam 3 паритет. В остальных случаях лидирует GeForce GTX 680. Иногда отрыв от конкурента AMD настолько большой, что тот даже не может компенсировать его разгоном. Иногда соперников отделяют менее 10%, и тогда Radeon HD 7970 легко компенсирует свое отставание повышением частот. В целом, GeForce GTX 680 быстрее старшего графического ускорителя AMD, но не везде. Впрочем, последний не везде и GeForce GTX 580 обгоняет. О тотальном преимуществе Kepler в DirectX 11 тоже нельзя говорить, потому как есть Crysis 2 и Metro 2033, в которых новый GeForce выглядит неубедительно. Но есть еще и Batman: Arkham City, Battlefiled 3, Lost Planet 2, Total War: Shogun 2 и Saints Row: The Third, в которых новичок не дает ни единого шанса Radeon HD 7970. Примечательно, что кое-где ему удалось переиграть карту AMD на их же «поле». До этого в Shogun 2 всегда лидировали решения «красных». Зато традиционное лидерство в Crysis 2 новый GeForce не сумел поддержать, возможно с новым драйвером ситуация изменится.
Чувствуется, что кое-где узким местом становится шина памяти. Яркий этому пример Alane Wake, в котором минимальный fps у нового и старого флагманов NVIDIA почти не отличаются. А в Batman: Arkham City минимальный fps у новичка даже ниже. Но учитывая большой разброс результатов, это еще можно списать на сыроватый драйвер. Разница в Metro 2033 между предшественником и преемником тоже скромная.
Сладкие речи об экономичности новинки и 195 Вт против 250 Вт у старшего Tahiti так и остались красивыми словами. Потребляют обе карты примерно одинаково. Шум системы охлаждения GeForce GTX 680 можно назвать умеренным. Новинка тише и холоднее старого флагмана, GeForce GTX 580.
Немного неоднозначные результаты связаны с тем, что GeForce GTX 680 в том виде, в каком мы его получили, является максимально разогнанным графическим ускорителем среднего класса. Отсюда высокая рабочая частота графического процессора и технология GPU Boost, чтобы выжать еще пару дополнительных процентов производительности. И самое удивительное, что такой видеоадаптер вполне справился с ролью нового флагмана и сумел обогнать главного конкурента. Это говорит о высоком потенциале архитектуры Kepler. И если NVIDIA все еще работает над старшим GPU, то в будущем нас ожидает настоящий графический монстр. Возможно, именно он даст жизнь GeForce GTX 780, но будет это уже ой как нескоро.
Рекомендованная цена на GeForce GTX 680 немного ниже стоимости конкурента, за что ей легко можно простить результаты в Metro и Crysis 2. Но пока наблюдается дефицит этих видеокарт, продаваться они будут по завышенным ценам. Зато после насыщения рынка и нормализации цен GeForce GTX 680 грозит стать самой лучшей покупкой для состоятельного геймера. Radeon HD 7970 сохранит актуальность для мультимониторных конфигураций благодаря большему объему памяти. Ответом на это станет выпуск флагмана NVIDIA с четырьмя гигабайтами видеопамяти. Такую версию уже анонсировала компания Gainward, за ней последуют и другие модели от иных производителей. Веским аргументом в пользу AMD для определенной аудитории станет преимущество Radeon в неграфических вычислениях.
Закончим наш обзор на кратком комментарии к Zotac GeForce GTX 680 (ZT-60601-10P). Хотя особо писать о ней нечего, ведь это референс и все сказанное выше в полной мере относится к Zotac. И на фоне других представителей серии данную модель выделяет только отличная комплектация. Три части Assassin"s Creed станут великолепным бонусом к покупке. Хороший аргумент, чтобы остановить свой выбор именно на этой карте.
Оборудование для тестирования было предоставлено следующими компаниями:
Обзор GeForce GTX 680 | Конструкция
nVidia любит проводить параллели. На виртуальном поле боя каждой видеокарте предыдущего поколения даётся своя роль. GeForce GTX 480 была "танком" – высокий уровень производительности сопровождался высокой ценой, энергопотреблением и тепловыделением. GeForce GTX 460 можно отнести к "боевому вертолёту", которому свойственен баланс скорости, эффективности и более доступной цены. И наконец, видеокарту GeForce GTS 450 сравнивают со "снайпером", за её способность обеспечивать комфортный уровень FPS на разрешении 1680x1050.
Такое сравнения выглядит немного глупо, но благодаря ему проще установить уровень GeForce GTX 680 . Хотя название (и цена) относят её к флагманским моделям карт nVidia с одним GPU, она определённо походит на "боевой вертолёт" - геймерскую видеокарту. Она отлично справляется с играми, так же как и GeForce GTX 460 .
Позиционирование
Независимо от того, для какой цели она была спроектирована, на её позицию на рынке сильнее всего повлияет конкуренция. Возможно, в планах AMD есть и более мощные модели, о которых мы пока не слышали. Однако, в контексте шести карт серии Radeon HD 7000 которые уже доступны, nVidia точно знает, с чем ей предстоит столкнуться.
По сравнению с SM чипа GF104, SMX у нового GK104 используют в два раза больше планировщиков "варпов" (warp shedullers) (четыре вместо двух), блоков диспетчеризации (восемь вместо четырёх) и текстурных блоков (шестнадцать вместо восьми) на шейдерный мультипроцессор, наряду с регистровым файлом, который тоже в два раза больше. Также новый GPU использует в два раза больше ядер CUDA. GF104 включает 48 шейдеров на SM, у GK104 это количество возрастает до 192.
GK104 SMX (слева) против GF104 SM (справа)
GF104 | GК104 | Коэффициент | |
Ядер CUDA | 48 | 192 | 4x |
Специальных блоков | 8 | 32 | 4x |
Load/Store | 16 | 32 | 2x |
Текстурных блоков | 8 | 16 | 2x |
Планировщик "варпов" | 2 | 4 | 2x |
Движки геометрии | 1 | 1 | 1x |
Почему ядер CUDA в четыре раза больше, а остальных ресурсов только в два? Шейдеры Kepler работают на частоте процессора (1:1). В архитектурах прошлого поколения (начиная с G80) шейдеры работали на частоте в два раза превышающую частоту ядра (2:1). Таким образом, для удвоения шейдерной пропускной способности на данной частоте требовалось в два раза больше ядер работающих на половине скорости.
Тогда возникает вопрос: с какой стати, nVidia в первую очередь уменьшила шейдерную частоту? Всё дело в тонком балансе производительности, мощности и размере кристалла. Fermi позволяет архитекторам nVidia оптимизировать пространство. Всё же меньше ядер занимают меньше места. Однако двойная скорость требует более высокой частоты и мощности. Kepler, напротив, направлен на эффективность. Поделив частоту шейдеров пополам, разработчики уменьшили энергопотребление. Однако сравнимый уровень производительности потребовал вдвое больше каналов данных. В результате Kepler жертвует размером кристалла для понижения мощности и логики, и ещё большей экономии при разгоне.
Дополнительная мощность и пространство на кристалле сокращены за счёт исключения некоторых аппаратных структур, используемых для помощи в планировании "варпов" и переносит эту нагрузку на программное обеспечение. Сводя к минимуму количество потребляемой энергии и пространство, занимаемое управляющей логикой, по сравнению с Fermi, для выполнения полезной работы освобождается больше места.
nVidia утверждает, что изменения в архитектуре SMX, теоритически, должны удвоить производительность на ватт по сравнению с предшественниками Kepler, это мы и проверим в сегодняшних тестах.
Итак. У нас есть восемь SMX, в каждом из них 192 ядра CUDA, вместе получается 1536. Шестнадцать текстурных блоков на SMX в целом дают 128 блоков на весь GK104. По одному геометрическому движку на каждый SMX, в сумме получаем восемь, однако у GF104 движков PolyMorph тоже восемь. Получается, что nVidia увеличила все остальные ресурсы, но не тронула исходную производительность? Не совсем так.
Для начала каждый движок PolyMorph, по словам nVidia, был переделан так, что его производительность на такт выросла в два раза по сравнению с геометрической логикой Fermi. Это улучшение хорошо прослеживается в синтетических тестах, которые, как (справедливо) считают разработчики, отражают будущее их разработок, где для высокого уровня реализма в играх используется гораздо больше геометрии. Но говоря о сегодняшних играх, таких как HAWX 2, что можно ожидать от новой архитектуры?
В абсолютном выражении, GeForce GTX 680 обгоняет Radeon HD 7970 и Radeon HD 7950 , независимо от того, используется тесселяция или нет. Однако, производительность новой карты nVidia снижается на 31% при включении тесселяции в настройках игры. Для сравнения, видеокарты Radeon на базе Tahiti теряет только 16%. Однако, в игре на производительность влияет не только тесселяция. Очень интересно наблюдать, как в современных играх обещания nVidia не вполне сбываются.
Чтобы поддержать возросшую пропускную способность геометрического блока, nVidia удваивает количество движков растеризации по сравнению с GF104, и соотношение с разделами ROP становится 1:1.
Как и в GF104, каждый ROP GK104 выводит восемь 32-битных пикселей за такт, в сумме получается 32. Оба GPU используют в совокупности 256-битные шины памяти, но отличия есть в максимальной пропускной способности памяти.
Вы заметили, что на первых двух разрешениях Radeon HD 6990 находится в самом низу? Два GPU Cayman не смогли помочь карте, как без сглаживания, так и с 8x MSAA. WoW сильно зависит от производительности центрального процессора. Между тем, CrossFire сильнее нагружает CPU, чем SLI. Учитывая это становится понятно, почему карта AMD с двумя GPU остаётся позади всех, хотя включение сглаживания влияет на производительность совсем немного.
Конечно, при повышении разрешения до 2560x1600 графическая нагрузка увеличивается, Radeon HD 6990 догоняет nVidia GeForce GTX 680 и занимает третье место.
Metro 2033 (DX 11)
Тестирование видеокарт high-end класса позволило нам повысить настройки графики в Metro 2033. Мы по-прежнему не смогли получить постоянный комфортный уровень FPS на предустановке Very High, поэтому даже не стали пытаться включать фильтр глубины резкости на базе DirectCompute, который сильно влияет на производительность игры в целом.
С последним драйвером 296.10 от nVidia (и с некоторыми более ранними версиями), модели GeForce GTX 590 и GeForce GTX 580 не смогли выполнить этот тест, используя OpenCL либо DirectCompute.
Производительность вычислений в LuxMark 2.0
В прошлом флагманский GPU, который использовался в high-end картах Quadro и GeForce GTX 480 , nVidia уделила вычислительной производительности не меньше внимания, чем игровой.
В этот раз, во время презентации GeForce GTX 680 , компания предпочла вообще не говорить о общих вычислениях, отшучиваясь, что она потратила слишком много сил на этот аспект в архитектуре Fermi и не хочет возвращаться к нему снова.
Но, похоже, что компания действительно не хочет возвращаться к этому. Тест Sandra 2012 показал, что GeForce GTX 680
тянутся за картами серии Radeon HD 7900 в 32-битных вычислениях. И она просто раздавлена в 64-битных операциях с плавающей запятой, поскольку nVidia намеренно сдерживает производительность, чтобы защитить профессиональные видеокарты для бизнес решений.
Тогда не удивительно, что в тесте LuxMark 2.0 на базе OpenGl GeForce GTX 680 приползает к финишу последней.
Для сравнения, GPU GF110 видеокарт GeForce GTX 580 /590 лучше приспособлен для вычислений общего назначения. И nVidia утверждает, что лучше продаст карту Quadro для рабочих станций или отдельную видеокарту Tesla. Но мы хотим возразить, что видеокарты AMD серии Radeon HD 7900 являются вполне жизнеспособной альтернативой в данной нагрузке, по крайней мере, с точки зрения производительности (а не по цене).
NVEnc и MediaEspresso 6.5
Когда Intel представила технологию Quick Sync в качестве секретного оружия архитектуры Sandy Bridge, мы думали, что AMD и nVidia понадобится около года, чтобы перейти с перекодирования видео на базе CUDA и APP к более специализированному методу с фиксированными функциями, способному предоставить больше производительности при меньшем энергопотреблении.
AMD представила своё решение почти через год после выхода нашей статьи "Sandy Bridge: Intel Core второго поколения"
Функция Intel Quick Sync уже которой год принимает MPEG-2, VC-1 и H.264, и выводит MPEG-2 или H.264. С другой стороны, nVidia не даёт конкретную информацию о совместимых форматах. Но мы знаем, что она ограничена выводом H.264. Однако, максимальное разрешение для движка Intel оставляет 1080p на вход и выход, в то время NVEnc предположительно поддерживает кодирование вплоть до разрешения 4096x4096.
Как и Quick Sync, технология NVEnc, в данный момент, доступна через собственный API, хотя nVidia планирует предоставить доступ к NVEnc через CUDA.
Наша стандартная нагрузка для этого приложения включает перекодирование файла MPEG-2 размером почти 500 Мбайт в совместимый с iPad 2 ролик в формате H.264. Мы прогоняли его снова и снова, и всё же GeForce GTX 680
оказалась медленнее, чем GeForce GTX 580
или 590. Позже компания сообщила, что в драйвере есть баг, влияющий на производительность перекодирования MPEG-2.
Поэтому мы взяли другой трейлер на базе H.264 и снова провели тесты. NVEnc действительно существенно влияет на производительность, сократив время перекодирования почти вдвое, по сравнения с другими картами nVidia.
Стоит отметить, что у нас возникали некоторые проблемы с перекодированием с помощью аппаратного ускорения на картах AMD в приложении MediaEspresso, однако последние драйверы и обновления от CyberLink их решили. Несмотря на это, уровень производительности остался на среднем уровне. Хотя новые модели серии Radeon HD 7900 ещё пытаются преследовать карты nVidia предыдущего поколения в кодировании из H.264 в H.264, при перекодировании из MPEG-2 в H.264 всё гораздо хуже. В обоих случаях Radeon HD 6990 показывает слабый результат.
Сейчас, насколько мы знаем, AMD Video Codec Engine, представленный в прошлом году и концептуально похожий на NVEnc, по-прежнему не работает. Это хорошая возможность для AMD вернуться в игру. Как бы там ни было, тот факт, что поддержки драйвера нет по прошествии месяца, совсем не радует.
Обзор GeForce GTX 680 | Температура и шум
Шум и температура при бездействии
Однако, усилия инженеров и преимущества 28-нм техпроцесса сделали своё дело. GeForce GTX 680 тише любой другой high-end видеокарты в простое. И похоже для её охлаждения не нужен очень большой поток воздуха. После десяти минут простоя холоднее этой карты оказалась только GTX 590.
Шум и температура при нагрузке
Поведение видеокарты под нагрузкой более красноречиво, чем при простое. Здесь GeForce GTX 680 действительно впечатляет, показав самый низкий уровень шума.
И хотя карта довольно тихая, её кулер держит температуру под контролем.
Однако, технология AMD ZeroCore, в отличии от nVidia, помогла компании снизить результаты при выключенном дисплее. Энергопотребление обеих карт Radeon HD 7900 снизилось на 13-16 Вт, а у GeForce GTX 680 только на 2 Вт. Это лучше, чем у GeForce GTX 580 , однако, AMD здесь бесспорно ведёт.
Как мы уже видели в нескольких тестах производительности, GeForce GTX 680 близко подбирается к уровню производительности GeForce GTX 590 и Radeon HD 6990 , и даже может обойти их в играх типа DiRT 3. Но взгляните на разницу в энергопотреблении.
GeForce GTX 680 показывает относительно прямую линию на протяжении всего теста, это говорит о том, что GPU Boost постоянно подстраивает частоту/напряжение для работы в пределах теплового пакета.Но хотя эта информация интересна в теории, на практике производительность на ватт может быть совсем другая. Так что давайте проверим её другим путём.
Обзор GeForce GTX 680 | Производительность на ватт: индекс
И AMD, и nvidia заявляют, что их карты предлагают непревзойдённый уровень производительности на ватт, и мы верим обеим компаниям.
Однако, nVidia делает дополнительный шаг, настраивая частоту и напряжение в реальном времени, основываясь на идее, что нет двух рабочих нагрузок, которые требуют одинаковое количество мощности. В результате мы не можем просто протестировать одну игру, поделить среднюю частоту кадров на среднее энергопотребление и сказать, что результаты отражают все игры. Но у нас нет времени тестировать каждую игру на каждом разрешении (да потребление энергии зависит от разрешения, детализации и т.д.). Поэтому мы взяли игры из нашего тестового набора, настроили их на разрешение 1920x1080 и максимально высокое качество графики, и представили график поведения каждой из них на всех шести видеокартах.
Чтобы не загромождать обзор данными, мы представили шесть игр на четырёх картах. У нас есть результаты GeForce GTX 590 и Radeon HD 6990 , но они просто ужасные.
Не важно, что какой-то тест закончился быстрее других. Главное, что у нас есть данные мощности, наряду с уровнем производительности, получившимся во время тестового прогона. Чтобы показать результаты на диаграмме, мы совместили верхние и нижние границы энергопотребления системы в каждой игре, и ни в одной не получили идентичных результатов.
Обзор GeForce GTX 680 | Заключение
Иногда при появлении новых видеокарт бывает довольно тяжело выяснить, оправдывают ли производительность и функциональность стоимость новинки. Это не наука и верный ответ не всегда бывает предельно ясным. Но не в этот раз.
Всё указывает на то, что GeForce GTX 680
с новым графическим процессором GK104 займёт достойное место среди наших любимчиков. Однако, как и в случае с GeForce GTX 460
, nVidia пожертвовала вычислительной мощностью в пользу игровой производительности. Но про это быстро забываешь, когда карта доказывает свою конкурентоспособность против флагманов AMD в играх. GK104 не пойдёт по стопам GF104. Вместо этого, новый GPU займёт место GF110, который ранее обеспечивал лидерство видеокарте GeForce GTX 580
.
Учитывая данные тестов, выдающийся список возможностей и конкурентную цену можно сделать вывод, что GeForce GTX 680 для геймера лучше, чем Radeon HD 7970 . И поскольку nVidia, наконец, поддерживает два выхода на монитор, для нашей рабочей станции мы выбираем архитектуру Kepler.
Но это, конечно, если не пожалеть $500. Геймеры с ограниченным бюджетом не должны забывать, что видеокарта Radeon HD 7870
, которую AMD выпустила чуть ранее в этом месяце, недавно появилась в онлайн-магазинах. Учитывая ценник в $360 мы считаем, что это более разумный выбор, нежели карты серии 7900. В тестах она идёт наравне с GeForce GTX 580
, но требует меньше мощности.
В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.
|
Nvidia Geforce GTX 680 2048 МБ 256-битной GDDR5 PCI-E | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Карта имеет 2048 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах на лицевой сторонe PCB. Карта требует дополнительного питания, причем двумя 6-контактными разъемами. Обратите особое внимание на расположение этих гнезд. Раньше всегда два гнезда питания соседствовали на PCB, будучи припаянными раздельно на карте. Теперь же установлен специальный блок, в котором разъемы питания размещены один над другим на манер этажерки. Мы помним такой вариант размещения гнезд (замками друг ко другу) у карт типа 9800 GX2 (двухпроцессорных ускорителей, имевщих не одну, а две PCB, и каждая имела свое гнездо питания). Это очень неудобно - так как приходится протискивать палец в середину этого блока для нажатия на замки разъемов питания. Очень непонятно, почему отказались от традиционной схемы размещения, ведь на фото отчетливо видно, что PCB имеет распайку под еще одно гнездо питания стандартного размера. О системе охлаждения.
Мы провели исследование температурного режима с помощью новой бета-версии утилиты MSI Afterburner (автор А. Николайчук AKA Unwinder) и получили следующие результаты. Хочу напомнить, что GTX 680 по ядру работает на плавающих частотах от 1000 до 1100 МГц. Что делает разгон весьма проблематичным, поскольку диапазоны частот работы на номинальном и разогнанном режимах могут пересекаться. Мы получили стабильную работу карты на диапазоне частот 1129-1229 МГц. При этом выбор частоты работы в каждый конкретный момент остается за драйвером, поэтому иногда в тот же самый момент при работе в штатном режиме частота может быть 1100 МГц, а при работе в режиме оверклокинга - 1129 МГц, и как следствие, прироста производительности может почти не быть. Поэтому не следует ожидать примерно одинаковых процентов приростов скорости при разгоне. Вернемся к мониторингу.
Как мы видим, после 6-ти часов прогона карты в каждом случае максимальные температуры ядра - в нормальных рамках не только для топового, но и даже для среднего уровня продукта. А вот кулер действительно работает на приличных оборотах. Видеокарта прибыла к нам без упаковки и комплекта, потому вопрос комплектации мы опускаем. Установка и драйверыКонфигурация тестового стенда:
VSync отключен. Синтетические тестыИспользуемые нами пакеты синтетических тестов можно скачать здесь:
В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационной программой Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010) . Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain , также известная как Island11 (автор — Тимофей Чеблоков, известный специалист 3D-графики). Синтетические тесты проводились на следующих видеокартах:
Для сравнения результатов анонсированной видеокарты Geforce GTX 680 именно эти модели были выбраны по следующим причинам. Geforce GTX 580 является старшей одночиповой моделью предыдущего поколения и прямым предшественником новинки, который она заменяет на рынке, а GTX 590 до сих пор остаётся быстрейшей видеокартой на двух видеочипах производства Nvidia. Выбранные решения от конкурирующей компании AMD были взяты нами для тестов потому, что Radeon HD 7970 имеет близкую к анонсированной видеокарте Geforce цену (на момент написания статьи — даже выше), и является её прямым конкурентом на данный момент. Radeon HD 6970 взята как топовая предыдущая модель от конкурента, которая поможет оценить приросты от смены поколений у AMD и Nvidia. Ну а модель HD 7870 используется в нескольких тестах просто для того, чтобы посмотреть, насколько сильно придётся урезать GK104, чтобы создать конкурента для этой видеокарты. Direct3D 9: тесты Pixel ShadersС некоторого времени мы перестали использовать собственный тест текстурирования и заполнения (филлрейта) 32-битных текстур из RightMark первой версии, так как большинство видеокарт в нём в настоящее время показывают цифры, далёкие от теоретически возможных и явно некорректные в целом. Уж слишком тест устарел. Далее мы рассмотрим более похожие на правду результаты скорости текстурирования по цифрам из теста 3DMark Vantage, в котором получаются вполне реалистичные цифры. Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх. Эти тесты слишком просты для современных GPU, и они зачастую упираются в производительность текстурирования или филлрейт. Поэтому они способны показать далеко не все возможности современных видеочипов, но интересны нам с точки зрения аналогов устаревших игровых приложений, которых до сих пор довольно много. Судя по предыдущим свежим сравнениям, производительность новых видеокарт в этих тестах ограничена чаще всего именно филлрейтом, хотя и влияние скорости текстурных модулей тоже прослеживается. Но оно неявное, так как Geforce GTX 680 не стал единоличным победителем, как мог бы, исходя из текстурной производительности. Отрывы от GTX 580 не позволяют выделить единственную характеристику, влияющую на скорость. Топовая видеоплата компании AMD в этих тестах стала явным победителем, хотя разница несколько сократилась, по сравнению с тем, что было в предыдущих поколениях. В любом случае, HD 7870 вовсю конкурирует с GTX 680. Чего, по идее, быть не должно. Смущает и крайне небольшой прирост от SLI у двухчипового GTX 590. Возможно, здесь наблюдается разница в программных оптимизациях в драйверах. За исключением пары тестов, GTX 680 выступает вполне на уровне GTX 590, что не может не радовать. А вот по сравнению с конкурирующей моделью Radeon HD 7970, новинка компании Nvidia явно уступает ей. Посмотрим на результаты более сложных пиксельных программ промежуточных версий: А вот тут — совсем другое дело! Тест Cook-Torrance более интенсивен вычислительно, разница в нём примерно соответствует разнице в количестве ALU и их частоте, но и от скорости TMU она также зависит. Поэтому данный тест лучше подходит графическим решениям компании AMD, а теперь и Geforce GTX 680. Именно эти модели завоевали лидерство в данных тестах, в одном из них (где важнее быстрая математика) чуть быстрее Radeon, в другом (где важна текстурная производительность) — Geforce немного впереди. Всё ровно так, как и должно быть по теории. Кроме того, новая модель GTX 680 в обоих тестах опережает двухчиповый GTX 590 и заметно впереди GTX 580. Во втором, больше зависящем от скорости текстурирования, тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и поэтому видеокарты в нём располагаются по скорости текстурирования. И в этом «текстурном» тесте разница между GTX 680 и GTX 580 получилась чуть ли не трёхкратной! Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:
Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений: Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Результаты теста показывают, что в устаревших задачах архитектура AMD всё же опережает GPU производства Nvidia. Производительность свежих видеокарт AMD в тесте «Frozen Glass» значительно выше, чем у новинки, ведь даже Radeon HD 6970 оказалась впереди. Возможно, скорость GTX 680 упирается в филлрейт, но скорее всего, чипы Nvidia просто неэффективно выполняют эту задачу. Ну а в сравнении с предшественниками, GTX 680 почти догнала двухчиповый GTX 590, правда преимущество над GTX 580 не такое уж и большое и не соответствует росту ни одного из пиковых показателей. Во втором тесте «Parallax Mapping» новая видеокарта Nvidia показала производительность, сравнимую с той, что мы получили от Radeon HD 7870. А вот старшая модель AMD остаётся в лидерах — она всё так же опережает калифорнийскую новинку. Хотя решения Nvidia в этом тесте ведут себя немного лучше, они не могут догнать конкурирующие с ними платы от AMD по каким-то причинам, хотя из теоретических слабых мест осталась только ПСП. Но у HD 7870 то она ещё ниже, поэтому упор явно не в неё. Возможно, новая архитектура Radeon банально эффективнее в таких вычислениях. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям: Для плат с GPU производства Nvidia положение стало заметно лучше, и Geforce GTX 680 отстаёт от Radeon HD 7970 уже гораздо меньше и уже смогла обогнать HD 7870. И всё же скорость Geforce упирается во что-то, так как разница между новыми моделями и старыми должна быть больше. Хотя жаловаться грех, ведь в этот раз первый из Kepler обогнал быстрейшую видеоплату на двух чипах Fermi! Но всё же, современные чипы AMD в этих задачах эффективнее и догнать их не удалось. Видеокарта Geforce в тесте Parallax Mapping отстаёт лишь немного, но во втором отставание больше. Это были устаревшие задачи, с упором в текстурирование и филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:
В наших самых сложных DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia раньше первенствовали, в противоположность всем предыдущим испытаниям в тестах из нашего обзора, но в последней архитектуре компании AMD смогли избавиться от всех недостатков и теперь именно решения на чипах архитектуры GCN в PS 3.0 сравнении показывают лучшие результаты. И это улучшение производительности в сложных вычислениях отлично заметно при сравнении старых и новых плат AMD. Данные тесты уже не ограничены производительностью лишь текстурных выборок, а больше всего зависят от эффективности исполнения шейдерного кода. И чипы AMD явно лучше справляются со сложными шейдерами, вроде параллакс маппинга и имитации шерсти, и вероятно, что из-за большего количества доступных регистров на потоковый процессор. Наш сегодняшний герой также показал очень неплохие результаты, хотя в одном из тестов серьёзно уступил более эффективному в тяжёлых задачах Radeon HD 7970 и конкурирует лишь с младшим Radeon из новой серии. Зато в «Fur» он показывает результат на уровне двухчиповой GTX 590 и почти как у HD 7970. Это более чем в полтора раза лучше, чем у предшествующей одночиповой модели. Большей разницы между ними не получилось из-за снижения эффективности выполнения сложных задач — упрощение SM явно сказалось на Kepler в подобных задачах. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)Во вторую версию RightMark3D вошли два знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы. Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере. Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот. Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым. Производительность в этом тесте зависит в большей степени от количества и эффективности блоков TMU, но также влияет и эффективность выполнения сложных программ. В варианте без суперсэмплинга дополнительное влияние на производительность оказывает ещё и эффективный филлрейт и пропускная способность памяти (в меньшей степени). Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low». Как и в аналогичных DX9 тестах, в задачах процедурной визуализации меха с большим количеством текстурных выборок, решения Nvidia раньше были заметно сильнее, но за пару поколений GPU компания AMD не только сократила разницу, но с выпуском GCN и вовсе вырвалась вперёд. И теперь мы часто видим Radeon HD 7970 в лидерах таких сравнений, что отлично говорит о высокой эффективности выполнения сложных пиксельных программ. Рассматриваемая сегодня Geforce GTX 680 показала средний результат между GTX 580 и GTX 590, что может указывать на снизившуюся эффективность исполнения сложных шейдеров в Kepler. Разница между GTX 580 и GTX 680 не впечатляет — лишь 14-17%! Впрочем, возможно тут виноват сниженный филлрейт или пропускная способность памяти. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше: Действительно, GTX 680 явно улучшила результат относительно решений предыдущей линейки, и теперь она показывает скорость на уровне двухчиповой GTX 590. Но при включении суперсэмплинга, увеличивающего теоретическую нагрузку вчетверо, в целом результаты решений Nvidia значительно ухудшились, по сравнению с показателями видеокарт от AMD. И разница в эффективности выполнения данной задачи между ними стала просто огромной. Протестированная новинка от Nvidia проигрывают чуть ли не вдвое проигрывает своему конкуренту от компании AMD. А топовая плата из серии HD 7000 в этом тесте показывает просто отличный уровень производительности, что явно говорит о «любви» к сложным вычислениям. Подумать только, а ведь раньше это было преимущество архитектур Nvidia! Теперь их внимание (по крайней мере, для игровых видеокарт) явно сместилось в сторону быстрой геометрической обработки, в отличие от чипов AMD, предпочитающих попиксельные вычисления. Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга: Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип ещё примерно в два раза — такой режим называется «High». Диаграмма в целом очень похожа на предыдущую без включения SSAA, и решения Nvidia в этом тесте не смогли улучшить своё положение. Новая плата Geforce GTX 680 в обновленном D3D10-варианте теста без суперсэмплинга всё так же между GTX 580 и GTX 590, она не способна конкурировать с Radeon HD 7970. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает сильное падение скорости на платах Nvidia. В общем, всё примерно так же, что и в «Fur». При включении суперсэмплинга и самозатенения, задача получается ещё более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается, как и в предыдущем случае — видеокарты производства AMD явно улучшили относительные показатели, по сравнению с платами на чипах Nvidia. В этот раз Geforce GTX 680 немного отстаёт от GTX 590 на базе двух GF110, а опережение GTX 580 не такое уж большое. Понятно, что Radeon HD 7970 снова далеко впереди, она даже в режиме большей детализации показывает почти ту же скорость, что GTX 680 в простом режиме! В очередной раз подтверждаем снижение эффективности Kepler относительно Fermi в таких задачах. В целом, по рассмотренным шейдерным D3D10 тестам можно сделать вывод о том, что новая архитектура компании Nvidia явно стала чуть слабее (не в абсолютных цифрах!), а вот последние решения AMD отлично справляются со сложными «шейдерными» задачами, заметно лучше конкурирующих плат Nvidia, в том числе и анонсированного сегодня поколения. Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере. Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos. Результаты предельных математических тестов чаще всего более-менее соответствуют разнице в частотах и количестве вычислительных блоков, разве что с некоторым влиянием разной эффективности их использования. Предыдущие архитектуры AMD нескольких последних лет в таких случаях имели подавляющее преимущество перед конкурирующими видеокартами Nvidia, но ведь в Kepler число потоковых процессоров и пиковая математическая производительность значительно возросли и ситуация обязана поменяться. И действительно, результаты видеокарт расположились на диаграмме примерно соответственно теории, но с некоторыми исключениями. Geforce GTX 680 в этом тесте ведёт себя просто выше всяких похвал! Отставание новой модели Nvidia от лучшего решения конкурента — менее 3%! Когда это такое было видано? Причём, в этом тесте уже у Radeon эффективность ниже, чем у первого решения на Kepler. Исходя из теории (см. табличку в первой части статьи), разница между решениями должна быть значительно больше, но GTX 680 тут эффективнее работает и почти догоняет Radeon HD 7970. Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки: К сожалению, в этот раз относительный результат новинки от Nvidia оказался ниже, и она уступила Radeon HD 7970 ровно столько, сколько должна по теории — около 22%. И она теперь ближе к HD 6970, чем к HD 7970. В остальном, цифры поменялись, но позиции карт остались неизменными. Строгого соответствия теоретическим цифрам пиковой производительности нет и в этот раз, но результаты всех решений к ним ближе, чем в предыдущем тесте. Так что диаграмма полностью соответствует теории. Скорость рендеринга в данном тесте ограничена исключительно производительностью шейдерных блоков и их эффективностью, поэтому платы Radeon показывают сильные результаты, самая современная из них стала лидером сравнения. Но Geforce GTX 680 уступает ей не так сильно, как это было ранее, в предыдущих поколениях, когда разница была чуть ли не в разы. Так что вывод простой: в предельных вычислительных задачах с выходом Kepler ситуация изменилась, и хотя решения AMD до сих пор выигрывают такие математические сражения, но разница между конкурентами уже далеко не такая драматическая, как была ранее. Direct3D 10: тесты геометрических шейдеровВ пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10. Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково. Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности: Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена или скоростью обработки геометрии или пропускной способностью памяти. Во-первых, сразу же видна разница между Nvidia и AMD. Если в пиксель-шейдерных тестах платы AMD явно были эффективнее и быстрее, то первый же тест геометрии показал, что в этих задачах равных платам калифорнийцев нет. И первый из Kepler лишь укрепил позиции, Geforce GTX 680 почти догнала двухчиповую GTX 590 в этом тесте, с запасом обойдя предшествующую одночиповую плату. Во-вторых, что касается сравнения новинки с конкурентом, то тут последнему просто нечего ловить — разница полуторакратная. И Radeon HD 7970 может конкурировать ну разве что с GTX 580. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер: При изменении нагрузки в этом тесте цифры почти не изменились для старых решений Nvidia и лишь немного улучшились для новых плат AMD и... GTX 680. Все видеокарты в данном тесте слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и все выводы остаются прежними. Но теперь GTX 680 показала ровно такую же скорость, что и GTX 590. Ну а Radeon HD 7970 всё так же в полтора раза отстала. Смотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры. «Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек. Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy» — ещё и для их отрисовки. То есть в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Относительные результаты в разных режимах также примерно соответствуют изменению нагрузки: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть чуть менее чем в два раза медленней. В этом тесте скорость рендеринга также ограничена в основном геометрической производительностью, но уже с влиянием и ПСП. К сожалению, с тестом не справляется двухчиповая карта от Nvidia, поэтому с ней мы новинку не сравниваем. А вот ускорение по сравнению с Geforce GTX 580 не слишком большое, что может указывать именно на упор в пропускную способность памяти. Да и по сравнению с конкурентом в этом тесте ситуация не такая радужная, как была на предыдущих диаграммах. Но всё же, новая плата на GK104 стала лучшей в сравнении (с учётом проблем у GTX 590), обогнав все остальные решения. Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в режимах «Balanced» и «Heavy». В этот раз диаграмма с переносом вычислений в геометрический шейдер меняется значительно серьёзнее. Все видеокарты Nvidia в этом сравнении явно быстрее всех плат AMD, но именно новинка на базе Kepler стала лучшей. Скорее всего, этот тест упирается именно в производительность геометрических блоков, и поэтому решения от Nvidia так сильны. Все платы Geforce явно имеют преимущество перед чипами AMD с традиционным графическим конвейером, и GTX 680 ещё больше его укрепила. Она даже в тяжелом режиме показывает результат, как Radeon HD 7970 в среднем из них. Между GTX 580 и GTX 680 разница обусловлена преимуществом в тактовой частоте чипа GK104, на которой работают геометрические блоки. Подводя итоги первых геометрических тестов, отметим, что хотя возможности по обработке геометрии и скорости исполнения геометрических шейдеров у нового чипа не изменились, его повышенная тактовая частота позволила улучшить скорость геометрических расчётов. И хотя результаты новых чипов конкурента также улучшились, но свежее решение на базе чипа GK104 всё так же сильно опережает их в этой категории тестов. Direct3D 10: скорость выборки текстур из вершинных шейдеровВ тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет. Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»: Наши предыдущие исследования показали, что на результаты этого теста может влиять и скорость текстурирования и пропускная способность памяти, особенно в лёгком режиме. А результаты видеокарт Nvidia и вовсе ограничены ещё чем-то непонятным. Да и вообще, между схожими по классу платами разница в этом тесте получается очень маленькая — проценты, а не разы. Вот и в этот раз разве что Radeon HD 7970 вырвалась далеко вперёд, чем отличилась от остального набора видеокарт, включая и предшественницу HD 6970. Остальные решения выступили примерно одинаково, особенно это касается трёх плат от Nvidia, разницу между которыми можно увидеть лишь в лёгком режиме. Новая плата семейства GTX 600 смогла соперничать с HD 7970 только в лёгком режиме, а в остальных сильно отстала, и подозреваем, что так получилось из-за низкого филлрейта и/или ПСП. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок: Взаимное расположение карт на диаграмме изменилось в основном за счёт того, что платы Nvidia обеспечили высокую скорость рендеринга в тяжёлых режимах, в отличие от решений AMD, которые немного сдали. И теперь результаты GTX 680 очень близки к скорости Radeon HD 7970, только в лёгком режиме выиграла плата Nvidia, а в тяжёлом — AMD. Про сравнение GTX 680 и GTX 590 можно сказать ровно то же самое. Скорее всего, скорость в тесте ограничена или филлрейтом или ПСП. Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту. А вот результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи не то, что мы видели на предыдущих диаграммах. В этом тесте видеокарты AMD и Nvidia выстроились по линии. Почти все, кроме выпавшей из тренда Radeon HD 7970. Она и стала лучшей в сравнении (кроме самого лёгкого режима), выступив явно сильнее представленной сегодня платы Geforce GTX 680. Все протестированные решения Nvidia снова упёрлись непонятно во что, показав чуть ли не идентичные результаты. Возможно, в этом тесте нет упора производительности в ПСП и текстурирование, а HD 7970 выигрывает из-за лучшей эффективности блоков ROP. Рассмотрим второй вариант этого же теста: И в этот раз произошли изменения, аналогичные тем, что мы видели ранее — некоторые видеокарты немного ухудшили свои результаты, причём, в лёгких режимах пострадали платы Nvidia, а в тяжёлых — AMD. Это позволило платам Geforce немного приблизиться к результатам Radeon HD 7970. И всё же, топовая плата AMD осталась лидером, а представленная новинка архитектуры Kepler ей проиграла. Тесты вершинного текстурирования как были очень странными и малопонятными, так и остались. Похоже, пришло время попрощаться и с ними. 3DMark Vantage: тесты FeatureСинтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой видеокарты Nvidia в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. Feature Test 1: Texture FillПервый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр. Хотя тест компании Futuremark не показывает теоретически возможного уровня производительности текстурных выборок, но эффективность видеокарт от AMD и Nvidia в нём достаточно высока и сравнительные цифры моделей довольно близки к соответствующим теоретическим параметрам. Но всё же иногда исключения есть. По идее, лучшей видеокартой в сравнении должна была стать представленная модель Geforce GTX 680, но именно она показала в тесте меньшую эффективность и не смогла опередить топовую плату семейства Radeon HD 7000, как должно быть по теории. Конечно, если сравнивать с предыдущими видеокартами Nvidia, тут огромное улучшение просто налицо. И всё же, новинка обогнала GTX 580 на 125%, хотя по теории должно быть 160%. То есть, GTX 680 по каким-то причинам не смогла раскрыться полностью в данном тесте. И скорее всего, вина лежит на сравнительно низкой ПСП. В любом случае, результат GTX 680 очень неплохой, она почти сравнялась с Radeon HD 7970, а это говорит о том, что один из недостатков предыдущих поколений устранён. Ранние видеокарты Nvidia в этом тесте были весьма слабы из-за малого количества TMU, а теперь всё стало намного лучше. Feature Test 2: Color FillЭто тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным. Ситуация в тесте производительности блоков ROP совсем другая. Как мы определили раньше, цифры этого подтеста из 3DMark Vantage хоть и показывают производительность блоков ROP, но с огромным влиянием величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»). Тест часто измеряет скорее пропускную способность памяти, чем производительность ROP, но не в этот раз. Новая модель Geforce GTX 680 неплохо справилась с работой, показав результат на одном уровне с Radeon HD 7970, имеющей теоретический филлрейт чуть хуже, но значительно более высокую пропускную способность памяти, и уступила только двухчиповой GTX 590. Интересно, что GTX 580 не помогла ни высокая ПСП, ни даже большее количество блоков ROP. Так что в Kepler явно видны улучшения в эффективности работы этих блоков, о которых мы писали в первой части статьи! Feature Test 3: Parallax Occlusion MappingОдин из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss. Этот тест отличается от проведённых нами выше тем, что результаты в нём зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от всего сразу. А для достижения высокой скорости тут важен верный баланс GPU, а также эффективность выполнения сложных шейдеров. Интересно, что в синтетике из 3DMark Vantage новая плата Geforce показала примерно такой же результат, относительно других плат, что и в наших аналогичных тестах. Она немного не дотянула до скорости двухчиповой GTX 590, оказавшись быстрее предшественницы почти наполовину. Что явно маловато, если учитывать рост скорости текстурирования и математических вычислений. Похоже, что снова сказываются упрощения в вычислительных блоках Kepler, и его эффективность в таких задачах оказывается ниже, чем у Fermi и GCN. Поэтому, по сравнению с платой AMD на базе новейшей архитектуры GCN новинке Nvidia в тесте похвастать особо нечем — она проиграла ей столько, сколько выиграла у GTX 580. В подобных сложных вычислительных задачах платы серии Radeon всё же эффективнее справляются с задачей, хотя и скорость первой из Kepler относительно старых решений компании весьма неплоха. Feature Test 4: GPU ClothТест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out. Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, но основными факторами влияния являются производительность обработки геометрии, эффективность выполнения уже геометрических шейдеров и производительность блоков ROP. Из-за большого влияния геометрических блоков вполне логично, что видеокарты производства Nvidia, имеющие их по несколько штук, чувствуют себя в этом приложении очень неплохо, а двухчиповая Geforce GTX 590 является лидером теста. Да, топовая модель конкурента — Radeon HD 7970 — также усилила позиции компании, но так как это один из тех тестов, в которых видно преимущество решений Nvidia, имеющих по несколько геометрических блоков, то даже она не смогла дотянуться даже до Geforce GTX 580. Правда, представленная сегодня новинка на базе чипа GK104 не слишком то сильно опередила решение на одном GF110 — разница между ними составила лишь 6%. Вероятнее всего, вина в такой маленькой разнице лежит на ПСП, которая у GTX 680 нисколько не повысилась, относительно GTX 580. Или дело в скорости заполнения, которая даже снизилась. Feature Test 5: GPU ParticlesТест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out. Результаты второго аналогичного теста из пакета 3DMark Vantage были бы похожи на те, что мы видели на предыдущей диаграмме, если бы не серьёзное падение относительной скорости Geforce GTX 680, которое нас весьма удивило. К сожалению, это один из немногих тестов, где новинка на базе первого чипа с архитектурой Kepler уступает последнему представителю архитектуры Fermi. И вот тут почти точно виновато меньшее количество блоков ROP и меньший филлрейт, так как отставание от GTX 580 ровно такое же, как и отставание по пиковому теоретическому показателю. Но если сравнивать Geforce GTX 680 с главным конкурентом, то тут не всё так плохо — процентов 20% новинка у него выигрывает. Итак, в синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, для конкурентной борьбы Nvidia и AMD мало что изменилось — хотя новому решению Nvidia мешают низкие показатели ПСП и филлрейта, оно всё же остаётся впереди Radeon HD 7970. Feature Test 6: Perlin NoiseПоследний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических расчётов. В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим немного иное распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета Rightmark. В этом случае производительность решений с диаграммы слабо соответствует теории и расходится с тем, что мы видели ранее в математических тестах из пакета RightMark 2.0. Неудивительно, что конкурирующая архитектура GCN справляется с этой задачей просто отлично, видеокарты от AMD всегда показывают лучшие результаты в случаях, когда выполняется простая и интенсивная математика. Поэтому топовое решение компании AMD обгоняет все остальные с огромным запасом. А удивила нас сравнительно низкая эффективность Geforce GTX 680 в этом тесте. По идее, новинка должна быть вдвое быстрее GTX 580 и значительно быстрее GTX 590, но реальная разница в данном тесте получилась меньше. По какой-то причине даже в сравнительно «тупом» тесте Geforce GTX 680 не смогла подкрепить теорию, приблизившись к сопернику на 23%, как должно быть, в реальности отстав более чем на 40%. В этом тесте низкая ПСП не должна сказываться, поэтому все подозрения падают на всё ту же сниженную эффективность при выполнении шейдерных программ. Direct3D 11: Вычислительные шейдерыЧтобы протестировать новое решение компании Nvidia в задачах, использующих такие новые возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD. Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры. Да, это не самый удачный пример для вычислительных шейдеров, но всё же разницу в производительности в одной из конкретных задач он показывает. Интересно, что если разница в скорости расчётов в вычислительном и пиксельном шейдерах для видеокарт Nvidia на базе Fermi была, то в Kepler её почти нет. Более того, GTX 680 чуть быстрее в вычислительном шейдере, ровно как и плата AMD. Судя по разнице между GTX 580 и GTX 680, результаты явно зависят не только от математической мощи и даже не только от эффективности вычислений, ни и от чего-то ещё, вроде ПСП. В общем, новинка Nvidia в этом тесте отстаёт от конкурирующего Radeon HD 7970, хотя и не слишком сильно. Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нём показана расчётная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация. А вот результаты в этом тесте совсем другие, и тут Geforce GTX 680 нас изрядно удивила. Если в сравнении GTX 580 и HD 6970 разница была небольшой, то в более свежей паре GTX 680 и HD 7970 решение Nvidia явно быстрее, причём почти в полтора раза. Если этот тест и измеряет скорость именно математических вычислений, то эффективность в нём зависит от других характеристик. Новая модель компании Nvidia обогнала предшествующую ей Geforce GTX 580 на 76%, что хоть и ниже теоретической разницы в пиковой математической производительности, но всё равно довольно много. В целом, результат новинки выглядит отлично, если учесть значительный отрыв от лучшей платы конкурентов. Ещё интереснее будут тесты производительности в задачах тесселяции, к которым мы и переходим. Direct3D 11: Производительность тесселяцииВычислительные шейдеры очень важны, но ещё одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали её в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro 2033, Civilization V, Crysis 2, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта. Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными. Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нём реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях: Мы уже видели ранее, что parallax occlusion mapping (средние столбики на диаграмме) на видеокартах обоих производителей выполняется гораздо менее эффективно, чем тесселяция (нижние столбики), а тесселяция не даёт падения производительности в разы — сравните верхние и нижние столбцы. То есть, качественная имитация геометрии при помощи пиксельных расчётов обеспечивает даже меньшую производительность, чем реальная оттесселированная геометрия с displacement mapping. Разберём все подтесты по очереди, так как в них есть над чем задуматься. В тесте простого бампмаппинга видно, что платы наверняка упираются в ПСП, так как результаты GTX 580 и GTX 680 слишком близки, чего быть не должно. В остальном, можно отметить, что платы AMD в целом тут быстрее, и лидирует в подтесте новая топовая модель Radeon HD 7970. Второй подтест со сложными пиксельными расчётами в очередной раз показал, что эффективность выполнения сложных математических вычислений у чипов архитектуры GCN гораздо выше, чем у остальных участников сравнения. Топовая плата семейства HD 7000 показала лучший результат в тесте parallax mapping, обогнав представленную сегодня GTX 680 более чем на 40%. Падение производительности при включении POM на платах Nvidia явно сильнее. Первый чип Kepler выполняет задачу лишь на 27% быстрее, чем лучший из Fermi, что говорит о сниженной эффективности вычислений. Ну и в самом интересном подтесте мы удивились, увидев равный результат у Geforce GTX 680 и Radeon HD 7970. Да, в этом тесте тесселяции разбиение треугольников умеренное, и поэтому платы компании AMD теряют не слишком много производительности, и их запаса скорости хватает, чтобы показать схожий результат с анонсированной сегодня одночиповой видеокартой от Nvidia. Нас больше интересует разница в скорости между GTX 580 и GTX 680. Она получилась равной 42%, что явно выше разницы в частотах, на которых работают геометрические блоки. И это — ещё одно подтверждение того, что подтест не полностью упирается в скорость обработки геометрии. Вторым тестом производительности тесселяции будет ещё один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность. Мы вернули в тесты результаты с максимальным уровнем тесселяции (tessellation factor = 19), «откатив» версию примера из DirectX SDK к более старой версии февраля 2010 года (о причинах читайте в предыдущей статье раздела). В этом примере мы видим уже более правдоподобное сравнение геометрической мощи различных решений. Все современные чипы вполне неплохо справляются даже с серьёзной геометрической нагрузкой, но графические процессоры Nvidia остаются непревзойдёнными по этому показателю. Все их чипы архитектур Fermi и Kepler весьма хороши в таких задачах, но наш сегодняшний герой материала превзошёл всех. У своей предшественницы он выигрывает до двух раз, хотя чисто теоретически разница должна быть меньше — видимо, всё-таки провели какие-то оптимизации. И хотя чипы архитектуры GCN в тесселяции заметно ускорились, но это позволило догнать лишь GTX 580, да и то не в любых условиях. Ну а GTX 680 так и снова вырвался далеко вперёд. Поэтому можно быть уверенными, что и в псевдоигровых тестах с применением тесселяции, таких как 3DMark 11 и Heaven, новая плата Nvidia покажет сильные результаты. Давайте рассмотрим результаты ещё одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта. Island не является чисто синтетическим тестом для измерения только геометрической производительности, он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются сразу все блоки GPU, а не только геометрические, как в предыдущем бенчмарке. Как всегда, мы протестировали демо при четырёх разных коэффициентах тесселяции, в данном случае настройка называется Dynamic Tessellation LOD. И если при самом первом коэффициенте разбиения треугольников видеокарты компании AMD сильны (скорость не ограничена производительностью геометрических блоков), то при усложнении работы платы от компании Nvidia начинает выигрывать, и весьма значительно. При увеличении коэффициента разбиения и сложности сцены производительность любых плат Radeon падает очень сильно, и тут можно только признать очередную победу Nvidia в сложных геометрических тестах. Так что сравнивать в этом тесте платы Nvidia и AMD очень просто — первые быстрее просто в разы! Поэтому обратим внимание на пару Geforce GTX 680 и GTX 580. Разница между ними получилась снова весьма большой, что может указывать как на улучшенную геометрическую производительность, так и на увеличение чисто математической мощи. Ведь, как мы написали выше, нагрузка в тесте является не чисто синтетической и не грузит только геометрические блоки, но и весь чип в целом. И раз Kepler быстрее в целом, то и в этой задаче GTX 680 получилась быстрее предшествующей топовой модели, причём на 30-50%. Подведём итог тестов тесселяции. В условиях очень тяжёлой геометрической нагрузки новый чип GK104 показывает себя исключительно с хорошей стороны. Хотя количество геометрических блоков с GF110 не увеличилось, но увеличенная тактовая частота GPU и большая математическая мощь позволили чипу нового семейства показать ещё более сильные результаты. И хотя AMD в семействе GCN очень сильно подтянули геометрическую производительность и в реальных применениях, где нет сверхвысоких степеней разбиения треугольников, практически не уступают решениям Nvidia, то в синтетических мы определили явного победителя, и это — новая плата Geforce GTX 680. Выводы по синтетическим тестамПо результатам проведённых нами синтетических тестов новой модели видеокарты из серии Geforce GTX 600, основанной на графическом процессоре GK104, ставшем первым GPU с архитектурой Kepler, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, мы делаем вывод о том, что новое топовое решение Nvidia должно стать быстрейшим графическим решением на рынке. Потому что самые важные технические характеристики в GTX 680 были серьёзно улучшены и это было подтверждено синтетикой. Графический процессор GK104 выполнен с применением самого совершенного (у TSMC на данный момент) 28 нм техпроцесса, и является первенцем новой архитектуры Kepler, которая хоть и основана на удачных решениях Fermi, но очень сильно модифицирована. Чип новой архитектуры имеет массу улучшений, направленных на увеличение энергоэффективности, ускорение выполнения математических расчётов, обработки геометрических данных и текстурирования. И наш набор синтетических тестов показал, что производительность решения в почти во всех задачах значительно возросла. Geforce GTX 680 почти всегда значительно опережал предыдущую топовую модель компании, а разница между ними иногда была даже двукратной. К сожалению, не обошлось и без некоторых шероховатостей. Во-первых, в некоторых тестах сложных пиксельных шейдеров, вроде Parallax Occlusion Mapping и Fur, эффективность Kepler ожидаемо снизилась по сравнению с Fermi. И топовое решение конкурента, имеющее большее количество регистров в вычислительных устройствах, имеют в таких тестах явное преимущество, ведь в тяжёлых шейдерах производительность сильно зависит от объёма регистровой памяти, да и общего количества потоковых процессоров. Тут снова можно говорить о разном архитектурном балансе у решений Nvidia и AMD. Ведь на сложных геометрических расчётах чипы Nvidia значительно быстрее конкурентов. Причём, так получается не только из-за распараллеленной обработки вершин и примитивов, о которой мы уже не раз рассказывали. В Kepler сравнительно много блоков SFU, которые занимаются интерполяцией атрибутов геометрии и трансцендентными функциями, которые часто используются в вершинных шейдерах, а в GCN этими операциями занимаются те же потоковые процессоры, не вынесенные в отдельные массивы. В общем, получается, что Nvidia уделяет особое внимание быстрой обработке сложной геометрии, а AMD упирает на сложные пиксельные программы. Ещё одним спорным моментом для модели Geforce GTX 680 является не слишком высокая пропускная способность видеопамяти. Хотя в Nvidia сделали всё, чтобы подтянуть её хотя бы до уровня GTX 580, этого часто будет недостаточно, как показали некоторые из синтетических тестов. То же самое касается и производительности ROP (скорости заполнения), которая даже ниже, чем у GTX 580. И можно предположить, что в некоторых играх эти два ограничения не позволят новой плате показать всё, на что способна архитектура Kepler. Кстати, это же касается и объёма видеопамяти в 2 ГБ, ведь у конкурента её в полтора раза больше. И пусть в 95-99% случаев вполне хватит и 2 ГБ, обязательно найдутся игры и условия, в которых этого объёма будет мало. Да и чисто психологический фактор стоит учитывать. В целом же, благодаря проведённым в Kepler архитектурным изменениям, Nvidia явно улучшила основные характеристики своего быстрейшего на данный момент решения. Новый чип GK104 отличается высочайшей производительностью, но при этом потребляет энергии заметно меньше предыдущего топового чипа GF110. То есть, с основной своей задачей по повышению энергетической эффективности в Nvidia справились на отлично! И видеокарта Geforce GTX 680 по рекомендуемой цене станет неплохим приобретением для энтузиастов, так как должна стать наиболее производительным DirectX 11 решением на рынке. Предполагаем, что сильные результаты видеоплаты Geforce GTX 680 в большинстве синтетических тестов будут подкреплены отличными показателями и в игровых приложениях из нашего тестового набора. Новая модель просто обязана показать столь же высокую скорость в играх по сравнению с соперниками и предшественниками, как она уже сделала это в синтетических тестах этого раздела. |