+59
Видеокарты, изменившие компьютерный мир — часть №3
Пользователь удален
—
Эта часть будет заключительной, и в ней мы поговорим про видеокарты, которые можно смело считать современными — да, даже решения 2006 года: они позволяют спокойно сидеть в интернете и смотреть FHD-видео, на них можно поиграть в простые игры и комфортно пользоваться системой — этого вполне хватает для среднестатистического пользователя ПК, что отодвигает «смерть» этих видеокарт в далекое будущее. Ну и, разумеется, мы поговорим про более мощные решения — вплоть до Titan V, которая является самой мощной видеокартой современности.
Nvidia GeForce 8800 GTX (2006)
Пока AMD покупала ATi, Nvidia зря время не теряла и выпустила видеокарту, которую даже сейчас на различных торговых площадках в рабочем состоянии продают за 1000, а то и 1500 рублей — это спустя 12 лет после выхода! Что же стало причиной такой популярности? Просто исключительная мощность.
128 потоковых процессоров на частоте в 575 МГц, 768 МБ GDDR3 видеопамяти на 384-битной шине (привет, GT 1030 с 2 ГБ на 64-битной шине) — в общем, по производительности эта видеокарта обошла даже двухчиповую 7950 GX2. Единственный важный недостаток карты крылся в том, что она поддерживала лишь DirectX 10 — а, значит, большую часть игр, начиная с 2012-13 годов, запустить на ней было невозможно: да, конечно, можно было попытаться программно эмулировать DX 11, но производительность оказывалась просто смешной. А чтобы понять ее реальные возможности — в GTA 5, которая вышла почти спустя 10 лет после видеокарты, последняя там вполне шустро работает на стандартных настройках графики в HD, с fps стабильно выше 30 кадров.
У ATi... простите, уже AMD, ничего похожего не было — да, спустя пару месяцев они представили 2900 XT, но она была невероятно «горячей», причем производительностью не блистала. Уже в 2007 году «красные» выпустили Radeon HD 3870, которая имела более умеренный аппетит, но все еще недотягивалась до 8800 GTX.
AMD Radeon HD 3870 X2 и Nvidia GeForce 9800 GX2 (2008)
Логика AMD ничуть не отличалась от таковой у ATi: если одна видеокарта не может побороть топ конкурента, то возьмем их две. Конечно, городить огород из двух плат не стали, и разместили оба чипа на одной — при этом на обдув стояла всего одна турбина, да и еще и не в центре. Итог — по 640 потоковых процессоров с частотой в 825 МГц и 512 МБ памяти на каждый GPU создали просто жуткую «жаровню», так что до сегодняшних дней дожили единичные экземпляры.
Но топом эта карта пробыла недолго — «зеленые» достаточно быстро сделали двухчиповую версию 9800, которая оказалась несколько быстрее и такой же горячей. Увы — в небытие они ушли одинаково, ибо стоили крайне дорого, быстро выходили из строя из-за перегрева и не имели поддержки DX 11.
AMD Radeon HD 4870 X2 и Nvidia GTX 295 (2008 и 2009)
Буквально спустя полгода после не самой удачной 3870 X2 компания выпускает нового двухчипового монстра: по 800 вычислительных блоков на частоте 750 МГц и 1 ГБ памяти на GPU. Видеокарта действительно стала самой мощной на целой год, серьезно обходя новейшую GTX 280 от Nvidia.
«Зеленым» потребовался почти год, чтобы догнать конкурента — лишь в январе 2009 Nvidia выпускает GTX 295. Она также строилась на двух GPU, но не от 280, а от 275, ибо только так удалось совладать с «горячим» нравом новинки. Разумеется, она была быстрее 4870 X2, но обе они обладали все тем же недостатком — они не поддерживали DX 11.
Причем в линейках типа HD 3000 или 8000/9000 от Nvidia это было не так важно — пока они могли тянуть AAA-игры с нормальными настройками графики, поддержки DX 10 вполне хватало, а когда произошел массовый переход на DX 11, то эти видеокарты могли бы тянуть игры на новом API разве что в HD на низких настройках графики, что было мало кому нужно. Но вот с HD 4870 и GTX 280 (и мощнее) это уже было проблемой, ибо в более новых линейках HD 5000 и GTX 400 были видеокарты слабее, но из-за поддержки DX 11 они могут запускать все современные игры — и, забегая вперед, делают это зачастую даже лучше, чем текущие «затычки» типа GT 1030. Поэтому те, кто в 2008-2009 году купил топовую видеокарту с надеждой поиграть во все игры ближайшие лет пять, были, мягко говоря, разочарованы.
AMD Radeon HD 5970 (2009)
Хорошо видно, что после покупки ATi AMD стала существенно «вкладываться» в видеокарты — так, не успела Nvidia догнать 4870 X2, как «красные» снова уходят в отрыв с новой двухчиповой видеокартой — 5970 (да, без индекса X2, как и у GTX 295). 1600 потоковых процессоров на каждый GPU, 1 ГБ быстрой GDDR5-памяти — в общем, Nvidia крыть было нечем. Даже GTX 480, вышедшая пару месяцев спустя, была существенно медленнее, и лишние 512 МБ памяти ее тогда не спасали, ибо играм столько было банально не нужно.
Так что HD 5970 целый год была топом, более того — ее можно считать первой действительно современной видеокартой в нашем списке, так как она полноценно поддерживает DirectX 11, и на ней можно поиграть во все современные игры — конечно, это будут низкие/средние настройки графики и зачастую HD-разрешение, но, на секунду, этой видеокарте 9 лет!
AMD Radeon HD 6990 и Nvidia GeForce GTX 590 (2011)
Окончательно догнать AMD Nvidia смогла лишь к 2011 году и 500-ой линейке: так, HD 6990 и GTX 590 шли, как говорится, «ноздря в ноздрю». Да и внешне они были очень похожи — до обоих производителей дошло, что охлаждение двух одинаковых чипов должно располагаться между ними:
Разумеется, эти видеокарты поддерживают DirectX 11, а если игры еще и поддерживают SLI или CrossFire, то их производительность в них может быть и выше GTX 1050, а то и 1050 Ti. Но, увы, этих карт осталось крайне мало — они и стоили крайне дорого (1000 долларов), и достаточно быстро умирали от перегрева.
Nvidia GeForce GTX 690 (2012)
Начиная с 600ой линейки пальма первенства снова вернулась к «зеленым»: те решили отказаться от теплораспределительной крышки над GPU, что позволило серьезно увеличить его мощность и одновременно снизить нагрев. Этому же способствовал и переход на более тонкий 28 нм техпроцесс (400 и 500 линейка была на 40 нм). Все это в итоге вылилось в настоящего двухчипового монстра GTX 690 — 1536 CUDA на каждый GPU и 2 ГБ быстрой GDDR5: в общем, эта видеокарта отлично себя чувствует и сейчас, позволяя комфортно играть в FHD во все новинки. Причем до наших дней дожило достаточно много видеокарт, и их без особого труда можно купить в рабочем состоянии на том же Ebay.
Nvidia GeForce GTX TITAN и AMD Radeon HD 7990 (2013)
Лишь через год «красные» смогли выпустить видеокарту, которая была стабильно быстрее GTX 690. Разумеется, она была двухчиповой, по 2048 потоковых процессоров на каждый GPU и 3 ГБ GDDR5.
Nvidia же решила ответить на нее достаточно оригинально — выпуском абсолютно новой линейки видеокарт TITAN, которые являются самыми мощными пользовательскими решениями на каждой архитектуре. В данном случае использовалась архитектура Kepler (как у 600-ой и 700-ой линейки), 2688 ядер CUDA и целых 6 ГБ GDDR5-памяти. На минуту — это был 2013 год, играм зачастую хватало гигабайта, максимум двух, а тут их было целых 6. Это звучало тогда круче, чем 11 ГБ у GTX 1080 Ti год назад.
Но, увы, все же двухчиповая HD 7990 зачастую оказывалась быстрее, и лишь пара TITAN в SLI стабильно обходили видеокарту от «красных», но с учетом цены в 2400 долларов мало у кого такая связка была.
AMD Radeon R9 295X2 (2014)
AMD опять отобрала первенство у Nvidia, которая запуталась в 700ой линейке, и выпустила, пожалуй, самую прожорливую видеокарту в истории. Только вдумайтесь — тепловыделение (TDP) у одночиповых топов того времени (да и сейчас) лежало в рамках 150-200 Вт. Двухчиповые доходили до 375 Вт. Эта же видеокарта имела TDP в... 500 Вт! Для примера — система с Core i7 и GTX 1080 Ti в играх потребляет меньше, чем одна эта видеокарта. Для ее подключения AMD создала целый мануал — запрещается использовать какие-либо переходники, каждый 8 PIN разъем должен быть подключен к своей линии 12 В, а блок питания должен быть киловаттным. Более того — с учетом веса в 2 Кг был реальный шанс выломать слот PCIe, так что пользователям приходилось городить подпорки.
С охлаждением тоже все было очень необычно — оно было водяным, общим для обеих GPU, и к тому же память и зона питания обдувались вентилятором:
Видеокарта имела по 2816 потоковых процессоров на каждый GPU с 4 ГБ GDDR5 памятью и была на 50-70% быстрее Nvidia TITAN. Но вот связка из последних уже держалась на уровне с этим «красным монстром», но все еще проигрывала по цене (2400 долларов против 1700).
Nvidia GTX TITAN X и AMD Radeon R9 Fury X (2015)
Пожалуй, именно этот год стал переломным — если до этого топовые видеокарты всегда были двухчиповыми, то теперь производители GPU поняли, что разработчики игр крайне неохотно оптимизируют свои творения под SLI или CrossFire, и в итоге одночиповые версии оказываются несильно-то и хуже при существенно более низкой цене. Так что оба топа 2015 года были одночиповыми.
Что касается характеристик, то TITAN мог похвастаться 3072 CUDA и аж 12 ГБ GDDR5-памяти (кажется, инженеры Nvidia поняли фразу «памяти много не бывает» буквально), а Fury X имел 4096 потоковых процессоров и всего 4 ГБ памяти, зато какой — это была новейшая HBM на одном кристалле с GPU, что дало умопомрачительную шину в 4096 бит (против 384 у TITAN). Но, увы, в итоге разница в скорости памяти существенной роли не сыграла — видеокарты в общем и целом выдавали схожий FPS, но только до перехода в 2K или 4K: как только Fury X переставало хватать памяти, TITAN с 12 ГБ уходил в существенный отрыв.
Nvidia Titan V (2017)
Многие могут удивиться — ведь до Titan V была же 1000-ая линейка от Nvidia и те же Vega от AMD. Да, были, но ничего сверхеъстественного не предложили, поэтому сразу перейдем к Titan V, которая удивила минимум дважды — производительностью и ценой.
Она имеет 5120 CUDA и 640 Tensor, построена на новейшей 12 нм архитектуре и оснащена 12 ГБ HBM2-видеопамяти. Для примера, GTX 1080 Ti имеет «всего» 3584 CUDA и 0 Tensor, а памяти «лишь» 11 ГБ GDDR5X. В итоге эта видеокарта в среднем на 30% быстрее 1080 Ti в играх, а в задачах по машинному обучению благодаря ядрам Tensor быстрее в разы. Увы, цена соответствует цвету — видеокарта по-настоящему «золотая», ибо стоит 3200 евро!
Рекомендации
Рекомендации
Комментарии
+150
У меня была 8800 gtx, и это реально была великолепнейшая видеокарта, с большим запасом. Статья супер!
+60
Не помню, это случайно не та, у которой была утечка памяти? Она тогда мне весь мозг отломила, как раз на ней начал изучать Cuda.
+173
У меня была 4870 от Sapphire. До сих пор стоит в старом компе кстати
+60
К сожалению, Titan V не шибко порадовал своей производительностью в Cuda (всё-таки до Tesla ему весьма далековато, брал в качестве дешевой альтернативы Tesla V100). Titan X не так шибко проваливался.
+60
+1764
О чем вы, у них одинаковое количество CUDA и Tensor, только объемы видеопамяти различны.
+60
Вы несколько неправильно рассматриваете сегменты промышленных решений и домашних. Количество ядер это далеко не все, самое главное — это операции с плавающей точкой, а так же пропускная способность памяти. Про Tensor ничего сказать не могу, на данный момент не использую (пока нет необходимости, наши потребности лежать немного в другой обрасти).
+60
+1764
Окей, у Titan V — 15 TFLOPS, у V100 — 14, то есть у более дорогой производительность даже хуже. Также мне очень интересно узнать задачи, в которых вы нашли разницу между 650 и 900 ГБ/с у видеопамяти.
+60
Улыбнуло, вы сравнили «теплое с мягким»: FP32 и FP64. Ну а по поводу памяти, в реалии, на моих задачах, разница почти в 80% (и это еще старый код, который не переписывался со времен Kepler).
+60
Кстати, мне интересно где вы взяли информацию о производительности Titan V, если сама Nvidia не указывает ее в своих спецификациях.
+1764
Вы серьезно? Если разница в производительности в FP32 между видеокартами, допустим, 20%, то в FP64 она — сюрприз — тоже будет 20%, ибо эти величины кратные, у титанов они в два раза отличаются, то есть в данном случае это 7.5 против 7 ТФЛОПС в пользу V. Что касается спецификаций — ими инет кишит, да и как бы и так очевидно, что при одинаковом числе CUDA больше TFLOPS выдаст видюха с большей частотой — то есть Titan V, видеопамять тут почти не играет роли. И это как 50% разница в скорости видеопамяти может дать 80% прирост производительности?) Да и вообще как вы ухитрились с такой шиной вообще упереться в видеопамять? И вы так и не ответили, что у вас за задачи, в которых прям так сильно влияет быстрота памяти. И не надо говорить, что виноват код — если он заточен по 200-300 битную шину и скорость в 200-300 гбайт/с (хотя блин, никто это не делает), то уж на 3000 битной шине с 650 гбайт/с все будет просто реактивно летать, и разница с 4000 бит/900 гбайт будет почти ноль, но никак не 80%.
+60
Думаю, для начала, вам всё-таки стоит подучить матчасть. А что касается того, что весь интернет кишит: на заборах тоже много чего пишут и вы верите? Те кто пишут, просто взяли и скопировали спецификации Tesla V100 в Titan V ни сколько не утруждавшись на проверки своих заявлений, Nvidia же официально эти спецификации (написанные горе-писаками) не утверждает (и было бы глупо: выпустить на рынок два одинаковых продукта, но с разницей в цене ~2.5 раза).
+60
Если у вас нет задач, которые обрабатывают большие объемы информации, то это не значит, что их нет. Думаете зря придумывают кластеры, скоростные шины данных... Что-то мне это сильно напоминает, что «640Кб хватит всем».
+1764
Я понял. По существу вам ответить нечего, ибо насчет вычислений с плавающей запятой я прав — в любом случае, именно указанные мною выше цифры в 7.5 и 7 ТФЛОПС и есть в спецификациях этих видеокарт. Спецификации легко гуглятся, они есть в пдфках производителей, которые их выпускают — например, PNY. Видеочипы этих видеокарт полностью одинаковые (ютуб в помощь, видео с разборкой хватает, маркировка чипа GV100 и там и там), единственная разница — в объеме видеопамяти, что в данном случае ведет за собой и увеличение пропускной способности шины. Свои задачи вы так и не назвали — подозреваю, что их просто нет, а цифра в 80% взята просто с потолка, как и покупка Titan V. А что касается разницы в цене — она идет из-за нвидиевского интерфейса, позволяющего объединять V100 в кластеры по 8 штук, для V такой возможности нет. Ну и плюс как бы старый факт, что профессиональные видеокарты имеют те же чипы, что и десктопные, просто другие дрова, и ценник на них накручивают вдвое.
+60
Мои задачи — это коммерческая тайна, но немного просветлю: геодезические и магнитосферные исследования. Поэтому все расчеты ведутся HPC-кластерах в FP64 и FP128, а локальные задачи FP128 крутится на Tesla/Titan (путем сдвига FP64). Я всё-таки удивляюсь вашей настойчивостью и одновременным незнанием элементарных вещей — у вас алгоритм/производительность имеют линейную зависимость, еще раз советую «погрызть гранит науки», откройте же наконец для себя понятия: конвейер, такты, блокировки...
+60
Думаю, вас не надо обучать математике и вы знаете что такое сдвиг.
+1764
Великолепно. Вы сейчас только что подтвердили, что в видеопамять ничего не упирается, а производительность в FPxx (любых, от 16 до 128) что у V100, что у V — одинаковая, ибо чипы железно идентичны и ничего программно в них не заблочено. Так что не надо "ля-ля" про 80% разницу.
+60
Я как раз и не говорил, что не упирается, упирается и еще как! Мне «для полного счастья» необходимо ~21Гб видеопамяти, а на текущий момент, из-за недостатка видеопамяти, приходится гонять по шине, вместо того, чтобы обработать весь массив разом в видеопамяти.
+1764
Вы работаете реально с числодробилкой, то есть все нужные данные сначала помещаются в L2 кэш видюхи из видеопамяти, а в нее из озу, по мере необходимости. С учетом разницы в объеме кэша и видеопамяти на порядок — никаких проблем с потоком данных нет, то есть нет такого, что gpu простаивает. Я сравнивал RX 580 с 4 и 8 ГБ в задачах, требущих больше 10 ГБ памяти, и при вычислениях разница была на уровне погрешности.
+60
У вас может и нет (вполне допускаю, что у вас объем данных коррелирует с объемом промежуточных вычислений, которые укладываются в минимальный объем VRAM), у меня же, из-за большого объема данных и промежуточных вычислений (при нехватке VRAM), постоянно часть промежуточных данных приходится вываливать по системной шине (а как вы понимаете, это самое узкое аппаратное место)
+1764
Разумеется, но не забывайте, что где как не в числодробилке шикарно работает предсказатель ветвлений: все нужные данные заранее перегоняются в видеопамять, а из нее уже потом по мере необходимости — в кэш. Конечно, я не видел ваш код и не знаю, как это работает у вас, но при правильном написании недостаток видеопамяти ощущается слабо.
+60
Вполне допускаю, что программа может некорректно обрабатывать параметры нового GPU, поэтому алгоритм неправильно работает, но разница в ~ 80% — это не укладывается в голове.
+60
К сожалению, по поводу AMD ничего сказать не могу — не осилил, СUDA как-то ближе (сила привычки?).
+1764
Я тоже не очень люблю AMD, но только их видюхи без танцев с бубном работают на маке — мне опять же эта ось не по душе, но клиенты просят).
+60
Сдается мне, что разговор с вами, все равно, что «разговор слепого с глухим».
+60
Заблокировано! FP64 на Titan V выполняются медленнее, предполагаю, что связано с тепловым пакетом (у Tesla нет видеочасти), FP32 не проверял — не пользуюсь.
+60
Измерял на двух одинаковых системах: Supermicro X10DAC, 2x Xeon E5-2699A V4, 2Тб ОЗУ. И результаты Tesla V100 (не моя, офисная) — 46 часов 7 минут, Titan V — 81 час 43 минуты. Результат «на лицо» — неутешительный.
+60
Опять же повторюсь, программа написана и сертифицирована под Kepler, под Pascal и Volta не адаптирована.
+1764
Там обратная совместимость есть, так что вы просто теряете энный процент производительности. Но это никак не объясняет разницу между тесла и титаном.
+60
Совместимость то есть, но архитектуры разные и для эффективной работы на новой архитектуре, надо переписывать алгоритмы, а это выливается в верификацию и повторную сертификацию...
+1764
Полностью с вами согласен, но тут суть в том, что и тесла, и титан — это вольта, то есть они должны работать одинаково плохо. А тут получается, что тесла вдруг почему-то серьезно быстрее.
+60
Вот это и смущает, я из-за этого на пикник не поехал — сидел и ждал, когда Titan V закончит (чтобы не оставлять без присмотра, вдруг пожар устроит), а он закончил сегодня только в начале седьмого (утром).
+60
По поводу старого факта — на то он и старый факт, что на данный момент он устарел. Tesla K/P/V похожи на бюджетный сектор, но не более того, а что касается режимов работы, то тут и обсуждать нечего.
+1764
По официальным данным, FP64 на Titan V даже чуточку быстрее — на 0.5 Тфлопс. Теплопакет тут не при чем — он у обеих видеокарт одинаков, 250 Вт. Я не знаю, в каком месте у вас косяк, но кроме видеопамяти — это две полностью идентичные видеокарты. Да, у них разные пакеты дров, но ни за что не поверю в то, что это дает почти двухкратную разницу в производительности.
+60
Вполне возможно, что Titan V сваливается в троттлинг, при длительной максимальной нагрузке, тк это всё-таки бюджетный сегмент. Повторно запускать задачу желания нет, тем более, что в понедельник надо возвращать Tesla.
+1764
А почему тесла не троттлится? Кристаллы одинаковы, теплопакет тоже. Охлад лучше или чипы спецом отбирают? Ну мб, но опять же это не даст 2х проищводительности.
+60
Не знаю, скорее всего, кристаллы всё-таки разные (отбраковка?), тк корпус продувается дополнительными вентиляторами 80мм X 5-8 тыс. об/мин и проблем с охлаждением быть не должно.
+1764
Народ проверял — кристаллы одинаковые, и никакие вычислительные блоки в титане не заблокированы. Короче говоря не знаю, в чем дело, да и сравнений в интернете лоб-в-лоб не нашел. Будет круто, если все же проведете пару бенчмарков — они редко когда идут больше 5 минут.
+60
5 минут это не серьёзно — нагрузку надо проверять несколько часов — это два разных сегмента. Я когда-то решил посчитать «по быстренькому» на GeForce 690 — она у меня «пустила дым» на четвертом часу.
+1764
Да не, не будет титан пару часов греться до максимальной температуры, да и в любом случае скорее всего срабатывает троттлинг по тдп у обеих видеокарт, ибо слабо верю, что такая моща в 250 Вт укладывается. Так что 3-5 минут теста покажет, действительно ли разница в почти два раза, или был какой-то глюк.
P.S. Если не верите мне — гляньте, как себя ведут турбинные референсы в том же furmark (понимаю, что здесь он не применим, но нагрузку дает схожую): буквально за минуту температура взлетает под 80-85 градусов и все, дальше видюха пашет так сколько угодно долго.
P.S. Если не верите мне — гляньте, как себя ведут турбинные референсы в том же furmark (понимаю, что здесь он не применим, но нагрузку дает схожую): буквально за минуту температура взлетает под 80-85 градусов и все, дальше видюха пашет так сколько угодно долго.
+60
Вот если дадут еще раз «на дом» Tesla, тогда и попробую, а завтра пора сделать выходной — у самого голова уже «дым пускает».
+1764
Будет действительно интересно, а если еще и видео зальете на ютуб — можете "сорвать банк", ибо вы будете единственным, кто сравнил эти видюхи в лоб.
+60
Вряд ли это будет кому-то интересно, тк сегменты карт разные, и GPU-вычисления интересны только весьма узкому кругу людей, а большинству важнее графическая производительность (а тут, как вы понимаете, Tesla ответить ни чем не может).
+1764
Ну не скажите, числодробилка интересна достаточному количеству людей, и думаю среди них тоже встречаются люди с вопросом — имеет ли смысл сэкономить и взять титан, или переплата за теслы стоит своих денег?
+60
Да, кстати кристаллы на Kepler разные — распиливал сдохшие Tesla K80. Трупов Pascal (и тем более Volta) пока нет, так что проверить не могу.
+1764
На кеплере частично да, на максвеле тоже, но в большинстве своем разница между quadro и geforce — дрова и видеопамять (вот tesla мало копал, тут не скажу). А в данном случае кристалл на архитектуре вольта у нвидии всего один — GV100. Единственное, что нвидия может сделать — это заблочить часть юнитов, но это моментом покажут дрова и софт, и в данном случае титан v имеет ровно такой же кристалл, как и у v100.
НичОси, как у вас тут интересно :). Интересно послушать рассуждения спецов :)