Name: Asus Strix GTX 1070 O8G Gaming
SKU: 34

	Asus Strix GTX 1070 O8G Gaming: Pascal ve velkém testu
	Grafické karty nové architektury Pascal jsou tu s námi už nějakou tu chvilku, ale víte o nich opravdu vše? Dnes se tedy kromě samotné recenze GeForce GTX 1070 v podání společnosti Asus podíváme na zoubek také této nové architektuře grafických karet společnosti Nvidia.
	gpureport.cz Pavel Šantrůček 21.07.2016

OBSAH:

1. Pascal - architektura	12. Thief
2. Pascal - nové technologie	13. Middle Earth: Shadow of Mordor
3. Asus Strix GTX 1070 O8G Gaming	14. Alien: Isolation
4. Asus Strix GTX 1070 O8G Gaming - pokračování	15. Far Cry 4
5. Jak budeme testovat	16. Dying Light
6. Syntetické testy	17. GTA V
7. Testy asynchronních shaderů	18. The Witcher 3: Wild Hunt
8. Testy Fast Sync	19. Teplota, hlučnost a spotřeba
9. Metro Last Light	20. Přetaktování
10. Crysis 3	21. Závěr
11. Battlefield 4

Dříve, nežli se vrhneme na testování grafické karty Asus Strix GTX 1070 O8G Gaming, pojďme si nejprve něco říci o architektuře nových Pascalů společnosti Nvidia, konkrétně grafického čipu GP104. Ačkoliv nemám v příliš velké lásce popisovat novou architekturu zrovna na částečně „oříznutém“ grafického čipu, jakým je právě GP104-200-A1 (GTX 1070), nic jiného mi však nezbývá, takže směle do toho a pěkně popořadě. Nezbytnou pomůckou pro další popis architektury Pascal bude blokové schéma a dobře se bude hodit také i nějaká ta základní znalost grafické pipeline, která byla popsána v nedávném článku právě na GPUreport.

Pascal blokový diagram

- červená plocha značí jeden blok GPC, který je v případě GTX 1070 deaktivován -

Frontend

Jak už to tak bývá, každý grafický čip musí nějaká data přijímat, následně rozdělovat úkoly a řídit práci podřízených jednotek. Tuto činnost má na starosti Frontend grafického čipu, který je již od dob architektury Fermi tvořen jednotkami Host Interface a GigaThread engine. Zatímco pomocí Host Interface jsou přenášeny příkazy z CPU pomocí PCI Express, Gigathread engine je zodpovědný za vlastní logiku přenosu dat z RAM do VRAM a především také za plánování a rozdělování práce na jednotlivé další podřízené jednotky.

Vlastní řízení čipu je práce velmi sofistikovaná a ne nepodobná práci CPU. Každý výrobce se tedy o bližší informace jen nerad dělí a nejinak tomu je právě v případě Nvidia. Například informace o tom, jak konkrétně je třeba řešena obsluha výpočetní fronty (Compute Queue) v DirectX 12, bohužel známa není a k takovýmto detailnějším informacím se dá jen velmi těžko dostat. Půjdeme proto rovnou dále a podíváme se na nejbližší podřízenou jednotku s názvem Graphics Processing Cluster.

Graphics Processing Cluster (GPC)

Grafický čip GP104 se skládá celkem ze čtyř Graphics Processing Cluster (GPC), které mají obdobnou funkci jako Shader Engine v konkurenční architektuře GCN. Kdo četl popis grafické pipeline, jistě již ví, že se jedná o jakousi kompletní grafickou pipeline, kde se primitiva přeměňují v pixely, ze kterých je pak složen hotový snímek.

GPC blokové schéma

Každý GPC tedy obsahuje Rasterizační jednotku, která spolupracuje s celkem 5 bloky TPC (Texture/Processor Cluster), ve kterých jsou sdruženy jednotky Polymorph Engine, výpočetní jednotky Streaming Multiprocessors (SM) a Texture Mapping Units (TMU).

Zatímco Polymorph Engine obsahuje fixní jednotky, které se starají o geometrii (Vertex Fetch, Tessellator, Stream Output atd.) a nově také jednotku mající na starosti novou funkcionalitu s názvem Simultaneous Multi-Projection, SM jednotky jsou jednotkami naopak programovatelnými, na kterých je možné spouštět shadery (programy běžící na GPU).

SM blokové schéma

Každá jednotka SM se (krom jiného) skládá ze čtyř bloků po 32 výpočetních jednotkách (CUDA Core), 256 KB registru, 96 KB sdílené paměti, 48 KB L1 Cache a konečně osmi jednotek TMU, které využívají právě shadery k bezstarostnější práci s texturami, nebo raději 2D obrázky obecně.

Každá jednotka SM jako celek tedy disponuje 128 CUDA Cores a 8 TMU, což představuje poměr 16/1 (CC/TMU), tedy stejně vyvážený poměr jako u předcházející generace Maxwell, či konkurenční GCN. Pokud tedy GPC obsahuje celkem 5 bloků TPC, můžeme říci, že každý GPC obsahuje jeden rasterizér, 5x Polymorph Engine a 5x SM se 640 CUDA Cores a 40 TMUs.

Každý GPC se může na vstupu postarat v jednom taktu o jeden primitivní trojúhelník (Triangle) a jeho výstupem jsou pak pixely, které je ale třeba ještě nějakým způsobem finalizovat (Bending, Z buffering atd.) a následně zapsat do framebufferu (Render Target). O tuto finalizaci a ukládání se starají jednotky s názvem Raster Operations Pipeline (ROP), jsou napojeny na framebuffer (VRAM), avšak samotné tyto jednotky součástí příslušného GPC nejsou. Každá jednotka ROP se může v jednom taktu postarat o 1 pixel, což při počtu 16 ROPs na jedem GPC představuje výkon 16 (32-bit) pixelů na takt.

Tady vidíme první změnu oproti předcházející generaci Maxwell. Zatímco u Maxwellu každý GPC obsahoval 4 SM jednotky, u Pascalu byl počet těchto SM jednotek v GPC navýšen na jednotek 5. Protože u Maxwellu (u Pascala tomu nebude jinak) byla každá SM jednotka napojena na ROPs tak, že mohla na jednotky ROP přenést 128-bit dat, tedy například současně 4x 32-bit nebo třeba také 2x 64-bit pixely za takt, byl při počtu 4 SM jednotek v GPC počet ROPs akurátní - 4 SM jednotky mohly dodat 16 jednotkám ROP také 16 (32-bit) pixelů na takt.

U architektury Pascal tedy v GPC jedna SM jednotka přibyla a vznikl tam jakýsi "přebytek" SM jednotek, protože také samotný rasterizér je schopný do pipeline dodávat pouze 16 pixelů na takt. Jak se tento případný nepoměr Rasterizér/SM/ROP (16/20/16) v konečném důsledku projeví, uvidíme až v praxi. Už nyní se dá ale říci, že ona jedna jednotka SM v GPC navíc zvyšuje aritmetický výkon SM, nicméně na pixel fill rate se příliš nepodílí.

V každém případě se zde sama nabízí jedna celkem důležitá otázka. Co u grafické karty GTX 1070 má na starost onen "osamocený" blok 16-ti jednotek ROP, které uvnitř čipu zůstaly po deaktivaci jednoho bloku GPC? Odpověď na tuto otázku se pokusím nalézt později v syntetických testech.

Pokud víme, co vše obsahuje jeden blok GPC, vlastně také víme, co obsahuje celý grafický čip GP104, který má v plné konfiguraci takovýchto GPC bloků celou čtveřici.

GPC: 4x
SM: 20x
CUDA Cores: 2560x
TMUs: 160x
ROPs: 64x

Framebuffer (VRAM)

Grafický čip disponuje celkem osmi 32-bitovými řadiči paměti (256-bit celkem). Na každý paměťový řadič je navázáno 8 ROP jednotek a 256 KB L2 Cache, což v celku představuje 64 ROPs a 2048 KB L2 Cache. Paměťové řadiče podporují paměti typu GDDR5(X).

Specifikace

	GTX 1080	GTX 1070	GTX 980	GTX 970
Chip	GP104	GP104	GM204	GM204
CUDA Cores	2560	1920	2048	1664
TMUs	160	120	128	104
ROPs	64	64	64	56
GPU Clock	1607 MHz	1506 MHz	1127 MHz	1050 MHz
Boost Clock	1733 MHz	1683 MHz	1216 MHz	1178 MHz
VRAM Clock	10 Gbps GDDR5X	8 Gbps GDDR5	7 Gbps GDDR5	7 Gbps GDDR5
VRAM Bus	256-bit	256-bit	256-bit	256-bit
TDP	180 W	150 W	165 W	145 W
Transistors	7,2B	7,2B	5,2B	5,2B
Process	16nm FinFET	16nm FinFET	28nm	28nm

Jak vidíte, žádná převratná revoluce v architektuře se u grafického čipu Pascal nekonala a oproti minulé generaci Maxwell se toho až tak moc nezměnilo. Co se však změnilo pozoruhodně, jsou dozajista frekvence čipu. Nový výrobní proces 16nm FinFET společnost Nvidia maximálně využila k nárůstu frekvence a nutno již dopředu dodat, že bez dopadů na výslednou energetickou spotřebu čipu. O tom se ale přesvědčíte sami v dnešní recenzi později.


			Další kapitola

Hodnocení grafických karet

ze serveru Alza.cz

NVIDIA

GeForce RTX 5090 GeForce RTX 4090 GeForce RTX 5080 GeForce RTX 4080 SUPER GeForce RTX 5070 Ti GeForce RTX 4070 Ti SUPER GeForce RTX 5070 GeForce RTX 4070 SUPER GeForce RTX 4070 GeForce RTX 5060 Ti GeForce RTX 5060 GeForce RTX 4060 Ti GeForce RTX 4060 GeForce RTX 3050

AMD

Radeon RX 7900 XTX Radeon RX 9070 XT Radeon RX 7900 XT Radeon RX 9070 Radeon RX 7900 GRE Radeon RX 7800 XT Radeon RX 7700 XT Radeon RX 9060 XT Radeon RX 7600 XT Radeon RX 7600

GPUreport