POPPUR爱换

标题: AMD Cayman GPU 媒体吹风会幻灯片全展示,来自波兰网站 [打印本页]

作者: Edison    时间: 2010-11-22 17:38
标题: AMD Cayman GPU 媒体吹风会幻灯片全展示,来自波兰网站
Do godziny 6 rano 22 listopada naszego czasu obowiązywało embargo na informacje dotyczące Radeonów HD 6970 i HD 6950, które firma AMD zaprezentowała przy okazji opisywanej już na FrazPC konferencji Believe Your Eyes. Wywiązując się ze złożonej w tamtym artykule obietnicy, możemy już po zakończeniu wspomnianego embarga zaprezentować dane na temat architektury, możliwości i funkcjonalności najszybszych kart z nowej rodziny AMD Radeon HD 6000.
Karty graficzne z układami Radeon HD 6970 i 6950 w odróżnieniu od opisywanych już przez nas akceleratorów AMD Radeon HD 6870 i 6850 (patrz: http://www.frazpc.pl/recenzje-2/595111,AMD-Radeon-HD-6870-i-HD-6850.html) bazują nie na kości o kodowej nazwie Barts, ale nieco różniącej się od niej chipie o kodowej nazwie Cayman. Początkowo nowe akceleratory miały mieć swoją premierę pod koniec listopada, ale AMD nieco ja przesunęła i wszystko na to wskazuje, że pojawią się one w sklepach 13 grudnia – choć data ta nie jest jeszcze oficjalnie potwierdzona.
Co więcej, pojawiły się też nieoficjalne informacje, że premiera najsilniejszego Radeona z nowej rodziny HD 6000, a więc Radeona HD 6990, bazującego na kości o kodowej nazwie Antilles będzie także opóźniona w stosunku do pierwotnych planów firmy AMD. Akceleratory 3D z tym układem będziemy mogli kupić dopiero w pierwszym kwartale 2011 roku. Istotne jest to, że Antilles to tak naprawdę akcelerator składający się z dwóch GPU Cayman. Według ostatnich informacji w tym samym czasie pojawią się również w sklepach karty graficzne z serii HD 6000 dla niższych segmentów rynku. Nowe akceleratory bazować będą na 40-nanometrowych GPU o kodowych nazwach Turks oraz Caicos.
Wróćmy jednak do kości Cayman. Jak można się domyślić, nowe układy graficzne Cayman mają być znacznie szybsze niż Barts i budowane na ich bazie należące do średniej klasy akceleratorów Radeony HD 6870 i 6850. Nie tak dawno Eliane Liao z firmy Power Color stwierdził, że karty z kośćmi Cayman osiągają wydajność od 30 do 50% wyższą niż akceleratory 3D bazujące na układach Barts. Oczywiście należy pamiętać, że często że częstotliwości GPU oraz taktowanie pamięci RAM ustala się dopiero tuż przed premierą i producent do ostatniej chwili jej nie podaje. Czasami również doprecyzowuje się wówczas liczbę procesorów strumieniowych, która może się różnić od tej wcześniej deklarowanej. No dobrze, ale dość już spekulacji i przejdźmy do informacji, które na konferencji w Los Angeles przekazała firma AMD.
Czas na Radeony HD 6900
Informacje o nowej rodzinie kart HD 6900 nie były specjalnie podczas konferencji wydzielone. Dane na temat najsilniejszej rodziny kart pojawiały się przy okazji slajdów prezentujących architekturę kart z serii 6800. Z reguły miały one zademonstrować główne różnice miedzy układami Cayman i Barts. W obu wypadkach nowe GPU produkowane są w 40-nanometrowym procesie technologicznym. Różnice sprowadzają się do niektórych elementów architektury, liczby procesorów strumieniowych i jednostek teksturujących, liczby teselarorów czy jednostek rasteryzujących, a także częstotliwości i wydajności taktowania pamięci. Znacznie wyższe niż w wypadku układów Barts jest też zużycie energii. Pojawiły się też nowe funkcjonalności niedostępne dla układów z serii HD 6800.

Fot_001 – Podczas konferencji „Believe Your Eyes” zorganizowanej przez firmę AMD informacje o nowych kartach z rodziny Radeon HD 6900 przedstawił David Cummings, szef działu zarządzaniPro-Aduktem w GPU Division.


Układy Cayman występować będą w dwóch wersjach Cayman XT oraz Cayman Pro odpowiednio montowane będą w kartach HD 6970 oraz HD 6950.
Nowa rodzina Radeonów HD 6900, to podobnie jak w wypadku kości Barts, również należy do drugiej już generacji układów graficznych firmy AMD zgodnych z DirectX 11. W obu wypadkach Radeon HD 6970 i 6950 współpracować będą z pamięcią graficzna GDDR5 o pojemności 2 GB i szyną pamięci o szerokości 256-bitów. W sprzedaży mogą się też znaleźć wersje HD 6950 z pamięcią 1 GB/256-bit. W wypadku pierwszej karty przepustowość magistrali pamięci szacowana jest na 6 Gbit/s, a słabszej na 5 Gbit/s. Mocniejszy Radeon HD 6970 maksymalnie ma zużywać do 300 W mocy i ze względu na to do jego zasilania potrzebne będą dwa dodatkowe wejścia na wtyczki 6- i 8-pinowe. AMD Radeon HD 6950 powinien zadowolić się 225 W pobieranej energii, a na karcie graficznej znajdą się również dwa dodatkowe „power connectory”, z tym ze oba maja być 6-pinowe.
Z istotnych danych wspomnieć należy o 32 jednostkach rasteryzujących ROP (Raster OPeration unit) – podobnie jak w układach Barts, oraz o 128 modułach (również podobnie jak w układach Barts) odpowiedzialnych w operacjach postprocesingu za obsługę bufora Z i bufora szablonów (Z/Stencil ROP). Jak wynika z powyższej ilustracji, nowe Radeony oferują standardowo obsługę wielomonitorową zgodną z ulepszoną z technologią Eyefinity, która zadebiutowała wraz z kartami z serii Radeon HD 6800. Na kartach AMD Radeon HD 6970 i 6950 znajdą się dwa wyjścia miniDP 1.2, dwa złącza DVI oraz jedno HDMI 1.4a. Oczywiście również i wypadku nowych Radeonów z serii HD 6900 złącza miniDP 1.2, wraz z dodatkowymi kablami-adapterami, pozwalają łącznie obsłużyć maksymalnie do sześciu wyświetlaczy.

作者: Edison    时间: 2010-11-22 17:38
Architektura GPU Cayman
Kolejne informacje dotyczące układów Cayman oraz bazujących na nich Radeonów HD 6970 i HD 6950 pojawiły się w prezentacji o architekturze układów HD 6800, którą poprowadził Eric Demers, CTO z GPU Division.
Fot_007 – Podczas prezentacji o architekturze Radeonów HD 6870 i HD 6850, poprowadzonej przez Erica Demersa pojawiły się istotne informacje o Radeonach HD 6900.

Fot_008 – Kilka słów o znaczeniu teselacji. Teselacja adaptacyjna pozwala na osiągnięcie kompromisu między jakością obrazu, a wydajnością generowania sceny 3D. Wysoki współczynnik podziału trójkątów sceny 3D powinien być wykorzystywany jedynie dla znajdujących się blisko obserwatora obiektów, dla dalszych podział ten powinien być mniejszy.

Fot_009 – AMD Radeon HD 6970.

Fot_010 – Architektura Radeonów z serii HD 6900.

Fot_011 – Schemat blokowy układu Cayman…

Fot_012 – … oraz dla porównania schemat blokowy układu Barts.

Najważniejsza różnica między architekturą, którą można od razu zauważyć porównując schemat blokowy dla układów Cayman i Barts jest istnienie podwójnego silnika graficznego (Graphics Engine) w tym pierwszym. Dzięki temu podwojona została nie tylko liczba teselatorów, rasteryzatorów, modułów odpowiedzialnych za hierarchiczną eliminację niewidocznych dla obserwatora na scenie 3D obiektów (Hierarchical Z-buffer) czy modułów Geometry Assembler i Vertex Assembler, ale przede wszystkim znacznie zwiększono wydajność układu podczas wykonywania operacji verteksowych.
Fot_013 – Technologia Dual Graphics Engines zastosowana w układach Cayman.


作者: Edison    时间: 2010-11-22 17:38
Przede wszystkim dlatego, że w układach Cayman zastosowano dwa moduły Geometry Assembler i Vertex Assembler oraz podwójny teselator, kości z serii Radeon HD 6900 znacznie lepiej radzą sobie z operacjami geometrycznymi. Przede wszystkim są w stanie przetworzyć dwa trójkąty w jednym takcie zegarowym oraz znacznie lepiej radzi sobie z teselacją – w stosunku do Radeona HD 5870 Cayman jest aż trzy razy szybszy. Udało się też zwiększyć szybkość rasteryzacji sceny 3D z 16 do 32 pikseli przetwarzanych w jednym takcie zegarowym.
Fot_014 – Poprawa wydajności teselatora w architekturze Cayman.

Poprawa wydajności teselcji jest widoczna praktycznie niezależnie od liczby podziału wyjściowego trójkąta. Maksimum szybkości osiągnięto dla wartości dziewięć, a przy większych liczbach podziału wydajność ta zaczyna spadać. Niemniej dzięki temu, że mamy tutaj do czynienia z dwoma teselatorami  nawet przy dużych podziałach rzędu 32 wielokąty mamy zawsze dwa razy większa szybkość teselacji niż dla  kart poprzedniej generacji, w której był dostępny, podobnie jak w kościach Barts, tylko jeden teselator.

Fot_015, 016 – Nowy projekt procesorów strumieniowych SIMD w Radeonach z serii HD 6900.

W układach Cayman na nowo zaprojektowane zostały również procesory strumieniowe. Skonstruowane zostały one tak, aby zapewnić znacznie lepszy stopień ich wykorzystania, tak aby maksymalnie wyeliminować puste przebiegi obliczeniowe. Przede wszystkim wszystkie procesory strumieniowe maja teraz dokładnie te same możliwości oraz funkcjonalność związana z możliwością zajmowania trzech spośród czterech dostępnych slotów czasowych związanych z wykonywaniem obliczeń (chodzi tutaj rozdział czasu procesorów w pojedynczym Stream Processing Units – patrz Fot-016), a powiązanych z dostępem do ograniczonych zasobów globalnych (w tym rejestrów), o które jednostki strumieniowe muszą ze sobą konkurować. Jak podkreślają przedstawiciele AMD, dzięki zastosowanym zabiegom udało się zachować tą samą wydajność przy ok. 10% redukcji liczby tranzystorów oraz znacznie uprościć kolejkowanie (usprawniono algorytmy szeregowania) i zarządzanie zawartością rejestrów.
Przeprojektowano też jednostki strumieniowe (Stream Processing Unit). Dwa moduły zmiennoprzecinkowe mogą teraz razem wykonać cztery 32-bitowe operacje MAD lub dwie 64-bitowe MUL lub ADD bądź jedną 64-bitowa operację MAD bądź FMA. Z kolei dwie jednostki stałoprzecinkowe wchodzące w skład jednego procesora strumieniowego są w stanie wykonać cztery 24-bitowe operacje MAD, MUL lub ADD bądź dwie 32-bitowe ADD, lub jedna 32-bitową MUL.

作者: Edison    时间: 2010-11-22 17:39
Ulepszenia
Inżynierowie projektujący Cayman’a nie zapomnieli o usprawnieniu obliczeń wykonywanych przez układy graficzne. Ma to na celu usprawnienie obliczeń numerycznych realizowanych za posrednictwem takich bibliotek jak DirectCompute oraz OpenCL.

Fot_017, 018 – GPU Compute Enhancements.

Najważniejsze obliczeniowe zmiany dotyczą asynchronicznego przesyłania danych, a w nim zmian dotyczących symultanicznego wykonywania wielu wątków obliczeń oraz tego, że każdy główny wątek obliczeniowy ma do dyspozycji własną kolejkę rozkazów oraz chroniona domenę wirtualnych adresów. Istotnymi zmianami są również wprowadzenie dwukierunkowego mechanizmu dostępu do pamięci typu DMA (Direct Memory Access) pozwalającego na szybsze prowadzenie operacji zapisu i odczytu danych, wspólnie wykonywanych przez shadery operacji odczytu (instrukcje dotyczące odczytu danych realizowane przez różne shadery są grupowane i wspólnie realizowane jako „jedna paczka”), pobranie kodu rozkazu z pamięci do rejestru, ulepszenia kontroli przepływu operacji i danych oraz przyspieszenia operacji podwójnej precyzji.

Fot_019 – Specyfikacja Radeona HD 6970. Jak widać, wielu parametrów, w tym liczby procesorów strumieniowych, jeszcze ostatecznie nie ustalono.

Antyaliasing i zasilanie
W nowych Radeonach HD z serii 6900 wprowadzono również nowe algorytmy związane z wygładzaniem krawędzi oraz zmodyfikowano mechanizmy związane z zarządzaniem zasilaniem.

Fot_020 – Enhanced Quality Anti-Aliasing (EQAA).

Przede wszystkim zmieniono sposób wyboru maski do próbkowania punktów używanych do wygładzania krawędzi. Co ważne, liczba kolorów oraz same punkty mogą być w niezależny sposób kontrolowane, tak jak wymyśli sobie to programista. Nowy algorytm Enhanced Quality Anti-Aliasingu (EQAA) jest kompatybilny z antyaliasingiem adaptacyjnym, morfologicznym oraz antyaliasingu wykorzystującego metodę supersamplingu.

Fot_021 – Tryby próbkowania w antyaliasingu EQAA.


Fot_022 – Usprawnienia wprowadzone w układach Cayman dotyczące końcowych operacji realizowanych w potoku graficznym.

W układach Cayman przeprojektowany też został moduł zasilania. Najważniejsze zmiany dotyczą kontroli zasilania w każdym cyklu zegarowym, a co za tym idzie dostosowania szybkości zegara dla posczególnych bloków wykonawczych w zależności od ich aktualnego obciążenia i parametru TDP.

Fot_023, 024 – Usprawnienia wprowadzone w module zasilania w układzie AMD Cayman.

I to wszystkie informacje dotyczące najmocniejszych układów z rodziny Radeon HD 6000, które zaprezentowane zostały na konferencji Believe Your Eyes zorganizowanej przez firmę AMD.
Autor: Marcin Bieńkowski
Uaktualnienie: Według ostatnich niepotwierdzonych oficjalnie informacji opublikowanych na slajdzie zamieszczonym na forum serwisu Guru3D.com Radeon HD 6990 wyposażony będzie w 3840 procesorów strumieniowych i 4 GB pamięci GDDR5. Przepustowość pamięci wynosić ma 307,2 GB/s. Zużycie energii ma byc na poziomie 300 W, a w trybie idle 30 W. Moc obliczeniowa karty ma wynosić 6 TFLOPs (1,5 TFLOPs-a dla obliczeń w podwójnej precyzji). Wydajność rasteryzacji to zaś 64 piksele na takt zegarowy, a wydajność geometryczna wynosić ma, jak zamieszczono na wspomnianym slajdzie, 3100 megatrójkatów na sekundę. Zmieniono też liczbę złączy wideo. Karta ma teraz mieć 2 złącza DVI i 3 miniDP. oznacza to możliwość obsługi 9 monitorów.
Z kolei wg serwisu **illa Cayman XT (Radeon HD 6970) ma mieć 1920 procesorów strumieniowych i taktowany będzie 900-megahercowym zegarem. Pamięć to 2 GB GDDR5 taktowanych efektywnie zegarem 6 GHz. Moc obliczeniowa to 3,5 TFLOPs. Cayman Pro (Radeon HD 6950) ma dysponować 1536 procesorami strumieniowymi. GPU taktowany będzie 800-megahercowym zegarem. Tutaj pamięć to również 2 GB GDDR5 , ale taktowanych efektywnie zegarem 5 GHz. Moc obliczeniowa wynosić ma 2,5 TFLOPs-a.

作者: ak75    时间: 2010-11-22 17:39
我擦,这个鸟文彻底不懂
作者: 043265    时间: 2010-11-22 17:40
看到很多SP和TMU的 PS图啊  笑而不语~~
作者: PaulWong    时间: 2010-11-22 17:41
DX11性能大约是6870两倍???
作者: Edison    时间: 2010-11-22 17:42
机器翻译:
http://translate.google.com/translate?langpair=auto|en&u=http%3A%2F%2Fwww.frazpc.pl%2Fartykuly%2F652601%2CArchitektura-ukladow-Radeon-HD-6970-i-Radeon-HD-6950.html

作者: 木风    时间: 2010-11-22 17:44
波兰文?英文都看不懂,这个更是
作者: Edison    时间: 2010-11-22 17:49
Cayman 支持 NVIDIA 的 CSAA,不过改名为 EQAA:P
作者: westlee    时间: 2010-11-22 17:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: 380    时间: 2010-11-22 17:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: westlee    时间: 2010-11-22 17:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-22 18:05
westlee 发表于 2010-11-22 17:53
没感觉出来csaa有啥优点啊,用的最多的还是Msaa。

我这里如果用 32x CSAA 还是能看出和 8QCSAA不同的地方。

作者: Edison    时间: 2010-11-22 18:13
大图:



作者: 菲利克丝    时间: 2010-11-22 18:15
偶等明年的28nm   功耗再次下降  嘿嘿
作者: westlee    时间: 2010-11-22 18:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-22 18:23
和 Fermi 相比,Cayman 主要欠缺的是 cache。
作者: Heitai    时间: 2010-11-22 18:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: spring62    时间: 2010-11-22 19:15
sp还是TBD……
至于 clamp power comsumption to pre-determined level...."
前一
作者: shu0202    时间: 2010-11-22 19:20
迷惑人的地方不少……
作者: Edison    时间: 2010-11-22 19:31
原网站已经拿下文章了。
作者: cloudol    时间: 2010-11-22 19:56
中文版

Radeon HD 6900系列前瞻架构简析
http://www.enet.com.cn/article/2010/1122/A20101122778486.shtml

作者: shu0202    时间: 2010-11-22 20:16
开曼光栅部分性能成倍提升应该会导致传统游戏运行速度飞快……
作者: Racca    时间: 2010-11-22 20:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: mooncocoon    时间: 2010-11-22 22:16
本帖最后由 mooncocoon 于 2010-11-22 22:42 编辑

4X32bit MAD
但是只能做1个64bit的MAD
这是SP本身的问题还是REG杯具了啊……总不能跟RV8一样完全没差吧~?
怎么看怎么都像是硬生生的直接把原来的1D给砍掉了,别的事情啥都没做……

没见到类似GPC的结构,没见到cache,LDS和GDS还是主流,估计大小和操作方式也不会有变化,几乎可以说core外围完全没变,core和uncore部分则变化不小

意思就是说,这就是RV670砍掉全功能1D然后大幅调整前后端和tex资源的结果喽
那么通用计算和CS性能,大概可以预见了吧……


靠这个简单但有效的动作来回避互联线长问题然后继续心安理得的放规模是么……放规模的话,和RV670借尸还魂有什么差别……

作者: ericman    时间: 2010-11-22 22:33
大家都在后面顶E大,发现E大一直对cache情有独钟,A社用了六七代的TS被对手一下就秒的找不到北,看来架构真老了…
作者: mooncocoon    时间: 2010-11-22 22:49
本帖最后由 mooncocoon 于 2010-11-22 22:52 编辑

话说回来,这样的结构下,融合似乎更加容易做到了
原本还有一点点碍事的全功能1D被砍掉,整个体系变成了更加单纯直接的“pure vliw”(误
果然跟我之前说的一样,GPU什么的都是浮云,一切都只是为了更方便往CPU里面扔而服务么
作者: westlee    时间: 2010-11-22 22:53
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4