POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 3266|回复: 32
打印 上一主题 下一主题

NVIDIA Tesla GPU computing solutions for HPC will be available August, 2007.

[复制链接]
跳转到指定楼层
1#
发表于 2007-6-21 10:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
NVIDIA、G80ベースのHPC向けGPU「Tesla」
~PCI Expressカードタイプから1Uラックまで
Tesla GPU Serverを紹介する同社チーフサイエンティストのデイビッド・カーク氏
6月20日(現地時間)発表


 米NVIDIAは20日(現地時間)、HPC (High Performance Computing)向けのGPU「Tesla」(テスラ)を発表した。
GeForce、Quadroに次ぐ第3のGPUブランドとなるTesla
 コンシューマ向けの「GeForce」、プロフェッショナル向けの「Quadro」に次ぐ第3のGPUブランド。ただし、その用途はグラフィックスではなく、大規模な並列計算用のコプロセッサ的製品となる。

 ラインナップは、PCI Expressカード型の「Tesla GPU (C870)」、このカードを2枚内蔵した外付けボックス型の「Tesla GPU Deskside Supercomputer (D870)」、カードを4枚内蔵した1Uラックマウント型の「Tesla GPU Server (S870)」の3モデル。価格は順に1,499ドル、7,500ドル、12,000ドル。

 C870のハードウェアはGeForce 8800 GTXとほぼ同じで、GPU内に128個のストリーミングプロセッサ(SP)を内蔵し、PCとはPCI Express x16で接続。ただし、DVIなどのディスプレイインターフェイスは持たず、メモリは1.5GBを搭載する点が異なる。クロックは明らかにされていないが、ピーク性能は518GFLOPSに達するという。

 D870とS870はPCI Express Gen 2スイッチを搭載しており、ホストPCにPCI Express Gen 2アダプタを装着して、外部ケーブルで両者を接続する。なお、両製品ともそれぞれ2倍のGPUを搭載する製品も計画している。

 電源容量はD870が最大550W、S870が最大800W。S870はGPU上にファンレスのヒートシンクのみを搭載し、シャーシ前面に備え付けられたファンで冷却する。

TeslaのロゴTesla GPU (C870)基板にパターンは残っているが、ディスプレイ端子はない。利用できるのかは不明だが、SLIコネクタは1つのみ
Tesla GPU Deskside Supercomputer (D870)ホストPCとはPCI Express Gen2アダプタ経由でケーブル接続する4枚のC870を内蔵したTesla GPU Server

 Teslaのソフトウェアプラットフォームは同社の汎用プログラミングモデル「CUDA (Compute Unified Device Architecture)」を利用。CUDAにはGPU用のCコンパイラが含まれており、Cプログラムに若干の修正を加えるだけで、CUDAコンパイラが処理をCPUとGPUに振り分けられる。

 同社GPU Computingジェネラルマネージャのアンディー・キーン氏は「これまでHPCの歴史では、SIMD、マルチCPU、パラレルCPU、クラスタ化というようにCPUを主体に処理能力を上げてきた。しかし、浮動小数性能はCPUよりGPUの方がずっと高く、パラレルデータ処理能力にも秀でている。そこで、GPUに対して一般的な言語によるアクセスを与えることで、GPUの役割を広げることができる」と、Teslaの開発経緯を語っている。

 また、同社CEOのジェンスン・フアン氏はTeslaについて「科学者が待ち望んでいたパーソナルスーパーコンピュータ」と表現している。

http://pc.watch.impress.co.jp/docs/2007/0621/nvidia.htm
2#
 楼主| 发表于 2007-6-21 10:21 | 只看该作者
NVIDIA® Tesla™ C870 GPU computing processor is the first to bring a massively multi-threaded architecture to high performance computing (HPC) applications for scientists, engineers, and other technical professionals.
The Tesla C870 GPU computing processor transforms a standard system into a personal supercomputer with over 500 gigaflops of peak floating point performance.

With a 128-processor computing core, a C-language development environment for the GPU, a suite of developer tools, and the world’s largest ISV development community for GPU computing, the Tesla C870 GPU computing processor enables professionals to develop applications faster and to deploy them across multiple generations of processors.

The Tesla C870 GPU computing processor can be used in tandem with multi-core CPU systems to create a flexible solution for personal supercomputing.
ProductTesla C870
Form FactorATX, 4.38" x 12.28"
# of Tesla GPUs1
Total Dedicated Memory1.5 GB GDDR3
Peak FlopsOver 500 gigaflops
Floating Point PrecisionIEEE 754 single-precision floating point
Memory Interface384-bit
Memory Bandwidth76.8 GB/sec.
Max Power Consumption170W
System InterfacePCI Express x16
Auxiliary Power ConnectorsYes (2)
Number of Slots2
Thermal SolutionActive Fansink
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2007-6-21 10:22 | 只看该作者
Supporting Platforms
  • NVIDIA® Tesla™ certified system*
  • Microsoft® Windows® XP (32-bit)
  • Linux® (64-bit and 32-bit)
    • Red Hat Enterprise Linux 3, 4 and 5
    • SUSE 10.1, 10.2 and 10.3
NVIDIA Tesla Architecture
  • Massively-parallel computing architecture with 128 multi-threaded processors per GPU
  • Scalar thread processor with full integer and floating point operations
  • Thread Execution Manager enables thousands of concurrent threads per GPU
  • Parallel Data Cache enables processors to collaborate on shared information at local cache performance
  • Ultra-fast memory access with 76.8 GB/sec. peak bandwidth per GPU
  • IEEE 754 single-precision floating point
Scalable Solutions
  • Scalable from one to thousands of GPUs
  • Available in GPU computing processor, deskside supercomputer and 1U rack-mount GPU computing server
Software Development Tools
  • C language compiler, profiler and emulation mode for debugging
  • Standard numerical libraries for FFT (Fast Fourier Transform) and BLAS (Basic Linear Algebra Subroutines)
Product Details
  • Tesla C870 GPU Computing Processor
    • One GPU (128 thread processors)
    • Over 500 gigaflops
    • 1.5 GB dedicated memory
    • Fits in one full-length, dual slot with one open PCI Express x16 slot
    Tesla D870 Deskside Supercomputer
    • Two GPUs (128 thread processors per GPU)
    • Over 500 gigaflops per GPU
    • 3 GB system memory (1.5 GB dedicated memory per GPU)
    • Quiet operation (40dB) suitable for office environment
    • Connects to host via cabling to a low power PCI Express x8 or x16 adapter card
    • Optional rack mount kit
  • Tesla S870 GPU Computing Server
    • Four GPUs (128 thread processors per GPU)
    • Over 500 gigaflops per GPU
    • 6 GB of system memory (1.5 GB dedicated memory per GPU)
    • Standard 19”, 1U rack-mount chassis
    • Connects to host via cabling to a low power PCI Express x8 or x16 adapter card
    • Standard configuration: 1 PCI Express connector driving 4 GPUs
    • Optional configuration: 2 PCI Express connectors driving 2 GPUs each
*for deskside system and server
回复 支持 反对

使用道具 举报

ikinari 该用户已被删除
4#
发表于 2007-6-21 10:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

5#
发表于 2007-6-21 12:06 | 只看该作者
500GFlops+?
哪儿来的。
回复 支持 反对

使用道具 举报

6#
发表于 2007-6-21 12:21 | 只看该作者
C870有個有趣的地方,它的PCB是全長的。
那個box本身是PCI Express Gen2的關係,所以1U server可以裝4張卡。

518GFLOPS全開.... 看來MUL在A3已經搞定了,只是Driver封閉起來....orz
回复 支持 反对

使用道具 举报

7#
发表于 2007-6-21 12:25 | 只看该作者
没有DVI接口,不能当显卡用了
回复 支持 反对

使用道具 举报

8#
发表于 2007-6-21 12:31 | 只看该作者
原帖由 Eji 于 2007-6-21 12:21 发表
C870有個有趣的地方,它的PCB是全長的。
那個box本身是PCI Express Gen2的關係,所以1U server可以裝4張卡。

518GFLOPS全開.... 看來MUL在A3已經搞定了,只是Driver封閉起來....orz

:mad:强烈BS之。

至少怎么说,Ultra应该开启才对。
回复 支持 反对

使用道具 举报

9#
发表于 2007-6-21 12:43 | 只看该作者
原帖由 fineday 于 2007-6-21 12:31 发表

:mad:强烈BS之。

至少怎么说,Ultra应该开启才对。


開了也不一定可以好好利用.... 這和R600是一樣的狀況。
所以他們乾脆限制在Stream Processor產品底下才開....
G86可以開、但G84不能開的狀況可能也是G86實在太弱了不開不行。

而且可能會產生G80前後期性能不同的狀況(這應該真的是A3才改的),那不如就限制起來....雖然Ultra應該全部都是A3。orz

看看八月Tesla正式推出的時候會不會順便改這邊吧....

[ 本帖最后由 Eji 于 2007-6-21 12:46 编辑 ]
回复 支持 反对

使用道具 举报

10#
发表于 2007-6-21 12:59 | 只看该作者
楼上都是强人,我基本上看不懂,就知道那卡不能拿来当显卡用,因为没有输出端口。这个是所谓的通用计算用的卡吧
回复 支持 反对

使用道具 举报

11#
 楼主| 发表于 2007-6-21 13:08 | 只看该作者
:charles: 上大图:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

12#
发表于 2007-6-21 13:43 | 只看该作者
話說回來,GPGPU的programming style長期以來限制於GPU的結構,所以GPGPU的developer通常被迫要去認識GPU的結構,但是CELL、Larrabee的developer應該不會有這個困擾.... AMD的CPU/GPU抽象層有沒有辦法改善這個問題需要觀察,但是原則上AMD可以放棄GPU效率來強化CPU能力、NVIDIA卻不能放棄GPU結構,因為這是他們的主力產品。

所以個人認為,NVIDIA在HPC市場算是最吃虧的,其次是AMD。
(看AMD要不要讓GPU的性能下降來迎合CPU這塊....現在越來越看不出來;做兩種結構?公司要有那個資源啊)

正常狀況下,HPC市場只會剩下CELL和Larrabee對抗....

[ 本帖最后由 Eji 于 2007-6-21 13:55 编辑 ]
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
13#
发表于 2007-6-21 15:37 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

14#
发表于 2007-6-21 15:43 | 只看该作者
这东西和CUDA有何区别?
回复 支持 反对

使用道具 举报

15#
发表于 2007-6-21 16:01 | 只看该作者
原帖由 lqf3dnow 于 2007-6-21 15:43 发表
这东西和CUDA有何区别?


拔掉輸出(NVIO空焊)所以沒有顯示能力,不使用SLI,結構面上和Quadro Plex一樣只是單純的外接盒。和AMD Stream Processor幾乎等於拔掉顯示接頭的R580一樣。記憶體容量1.5GB,full-length PCB。所以G80並不是沒有full-length PCB....

值得注意的是會場NVIDIA的人員提到會有雙GPU版本,不知道是Tesla專用還是真的會有8950GX2。

----
話說看到全長PCB就會想要全長版G80的只有我一個人嗎?

[ 本帖最后由 Eji 于 2007-6-21 16:23 编辑 ]
回复 支持 反对

使用道具 举报

16#
 楼主| 发表于 2007-6-21 16:45 | 只看该作者


w00t)

特斯拉. 特斯拉 Nikola Tesla (1856-1943) was born in Croatia and immigrated to America. He contributed to the development of electrical technology. Here he is displayed on black and white scan of a 10 Billion Dinar note from the period of the great inflation just before the breakup of Yugoslavia. (The Europeans call it 10 Milliard. In any language that's 1010! A good reason for using scientific notation.)
回复 支持 反对

使用道具 举报

17#
发表于 2007-6-21 17:03 | 只看该作者
太震撼了,不过不知道有没有什么场合能直接利用4-way的C870,有相关的应用程序吗?
回复 支持 反对

使用道具 举报

18#
发表于 2007-6-21 17:16 | 只看该作者
原帖由 zzhang 于 2007-6-21 17:03 发表
太震撼了,不过不知道有没有什么场合能直接利用4-way的C870,有相关的应用程序吗?


自己寫吧.... XD

由於CUDA設定上對每個GPU都會分一個host thread,所以UIUC的課程裡面是拿Quad-Core去搭三張G80,對每個GPU都讀自訟Data Stream。所以相信4way G80應該需要類似的設計。
話說外接應該只是穩定需求而已...它是拿一張轉接卡插進PC的PCI Express x16,對系統來說沒有太大差異。
回复 支持 反对

使用道具 举报

19#
发表于 2007-6-21 17:35 | 只看该作者
不过我觉得这种方式的一个致命缺陷是功耗太高,计算能力/功耗比太差了,还是AMD和Intel那种集成多核心的方案更合适,用造CPU的方式造GPU,:p
回复 支持 反对

使用道具 举报

20#
 楼主| 发表于 2007-6-21 17:39 | 只看该作者
G80本身就是多核心设计,128个SP可以看作是128个完整的内核。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-10-18 18:11

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表