Tesla

  • CUDA VE GPU HESAPLAMA
  • GPU UYGULAMALARI
  • SUNUCULAR VE İŞ İSTASYONLARI İÇİN GPU’LAR
GPU Hesaplama Nedir?
Divider

GPU HIZLANDIRMALI HESAPLAMA, YÜKSEK
BAŞARIMLI HESAPLAMADA (HPC) DEVRİM YARATIYOR

Hızlandırılmış hesaplama yüksek performanslı hesaplamada (HPC) devrim yapıyor. Günümüzde, GPU hızlandırıcılı sistemlerin HPC için en yüksek performansı ve en enerji verimli hesaplamayı sundukları yaygın kabul görmektedir. ABD Enerrji Departmanı'nın kısa bir süre önce yaptığı Summit ve Sierra süper bilgisayarlar duyurusu hızlandırıcıların büyük ölçekli hesaplamada ne kadar kritik önem taşıdığını göstermektedir.

Hızlandırılmış hesaplama için seçenekleri değerlendirirken, yapılan vaatleri ve abartılı reklamları dikkate almadan bazı gerçekleri paylaşmak istiyoruz. Intel’in Xeon Phi hızlandırıcısının, kodu yerel olarak Xeon Phi üzerinde yeniden derleyip çalıştırarak GPU’ya göre kabul edilebilir bir performans sunduğu, ya da performans optimizasyonunun Xeon Phi üzerinde GPU’dan daha kolay olduğu gerçeğe dayalı bilgi değildir.

 
 
GERÇEK: GPU, gerçek HPC uygulamalarında Intel’in Xeon Phi den
              önemli derecede daha hızlıdır.
Önemli bilim uygulamalarında Xeon Phi’ye göre 2 kat daha fazla hız.
 
NVIDIA GPU, Xeon Phi’den 4 kata kadar daha hızlıdır.

HPC uygulama performansı ile ilgilidir ve GPU'lar, CPU'lara göre üstün performans sunduklarını kanıtlamıştır. GPU'lar, yukarıdaki şemada gösterilen çeşitli bilimsel iş yüklerini temsil eden uygulamalarda CPU’lara göre yaklaşık 2.5-7 kat daha fazla hızlanma sunar. Intel'in Xeon Phi ürünü CPU'dan daha fazla perforans sunmak üzere optimize edilebilse dahi, GPU performansı en ileri teknoloji Knights Corner'dan ortalama 2-5 kat daha hızlıdır.

Kuruluş Hesaplama Uygulaması Xeon Phi’ye göre GPU Hızlandırma
Tokyo Teknoloji Enstitüsü CFD Diffusion 2.6x
Xcelerit Monte-Carlo LIBOR Swap Pricing 2.2x - 4x
Georgia Tech Synthetic Aperture Radar 2.1x
CGGVeritas Reverse Time Migration 2.0x
Paralution BLAS & SpMV 2.0x
Wisconsin Üniversitesi-Madison WRF (Hava Tahmini) 1.8x
Erlangen-Nuremberg Üniversitesi Tıbbi Görüntüleme- Phi' ye göre 3D Yeniden Oluşturma GPU Hızlandırma 7x
Delft Üniversitesi İlaç Keşifleri 3x
Bağımsız sonuçlar, GPU performansının Xeon Phi’ye göre 2 kat veya daha fazla olduğunu göstermiştir. (Ocak 2014'te güncellenmiştir)
Günümüzde, çeşitli alanlarda yaklaşık 200 hesaplama uygulaması GPU hızlandırmalıdır.
GERÇEK: “Xeon Phi üzerinde “Yeniden Derleyip Çalıştırma”
              aslında uygulamalarınızı yavaşlatır.
Geliştiricilerin, CPU kodunda herhangi bir değişiklik yapmadan Intel’in Xeon Phi üzerinde uygulamaları “yeniden derleyip çalıştırabildikleri” fikri cazip ancak yanlış yönlendiricidir. Elde edilen performans genellikle CPU performansından çok daha yavaştır, başka bir deyişle hızlanmanın tersidir.
Xeon Phi üzerinde yeniden derleyip çalıştırma uygulama performansını yavaşlatır
Xeon Phi üzerinde basit yeniden derleme ve çalıştırma işlemleri yapılabilir (bazen), ancak kodlar CPU’da olduğundan çok daha yavaş çalışır. Sistem ve konfigürasyon ayrıntıları2

 
Phi üzerinde yerel olarak çalışmak üzere basit bir yeniden derleme mümkün olsa bile, bunun yapılması uygulama performansını CPU’ya göre yavaşlatır – yukarıda gösterildiği gibi bazı durumlarda 5 kata kadar daha yavaş.

“Yeniden derleyip çalıştırma”, blog “No Free Lunch” blogunda anlatıldığı gibi kodun seri kısımlarında Amdahl Kanunu gibi birtakım teknik sorunlarla karşılaşır. Xeon Phi çekirdeklerinin modern CPU çekirdeklerine göre kötü seri performansı (eski bir Pentium tasarımını temel alır) nedeniyle, kodun Xeon Phi’de yerel olarak çalıştırılan seri kısmı daha yavaş çalışabilir.

Pratikte, derleyici kodu önce Xeon Phi’de derleyip daha sonra CPU’larda performans eşitliği sağlamak için yeniden faktörleme ve optimize etme için çaba sarf etmelidir.

Sonuçta, hem Xeon Phi hem de GPU ile hızlanmada paralellik elde etmek belli bir çaba gerektirir. “Yeniden derleyip çalıştırmak” geliştiriciler için en iyi olasılıkla elverişli bir ilk adım ve en kötü olasılıkla hayal kırıklığına uğratması kaçınılmaz olan cazip bir taleptir.
GERÇEK: GPU ve Xeon Phi için programlama benzer çaba gerektirir – ancak
              GPU üzerindeki sonuçlar önemli derecede daha iyidir.
ynı optimizasyon teknikleri. Geliştirici tarafından aynı çaba. GPU üzerinde 2 kat daha hızlı performans.
Method GPU Phi
Libraries CUDA Libraries + others Intel MKL + others
Directives OpenACC OpenMP + Phi Directives
Native Programming Models CUDA Vector Intrinsics
Geliştiriciler, performans için hızlandırıcıları programlamak ve optimize etmek için kitaplıklar, direktifler veya dil uzantıları kullanır.

GPU ve Intel’in Xeon Phi bazı yönleriyle farklı olabilir, ancak her ikisinin de parallel işlemci olmasından dolayı benzerlik gösterirler. Geliştiriciler, gerek Phi, gerekse GPU’da büyük miktarlarda paralellik sergilemek için benzer çaba sarf etmeli ve benzer optimizasyon teknikleri kullanmalıdır.

Yukarıdaki tabloda gösterildiği gibi, geliştiriciler kodlarını hızlandırmak için aynı üç yöntemi kullanır – kitaplıklar, direktifler ve CUDA C for GPU veya Xeon Phi’de intrinsics.

Ayrıca, Xeon Phi ve GPU için gereken programlama işleri birçok insanın düşündüğünden daha fazla benzerlik gösterir.

Aşağıda, bir N-body çekirdek kodu her iki hızlandırıcıyı da optimize etmek için benzer optimizasyon teknikleri ve çabanın gerektiğini göstermektedir. Kod değişiklikleri temel olarak aynı olsa da, GPU üzerindeki performans Xeon Phi performansının önemli derecede üzerindedir. Optimizasyon örneğini yükle.
 
Tesla K20 GPU, Xeon Phi’den 11 kat daha hızlıdır
Basit bir n-body kod karşılaştırması benzer optimizasyon tekniklerinin kullanılması gerektiğini gösterir, ancak GP büyük ölçüde daha hızlıdır. Sistem ve konfigürasyon ayrıntıları3
 
 
 

Kolaylıkla taşıyabilirsiniz, ancak CUDA’da kodunuzu vektörleştirmek için yaptığınız şeyler Phi için
de yapılmalıdır.

Dr. Karl Schultz
Texas Gelişmiş Hesaplama Merkezi (TACC) Bilimsel Uygulamalar Direktörü
Kaynak: HPCWire, 17 Mayıs, 2013

GPU kodlarımız, SIMD işlemlerini SIMT işlemleri ile değiştirme dışında, Xeon Phi kodlarına oldukça benzemektedir.

 

Intel Xeon Phi’de elde edilen sonuçlar şaşırtıcı ve hayal kırıklığına uğratıcıydı… Xeon Phi’nin kolay programlanır olduğu söylenmesine rağmen, vektörleştirme ayarı nedeniyle çözüm oluşturmak oldukça yoğun çaba gerektirdi.

"Xeon Phi üzerinde bir program çalıştırmak kolay olmasına rağmen, CUDA ve NVIDIA GPU'lar ile Lattice Boltzmann uyulamalarında yüksek performanslar elde etmeyi daha kolay buldum."

Dr. Sebastiano Fabio Schifano Matematik ve Bilişim Bölümü - Ferrara Üniversitesi

Bu gerçekleri gördükten sonra, hızlandırılmış hesaplama daha iyi anlaşılabilir. Günümüzde, bir GPU temelde aynı yazılım geliştiricinin çabası ile iki kat daha fazla performans sunar. GPU’lar paralel kodu hızlandırmak için mantıklı olan seçenektir. Bu, bilimsel araştırmacıların bu yıl Xeon Phi’ye göre GPU ile neden 10:1 oranında yayın yapmış olmalarının nedeni olabilir.4 Ve günümüzde HPC sistemlerinde neden NVIDIA GPU’nun Xeon Phi’ye göre 20:1 oranının üzerinde tercih edildiğini açıklayabilir.5

 

Benchmark Konfigürasyuonları ile İlgili Notlar:
AMBER: SPFP-Cellulose_production_NPT, 1x E5-2697v2 + Xeon Phi 7120P, 1x E5-2697v2 @ 2.70GHz + Tesla K40.
MiniMD: KokkosArray- LJ kuvvetleri, 864k atomlar, çift hassasiyet, 2x Xeon E5-2667 + Xeon Phi 7120, 2x Xeon E5-2667 + Tesla K40.
Monte Carlo RNG DP: Avrupa opsiyon fiyatlama, 2x Intel® Xeon® Processor E5-2697 v3 + Tesla K40 GPU, Intel Xeon Phi performans sonuçlarını sitesinde yayınladı.
tHogbomClean: 2x Xeon E5-2697 v2 + Xeon Phi 7120, 2x Xeon E5-2697 v2 + Tesla K40c.
Binomial Options SP: 2x Xeon İşleci E5-2697 v3 + Tesla K40 GPU, Intel Xeon Phi performans sonuçlarını sitesinde yayınladı.
NAMD: APOA1, 2x Xeon E5-2697v2 + Xeon Phi 7120, 2x Xeon E5-2697v2 +Tesla K40.
STAC-A2: Warm Greek, 2x E5-2699v3 CPUs + Xeon Phi 7120A, 2x Intel Xeon E5-2690v2 + Tesla K80.

 
 
CUDA ve GPU Hesaplama

GPU Hesaplama Nedir?
GPU Hesaplama
Hakkında Gerçekler

GPU Programlama
Kepler GPU Mimarisi
GPU Bulut Hesaplama
İletişim

CUDA Nedir?
CUDA Tanıtımı
CUDA Eğitimi
CUDA Araştırma Merkezleri
CUDA Eğitim Merkezleri

GPU Uygulamaları

Tesla GPU Uygulamaları
Tesla Başarı Öyküleri
OpenACC Direktifleri
Tesla GPU Test Sürüşü

Sunucular ve İş İstasyonları
için Tesla GPU’lar

Neden Tesla
Tesla Sunucu Çözümleri
Tesla İş İstasyonu Çözümleri
Tümleşik Geliştirme Platformu
Tesla GPU Satın Al

Tesla Haberleri ve Bilgileri

Tesla Ürün Bilgi Kaynakları
NVIDIA Araştırma
Tesla Uyarıları

Bize Çevrimiçi Ulaşın

NVIDIA Blog NVIDIA Blogu
Facebook Facebook
YouTube YouTube