SlideShare uma empresa Scribd logo
1 de 279
ハードウェア技術の動向
第五回
マルレク
Agenda
 Mooreの法則とマルチコアの時代
 マルチコアの時代の終わりと新しい模索
 半導体各社の動向
 FPGAの利用の拡大
 おわりに ハードとソフトの境界領域の課題
 参考資料:検索でのFPGAの利用
Mooreの法則とマルチコアの時代
2005年〜2015年
Part I
Part I
Mooreの法則とマルチコアの時代
 Mooreの法則とマルチコア化の進行
 メニコア・チップの3方向への進化
 クラウド・ハードウェアの専用化
 モバイル・ハードウェアのSoC化
 CPU アークテクチャーの変化
Mooreの法則とマルチコア化の進行
チップ上のトランジス
ター数の増大は、や
むことなく進んでいる
ムーアの法則
Mooreの法則で
チップは、こんなにも小さくなった
モバイル用
Cortex A7 MP2
1.3GHz, 2.2mm2
ハイエンド
ウエアラブル用
Cortex A7 MP2
500MHz, 1.1mm2
Mooreの法則で
チップは、こんなにも小さくなった
ウエアラブル用
Cortex A7 UP
500MHz, 0.36mm2
IOT用
Cortex M0
40MHz, 0.05mm2
ハイエンド
ウエアラブル用
Cortex A7 MP2
500MHz, 1.1mm2
モバイル用
Cortex A7 MP2
1.3GHz, 2.2mm2
トランジスター数の増大を
チップのパワーにどう生かすか?
 トランジスター数の増大は、自動的にチップのパ
ワーを増大させる訳ではない。そこには、いくつか
の選択肢がある。
 コアの処理能力を高める
 パイプライン処理の強化
 vector演算等新しい命令の追加
 ....
 キャッシュを拡大する
 コアの数を増やす
 ....
チップのクロックは、
頭打ちの状態
チップのクロックの問題
 チップの性能をあげる、最もストレートな方法は、
クロックの周波数を上げることである。しかし、そ
こには、いくつかの大きな問題がある。
 消費電力の増大/発熱の問題
 高い周波数の為には、高い電圧が必要になるが、
リーク電流も増大し、性能が低下する
 光のスピードでしか情報は伝わらないので、原理
的には、チップの大きさが限界を与える。
 消費電力の増大の問題は、決定的に重要。
“New Microarchitecture Challenges in the Coming Generations of
CMOS Process Technologies” http://bit.ly/1zPzu0s ACM 1999
“Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
コアの増大は、2005年
あたりから顕著に
メニコア・チップの2方向への進化
メニコア・チップの3方向への進化
Many core GPU Many core CPU
Mobile Hetero System
Ra
nk
Site System Cores Rmax Rpeak
1 National
University
of Defense
Technology
China
Tianhe-2
(MilkyWay-2) -
TH-IVB-FEP
Cluster, Intel Xeon
E5-2692 12C
2.200GHz, TH
Express-2, Intel
Xeon Phi 31S1P
NUDT
3120000 33862.
7
54902.
4
2 DOE/SC/Oa
k Ridge
National
Laboratory
United
States
Titan - Cray XK7 ,
Opteron 6274 16C
2.200GHz, Cray
Gemini
interconnect,
NVIDIA K20x
Cray Inc.
560640 17590.
0
27112.
5
Top 500 2014 November
CPUとGPUのアーキテクチャーの違い
CPUとGPUは、基本的には、異なるデザイン思想に基づいてている。
CPU: 低遅延を意識した設計
 大きなキャッシュ
 メモリーアクセスの長い遅
延をキャッシュで短かな遅
延に変える
 高度な制御
 分岐遅延を軽減する為の
分岐予測・投機的実行
 データ遅延を軽減する為の
データ先読み
 強力な演算機能
 演算の遅延を軽減する
Cache
ALU
Control
ALU
ALU
ALU
DRAM
CPU
Intel Xeon Phi
60 CPU core
GPU: 高スループットを意識した設計
 小さなキャッシュ
 メモリーのスループットを高める
 単純な制御
 分岐予測なし
 データの先読みなし
 エネルギー効率のいい演算
機能
 遅延に打ち勝つために大量
スレッドを必要とする
DRAM
GPU
L2 キャッシュ
PCI Express 3.0 Interface
MemoryController
MemoryController
SMX x 15
SMX x 15, Memory Controller x 6
NVIDIA Kepler
2,880 GPU core
MobileのHetero化・SoC化
CPUとGPUが、一つのチップに
 遅延が問題となる、
シーケンシャルな実行
の部分ではCPUを使う
 シーケンシャルなコー
ドでは、CPUはGPUの
10倍以上早い
 スループットが重要と
なるパラレルな実行の
部分では、GPUを使う
 パラレルなコードでは、
GPUはCPUの10倍以
上早い
Mobile Heterogeneous System
Tegra X1
64 bit CPU A57
x 4
32 bit CPU A53
x 4
Maxwell GPU
core x 256
クラウド・ハードウェアの専用化
クラウド登場の最初期には、クラウドを構成するマシ
ンと、クラウドの主要なクライアントであったPCとの違
いは、質的には、大きなものではなかった。その最大
の違いは、クラウドのマシンの巨大な集積の規模、い
わば、量的なものであった。
創成期のクラウド・サーバー
創成期のクラウド・サーバー
創成期のクラウド・サーバー
創成期のクラウド・サーバー
カスタム化されたクラウド・サーバー
サーバー用チップの専用化
 Googleのサーバーが、カスタムボードを使い始めるのは
いつ頃からだったのかは、よくわからない。2003年には、
そういう記述はある。
 明らかなのは、2005年頃から始まる CPUのマルチコア
化とそのコスト・パフォーマンスの向上の恩恵を、もっとも
受けたのは、それを受容した、クラウドのプレーヤである。
 チップの「専用化」は、まず、クラウドのサーバーCPUのマ
ルチコア化として起きた。もちろん、それをドライブしたの
は、クラウドの規模拡大である。サーバー用マルチコアは、
クラウドという新しい顧客と新しい市場を発見したのだ。
 ただし、母胎になったPCのCPUは、Dual Core化は早
かったものの、それ以上のマルチコア化は進んだわけで
はなかった。
Scale-out Architectureの変化
 この間、少し、反省したこと。クラウドのScale out
Architecture を、「コモディティ化したマシンを沢山並べ
る」と、特徴付けてきたが、それはGoogleが登場した時
代には妥当だったのだと思うが、今は、違うのだ。
 現在、クラウドを構成しているのは、サーバー用に専用に
作られたチップでありマシンである。
 ただし、Homogeneousなマシンを多数並べるというクラ
ウドのScale-out Architectureのもう一つの特徴は、引
き継がれている。
 現在、最も「コモディティ化」したマシンは、かつてのScale
outの母体となったPCではなく、また、クラウドのサーバー
マシンでもなく、70億人が持つ携帯・スマートフォンである。
(Microserver!)
モバイルは、人類史上最大の
プラットフォーム
モバイル・ハードウェアのSoC化
“Mobile Processor Design Pitfalls”
SICS 2014 Qualcomm
http://bit.ly/1yFQSTi
モバイルのハードの進化
 2007年にiPhone、2008年にAndroidが登場する。ス
マホには、CPU・メモリーだけでなく、多数のセンサー・通
信用モジュール・マルチメディアモジュール・電源管理モ
ジュールが必要となる。
 サーバーの「専用チップ化」からは、少し遅れるが、サー
バーのマルチコア化を可能とした半導体技術は、モバイ
ルにも投入され、様々な機能は、Heteroなモジュールか
らなるSoC(System on a Chip)として実現されるように
なる。しかも低電力の。
 この進化は、同時期のPCやサーバー側のチップの変化よ
り、ドラスティックなものである。モバイルのハードは、PC
とは異なる進化の道を歩むようになる。
PCとモバイルのプロセッサー
歴史的には、モバイルのプロセ
ッサーは、PCに数年遅れていた。
ただし、現在(2014年)では、処
理能力でもメモリーのアクセス・
スピードでも、PCに並び、コア数
では、それを追い越している。
処理速度
コア数 メモリー・アクセス
Qualcomm のフラグシップ・モバイルCPUの
パフォーマンスの変化
指数関数的に、スピードアップしている
Heterogeneous System としての
Mobile SoC
 CPU Complex
 Multimedia
 Display, Camera
 GPU
 UI, Audio, Video, ...
 I/O & Sensors
 SD, Touch Screen, USB, UART, ...
 Modem
 HSPA+, LTE
 WLAN, BT, FM
 GPS
 Power Ctrl
 たくさんのタイプの、
たくさんのプロセッ
サーが存在している。
 こうした機能分離は、
セキュリティーと並列
性を高め、また、機
能ごとの効率的な電
力管理を容易にして
いる。
 その分、ハードウェア
とソフトウェアの開発
は、難しくなる。
 たくさんのタイプの、
たくさんのプロセッ
サーが存在している。
 こうした機能分離は、
セキュリティーと並列
性を高め、また、機
能ごとの効率的な電
力管理を容易にして
いる。
 その分、ハードウェア
とソフトウェアの開発
は、難しくなる。
Heterogeneous
System
Qualcomm Snapdragon 800
 Quad core Krait 400 CPU at up to
2.3GHz per core, 28nm HPm
 Adreno 330 GPU
 USB 3.0対応
Samsung Exynos 5 Octa
(Exynos 5420)
 CPU: ARM Cortex-A15 x4コア + Cortex-
A7 x4コア のbig.LITTLEオクタコア構成
 GPU: Mali-T628 (8コア)
 新モデル: 8コアが同時に
動く、「Heterogeneous
Multi-Processing (HMP)
」機能 2013年9月発表
Tegra K1 Nexus 9
CPU: 64bit x 2
GPU: 72 core
CPU アークテクチャーの変化
CPU アークテクチャーの変化
 21世紀初頭のマルチコアの時代、クラウド側のCPUは、
サーバー専用のマルチコア CPUに進化し、モバイル側の
CPUは、モバイル専用のHeterogeneousなSoCに進化
した。
 クラウドとモバイルの二つのドメインで、それぞれのドメイ
ンに特化・専用化して、ハードの主要な進化は二つの流
れへ分岐した。PC市場の縮小に伴って、PCに使われてい
た技術は、停滞した。
 それぞれのドメインでの競争の中で、20世紀末には多数
存在していたCPUのアーキテクチャーの多くは、淘汰され
姿を消した。クラウド/サーバー側ではIntel、モバイル側
ではARMのアーキテクチャーが突出した勢力となった。
CPU アークテクチャーの変化
CPU アークテクチャーの変化
CPU アークテクチャーの変化
マルチコアの時代の終わりと
新しい模索
2015年〜
Part II
Part II
マルチコアの時代の終わりと新しい模索
 Dark Siliconとマルチコアの時代の終わり
 Mooreの法則に対する楽観論と懐疑論
 Heterogeneous System Architecture
Foundation
 3D積層技術
 Silicon Photonics Technology
 Micro Server
 Heterogeneous Systemの
「進化」としての Project Ara
Dark Siliconと
マルチコアの時代の終わり
“Dark Silicon and the End of Multicore
Scaling”
 「PARSECのベンチマークと ITRSのスケール予想を用い
て、この研究は、現在から2024年の 8 nmの間の平均
のスピードアップは、最良の場合で7.9倍だと予想した。こ
の結果は、年間のパフォーマンスの改善が、16%である
と言い換えられる。」
 「しかしながら ... こうした控えめなスケール予想でも、
(Mooreの法則に基づく)理想的な性能向上の半分は、
消え去ってしまう。8 nmへの道が2018年には達成され
るとすると、高度に並列化されたコードを用いて、ベンチ
マーク用に最適化を施した最良の場合で、平均3.7倍の
スピードアップ。1年あたりでは14%という結果になる。実
際には、もっと低くなるのは確実だろう。」
ISCA 2011 http://bit.ly/15D4HY7
Mooreの法則では、年あたり40%の改善が必要
Dark Silicon?
 「ダークシリコンとは、消費電力の制約から、シリコンチッ
プ上で電力を供給してオンにできないエリアのことを示す。
実質的にCPUと同時にオンにできないエリアであり、何も
しなければ使うことができないムダなエリアとなってしま
う。」
 「理由は、チップ上の回路の電力消費が、プロセスの微細
化ほどスケールダウンしないためだ。微細化とともにCPU
コアが小さくなって行っても、電力はそれに見合うほど小さ
くならない。そのために、チップに載せることができるCPU
コア数が、段々と減って行く。」
後藤弘茂 http://bit.ly/1BO5YZt
”Compute Power with Energy Efficiency”
AFDS 2012 http://bit.ly/1GFr8w3 by ARM
Dark Silicon黙示録への対応
四人の騎士
 THE SHRINKING HORSEMAN
 半導体の面積は高価なもの。チップのデザイナーは、
シリコンのデザインの中で、Dark Siliconを持つ代わ
りに、ただただ、小さなチップを作ればいい。
 THE DIM HORSEMAN
 電力の予算を超える、homogeneousなコアでチップ
を埋めよう。ただし、その一部のコアにはロックをかけ
る(空間的ディミング)か、あるいは、バースト時にだけ
(時間的ディミング)、すべてのコアを利用する。
“Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
Dark Silicon黙示録への対応
四人の騎士
 THE SPECIALIZED HORSEMAN
 我々は、すべてのDark Siliconの領域を専用コアとし
て利用する。それぞれは、必要なタスク用に(10-100
倍エネルギー効率がいいように)チューンされている。
そして、必要な時にだけオンにされる。
 THE DEUS EX MACHINA HORSEMAN
 可能な “CMOSを超える” デバイスを目指す方向。
(まだ、そんなものはないと思うが)
“Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
Shrink Dim Specialized Beyond
CMOS
“Is Dark Silicon Useful?” DAC 2012 http://bit.ly/1zB194Y
Mooreの法則に対する
楽観論と懐疑論
Mooreの法則についての楽観論
”Multi Core Trends in High Performance
Computing” SICS 2014 http://bit.ly/1GFaoVQ
Mooreの法則は続いている!
Mooreの法則についての楽観論
”Multi Core Trends in High Performance
Computing” SICS 2014 http://bit.ly/1GFaoVQ
Mooreの法則についての懐疑論
”Compute Power with Energy Efficiency” AFDS 2012
http://bit.ly/1GFr8w3 by ARM
Mooreの法則は、死んではいない
Mooreの法則のあるバージョン
は、この10年の間は、正しいだ
ろう。
しかし、その効果は、ますます小
さなものになり、ますます重要では
なくなる。
過去には、製造技術とMooreの法則が、消費電力とパフォーマンスと面積の
改善を、我々に無償で提供してくれていた。
ただ、これ以上は期待できない。
http://bit.ly/1GFr8w3
Mooreの法則についての懐疑論
”Compute Power with Energy Efficiency” AFDS 2012
http://bit.ly/1GFr8w3 ARMの見解
Mooreの法則についての懐疑論
”Compute Power with Energy Efficiency” AFDS 2012
http://bit.ly/1GFr8w3 ARMの見解
Mooreの法則についての懐疑論
”Compute Power with Energy Efficiency” AFDS 2012
http://bit.ly/1GFr8w3 ARMの見解
それでは、我々に何ができるか?
我々は、もっと多くのトランジスタを持つことができる。
我々は、それら全てに同時に電力を供給できない。
我々は、それらの余分なトランジスタを新しいやり方で
使う必要がある。
• マルチ・コア
• メニー・コア
• ドメイン専用のプロセッサー
それらは全てHeterogeneousな処理の方向を
向いている。積極的な電力管理のもとで。
計算は、最も効率的な場所で行われるべきせある。
Mooreの法則についての悲観論
”Transitioning from the Era of Multicore to the Era of
Specialization” SICS 2014 http://bit.ly/1BOIEuC
Mooreの法則は、終わりつつある
経済が、ますます大きな力で、半導体の
エコシステムをドライブしている。
最先端の製造工場を持つベンダーの数は、
縮小している。
性能を上げるためのコストは、増大する
だろう。
ハードウェアの専用化は、重要な課題に
なるだろう。
ノードのトランジスターあたりのコスト
マルチコアの時代から専用化の時代への移行
SICS 2014 http://bit.ly/1BOIEuC
Heterogeneous System
Architecture Foundation
AMD, ARM, Qualcomm, Samsung 他
のベンダーは、ポストMulticore時代を見据えて、
Heterogeneous System Architecture
Foundationを設立する。
ただ、HSA Foundationに、Intel, NVIDIAは参加
していない。
Heterogeneous System Era
HSA Foundation
http://www.hsafoundation.com/
HSA (Heterogeneous System
Architecture) Foundation
 2012年 6月設立
 AMD, ARM Holdings, Qualcomm,
Samsung, Imagination Technologies,
MediaTek, Texas Instruments 他
 HSA Platform System Architecture
Specification http://bit.ly/1Jx4nXf
 HSA Programmer Reference Manual
Specification http://bit.ly/1t9EOJH
 HSA Runtime Specification
http://bit.ly/1yb14OV
Heterogeneous
System Architecture: Goals
 CPU/GPU のプログラム可能性の障壁を取り除く
 CPU/GPU の通信の遅延を削減する
 既存のプログラミングモデルを可能とすることで、
より広い範囲のアプリケーションに対してプログラ
ミングプラットフォームの門戸を開く
 CPU/GPUを超えた処理要素の追加を含んだ基
礎を作り出す
Heterogeneous
System Architecture: Features
 共有ページテーブルのサポート
 ページの切り替え
 ユーザー・レベルのコマンドのキューイング
 ハードウェア・スケジューリング
 コヒーレントなメモリー領域
これまでのメモリーシステム
・すべてのGPUのメモリーがCPUからアク
セスできるわけではない
・GPUのLocal Frame Bufferは、作業用
に十分な大きさを持っていない
・デマンドpagingの機能がないので、GPU
との通信を高速に行うためには、page out
しないpinnedメモリー領域を確保する必要
がある
HSA IOMMUv2
・CPUとDMAでのcopyを減らせる
・GPUは、システムのメモリー空間に直接
アクセスできる
HSAのメモリー空間
これまで、CPUとGPUのメモリー空間は
分離していた
GPUの処理は、GPUのメモリー空間で
行われていた
HSAでは、GPUからシステムのメモリー空間
に直接アクセスできる
GPUの処理は、システムのメモリー空間の
ポインターを返すことができる
CPUとGPUは、お互いのコマンドを、キューイング
できる
CPU
GPU
CPU GPU
NVIDIAのNVLINKも、同じようにCPUとGPUが
システムメモリーを共有することを目指している
3D積層技術
Intel Custom Foundry の積層技術
Intel Custom Foundry の積層技術
NVIDIAのPASCALも3Dメモリーを使う
“Time to Rethink DDR4” http://bit.ly/1tfN8aD
DDR4は、Stacked DRAM対応
“Time to Rethink DDR4” http://bit.ly/1tfN8aD
非接触の積層技術
非接触の積層技術
現時点でのProject Araのコネクターは、バネ付きの接触型
のものだが .....
製品版では、非接触型のものに変わる
Silicon Photonics Technology
IDF 2014
データセンターは、新しいデバイスのために拡大している
ラック内の接続が、現在の10~40G
から、25G~100Gになる
銅線では、
3mまでで、25G
2mまでで、32G
が限界
データセンターは、世界につながっている
ラックの変化
Gilderの予想
ネットワークがコンピ
ュータの内部バスと
同じぐらい早くなれ
ば、マシンは、特定
の目的を持ったデバ
イスのあつまりへと
ネットワーク上で
分解するだろう。
新しいデータセンターを可能に
するためには、何が必要か?
統合されたスケーラブルなSilicon photonics
経済的で革新的なケーブルとコネクター
高品質で、サーバーに優しいパケージング
コスト効率のよいサーバー・アーキテクチャーと
ネットワークとリソースプールで利点があること
データセンターを前進させるために鍵となる要素
この取り組みは、「もっとも
コモディティ化したマシン」
のScale-outの試みだと
思うと面白い。
Heterogeneous Systemの
「進化」としての Project Ara
レシーバー
ディスプレー
カメラ
WiFi
USB
アンテナ
3Gラジオ
AP+GPS
バッテリー
スピーカー
Project Ara プロトタイプ
アプリケーション
プロセッサー
モジュール
ディスプレー
モジュール
カメラ
モジュール
WiFi
モジュール
ストレージ
モジュール
バッテリー
モジュール
通信
モジュール
医療用
モジュール
Uni-Pro Switch
予告 Project Ara 勉強会
主催:マルレク+日本Androidの会+BLEガジェット勉強会
開催日時:2015年2月26日 18:30〜
開催場所:東海大学高輪校舎
申し込みページ:準備中です。
セッション概要 (予定):
 Project Araが目指すハードウェア・エコシステム
 MDKとUniProネットワーク
 開発ツールMetamorphosys
 3Dプリンターの動向
 その他
半導体各社の動向
 Intel
 NVIDIA
 IBM
 AMD
 Oracle
Part III
Intel
Intel Xeon E5-2600 v3 22nm 18 core
Intel IDF 2014 Key Note
2020年には、500億のデバイス
Intelのウェアラブル MICA
Intel Edison
Make Everything Smart
世界のデータセンター、1日に1兆トランザクション
The Era of Analytics
Health Care Data 2020年 Exa-scale
ガン研究での遺伝子治療
2020年には、1日でガン治療薬を処方できる
すべてのプラットフォームに対応
Androidへの対応
Dellとの協業
Intel Xeon E5-2600 v3
“How to Build Next-Generation Data
Center Infrastructure”
http://intel.ly/1urN2ba
New Compute-Optimized EC2
Instances http://amzn.to/1yGqaKm
 The new C4 instances are based on the Intel
Xeon E5-2666 v3 (code name Haswell)
processor. This custom processor, designed
specifically for EC2, runs at a base speed of 2.9
GHz, and can achieve clock speeds as high as
3.5 GHz with Turbo boost.
Intel Xeon E5-2600 v3
 製造プロセス: 22nm
 コア数: 18、12、8
 LLCキャッシュ/core : 2.5MB
 LLCキャッシュ: 45MB/30MB/20MB
 最大メモリー: 1.5TB
 メモリー: DDR4-2133
 PCI Express: PCI Express Gen3
サーバーのパフォーマンスの向上
 3倍以上のパフォーマンスの向上
 Intel® Advanced Vector Extensions 2 (Intel
AVX2)では、1.9倍以上の向上
 バーチャル・マシンの数は、1.7倍に増大
 DDR4で、メモリーの帯域は 1.4倍に
 PCIe 3.0のサポートで、2倍以上の帯域拡大
 コア数・キャッシュは、1.5倍に
仮想化のパフォーマンス向上
 仮想化のパフォーマンス、50%向上
 システムのオーバーヘッドが少ないVMは exit さ
せて、VMの数を削減する
 Advanced Programmable Interrupt
Controller Virtualization (APICv)
 Intel Virtual Machine Control Structure
(VMCS) Shadowing
 Cache Monitoring
 Intel Virtualization Technology (Intel VT)
Unified Networkingと
Virtualized networking
 Intel Integrated I/O
 Intel Data Direct I/O (Intel DDIO)
 Intel Virtualization Technology for Connectivity
(Intel VT-c)
 Intel Ethernet Flow Director
 Intel QuickAssist Technology
 Intel Data Plane Development Kit (Intel DPDK)
Scale-outするストレージでの
効率的なデータ管理
 Intel Rapid Storage Technology Enterprise 3.x
(Intel RSTe)
 Intel Cache Acceleration Software (Intel CAS)
 Intel Intelligent Storage Acceleration Library
(Intel ISA-L), Intel QuickData Technology, and
RAID-5 Acceleration Engine
サイバー上の脅威に対する防御策
 Intel Platform Protection
 Intel Platform Protection Technology (with Trusted
 Execution Technology [TXT])
 Intel Platform Protection Technology (with BIOS
Guard)
 Intel Platform Protection Technology (with OS Guard)
 Intel Platform Protection Technology (with XD Bit)
 Intel Data Protection Technology
 Intel Data Protection Technology (with Advanced
Encryption Standard New Instructions [Intel AES-NI])
 Intel Data Protection Technology (with Secure Key)
電力管理
 24%以上の電力削減(前世代のIntel Xeon プロセッ
サー・ベースのサーバーに対して)
 200%(3倍)のエネルギー効率(4年前の典型的なサー
バーに対して)
NVIDIA
Tegra K1 64bit CPU x 2 + GPU 192 core
32bit CPU x 4 + GPU 192 core
Tegra X1 64bit CPU x 2 + 32bit CPU x 2
+ GPU 256 core
GTC 2014
GPUのボトルネック
GPUのボトルネック
NVLinkの導入
NVLink
5倍の帯域
次世代GPU PASCAL
次世代GPU PASCAL
Machine Learning への利用
メニーコアのGPUを何に使う
か? グラフックだけではない。
Machine Learningでの利用
は、最も新しく、最も重要な分
野になるだろう。
Google Brainの成果
Google Brain
Bengio 2014 http://bit.ly/1zhaPyS
ニューロンの数
ニューロンあたりのシナプスの数
コンピュータのAIのニューロン
の数は、ミツバチと同じくらい。
この論文: http://stanford.io/162lrZ4
Tegra X1 CES 2015
64bit CPU x 4 + 32bit CPU x 4
GPU core x 256
GPUを使った画像認識技術を生かして
自動運転カーへの搭載を目指す。
GPUは、ディープ・ラーニング革命の3つの
ブレークスルーの一つ
FAIR open sources deep-
learning modules for Torch
 Many research projects on machine learning
and AI at FAIR use Torch, an open source
development environment for numerics,
machine learning, and computer vision, with a
particular emphasis on deep learning and
convolutional nets. Torch is widely used at a
number of academic labs as well as at
Google/DeepMind, Twitter, NVIDIA, AMD, Intel,
and many other companies.
2015年1月 http://bit.ly/1DWKgn2
FAIR open sources deep-
learning modules for Torch
 Today, we're open sourcing optimized deep-
learning modules for Torch. These modules are
significantly faster than the default ones in
Torch and have accelerated our research
projects by allowing us to train larger neural
nets in less time.
 This release includes GPU-optimized
modules for large convolutional nets
(ConvNets), as well as networks with sparse
activations that are commonly used in Natural
Language Processing applications.
IBM
Power 8 22nm 12 core
http://bit.ly/1yGXPUy
http://bit.ly/1yGXPUy
http://bit.ly/1yGXPUy
IBM, Nvidia team to build even
faster supercomputers
 The Department of Energy has awarded a $325
million contract to IBM to create two
supercomputers that will be at least three
times more powerful than any existing systems
in deployment today. IBM's partners in this
endeavor will be Nvidia and Mellanox.
http://bit.ly/1uIeP7o
IBM, Nvidia team to build even
faster supercomputers
 The current leader is Tianhe-2 (Milky Way 2), a
Chinese supercomputer with a theoretical max
of 55 petaflops built with Xeon E5 processors
and Xeon Phi co-processors. It may or may not
be surpassed when the new Top500
supercomputer list comes out this week. Either
way, a 165 petaFLOP supercomputer is a tall
order.
 The DoE supercomputer will use a mix of IBM
Power 8 RISC CPUs, Nvidia's Tesla GPUs and
NVlink GPU interconnects, and Mellanox's
100Gbit/sec. InfiniBand interconnects. The
system is expected to be installed in 2017.
AMD
SEATLE 28nm ARM A57 64bit x 8
KAVERI 28nm CPU x 4 + GPU x 8
Carrizo
“SEATTLE”
WHAT IS IT AND WHY?
 “Seattle” は、AMDの最初のARMベースの64bitプロ
セッサーである。
‒ 8 ARM CortexTM-A57 cores
‒ 2 DDR3/4 DRAM channels
‒ 10G Ethernet, PCI-Express, SATA
‒ GlobalFoundries 28nm process
 ARMアーキテクチャーの32bitから64bitへの移行は、
x86の32bitから64bitへの移行と同じように、産業界に
おける重要な変化である。
 AMDは、64bitのx86の世界で 果たしてきたように、
64bitのARMの世界で、主導的な役割を果たそうとしてい
る。
AMD “KAVERI”
KAVERI、GPUからシステムのメモリー空間
に直接アクセスできる
Oracle
Sparc M7 20nm 32 core
国産CPU
富士通 SPARC64 Xlfx 20nm 32 +2 core
NEC SX-ACE
富士通 SPARC64 Xlfx
NEC SX-ACE
FPGAの利用の拡大
Part IV
Part IV
FPGAの利用の拡大
 専用ハード・FPGA利用の事例
 JS MorganでのFPGAの利用
 MemcachedをFPGAで高速化
 NoSQL Data EngineをFPGAで高速化
 MS Bing検索でのFPGAの利用
 専用ハードを必要とする現状認識
 Reconfigurable Fabric
専用ハード・FPGA利用の事例
JP MorganでのFPGAの利用
“Technology in banking – a problem
in scale and complexity”
http://stanford.io/1EtFz4l
Stanford 2011
kazunori_279さん http://bit.ly/1ETFQLo に詳しい紹介がある
MemcachedをFPGAで高速化
“Thin Servers with Smart Pipes: Designing
SoC Accelerators for Memcached”
http://bit.ly/1BBNBEI ISCA 2013
 We discover that, regardless of CPU
microarchitecture, memcached execution is
remarkably inefficient, saturating neither
network links nor available memory bandwidth.
Instead, we find performance is typically
limited by the per-packet processing overheads
in the NIC and OS kernel— long code paths
limit CPU performance due to poor branch
predictability and instruction fetch bottlenecks.
 Hence, we argue for an alternate architecture—
Thin Servers with Smart Pipes (TSSP)—for
cost-effective high-performance memcached
deployment. TSSP couples an embedded-class
low- power core to a memcached accelerator
that can process GET requests entirely in
hardware, offloading both network handling
and data look up. We demonstrate the
potential benefits of our TSSP architecture
through an FPGA prototyping platform, and
show the potential for a 6X-16X power-
performance improvement over conventional
server baselines.
NIC
FPGA
NoSQL Data Engineを
FPGAで高速化
“Data Engine for NoSQL - IBM Power
Systems™ Edition White Paper”
http://bit.ly/1ETbecT
IBM Impact 2014
Redis + Power8 CAPI + FPGA +
Flash Memory
 Power8のCAPI(Coherent Accelerator Processer
Interface)は、大きなオバーヘッドなしに、FGPAチップを、
プロセッサと同一のメモリー空間に配置できる。このアプラ
イアンスは、DRAMより安価なFlashメモリーをFPGAから
アクセスして、20Tの大容量のKey-Value Cacheを実
現した。
 IBMは、すでにFGPAベンダーのAlteraとの協業を始め
ている。“Altera and IBM Unveil FPGA-accelerated
POWER Systems with Coherent Shared
Memory” http://bit.ly/1wHfZzK
http://bit.ly/1yGXPUy
http://bit.ly/1yGXPUy
Key-Value Cache
Redis
CAPI
40T
SICS 2014 http://bit.ly/1BOIEuC
http://bit.ly/1z2zMy1
MS Bing検索でのFPGAの利用
二つの問題意識
 MSの取り組みは、二つの問題意識に基づいている。それ
は、講演・論文のタイトルにはっきりと現れている。
 一つは、”Transitioning from the Era of Multicore
to the Era of Specialization” 「マルチコアの時代か
ら、専用ハードの時代への移行」である。
 もう一つは、“A Reconfigurable Fabric for
Accelerating Large-Scale Datacenter Services”
「大規模データセンターサービスを高速化するための再構
成可能なネットワーク・ファブリック」
専用ハードを必要とする
現状認識
新しい時代が我々の前にある
アナログ専用機
フォン・ノイマンの発明
統合
クロックの速度アップ
マルチコア
ハードウェアの専用化
2000BC~1940
1940~1975
1975~1990
1990~2005
2005~2015
2015~?
Mooreの法則
の時代
Mooreの法則は、終わりつつある
経済が、ますます大きな力で、半導体の
エコシステムをドライブしている。
最先端の製造工場を持つベンダーの数は、
縮小している。
性能を上げるためのコストは、増大する
だろう。
ハードウェアの専用化は、重要な課題に
なるだろう。
ノードのトランジスターあたりのコスト
効率性と専用化
ハードウェア専用化への挑戦
汎用性 効率性
クラウド: 専用化への主要な二つの挑戦
可能な限り、Homogeneousなサーバーのインフラが望ましい
ASICSが安定するまで5年はかかる。しかし、ソフトは毎月のように変わる。
クライアント:
半導体の「面積」は、貴重である。その利用は、汎用的でかつ効率的なもの
でなければならない。
アクセラレータが、そこで死んでしまうような、CPUとASICの間の「危険な谷間」
指数関数的な増加
データセンターの環境
ソフトウェアのサービスは、毎月のように変わる
マシンは、3年たつと、役割に応じて新しく購入される
マシンは、そのライフサイクルで、半分は再配置される
ハードウェアのメインテナンスは、ほとんど行われない
Homogeneityが、非常に望ましい
矛盾: 専用化しつつ均一なハード
A Reconfigurable Fabric
専用化しつつ均一なハードという矛盾した要
求を、どのように解決したか。
デザインの要求
あまり費用をかけない
現在のサーバーの30
%以下のコストで
FPGAファブリックの
専用ハードウェア
サーバーは
Homogeneous
電力をたくさん食わ
ないこと
10%以下の電力を
PCIeから。25W max
何も壊さないこと
既存のサーバーで動く
ネットワークの修正なし
エラー率も同じままで
2012年のデザイン1:柔軟で再構成可能なファブリック
2012年のデザイン2:柔軟で再構成可能なファブリック
ハードウェアとソフトウェアが、二つの計算「平面」を持つ
プログラム可能なSWファブリック
プログラム可能なHWファブリック
ハードウェアの「平面」は、第二のネットワークに
助けられて、専用のサービスを高速化できる
8コア Xeon 2.1GHz CPU x 2
64 GB DRAM
4 HDD, 2SSD
10 Gb Ethernet
ケーブルは無し
Open Compute Project仕様
Shell は、すべてのIOと
管理タスクをハンドルする
Roleは、アプリケーション・
ロジックのみ
FIFOでShellにアクセス
Roleは、部分的に再構成
可能な領域である
shell
Role
遅延は、29%削減し、スピードは2倍
ハードウェアの専用化は、効率もパフォーマンスも与え
てくれる。課題は、どうしたらそれを汎用的にできるか?
FPGA Fabricは、サービスを高速化させるフレキシブル
で柔軟なリソースを提供する。
一つのサービスの結果:1/2の数のRankingサーバー
で、遅延なく、かつ多くのモデルを搭載できた。
スケーラビリティ、耐障害性は証明された。将来のアプリ
にとって、大きな可能性を持っている。
結論
ハードとソフトの境界領域の課題
おわりに
クラウド/データセンターの
構成をめぐって SDIとContainer
 小論では、MS Bingの検索エンジンの再構築の構想を紹
介したが、クラウド/データセンターの構成をハードのレベ
ルで論ずる議論は、まだ、多くはない。
 クラウドを、Reconfigurable Fabricにする試みは、むし
ろ、Software Defined Infrastructure /
Network Function Virtualization / Software
defined Network という文脈で語られることが多い。
IntelもOpen Stackも、こうした取り組みに熱心である。
 また、これらとは少し階層は異なるが、Docker,
Container, kubernetes に対する関心も、柔軟なクラ
ウド・リソースの利用を目指したものである。
3月末のマルレクで、クラウドを取り上げる予定
クラウド/データセンターの
構成をめぐって サーバーの機能
 デバイス側が、Project Araのように物理的なモジュー
ルの入れ替えでシステムを柔軟に再構成することができ
るのに対して、クラウド側には、Homegeneousなマシン
のScale-outという制約上、「仮想的」に対応せざるを得
ないのは、ある程度やむを得ないのかもしれない。
 ただ、どのような機能を持つマシンが好ましいのかという
問題は、引き続き残り続けている。現状では、電力消費の
問題、仮想化・セキュリティへの対応等が差別化要因とし
て働いている。今後は、HSAやCAPIのような、システム
のHeterogeneous性を意識した機能拡張がサーバー・
マシンに必要になるかがカギになって行くだろう。その意
味では、アメリカの次期スパコンの選定も気になるところ
である。
Heteroなシステムのプログラミング
 CPUとGPUのHeteroなシステムのプログラミングの手法
としては、OpenCLが、現在でも、もっとも有力な選択肢
である。HSAアークテクチャーのハードウェアの元では、
使いやすさも性能も、大きくアップすることが期待できる。
ただ、OpenCLは、必ずしも習得が容易ではない。
 こうした問題に対して注目すべき動きに、AMDとOracle
が共同で進めている、Java9への採用が期待されている、
OpenCLのJavaバージョン、Project Sumatraがある。
 Hetero環境が、一足先に一般化したスマートデバイスの
世界では、Javaは広く利用されている。ただ、肝心の
AndroidでSumatraを使おうという動きが、起きていない
のは残念である。
Heteroなサーバーのターゲット
 Heteroなサーバーへの期待が高まるとすれば、検索・広
告と並んで、機械学習・Deep Learning系の処理への
期待が、一つの可能性になろう。ただ、後者に関しては、
その成熟には、まだ、少し時間が必要な気もする。(MSの
Catapultでは、FPGAにMLの機能を組み込んでいる)
 いずれにせよ、現在のクラウドのアーキテクチャーの骨組
みを規定しているのは、エンタープライズ起源のWebアプ
リの3-tierモデルである。その「頭脳」は、データベースに
すぎない。”IoT”も「ビッグデータ」も、その量的拡大の射
程内にある。
 進化の質的飛躍が、クラウドというメイン・ストリームで起
きるとは限らない。少なくとも、この10年のハードウェアの
進化を牽引してきたのは、モバイルのハードだったと思う。
ハードウェア開発と開発ツール
 FPGAの開発には、VerilogやVHDL等のHDL
(Hardware Description Language)を使うことになる。
おそらく、OpenCLと同じように、書ける人は限られている。
ただ、今後、必要なスキルになるのかもしれない。
 Arduinoの普及によって、ディジタル・システムの記述に
SystemCを利用するユーザーが広がりを見せている。
FPGAの開発はできなくとも、チップを使ったハードウェア・
システムを自作する人は確実に増えている。
 筆者が注目しているのは、Project Araのモジュール開
発のツールとして無償で提供されるMetamorphosys
である。SystemCをベースにしている。オープンソースの
ツールに支援されたモジュール開発者の増大が、ハード
ウェア開発の新しい可能性を開くことに期待している。
 検索でのFPGAの利用
 FPGAの動向
参考資料
検索でのFPGAの利用
FPGAの動向
 Xilinx
 Altera
Xilinx
Xilinx
http://bit.ly/1Bf9w1B
http://bit.ly/1LbfUiG
http://bit.ly/1En1ZUV
Altera
http://www.altera.com/
ハードウェア技術の動向 2015/02/02
ハードウェア技術の動向 2015/02/02
ハードウェア技術の動向 2015/02/02
ハードウェア技術の動向 2015/02/02

Mais conteúdo relacionado

Mais procurados

GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIANVIDIA Japan
 
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...SSII
 
MN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOFMN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOFPreferred Networks
 
BRDF レンダリングの方程式
BRDF レンダリングの方程式BRDF レンダリングの方程式
BRDF レンダリングの方程式康弘 等々力
 
レイトレ空間構造入門
レイトレ空間構造入門レイトレ空間構造入門
レイトレ空間構造入門Toru Matsuoka
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層智啓 出川
 
第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)RCCSRENKEI
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ智啓 出川
 
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール智啓 出川
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説LeapMind Inc
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language ModelsDeep Learning JP
 
Suphx: Mastering Mahjong with Deep Reinforcement Learning
Suphx: Mastering Mahjong with Deep Reinforcement LearningSuphx: Mastering Mahjong with Deep Reinforcement Learning
Suphx: Mastering Mahjong with Deep Reinforcement Learningharmonylab
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細(共有メモリ)2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細(共有メモリ)
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)智啓 出川
 
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)智啓 出川
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDKNVIDIA Japan
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門ryos36
 
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門NVIDIA Japan
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 

Mais procurados (20)

GPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIAGPU と PYTHON と、それから最近の NVIDIA
GPU と PYTHON と、それから最近の NVIDIA
 
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...
SSII2020TS: Event-Based Camera の基礎と ニューラルネットワークによる信号処理 〜 生き物のように「変化」を捉えるビジョンセ...
 
MN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOFMN-3, MN-Core and HPL - SC21 Green500 BOF
MN-3, MN-Core and HPL - SC21 Green500 BOF
 
BRDF レンダリングの方程式
BRDF レンダリングの方程式BRDF レンダリングの方程式
BRDF レンダリングの方程式
 
レイトレ空間構造入門
レイトレ空間構造入門レイトレ空間構造入門
レイトレ空間構造入門
 
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
2015年度GPGPU実践プログラミング 第5回 GPUのメモリ階層
 
第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)第4回 配信講義 計算科学技術特論B(2022)
第4回 配信講義 計算科学技術特論B(2022)
 
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
2015年度GPGPU実践プログラミング 第15回 GPU最適化ライブラリ
 
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
2015年度GPGPU実践プログラミング 第6回 パフォーマンス解析ツール
 
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
20180613 [TensorFlow分散学習] Horovodによる分散学習の実装方法と解説
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)
 
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
 
Suphx: Mastering Mahjong with Deep Reinforcement Learning
Suphx: Mastering Mahjong with Deep Reinforcement LearningSuphx: Mastering Mahjong with Deep Reinforcement Learning
Suphx: Mastering Mahjong with Deep Reinforcement Learning
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細(共有メモリ)2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細(共有メモリ)
2015年度先端GPGPUシミュレーション工学特論 第4回 GPUのメモリ階層の詳細 (共有メモリ)
 
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針(Flop/Byte,計算律速,メモリ律速)
2015年度先端GPGPUシミュレーション工学特論 第6回 プログラムの性能評価指針 (Flop/Byte,計算律速,メモリ律速)
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門研究者のための Python による FPGA 入門
研究者のための Python による FPGA 入門
 
1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門1076: CUDAデバッグ・プロファイリング入門
1076: CUDAデバッグ・プロファイリング入門
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 

Destaque

マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?nishio
 
Cpuの速度向上はいかに実現されたのか
Cpuの速度向上はいかに実現されたのかCpuの速度向上はいかに実現されたのか
Cpuの速度向上はいかに実現されたのかJoongjin Bae
 
20090401 第10回「論理回路のしくみ」
20090401 第10回「論理回路のしくみ」20090401 第10回「論理回路のしくみ」
20090401 第10回「論理回路のしくみ」Hiromu Shioya
 
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術智啓 出川
 
The Story of CPU
The Story of CPUThe Story of CPU
The Story of CPUTakashi Abe
 
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術智啓 出川
 
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm高位合成友の会第三回(2015/12/08)LTスライド@ikwzm
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm一路 川染
 
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ智啓 出川
 

Destaque (11)

マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?
 
Cpuの速度向上はいかに実現されたのか
Cpuの速度向上はいかに実現されたのかCpuの速度向上はいかに実現されたのか
Cpuの速度向上はいかに実現されたのか
 
CPUの同時実行機能
CPUの同時実行機能CPUの同時実行機能
CPUの同時実行機能
 
20090401 第10回「論理回路のしくみ」
20090401 第10回「論理回路のしくみ」20090401 第10回「論理回路のしくみ」
20090401 第10回「論理回路のしくみ」
 
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第6回 ソフトウェアによるCPUの高速化技術
 
The Story of CPU
The Story of CPUThe Story of CPU
The Story of CPU
 
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
2015年度GPGPU実践基礎工学 第5回 ハードウェアによるCPUの高速化技術
 
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm高位合成友の会第三回(2015/12/08)LTスライド@ikwzm
高位合成友の会第三回(2015/12/08)LTスライド@ikwzm
 
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
2015年度GPGPU実践基礎工学 第4回 CPUのアーキテクチャ
 
Code jp2015 cpuの話
Code jp2015 cpuの話Code jp2015 cpuの話
Code jp2015 cpuの話
 
CPUに関する話
CPUに関する話CPUに関する話
CPUに関する話
 

Semelhante a ハードウェア技術の動向 2015/02/02

MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~
MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~
MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~モノビット エンジン
 
現在進行形の変化を考える 丸山先生
現在進行形の変化を考える 丸山先生現在進行形の変化を考える 丸山先生
現在進行形の変化を考える 丸山先生Kazuo Shimokawa
 
マルチコアのプログラミング技法 -- OpenCLとWebCL
マルチコアのプログラミング技法 -- OpenCLとWebCLマルチコアのプログラミング技法 -- OpenCLとWebCL
マルチコアのプログラミング技法 -- OpenCLとWebCLmaruyama097
 
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~Takumi Kurosawa
 
seccamp2012 チューター発表
seccamp2012 チューター発表seccamp2012 チューター発表
seccamp2012 チューター発表Hirotaka Kawata
 
2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMFAtomu Hidaka
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータShinya Takamaeda-Y
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄Yukio Saito
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会Hitoshi Sato
 
160705-w01 RTミドルウエア講習会・早稲田大
160705-w01 RTミドルウエア講習会・早稲田大160705-w01 RTミドルウエア講習会・早稲田大
160705-w01 RTミドルウエア講習会・早稲田大openrtm
 
MEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてMEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてVirtualTech Japan Inc.
 
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行する
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行するD1-2-OS2_オンプレミスのVMワークロードをGCPへ移行する
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行するHideaki Tokida
 
1.コース概要
1.コース概要1.コース概要
1.コース概要openrtm
 
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア智啓 出川
 
2013 06-22osc nagoya-netmf
2013 06-22osc nagoya-netmf2013 06-22osc nagoya-netmf
2013 06-22osc nagoya-netmfAtomu Hidaka
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境智啓 出川
 
第11回ACRiウェビナー_東工大/坂本先生ご講演資料
第11回ACRiウェビナー_東工大/坂本先生ご講演資料第11回ACRiウェビナー_東工大/坂本先生ご講演資料
第11回ACRiウェビナー_東工大/坂本先生ご講演資料直久 住川
 
東京工業大学「ロボット技術」ロボットミドルウェア
東京工業大学「ロボット技術」ロボットミドルウェア東京工業大学「ロボット技術」ロボットミドルウェア
東京工業大学「ロボット技術」ロボットミドルウェアNoriakiAndo
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリースTech Summit 2016
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリースTech Summit 2016
 

Semelhante a ハードウェア技術の動向 2015/02/02 (20)

MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~
MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~
MRU : Monobit Reliable UDP ~5G世代のモバイルゲームに最適な通信プロトコルを目指して~
 
現在進行形の変化を考える 丸山先生
現在進行形の変化を考える 丸山先生現在進行形の変化を考える 丸山先生
現在進行形の変化を考える 丸山先生
 
マルチコアのプログラミング技法 -- OpenCLとWebCL
マルチコアのプログラミング技法 -- OpenCLとWebCLマルチコアのプログラミング技法 -- OpenCLとWebCL
マルチコアのプログラミング技法 -- OpenCLとWebCL
 
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
エバンジェリストが語るパワーシステム特論 ~ 第3回:IBMオフコンはいかにして生き残れたのか?~第二章~
 
seccamp2012 チューター発表
seccamp2012 チューター発表seccamp2012 チューター発表
seccamp2012 チューター発表
 
2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF2014 1018 OSC-Fall Tokyo NETMF
2014 1018 OSC-Fall Tokyo NETMF
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータPyCoRAMを用いたグラフ処理FPGAアクセラレータ
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
 
45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄45分で理解する 最近のスパコン事情 斉藤之雄
45分で理解する 最近のスパコン事情 斉藤之雄
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
160705-w01 RTミドルウエア講習会・早稲田大
160705-w01 RTミドルウエア講習会・早稲田大160705-w01 RTミドルウエア講習会・早稲田大
160705-w01 RTミドルウエア講習会・早稲田大
 
MEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについてMEC (Mobile Edge Computing) + GPUコンピューティングについて
MEC (Mobile Edge Computing) + GPUコンピューティングについて
 
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行する
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行するD1-2-OS2_オンプレミスのVMワークロードをGCPへ移行する
D1-2-OS2_オンプレミスのVMワークロードをGCPへ移行する
 
1.コース概要
1.コース概要1.コース概要
1.コース概要
 
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
2015年度GPGPU実践基礎工学 第7回 シングルコアとマルチコア
 
2013 06-22osc nagoya-netmf
2013 06-22osc nagoya-netmf2013 06-22osc nagoya-netmf
2013 06-22osc nagoya-netmf
 
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
2015年度GPGPU実践基礎工学 第14回 GPGPU組込開発環境
 
第11回ACRiウェビナー_東工大/坂本先生ご講演資料
第11回ACRiウェビナー_東工大/坂本先生ご講演資料第11回ACRiウェビナー_東工大/坂本先生ご講演資料
第11回ACRiウェビナー_東工大/坂本先生ご講演資料
 
東京工業大学「ロボット技術」ロボットミドルウェア
東京工業大学「ロボット技術」ロボットミドルウェア東京工業大学「ロボット技術」ロボットミドルウェア
東京工業大学「ロボット技術」ロボットミドルウェア
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリース
 
Cld017 nh シリーズリリース
Cld017 nh シリーズリリースCld017 nh シリーズリリース
Cld017 nh シリーズリリース
 

Mais de maruyama097

Convolutionl Neural Network 入門
Convolutionl Neural Network 入門Convolutionl Neural Network 入門
Convolutionl Neural Network 入門maruyama097
 
ContainerとName Space Isolation
ContainerとName Space IsolationContainerとName Space Isolation
ContainerとName Space Isolationmaruyama097
 
ニューラル・ネットワークと技術革新の展望
ニューラル・ネットワークと技術革新の展望ニューラル・ネットワークと技術革新の展望
ニューラル・ネットワークと技術革新の展望maruyama097
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTKmaruyama097
 
Neural Network + Tensorflow 入門講座
Neural Network + Tensorflow 入門講座Neural Network + Tensorflow 入門講座
Neural Network + Tensorflow 入門講座maruyama097
 
機械学習技術の現在+TensolFlow White Paper
機械学習技術の現在+TensolFlow White Paper機械学習技術の現在+TensolFlow White Paper
機械学習技術の現在+TensolFlow White Papermaruyama097
 
Cloud OSの進化を考える
Cloud OSの進化を考えるCloud OSの進化を考える
Cloud OSの進化を考えるmaruyama097
 
機械学習技術の現在
機械学習技術の現在機械学習技術の現在
機械学習技術の現在maruyama097
 
大規模分散システムの現在 -- Twitter
大規模分散システムの現在 -- Twitter大規模分散システムの現在 -- Twitter
大規模分散システムの現在 -- Twittermaruyama097
 
Facebook Parseの世界
Facebook Parseの世界Facebook Parseの世界
Facebook Parseの世界maruyama097
 
Project Araとものづくりの未来
Project Araとものづくりの未来Project Araとものづくりの未来
Project Araとものづくりの未来maruyama097
 
Project Araと新しいものづくりのエコシステム
  Project Araと新しいものづくりのエコシステム  Project Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステムmaruyama097
 
エンタープライズと機械学習技術
エンタープライズと機械学習技術エンタープライズと機械学習技術
エンタープライズと機械学習技術maruyama097
 
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識maruyama097
 
Cyber-Physical Systems とは何か?
Cyber-Physical Systems とは何か?Cyber-Physical Systems とは何か?
Cyber-Physical Systems とは何か?maruyama097
 
Project Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステムProject Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステムmaruyama097
 
人間の思考、機械の思考
人間の思考、機械の思考人間の思考、機械の思考
人間の思考、機械の思考maruyama097
 
グローバル・ネットワークの成立とネットワーク・マーケット
グローバル・ネットワークの成立とネットワーク・マーケットグローバル・ネットワークの成立とネットワーク・マーケット
グローバル・ネットワークの成立とネットワーク・マーケットmaruyama097
 

Mais de maruyama097 (20)

Convolutionl Neural Network 入門
Convolutionl Neural Network 入門Convolutionl Neural Network 入門
Convolutionl Neural Network 入門
 
ContainerとName Space Isolation
ContainerとName Space IsolationContainerとName Space Isolation
ContainerとName Space Isolation
 
ニューラル・ネットワークと技術革新の展望
ニューラル・ネットワークと技術革新の展望ニューラル・ネットワークと技術革新の展望
ニューラル・ネットワークと技術革新の展望
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTK
 
Neural Network + Tensorflow 入門講座
Neural Network + Tensorflow 入門講座Neural Network + Tensorflow 入門講座
Neural Network + Tensorflow 入門講座
 
機械学習技術の現在+TensolFlow White Paper
機械学習技術の現在+TensolFlow White Paper機械学習技術の現在+TensolFlow White Paper
機械学習技術の現在+TensolFlow White Paper
 
Cloud OSの進化を考える
Cloud OSの進化を考えるCloud OSの進化を考える
Cloud OSの進化を考える
 
機械学習技術の現在
機械学習技術の現在機械学習技術の現在
機械学習技術の現在
 
大規模分散システムの現在 -- Twitter
大規模分散システムの現在 -- Twitter大規模分散システムの現在 -- Twitter
大規模分散システムの現在 -- Twitter
 
Facebook Parseの世界
Facebook Parseの世界Facebook Parseの世界
Facebook Parseの世界
 
Aurora
AuroraAurora
Aurora
 
Project Araとものづくりの未来
Project Araとものづくりの未来Project Araとものづくりの未来
Project Araとものづくりの未来
 
Project Araと新しいものづくりのエコシステム
  Project Araと新しいものづくりのエコシステム  Project Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステム
 
エンタープライズと機械学習技術
エンタープライズと機械学習技術エンタープライズと機械学習技術
エンタープライズと機械学習技術
 
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識
人間に出来ること --- 人間 vs 機械 Part I 進化と自然認識
 
Cyber-Physical Systems とは何か?
Cyber-Physical Systems とは何か?Cyber-Physical Systems とは何か?
Cyber-Physical Systems とは何か?
 
Project Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステムProject Araと新しいものづくりのエコシステム
Project Araと新しいものづくりのエコシステム
 
人間の思考、機械の思考
人間の思考、機械の思考人間の思考、機械の思考
人間の思考、機械の思考
 
グローバル・ネットワークの成立とネットワーク・マーケット
グローバル・ネットワークの成立とネットワーク・マーケットグローバル・ネットワークの成立とネットワーク・マーケット
グローバル・ネットワークの成立とネットワーク・マーケット
 
Google Dremel
Google DremelGoogle Dremel
Google Dremel
 

ハードウェア技術の動向 2015/02/02