GTC Taipei 2018黃仁勳演講 - 股票

Charlie avatar
By Charlie
at 2018-06-14T11:31

Table of Contents

GTC Taipei 2018黃仁勳演講

http://bit.ly/2sUmI1S

AI晶片龍頭NVIDIA公司舉辦GTC 2018技術大會,於2018年5月30、31日於台北舉行。CEO黃
仁勳宣稱十年前推出NVIDIA GPU運算架構CUDA,已經累計下載了800萬次,在過去五年裡
增加了五倍。

黃仁勳談到摩爾定律將於2028到盡頭,現在需要擴展它的極限。傳統半導體有摩爾定律,
但CUDA GPU創造了不同的定律。GPU每隔五年就達到10倍的效能成長,也針對演算法不斷
的改善。傳統伺服器的龐大、耗電,通過NVIDIA的GPU有了根本性的改變。他說,在計算
領域用了越多的GPU,其實就是越省錢!

從機器學習到深度學習,已衍生出無數種不同的神經網路、模型,隨著應用的增加,也越
來越複雜。爲了要應付這些複雜的神經網路計算,現有的小型GPU其實很難以負擔,但如
果把個別的GPU通過高效能的互聯結構結合起來,形成一個巨大的GPU,就可以創造出過去
不可能達成的計算成果。於是,DXG-2 Server就是互聯了16顆GPU,形成一個龐大的GPU架
構,共享統一的記憶體空間,通過最新的NVLink技術,使GPU和GPU之間可以用比PCIE快20
倍的效率互相溝通。

HGX-2超級計算機平台
HGX-2超級計算機是剛釋出的新產品,同樣可以串聯16個Tesla V100,速度達到
2Peta-FLOPS,同樣,這還是第一款人工智慧和高效能運算統一的平臺HPC。 換句話說
HGX-2就是一個伺服器平臺,可進行科學計算或是高精度模擬,也可以進行AI訓練。這正
可以解決CPU效能擴張速度變慢的問題,GPU大規模平行計算有了更好的發展空間。

DGX-2深度學習機
DGX-2 是一台專門用於人工智慧訓練和/或推理任務的桌面計算機。DGX-2 可提供 10 倍
於上一代 Nvidia DGX-1 的深度學習效能,整體功耗為為 10KW,重 350 磅,售價39.9
萬美元。

機器人平臺Isaac及處理器Jetson Xavier
Isaac機器人平臺,針對製造、物流、農業和建築等機器人應用而推出,可作為終端消耗
HGX-2和DGX-2的運算力。基於Isaac平臺的Jetson Xavier處理器,包括了1個Volta
Tensor Core GPU、1個8核ARM64 CPU、2個NVDLA深度學習加速器、1個影像處理器、1個視
覺處理器和1個視訊處理器,預定價格為1299美元。被用於現場模擬、判斷和模擬環境測
試,而更多的資料則會交給雲端進行,並最終同步到所有機器人之中。 (705字;圖1)


以下內容出自GTC2018 黃仁勳演講簡報:
大幅升速的電腦運算
GPU運算從一個優異的GPU開始,但它的潛力只有在我們優化整個堆疊時才會展現--從CUDA
到應用。
一個演算法領域,一次一種應用,我們創造並持續優化CUDA加速堆疊。
短短的5年內,我們將分子動力學應用加速了25倍。

10億美元的超級運算產業
超級電腦是現代科學的重要工具
過去10年,我們開發了一整套用在超級運算的函式庫,系統管理和編程工具。
針對分子建模、量子化學和力學、天氣預報、氣候研究、能源探索、物理模擬、資料科學
以及人工智慧,超過550種高效能運算應用了CUDA加速。
未來,每台超級電腦都要在務實的成本與能耗的考量基礎上,加速實現百萬億次級和百億
級性能。

GPU再造
未來的運算將融合模擬和機器學習方法。
電腦可以通過學習數據中的重要特徵,模擬物理定律或預測結果。
NVIDIA再造GPU、創造Tensor Core GPU - 融合了HPC和AI運算的新架構。
Tensor Core GPU具有多種精度、支持高運算量FP64、FP32 、FP16、Int8和單周期4x4矩
陣乘法累加來進行深度學習。
Volta是第一款Tensor Core GPU,並採用125張Tensor TFLOPS來增強AI – 比以前的GPU
快10倍。

【世上最強的GPU】
我們發明了一種突破性開關,可以將多個GPU連接並編程為單個GPU。
NVSwitch是一種新型高頻寬交換器,其協議可擴展跨16個Volta Tensor 核心GPU的單晶片
內建記憶體。
程式設計師可看到具有2 PFLOPS性能的單一512GB GPU。

DGX-2 以6個月成長10倍
GPU運算是加速整體的推疊:GPU、系統設計和軟體、演算法和應用程式。
6個月前,DGX-2的加速套件比DGC-1的性能提高了10倍!

5年提升500倍
GPU運算帶領我們進入超效能的新世紀
Alex Krizhevsky 用兩個GTX 580 GPU及6天時間成功訓練 AlexNet。
而1台DGX-2僅需18分鐘就能達到相同目標!

5項速度紀錄!
我們為了AI發展的每個面向提供地表上最佳效能
最快的單晶片-每秒1,075個影像
最快的單一節點 – 每秒15,500個影像
擴充最快 – 14分鐘
最短的推論延遲 – 1.1毫秒
最快的推論速度 – 每秒6,250個影像

寒武紀大爆炸
6年前AI網絡產生數千個物種及模型
卷積神經網路(CNN)有了新架構、更深的網絡、全新的卷積層設計來驅動效能表現。
遞歸神經網路(RNN)可對長序列模式進行分類。
生成對抗網路(GAN)則是訓練兩個神經網路,一個產生內容,另一個負責判別。
強化學習用反覆試驗與獎勵讓機器人自動學習與執行行為。
複雜度更增加 – 上百層網絡及數十億個參數

Programmability
Latency
Accuracy
Size
Throughput
Energy Efficiency
Rate of Learning

PLASTER
超大規模推論非常困難 – “PLASTER” 方便記憶
可編程 – 資料中心要跑上千個網絡跟模型
延遲性 – QoS 互動回應時間
精準度 – 預知正確答案
規模 – 直接對應效能與耗能
運算量 – 資料中心是龐大的資本投資,越大的運算量等同越低的資料中中心成本
能源效率 – 資料中心的總體擁有成本(TCO)為30%

NVIDIA AI 推論
經由NVIDIA GPU訓練的網絡也將在NVIDIA GPU上執行運算。
不同應用不同的網絡架構,模型大又複雜。
為達到PLASTER,必須創造出新一大的圖形優化編譯器,這就是NVIDIA TensorRT。
每次軟體更新,我們都支援更多模型架構、提高對GPU的支援,並提升編譯器技術。

NVIDIA AI 推論
TensorRT 4 目前支援影像與語音辨識、自然語言處理及提供個人化建議。
Google 將原生TensorRT 4 整合到TensorFlow。
最受歡迎的語音辨識架構Kaldi也經過優化。
為支援PyTorch 及MXNET開發架構的ONNX提升速度。
加速Microsoft 的WinML。
NVIDIA GPU 已準備好加速AI在全球3,000萬個超大規模伺服器上的工作量。

NVIDIA GPU上的全新KUBERNETES
Kubernetes在為數眾多的超大規模資料中心伺服器中擴充並編排AI容器。
Kubernetes已能識別GPU,並能在全球的資料中心部署加速架構。

宣布推出NVIDIA HGX-2
打造HPC與AI的伺服器相當複雜,幾乎已達到系統設計的極限。
今天我們宣布推出NVIDIA GPU伺服器標準平台HGX-2。
HGX-2為DGX-2的建構組件,包含16個Volta Tensor 核心GPU、完全連接、
2 PFLOPS以及512GB的3D記憶體。
有史以來最高效能單節點電腦。

宣布推出全新NVIDIA RTX技術
NVIDIA RTX結合即時繪圖、加速光線追蹤與深度學習的各項突破性技術,首度針對高擬真
圖像渲染進行加速作業。
RTX集10年研究大成於一身。
RTX是15年前自NVIDIA發明可編程即時渲染技術以來最重要的突破。

NVIDIA GEFORCE驅動渲染作業
NVIDIA以可編程即時渲染作業的發明為現代電腦繪圖帶來革命。
在過去15年各種令人驚豔的技術突破創造無數絕美影像。
但始終未達高擬真圖像的程度,且不能多元化應用。

螢幕空間環境光遮蔽技術
環境遮蔽應用在場景中未被環境光照射的區域,同時產生陰影與框架

全域照明渲染與NVIDIA RTX技術
全域照明技術可自然完美地模擬環境遮蔽

螢幕空間折射與質量深度分類
不同種類的光線穿過一個透明物體時,很難去模擬光柵

焦散與NVIDIA RTX技術
透過光線追蹤,物理特效能直接被模擬出來。
焦散是指一系列光線透過一個曲面透明物體反射與折射的匯聚,例如陽光穿透水面在泳池
底部呈現的樣子。

次表面陰影運算
次表面射散是當光線穿過透明物體時,在物體間進行反射,最後從不同角度穿出物體所產
生的一種光影效果。
可用來呈現皮膚、樹葉、臘、大理石與牛奶等材質。

價值兩兆美元的娛樂產業
針對每個垂直市場,我們創造了一個平台,擁有全面GPU加速堆疊、最佳化的關鍵應用,
及生態系統夥伴,為市場提供解決方案。
我們很高興看到全球首屈一指的內容創作工作室採用NVIDIA RTX。

宣布CLARA醫學影像超級電腦
早期發現早期治療是對抗疾病的最佳武器。
今日既有的300萬個醫療器材,都是在運算與AI技術有所突破前所建置的。
隆重介紹NVIDIA的醫學影像平台Clara。
Clara能在資料中心甚至是雲端,透過遠端處理資料,提供最先進的影像重組、物件偵測
與分割,為既有的器材提供視覺化功能。

價值7兆的醫療產業
醫療為全球最大產業之一,從偵測、診斷到藥品發展,正經歷革命性的AI技術。
Clara平台包含GPU加速堆疊、最佳化關鍵應用,並與全球醫療領導廠商建立夥伴關係。

價值兩兆的安全城市產業
數十億的攝影機監控公眾區域,來確保民眾安全、控管車流以及最佳化能源運用。
若沒有AI,我們將不可能擁有足夠的人力持續監控。
NVIDIA Metropolis 是一個GPU加速堆疊的平台,主要用於大規模視訊串流分析、關鍵應
用的最佳化,及在IVA中與領導廠商建立夥伴關係。

NVIDIA DRIVE端對端平台
自駕車是運算史上最大挑戰之一
自動駕駛車用電腦是有史以來第一款高品質且即時的超級電腦
整個軟體開發過程是全新的經驗
每輛車每天收集所有感測器的PB(Petabyte)數據
GPU超級電腦用於訓練、模擬及測試AI軟體
車隊將於全球各地駕駛數百萬英里來收集數據並測試軟體

單一架構+殺手級應用+全球生態系統+價值上兆美元的市場
當來到摩爾定律末端的2028年,市場每年將需要等同於1,000萬個Volta所提供的運算效能

Tensor核心GPU融合高效能運算與AI運算後,加速廣泛的多重精準度資料中心之工作負載

GPU運算最佳化全面堆疊,一路從GPU、switch、系統與軟體、函數庫到應用。
DGX-2加速堆疊比DGX-1提升10倍
5年內提升500倍
5倍速度紀錄
NVIDA平台已觸及關鍵大眾,包含85萬開發者、超過550個HPC與AI應用,每個伺服器製造
商、OEM、CSP,及涵蓋高效運算、AI、圖像、運輸、醫療與安全城市這六大市場的超大商
機。

心得
Computex 2018期間,英偉達宣佈推出兩款產品,分別是新開發者平台Isaac以及專為機器
人設計的AI晶片Jetson Xavier。
根據研究顯示,全球人工智慧(AI)機器人於2017年的廣告價值為27億美元,預計到2023
年底將達到123億美元,2018年和2023年的年平均複合成長率達28.64%。

--
Tags: 股票

All Comments

Callum avatar
By Callum
at 2018-06-19T03:05
你那邊還來得及在今天早盤空台指期

黃立成怒飆「FUXK」! 上市僅8天..M17爆

Tracy avatar
By Tracy
at 2018-06-14T11:22
※ [本文轉錄自 Gossiping 看板 #1R8DbZ_k ] 作者: joug (好東西不簽嗎) 看板: Gossiping 標題: [新聞] 黃立成怒飆「FUXK」! 上市僅8天..M17爆 時間: Wed Jun 13 16:44:15 2018 黃立成怒飆「FUXK」! 上市僅8天..M1 ...

Switch上半年度銷售恐不妙?任天堂逆勢

Bethany avatar
By Bethany
at 2018-06-14T11:07
-------------------------------發文提醒---------------------------------- 1.發文前請先詳閱[新聞]分類發文規範,未依規範發文將受處份。 2.連結過長請善用 https://goo.gl/ 縮網址,連結能不能點擊者板規1-2-2處份。 3.心得 ...

慘!中興股價暴跌、欲申貸1800億求生 還

Kristin avatar
By Kristin
at 2018-06-14T10:43
1.原文連結: http://news.ltn.com.tw/news/business/breakingnews/2457611 2.原文內容: 慘!中興股價暴跌、欲申貸1800億求生 還面臨找不到新董座… http://img.ltn.com.tw/Upload/liveNews/BigPic/6 ...

2349 錸德 多

Lydia avatar
By Lydia
at 2018-06-14T09:56
簡單看錸德近兩年的營收, 大約是在10000000千元左右, 毛利率大概是4%, 假設他營收多12000000千元, 而且增加的全部來自AD光碟, 這部分毛利率估計10%好了, 這樣可以多賺1200000千元。 問題是, 他2016和2017營業利益是負1200000千元左右, 就假設營業費用沒增加好了, ...

川普:未來幾周恐怕會為貿易惹惱中國

Linda avatar
By Linda
at 2018-06-14T09:28
1.原文連結: https://udn.com/news/story/6811/3197760 2.原文內容: 美國總統川普表示,美國政府準備落實對中國進口產品實施關稅,他未來幾周會在貿易上「非常強硬」地卯上中國。 川普接受福斯新聞專訪時說:「中國可能會對貿易感到有點不快,因為我們非常強硬地就貿易施壓。」 ...