兩月市值飆漲萬億,ChatGPT背后最大贏家竟是它
2023-04-21 18:47:16
應對AI落地狂潮,新一代算力基礎設施正在蓄勢。
當一群嗜血的互聯網投資客、互聯網大鱷開始爭搶類ChatGPT應用的入場券時,芯片玩家已悄然穩坐ChatGPT的牌桌。
AI訓練芯片“一哥”英偉達被視作云計算資本支出重心轉向人工智能(AI)的最大受益者,韓國政府也在ChatGPT熱潮中加大AI芯片扶持力度。
今年1月3日至今,英偉達股價已上漲49%,市值從3522億美元增至5261億美元(折合增長了約1.19萬億人民幣);據彭博億萬富翁指數,英偉達CEO黃仁勛的財富同期增長了60億美元。如此“躺賺”,難怪黃仁勛談到ChatGPT時滿面笑容,直夸其意義堪比“iPhone時刻”。
據花旗集團預估,ChatGPT將可能促使英偉達相關產品一年內銷售額達到30億~110億美元。
韓國政府亦高調進場,計劃拿出約6.4億美元投資研發先進AI芯片的公司,并將在下個月發布七個采用韓國AI芯片的K-cloud項目通知。
據韓媒報道,當前三星和互聯網巨頭Naver合作開發AI芯片的進展尤其受關注,Naver計劃在今年上半年推出自己的對話式AI服務SearchGPT。韓國AI芯片創企FuriosaAI也宣布明年將推出一款“可用于運行ChatGPT的最強大芯片”,采用5nm、HBM3技術,帶寬是前代AI芯片的30倍。
隨著生成式AI和大模型興起,飆漲的算力需求成頭號難題,能實現高算力高能效比的Chiplet、CPO(共封裝光學)概念也被帶火,漲幅居前。
一場圍繞AI算力的爭奪戰,正日益硝煙彌漫。
01
算力需求有多大?
ChatGPT爆火后,不僅多家國內外科技大廠加大對生成式AI的投資,原美團“二號人物”王慧文、出門問問創始人李志飛等科技大佬也滿腔熱血躬身入局,要做中國的OpenAI(研發出ChatGPT和GPT-3的AI公司)。另據36氪向前搜狗CEO王小川本人求證是否回歸創業做AI大模型的消息,王小川承認自己在“快速籌備中”。
戰場正變得越來越熱鬧,但回歸理性,研發AI大模型可不是誰都能做的。此前海通證券分析師鄭宏達曾隔空吐槽,說5000萬美元夠干什么?大模型訓練一次就花500萬美元,訓練10次?
比照OpenAI這個模板,GPT-3大模型的單次訓練成本上百萬美元、總訓練成本上千萬美元。2022年,OpenAI總共花掉超過5.44億美元,但收入只有3600萬美元,年虧損超過5億美元。
沒錢,沒人才,沒數據和算力,就根本拿不到參賽的入場券。
人才是OpenAI能夠睥睨一眾競爭對手的本錢。OpenAI現有375名正式員工,其中大部分都是頂級AI研發大牛,需用高額薪酬來留住這些人才。除此之外,其最燒錢的當屬計算和數據。
據美國《財富》雜志披露,OpenAI一年的計算和數據支出高達4.1645億美元,員工支出8931萬美元,其他非特定營業費用為3875萬美元。
ChatGPT類產品的開發成本有多高呢?
據外媒報道,分析師稱ChatGPT Beta版本使用了10000個英偉達GPU訓練模型,新一代GPT-5大模型正在25000個英偉達GPU上訓練。
ChatGPT是基于大模型GPT-3.5訓練出的對話式AI模型。GPT-3.5跟前代GPT-3一樣有1750億個參數。GPT-3訓練所需算力達3650PFLOPS-days,訓練成本約140萬美元。參數更多的大模型訓練成本則介于200萬~1200萬美元之間。
據大算力AI芯片-存算一體專家陳巍測算,標準大小的ChatGPT-175B大概需要625臺8卡DGX A100服務器進行訓練,如果愿意等它跑1個月,200臺8卡也夠用。針對ChatGPT-175B的服務器成本(主要考慮GPU和CPU)約為3~5億元。
相對來說模型迭代成本沒那么高。越往后迭代,大模型的訓練成本可能會顯著下降。自2020年5月GPT-3發布以來,與GPT-3性能相當的模型,訓練和推理成本已經降低了超過80%。
而ChatGPT上線后的日常運營,又是一筆昂貴的算力開銷。
OpenAI CEO阿爾特曼曾在推特上回復馬斯克的留言,說ChatGPT平均一次聊天成本是幾美分。
摩根士丹利分析稱ChatGPT的一次回復可能會花掉OpenAI 2美分,大約是谷歌搜索查詢平均成本的7倍。尤其考慮到ChatGPT面向全球大眾用戶,用的人越多,帶寬消耗越大,服務器成本會更高。每天至少要燒掉10萬美元。
今年1月,ChatGPT累計用戶數沖破1億大關,訪問量達6.72億次。根據Similarweb數據,1月27日到2月3日,ChatGPT每日訪客數達2500萬。
國盛證券估算,假設以這樣的穩定狀態,且忽略集群配置的請求量冗余和服務質量冗余,那么,ChatGPT需要至少30382片英偉達A100 GPU芯片同時計算,才能支撐當前ChatGPT的訪問量;對應初始投入成本約為7.59億美元(折合約52億人民幣);每日電費約為4.7萬美元。
另據招商通信測算,ChatGPT在模型上線運營階段,每億活躍用戶將帶來13.5EFLOPS的算力需求,需要6.9萬臺DGX A100 80G服務器支撐。按每個用戶每天收到1500字回答計算,以2021年全球超算算力的總規模14EFLOPS,僅能支撐ChatGPT最多擁有1億日均上線人數。
微軟、谷歌、百度等搜索巨頭都計劃將ChatGPT同類技術整合到它們的搜索引擎中。據SemiAnalysis估算,將這類技術集成到谷歌的每個搜索查詢中,需要超過51萬臺A100 HGX服務器和總共超過410萬個A100 GPU,服務器和網絡總成本的資本支出將達到1000億美元。
這些支出的相當一部分,將流入英偉達的口袋。
02
大算力AI芯片被帶飛
那么,ChatGPT究竟要用到哪些計算基礎設施?
我們先來看看ChatGPT自己的回答:
可以明確的是,ChatGPT這股颶風刮得越猛,英偉達等大算力供應商就越吃香。
過去五年,大模型發展直沖萬億參數,算力需求隨之陡增。而ChatGPT幕后的算力功臣英偉達GPU,長期獨占大多數AI訓練芯片市場。摩爾線程摩爾學院院長李豐談道,當前幾乎所有的生成式AI算力都依賴GPU,尤其是在訓練方面。
提高峰值吞吐量方面,英偉達一馬當先。2018年,英偉達CEO黃仁勛曾提出“黃氏定律”,稱GPU的增速是五年前的25倍。自2016年首次在V100 GPU中用上張量核心至今,英偉達通過各種創新設計不斷抬高單芯片算力的天花板。
作為全球AI計算頭部企業,英偉達坐擁高度粘性的開發者生態,同時始終保持著敏銳的前瞻性布局,例如在H100 GPU使用Transformer引擎來顯著提升大模型訓練的速度,通過在GPU、CPU、DPU、AI、互連、網絡等多方面的投資布局持續拉大在數據中心的競爭優勢。
據浙商證券分析,采購一片英偉達頂級GPU成本為8萬元,支撐ChatGPT的算力基礎設施至少需上萬顆英偉達A100,高端芯片需求的快速增加會進一步拉高芯片均價。
同時,數據中心日益需要更加高性價比、高能效的AI芯片。據Sunyan估算,今天,用于訓練大模型的數據中心GPU,代際每美元吞吐量提高了50%,代際每瓦特吞吐量提高了80%。
▲英偉達數據中心GPU FP16/FP32吞吐量/美元(圖源:Sunyan)
持續的芯片設計創新正推動了硬件成本和能效進一步優化。從基于訓練GPT-3的V100到即將上市的H100的改進,預計可將內部訓練成本從74.4萬美元降至31.2萬美元,降幅達到58%。
再來看看ChatGPT對于是否會使用來自英偉達以外供應商的AI芯片的回復:
我們也問了ChatGPT關于其推理用到了哪些計算基礎設施,這是ChatGPT給出的回答:
到目前為止,AI推理市場還是以CPU為主。但生成式AI模型的計算量對于CPU來說可能太大,需要GPU等加速計算芯片加以分擔。
總體來看,模型訓練和終端用戶流量飆增正拉動大算力需求,GPU、ASIC、DSA、FPGA、光子計算芯片、神經擬態芯片等各類加速計算芯片與通用芯片CPU的組合迎來更大的市場。
不止是海外芯片巨頭,國內AI芯片企業也感受到了ChatGPT帶來的春意。
燧原科技創始人兼COO張亞林認為,生成式AI大模型的出現,讓國內的算力基礎設施提供商能夠更有針對性地提供與AI大模型強關聯的基礎設施,這對于國內創業公司在有限資源下聚焦、持續產品優化迭代提供了幫助。
他告訴芯東西,燧原科技最近接到了很多客戶和投資人的垂詢,正全力推動產品的加速落地,去年其千卡規模液冷集群已經落地并服務戰略客戶群,能夠全面支撐國內外生成式AI大模型。
在他看來,相較于英偉達等國際大廠,國內AI芯片企業的優勢可能體現在成本、特定市場及場景深度優化、本土化服務和支持等方面。通過與全棧大模型團隊緊密合作,國內AI芯片團隊能讓客戶問題的解決和產品迭代的飛輪更加快速。
考慮到全功能GPU能更好地兼顧靈活度和應用開發,李豐認為將來的生態,會很長一段時間以GPU為主,輔以其他類型芯片的生態。
除了AI芯片外,高性能存儲、Chiplet、互連技術、共封裝光學(CPO)等概念近期均乘上了ChatGPT的高速列車。
1、高性能存儲芯片
隨著參數規??焖僭鲩L,大模型將增加擴展數據中心以穩定處理大量數據的需求。這將催化高性能存儲芯片發展,例如高帶寬內存(HBM)或內存內處理(PIM)的需求將因此增加。
2018年推出的大模型BERT-Large擁有340M參數,僅需6.8GB內存,能輕松塞進單個桌面級GPU。而對于像GPT-3這樣擁有1750億個參數的模型,需要高達3.5TB的內存。英偉達H100的最大高帶寬內存(HBM)容量也僅80GB,至少需要44個H100才能滿足GPT-3的內存要求。
據韓國《經濟日報》報道,受ChatGPT熱潮驅動,三星電子、SK海力士兩大存儲芯片巨頭的HBM接單量大增。三星還在去年10月與AMD合作開發了HBM-PIM技術,將存儲芯片和AI芯片結合在一起,相比傳統GPU能耗減半。
2、Chiplet
隨著系統級芯片集成進入后摩爾時代,晶圓級芯片和基于Chiplet、存算一體等創新思路成為持續提高算力利用率的重要途徑。其中,Chiplet作為“換道超車”的熱門技術方案備受業界關注。
不同于傳統SoC設計方法,Chiplet將復雜芯片拆解成一組具有單獨功能的Chiplet單元die,通過die-to-die的方式將模塊芯片和底層基礎芯片封裝組合形成一個系統芯片,能夠實現不同工藝節點的芯片產品搭配,降低芯片設計復雜度和設計成本,實現更高性能或具備更多功能的芯片。
今年2月13日,首個由中國企業和專家主導制訂的Chiplet技術標準《小芯片接口總線技術要求》正式發布實施。這是中國首個原生Chiplet技術標準,描述了小芯片接口總線技術的應用場景、體系結構、互連特性、信號管理等內容,適用于CPU、GPU、AI芯片、網絡處理器和網絡交換芯片等,對國內芯片產業突破先進制程工藝限制、繞過芯片制造良率瓶頸具有積極意義。
3、片上互連與片間互連
單芯片撐不動后,大模型需要借助大規模分布式計算,將計算和存儲任務拆分到更多的芯片中,因此芯片與芯片之間、系統與系統之間的數據傳輸效率愈發成為掣肘硬件利用率的瓶頸。
無論是英偉達、英特爾、AMD等芯片大廠,還是Cerebras、Graphcore、SambaNova等海外AI芯片獨角獸,都采用并支持分布式計算模型,并借助更快的內部互連技術將算力擴大。
當傳統基于銅互連的數據傳輸顯得捉襟見肘,引入光網絡的思路,可能有助于大幅提升芯片內、芯片間的數據傳輸效率。國內曦智科技正在做相關探索工作。
曦智科技創始人兼CEO沈亦晨告訴芯東西,高能效、低延遲的互連技術已經是潛在的技術壁壘。對此曦智科技提出使用片上光網絡(oNOC)代替模塊或板卡間的電互連,提高實現更高帶寬、更低延遲,從而輔助Chiplet系統提高單芯片的算力和算效,為面向未來AI加速器的多形態計算架構提供關鍵的片上互連基礎設施。
4、共封裝光學(CPO)
由于ChatGPT需要大流量的云服務器支持,能顯著提高通信效率、降低功耗成本的CPO(共封裝光學)概念走紅,相關概念股近期震蕩走高。
CPO通過將硅光模塊和CMOS芯片用高級封裝的形式耦合在背板PCB上,縮短了交換芯片和光引擎間的距離,為暴漲的算力需求提供了一種小尺寸、高能效、低成本的高速互連解決方案。芯東西曾在《光互連最火概念!中國原生CPO標準草案來了,決勝數據中心未來》一文中梳理CPO技術發展的關鍵階段和國內進展。
中國計算機互連技術聯盟(CCITA)秘書長郝沁汾告訴芯東西,CPO本質上是光模塊結構發生了變化,給國內企業帶來了重構光模塊生態鏈和供應鏈的一個機會。當前《微電子芯片光互連接口技術》標準正在過工信部的技術審定會,這是國內唯一原生的CPO標準,也是世界三大CPO之一,后續中國計算機互連技術聯盟將聯合相關企業圍繞該標準推進聯合開發及技術驗證。
04
結語
在即將到來的生成式AI驅動搜索時代,為AI構建下一代算力基礎設施的競爭日趨激烈。
從模型訓練到日常運營,ChatGPT出生至今的每個環節都離不開幾萬片英偉達高端GPU的支撐。但英偉達GPU并非不可替代,此前一直有傳聞,微軟正在研發自己的AI芯片。如果生成式AI走向大規模商用,為了追求更極致的算力性價比,科技巨頭將有足夠的動力來設計專用芯片。
除此之外,ChatGPT背后的AI公司OpenAI正在研發開源GPU編程語言Triton,希望打造一種比英偉達CUDA等特定供應商庫更好用的軟件,這可能會影響英偉達CUDA在開發者圈的需求。
前路尚且充滿未知,但許多計算芯片、存儲芯片、網絡基礎設施供應商們已經嚴陣以待,準備好為新一輪AI狂潮蓄勢。
來源:芯東西微信公眾號