谷歌TPU革新網絡結構,給有源光纜找到新藍海?
谷歌TPU革新網絡結構,攪動AOC/DAC/光模塊市場
谷歌推出AI模型Gemini,與OpenAI的GPT4競爭。
其實最終看下來,重點不在于Gemini到底比GPT4強還是弱,至少Gemini目前來看具備了和GPT4同臺競技的檔次。
互聯網巨頭的軍備競賽,關鍵在算力。而算力的核心(占投資90%)的英偉達GPU芯片毛利率高達74%,并且還缺貨,配套的800G光模塊因為電芯片供應緊張,同樣缺貨。
這種情況下,讓各個互聯網巨頭進退兩難,一方面要加大投資避免落后,一方面希望降低算力成本避免被GPU和800G光模塊卡脖子。
谷歌Gemini的推出,關鍵是給亞馬遜/META/騰訊/字節(jié)等一眾互聯網公司趟出一條道路,“硬件不用英偉達也能戰(zhàn)”!
谷歌過去的形象一直是,雖然商業(yè)化能力不行,但行業(yè)趨勢的把握一直是遙遙領先。
AI的快速推進,一定需要算力打骨折來支持。
目前谷歌OPU全方案成本比英偉達方案降低50%以上,主要通過TPU/交換機/光模塊三個地方降本。
谷歌TPU架構主要變動有以下3個:
1.第五代TPU:訓練性能提高2倍,推理性能提升2.5倍,成本降低50%!
2.采用OCS光交換方案,傳輸部分整體成本降低,且傳輸骨干網后續(xù)不用升級
3.架頂交換機和上層匯聚交換機采用OCS光交換機,則下圖中1的連接將會替換為56G和100G定制有源光纜,圖中2部分將不再需要使用昂貴的800G光模塊替代為有源光纜,光連接器總成本降低70%以上。

谷歌TPUv4內存帶寬為1200GB/s,Slice之內的片間互連(ICI)通過六個50GB/s鏈路提供300GB/s的數據傳輸速率,假設使用6個50G光路來傳輸到柜頂OCS交換機。而英偉達H100 單卡也最高支持600GB/s的數據傳輸速率,所以需要使用昂貴的800G光模塊,之后分成8路100G光路經過光纖傳輸。
TPU集群方案堪稱集中力量辦大事、分布式技術的典范,假設2個TPU的算力和與1個H100相當,而同樣傳輸距離的12個56G光模塊價格僅為1個800G光模塊的1/2不到,據業(yè)內人士透露谷歌還使用了長飛旗下長芯盛生產的有緣光纜來替代光模塊降本,那單位算力TPU光連接件總成本降為英偉達方案的1/3。
總結 用成熟的標準化產品太替代相對先進的800G光模塊,谷歌TPU方案大幅減少了800G昂貴光模塊的使用,并大幅10倍以上增加了相對便宜的低速率有源光纜的使用,整體降低了光連接器件總成本60%以上。
頂級土豪800G光模塊玩家掉落了一點塵埃,落在卑微的AOC有源光纜行業(yè)上成了一座幸福的山。
在過去AOC有源光纜可謂是一直處于一個雞肋的地位,拼成本比不過銅連接,拼性能比不過光模塊+跳線。這次隨著谷歌TPU全光連接方案的推行,AOC的風終于來了。
其實通俗來說,AOC就是將光模塊的主要器件在工廠和光纜預制在一起,因為預制了所以可以減少DDM和一些配套的組件,再加上工廠批量生產,減少了在數據中心光纖頭被污染帶來的調試成本。通俗來說AOC就是光模塊的預制菜,主打性能夠用/便宜。下附圖為常規(guī)光模塊和AOC的圖示,光模塊使用時需要搭配光纖現場接插使用。
下副圖為谷歌TPU線路連接示意圖,密密麻麻的3D結構,10倍以上的光連接器用線量。

下副圖為英偉達的網絡結構,相對簡潔一些,光連接件單位性能強,個數少,投資大。

下圖為100G光模塊和有緣光纜形態(tài)差異

信息來源:C114通信網