項(xiàng)目概況:
在2023年已經(jīng)建設(shè)的MVP****中心基礎(chǔ)上,擴(kuò)容國(guó)產(chǎn)AI算力20P和配套算力網(wǎng)絡(luò),構(gòu)建算力集群,滿足集團(tuán)航運(yùn)物流大模型及各級(jí)單位的人工智能應(yīng)用建設(shè)需求,支撐****中心全面建設(shè)。
項(xiàng)目背景:
基于“十四五”集團(tuán)數(shù)字化轉(zhuǎn)型規(guī)劃總體思路,****集團(tuán)在航運(yùn)人工智能建設(shè)方面,主要以業(yè)務(wù)、客戶、技術(shù)為驅(qū)動(dòng),將傳統(tǒng)航運(yùn)管理手段與新型信息技術(shù)相融合,以云、網(wǎng)、算力、數(shù)據(jù)、模型和服務(wù)為行業(yè)人工智能的發(fā)展基礎(chǔ),通過(guò)示范應(yīng)用實(shí)現(xiàn)人工智能技術(shù)在產(chǎn)業(yè)的落地,形成國(guó)家/行業(yè)/團(tuán)體標(biāo)準(zhǔn),從而逐步拓展為行業(yè)提供智能化升級(jí)、數(shù)字化轉(zhuǎn)型、創(chuàng)新融合等智慧化服務(wù),同時(shí),推動(dòng)航運(yùn)產(chǎn)業(yè)人工智能的生態(tài)建設(shè),服務(wù)行業(yè)的數(shù)字化轉(zhuǎn)型。
基于航運(yùn)行業(yè)人工智能技術(shù)的發(fā)展現(xiàn)狀及未來(lái)展望,即需要全球范圍海量航運(yùn)數(shù)據(jù)(人、船、貨、裝載機(jī)具、海洋氣象環(huán)境、**作業(yè)條件等)的采集和匯集,需要針對(duì)全球航運(yùn)骨干物流供應(yīng)鏈整體布局,需要形成船岸一體的智能化應(yīng)用,需要適應(yīng)全球船岸衛(wèi)星通信條件,需要逐步向全產(chǎn)業(yè)鏈開(kāi)發(fā),并產(chǎn)生切實(shí)的行業(yè)競(jìng)爭(zhēng)力與經(jīng)濟(jì)效益的原則,按“智能物聯(lián)、云邊協(xié)同”的模式,通過(guò)****計(jì)算中心+五個(gè)人工智能示范子工程,推動(dòng)人工智能基礎(chǔ)設(shè)施、數(shù)據(jù)**、軟件平臺(tái)、邊緣應(yīng)用及運(yùn)營(yíng)體系、標(biāo)準(zhǔn)體系的建設(shè),實(shí)現(xiàn)30+行業(yè)通用人工智能場(chǎng)景、模型、算法的有效落地和推廣。
項(xiàng)目總體工作要求和內(nèi)容:
本項(xiàng)目擬采購(gòu)20P國(guó)產(chǎn)AI訓(xùn)練服務(wù)器,在MVP項(xiàng)目基礎(chǔ)上,進(jìn)一步擴(kuò)容現(xiàn)網(wǎng)國(guó)產(chǎn)AI算力集群,具體建設(shè)方案如下:
(1)訓(xùn)練服務(wù)器**池
AI訓(xùn)練**直接支撐人工智能的訓(xùn)練任務(wù),是人工智能算力平臺(tái)的核心算力**。
AI訓(xùn)練**系統(tǒng)應(yīng)采用具有高計(jì)算密度、高能效比、高網(wǎng)絡(luò)帶寬、易擴(kuò)展、易管理等特點(diǎn)的AI服務(wù)器進(jìn)行交付,并能夠滿足當(dāng)?shù)貦C(jī)房部署要求。AI訓(xùn)練**應(yīng)具備如下能力:
高計(jì)算密度:采用適合張量計(jì)算的創(chuàng)新AI芯片架構(gòu),提供面向深度學(xué)習(xí)訓(xùn)練的高性能AI算力;
高速互聯(lián)技術(shù):集成多級(jí)芯片高速互聯(lián)系統(tǒng),提升整個(gè)集群的通訊效率與業(yè)務(wù)效率,使集群部署靈活、可擴(kuò)展;
高能效比:具備全方面優(yōu)化的系統(tǒng)散熱設(shè)計(jì),智能調(diào)節(jié)功耗,降低系統(tǒng)散熱能耗;
在一期已構(gòu)建的AI算力基礎(chǔ)上,增加8臺(tái)昇騰910B訓(xùn)練推理服務(wù)器,每臺(tái)算力服務(wù)器提供2.5P FLOPS@FP16的算力,整體增加20P的算力。
(2)參數(shù)面網(wǎng)絡(luò)
在一期已構(gòu)建的AI集群高速網(wǎng)絡(luò)框架基礎(chǔ)上進(jìn)行擴(kuò)容。增加2臺(tái)400G匯聚交換機(jī)及2臺(tái)200G接入交換機(jī),形成匯聚和接入兩層架構(gòu),實(shí)現(xiàn)集群訓(xùn)練任務(wù)的高帶寬低時(shí)延集群通信,同時(shí)能支撐單一算力集群未來(lái)可擴(kuò)容到30PB以上。
每臺(tái)服務(wù)器提供8個(gè)200GE端口,上聯(lián)到參數(shù)面接入交換機(jī),并在匯聚交換機(jī)完成匯聚,實(shí)現(xiàn)集群訓(xùn)練任務(wù)的高帶寬低時(shí)延集群通信。打造全互聯(lián)無(wú)阻塞專屬參數(shù)同步網(wǎng)絡(luò),降低網(wǎng)絡(luò)時(shí)延,縮短參數(shù)同步時(shí)延,使得AI模型的訓(xùn)練過(guò)程更加高效。
AI****數(shù)據(jù)中心交****數(shù)據(jù)中心網(wǎng)絡(luò),為AI集群提供高吞吐、高可靠低時(shí)延的轉(zhuǎn)發(fā)能力,提供低時(shí)延業(yè)務(wù)轉(zhuǎn)發(fā)。
采用二層架構(gòu)構(gòu)建AI計(jì)算集群的參數(shù)平面網(wǎng)絡(luò),部署高性能盒式交換機(jī)作為機(jī)柜接入交換機(jī)節(jié)點(diǎn)。每臺(tái)服務(wù)器200GE上連本機(jī)柜接入交換機(jī),接入交換機(jī)通過(guò)400GE上連匯聚交換機(jī),設(shè)計(jì)收斂比1:1,保證高性能計(jì)算網(wǎng)絡(luò)的性能最優(yōu),匯聚無(wú)上連。
(3)存儲(chǔ)
建設(shè)AI算力集群訓(xùn)推存儲(chǔ)池,增加1臺(tái)高性能NAS存儲(chǔ)設(shè)備,統(tǒng)一接入所有AI訓(xùn)練服務(wù)器中。采用高性能NAS存儲(chǔ)存放訓(xùn)練數(shù)據(jù)及提供存儲(chǔ)底座;存儲(chǔ)系統(tǒng)提供60TB的存儲(chǔ)容量,關(guān)鍵設(shè)備采用冗余配置,滿足對(duì)可靠性的需求;同時(shí),考慮到后續(xù)業(yè)務(wù)增長(zhǎng)帶來(lái)的擴(kuò)容需求,需要系統(tǒng)采用模塊化設(shè)計(jì),在不影響現(xiàn)有業(yè)務(wù)運(yùn)行的情況下,可以快速簡(jiǎn)單地進(jìn)行擴(kuò)容;為方便管理員和用戶對(duì)集群系統(tǒng)的管理和使用,提供完善的管理和維護(hù)方案,簡(jiǎn)化管理、使用和維護(hù)操作;針對(duì)集群耗電量大的特點(diǎn),選用高能效、低PUE的IT設(shè)備和基礎(chǔ)設(shè)施,打造綠色節(jié)能的高性能集群系統(tǒng)。
在算力集群交付實(shí)施過(guò)程中,要提供AI訓(xùn)推集群的存、算、網(wǎng)能力的高效協(xié)同和配置優(yōu)化,保證現(xiàn)網(wǎng)算力可以具備30P及未來(lái)更高需求的技術(shù)及服務(wù)支持保障。
第1中標(biāo)候選人:****;
第2中標(biāo)候選人:****公司;
第3中標(biāo)候選人:******公司;