隨著大語言模型(LLM)和多模態模型參數量與訓練數據量呈指數級攀升,AI技術對數據存儲的“性能-成本-效率”提出了前所未有的嚴苛要求。在AI全工作流中,從數據采集、清洗預處理、GPU高并發訓練到模型推理,每個環節均需TB/s級帶寬與低延遲I/O支持。以大規模圖像識別項目為例,每日需采集數百萬張圖片,數據量可達數百GB甚至數TB,若存儲系統寫入帶寬不足,將直接拖慢采集進度;在自然語言處理項目中,分詞、詞性標注等預處理需頻繁讀取數據,若讀取帶寬不足,處理效率將大打折扣;深度學習項目中,數千個GPU并行訓練時,若存儲系統I/O延遲過高,GPU將因等待數據而閑置,造成資源浪費。同時,海量原始數據、中間數據和歸檔數據需長期保存,單一存儲介質難以平衡高性能需求與成本控制,“全閃存+混閃”分層存儲已成為行業共識。
然而,傳統分層方案存在三大核心痛點,嚴重制約AI效率。其一,盲目流動問題突出。傳統方案基于數據創建時間(mtime)分層,導致高頻訪問的訓練集可能因“到期”被降級至慢速混閃池,訓練性能驟降。其二,割裂命名空間增加操作風險。數據在不同存儲層間流動需手動切換路徑或掛載點,易因操作失誤導致訓練失敗。其三,高昂隱性成本推高總擁有成本(TCO)。企業為避免性能問題,被迫將更多數據保留在全閃存層,或反復“搬運”降級數據回熱層,導致存儲采購成本和人力成本大幅增加。
某大型智算中心曾因開源方案缺乏智能分層能力,數據預處理效率低下,GPU等待時間過長,無法實現“熱數據高性能訓練、冷數據自動歸檔”的順暢流轉。為破解這一困境,北京星辰天合科技股份有限公司基于XEOS對象存儲,推出“XEOS AI數據湖方案”,通過智能數據流動機制重塑AI分層存儲邏輯,為頭部AGI廠商、國家級AI實驗室和大型智算中心提供高效數據底座。
該方案在技術創新層面重構了AI數據分層邏輯。傳統方案按創建時間分層,無法精準適配數據實際訪問模式,而本方案引入基于訪問時間(atime)的智能生命周期管理機制。系統實時感知數據訪問行為,精準捕獲GetObject/HeadObject等操作,每次訪問自動刷新atime,動態調整分層計劃。高頻訓練數據集因頻繁訪問可長期駐留全閃熱層,保障訓練性能穩定;長期無訪問的冷數據則自動流向低成本混閃池,降低存儲成本。同時,方案通過透明化和自動緩存機制實現分層數據訪問增強。統一命名空間下,上層應用無需關心數據存儲位置,避免手動切換失誤;首次訪問冷層數據時,系統異步緩存至熱層,后續訪問直接從熱層讀取,實現“一次慢、次次快”;每次緩存數據訪問刷新過期時間,確保熱點數據長期駐留高速層;系統還支持批量HeadObject操作提前預熱數據集,首次訪問即達極致性能。
在架構創新方面,方案在統一命名空間內整合“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質,針對模型訓練、推理等高頻場景優化,提供毫秒級時延和TB/s級帶寬,滿足GPU集群高并發數據加載需求;溫冷層采用“SSD+HDD”混閃架構,以低成本承載原始數據、中間結果和訓練日志等低頻數據,支持自動歸檔與生命周期清理功能。數據在層間流動時,訪問路徑和權限控制保持一致,消除“數據搬運”操作成本與性能損耗。
性能創新層面,方案基于分布式架構設計,單集群可承載EB級容量,支持線性擴展,輕松應對AI數據“爆發式增長”。通過優化I/O調度算法,在極限壓力下仍能保持低時延:頭部AGI廠商場景中,峰值讀取帶寬達5Tbps,讀取時延≤8ms;智算中心場景中,讀取峰值達149.34GB/s,滿足大模型“高并發、高帶寬”訓練需求。系統繼承星辰天合企業級存儲的金融級可靠性,數據可用性達99.9999%,減少數據丟失風險。
該方案實施分為兩個階段:2024年10月至12月,首批交付4個集群,覆蓋不同地域機房,總容量約9PB;2025年2月至6月,第二批交付2個地域機房的2個集群,并擴容原有3個集群,總容量約46PB。項目通過智能分層與混閃架構,幫助客戶降低存儲TCO 30%-60%。某智算中心避免全閃存過度配置,年節省存儲采購成本超千萬元;頭部AGI廠商通過冷數據自動歸檔,減少30%全閃容量占用。同時,方案消除數據流動人工干預與性能損耗,數據預處理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓練迭代次數超50次。方案支持在線擴容,無需停機,某客戶4個月內完成20PB數據擴容,未影響訓練任務,避免日均超百萬元的研發延誤損失。
在社會效益方面,方案通過高效數據底座釋放GPU算力,助力頭部AGI廠商和國家級實驗室突破模型訓練效率瓶頸,加速SOTA模型研發,推動我國AI技術全球競爭。其“高性能+低成本”平衡方案降低AI落地門檻,使中小型AI企業無需承擔高昂全閃存成本即可獲得TB/s級存儲能力,推動AI技術在制造、醫療、金融等行業普及。混閃架構與智能分層減少高能耗全閃存使用,某智算中心采用方案后,存儲系統年耗電量降低28%,符合“雙碳”目標,助力AI產業綠色發展。
XSKY星辰天合作為面向AI時代的統一數據平臺提供商,十年專注分布式存儲,長期位列IDC市場報告“TOP 5”,且是唯一獨立存儲廠商,在對象存儲市場保持領導者地位。公司產品已在3000余家客戶的企業級生產環境驗證,為AI創新與數據基礎設施現代化提供可靠數據底座。合作方某通用人工智能科技公司是全球領先的AGI企業,自主研發的多模態通用大模型在代碼生成、智能體能力及超長上下文處理方面表現卓越,服務覆蓋全球超200個國家及地區,觸達個人用戶超一億,為超5萬家企業客戶與開發者提供技術支持。
該AI Infra案例將角逐由金猿組委會、數據猿和上海大數據聯盟聯合推出的《2025中國大數據產業年度AI Infra領先企業》榜單/獎項。榜單將于1月上旬在上海舉辦的“2025第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇”現場揭曉并頒獎,歡迎報名參與。













