麻省理工學院與Empirical Health的研究團隊近日在健康數據建模領域取得重要進展。他們基于Yann LeCun提出的聯合嵌入預測架構(JEPA),開發出名為JETS的自監督時間序列模型,成功利用可穿戴設備產生的非結構化健康數據預測多種疾病風險。這項研究已被NeurIPS會議研討會接收,標志著醫療AI從傳統監督學習向環境動態建模的范式轉變。
研究核心突破在于處理不規則時間序列數據的能力。團隊使用的數據集包含16,522名佩戴Apple Watch的參與者,累計記錄約300萬人-天的健康指標。這些數據涵蓋心率、睡眠時長、活動量等63項變量,但存在顯著的時間不連續性——部分指標僅0.4%的時間被記錄,而另一些則出現在99%的日常讀數中。傳統模型面對這種極端不平衡數據時往往失效,而JETS通過創新的數據處理方式解決了這一難題。
研究人員將每條觀測數據重構為"日期-數值-指標類型"的三元組,轉化為可計算的token序列。通過掩碼編碼技術,模型學習從上下文推斷缺失數據的語義表征,而非直接還原原始數值。這種自監督預訓練策略使模型能夠利用全部數據,即使僅有15%的參與者擁有標注醫療史。在后續微調階段,模型僅需少量標注數據即可優化特定任務預測能力。
實驗結果顯示,JETS在疾病預測任務中表現突出。針對高血壓的預測AUROC值達到86.8%,病態竇房結綜合征同樣取得86.8%的優異成績,慢性疲勞綜合征預測準確率達81%,房撲預測準確率為70.5%。盡管在部分任務中未超越基線模型,但整體性能顯著優于依賴完整數據集的傳統方法。值得注意的是,AUROC和AUPRC指標更側重模型對病例的排序能力,而非簡單分類準確率。
該架構的創新性體現在對JEPA原理念的深度適配。不同于圖像處理中遮蔽局部區域的場景,健康時間序列數據存在系統性缺失——不同指標的記錄頻率差異可能達數百倍。研究團隊通過動態調整掩碼策略和嵌入空間維度,使模型能夠同時捕捉短期生理波動與長期健康趨勢。這種處理方式為可穿戴設備數據的深度挖掘提供了新范式。
技術實現層面,JETS采用分層編碼器結構處理不同時間尺度的特征。底層編碼器捕捉分鐘級的心率變異等瞬時變化,中層編碼器整合小時級的活動模式,頂層編碼器則提取日級別的睡眠周期規律。這種多尺度建模方式使模型能夠理解健康指標間的復雜交互關系,例如睡眠質量與心血管健康的關聯性。
研究證實,即使數據記錄存在顯著缺口,日常可穿戴設備積累的海量信息仍具有巨大價值。傳統醫療分析往往因數據不完整而放棄大部分記錄,而JETS模型證明,通過創新的架構設計,這些"碎片化"數據能夠轉化為可靠的健康預警信號。這項突破為開發低成本、廣覆蓋的早期疾病篩查系統奠定了基礎,特別適用于醫療資源匱乏地區的健康管理。











