麻省理工學院與Empirical Health的研究團隊近期取得了一項突破性進展,他們利用大規模可穿戴設備數據開發出一種新型健康預測模型。該研究以約300萬“人-天”的Apple Watch健康監測數據為基礎,構建了能夠精準預測多種疾病的基礎模型,相關成果已被國際頂級學術會議NeurIPS的研討會接收。
這項研究的核心創新在于將聯合嵌入預測架構(JEPA)應用于醫療健康領域。該架構由meta前首席AI科學家Yann LeCun提出,其核心思想是通過上下文信息推斷缺失數據的語義表征,而非直接還原原始數值。例如在圖像處理中,模型會基于可見區域推斷被遮蔽部分的特征,而非重建像素內容。這種范式轉變使AI系統能夠構建對環境動態的理解模型,而非單純依賴詞元預測。
研究團隊針對可穿戴設備數據的特殊性進行了架構適配。來自16,522名參與者的長期監測數據呈現顯著的不規則性:心率、睡眠時長等63項生理指標存在大量缺失值,僅有15%的記錄包含完整醫療標注。傳統監督學習方法會直接舍棄85%的無標注數據,而新模型通過自監督預訓練機制,先在全量數據上學習通用特征表示,再利用少量標注數據進行微調優化。
數據預處理階段,研究人員將每條觀測記錄轉化為包含日期、數值、指標類型的三元組結構,進而生成可被模型處理的“健康token”。這些token經過掩碼處理后,模型需要預測被遮擋片段的嵌入表示。這種訓練方式使模型能夠捕捉時間序列中的復雜模式,即使面對極端不平衡的數據分布——某些指標僅在0.4%的時間點被記錄,而另一些指標出現在99%的日常讀數中。
在疾病預測性能評估中,新模型展現出顯著優勢。對比基于Transformer架構的基線模型,JETS在高血壓檢測中達到86.8%的AUROC值,房撲預測準確率為70.5%,慢性疲勞綜合征和病態竇房結綜合征的檢測準確率分別達到81%和86.8%。需要說明的是,AUROC指標反映的是模型對病例的排序能力,而非傳統意義上的分類準確率。
該研究證實了日常可穿戴設備的潛在價值。盡管用戶不會全天候佩戴設備,但通過新型模型架構和訓練策略,這些碎片化數據仍能被轉化為有效的健康預警信號。研究團隊特別指出,這種自監督學習方法為處理醫療領域普遍存在的數據標注不足問題提供了新思路,未來有望推動個性化健康管理技術的普及。









