數據分析:代謝組學文獻分享,結合MATLAB 2018a和SciPy工具進行OnPLS方法統計建模,以期發現這六類數據間的含量表達相關性,通過篩選出強相關信息找出哮喘病人口服類固醇治療前后這些數據的含量變化規律,為后續進一步闡明哮喘病人的發病機制提供有力理論數據支撐。
3代謝組學文獻分享—分析流程
通過使用OnPLS方法對上述六類數據分析模塊進行統計建模,結合得分圖發現樣本組間區分差異,然后再利用MB-VIOP指標對關鍵變量進行篩選,代謝組學文獻分享,最后使用可視化和弦圖對引起疾病變化的不同模塊關鍵變量進行直觀展示和關聯分析。
4代謝組學文獻分享—結果與討論
OnPLS的數據結構
globally joint structures:全局多元數據間關系;
locally joint structures:局部多元數據間關系;
unique structures:單個多元數據內在關系;
residual noise structures:系統噪音誤差。
OnPLS模型運算參數表
表2. 模型共產生7個成分,2個globally joint成分,5個locally joint成分。其中,脂肪酸、氧化脂類和鞘脂類累計貢獻率均超過70%以上,相反,代謝、轉錄和臨床數據表達貢獻水平一般。
OnPLS模型相關性圖
圖為OnPLS模型七個成分的得分值與臨床指標數據的spearman相關系數。代謝組學文獻分享,紅色表示正相關,藍色表示負相關,透明度和圈的大小反應相關程度的強弱,其中,黑色方框標記的表示p<0.05,顯著相關。從圖中可以明顯發現,除性別與第一成分得分呈現顯著負相關外,其它臨床指標均與第一成分得分表現為顯著正相關關系。
OnPLS模型得分和載荷圖
圖A. 在H-PCA(hierarchical PCA)模型得分圖第一主成分上,正常組和哮喘病組有明顯區分,而在第二主成分上,不同性別間則呈現出較明顯區分,同時對應第一主成分箱線圖也直接表明不同男性患病情況波動較大。
圖B. 與之前模型相關性圖和得分圖結果趨勢一致,載荷圖中第一主成分和第二主成分上的相關變量對樣本分組貢獻也比較大,脂類物質的影響尤為顯著。
MB-VIOP關鍵變量篩選
圖A中,使用MB-VIOP>1對第一主成分上的六類不同數據篩選處理得出一些關鍵的變量,其中除轉錄組數據外,紅色標記的變量表示通過卡值差異篩選,考慮到轉錄組數據量大的原因,本文將第一主成分的轉錄組數據差異篩選設定為2。
圖B中,使用MB-VIOP>1對第二主成分上的五類不同數據篩選處理得出一些關鍵的變量,其中除轉錄組數據外,紅色標記的變量表示通過卡值篩選,為了進一步減少轉錄組數據受疾病-性別因素的影響,本文將第二主成分的轉錄組數據差異篩選提高到了2.5。
注:MB-VIOP:Multi-block Variable Influence on Orthogonal Projections。
第一主成分上關鍵變量篩選
紅色:臨床差異信息,灰色:轉錄組學差異信息,綠色:代謝組學差異信息,黃色:差異鞘脂類,藍色:差異脂肪酸,橙色:差異氧化脂類,數字:連接度,黃色連線:正相關,紫色連線:負相關,藍色節點:含量在哮喘病人中上升,紅色節點:含量哮喘病人中下降。
圖A可以發現,在與影響生理調節重要轉錄因子NPAS2具有顯著相關的五個代謝物中,四個均屬于神經酰胺類,值得注意的是,此前未有這方面的報道。代謝組學文獻分享,由此推測,神經酰胺類的物質變化可能會對發病產生一定的影響。
第二主成分上關鍵變量篩選
紅色:臨床差異信息,灰色:轉錄組學差異信息,綠色:代謝組學差異信息,黃色:差異鞘脂類,橙色:差異氧化脂類,數字:連接度,黃色連線:正相關,紫色連線:負相關,白色節點:含量在女性組中上升,黑色節點:含量男性組中上升。
圖B可以看出,PCDH10和LOC284219與氧化脂類呈現了非常明顯的強相關性,進而推斷這兩個轉錄因子在患病的情況下,對氧化脂類的代謝具有較大的影響。
5代謝組學文獻分享—結論
通過建立OnPLS方法可以有效將多個不同組學的聯合起來進行分析。
代謝組學文獻分享,結合可視化分析圖表和MB-VIOP指標可以實現幫助找到與疾病發生密切相關的一些關鍵基因,如ATP6,V1G1等,為進一步闡明哮喘病人骨密度下降發病機理提供強有力的理論支持。
6個人觀點
本文針對多個不同組學數據聯合分析,提供了比較完整的數據分析過程和清晰的關鍵變量篩選標準。
為了更深入的研究哮喘發病相關機制,文章可考慮從代謝通路,網絡互作,分子實驗等方法進行后續分析驗證。