在一般的分子對接計算中,一個不可或缺的步驟是定義配體分子(通常為有機小分子)的結合位置,即對接口袋。對于蛋白-小分子復合物X-ray晶體結構,口袋內就有一個配體,它為我們指示了對接口袋的位置。但還有很多X-ray晶體結構、NMR解析的結構沒有配體結構,我們該如何確定對接口袋呢?更一般地,對于核酸、多肽以及主客體中的主體分子,又該如何定義對接口袋呢?
對接口袋這個概念存在于分子對接計算中,是受體中配體結合的可能區域。通過設定足夠大的盒子把口袋囊括起來來告知對接程序它的位置。如果對接口袋被設定在真正的活性結合位點上,則有更大概率找到配體正確的活性構象與結合模式。對接口袋,顧名思義,通常呈口袋狀(開口小、肚子大、能容納一定體積的分子結構),也有其他形狀,比如管道狀、凹槽狀和淺洼狀,而以口袋形狀最為典型。對于蛋白-配體復合物而言,大且深的疏水性空腔對于配體結合至關重要。對于蛋白結構,這一特點便成為各種算法尋找對接口袋/識別結合位點的重要依據和原則。
識別蛋白口袋/配體結合位點的方法下面針對蛋白講述確定對接口袋的常用策略。由于核酸、多肽以及主體分子的口袋特點千差萬別,難以一概而論,但若能靈活變通,這些策略也經常適用,甚至操作上更為簡單。
一、 文獻/數據庫調研法最可靠的信息,莫過于實驗數據。我們可通過文獻調研,從他人/前人的實驗結果中獲悉該蛋白的主要功能和所屬家族,找到它的活性位點信息。比如,胰凝乳蛋白酶的His-Asp-Ser催化三聯體、鋅指蛋白的Zn2+結合位點。通過對已有較多研究的其他種屬的同源蛋白進行比較研究,找到對應的口袋信息。UniprotKB數據庫(https://www.uniprot.org/)整合了豐富的蛋白結構-功能信息,有的還包含突變位點信息。這為我們識別蛋白口袋/配體結合位點提供可靠的依據。
二、 實驗篩查法如果文獻和數據庫上缺少有用信息,而實驗手段又相當方便且便宜時,那就自己做實驗吧,比如定點突變(通常用在對計算結果的驗證,而非相反)、熒光探針標記[1]。
三、 軟件預測法這是最簡單、最直接的辦法。目前已有眾多軟件/算法可以幫助人們預測蛋白的活性口袋或者識別配體的結合位點。下圖總結了部分預測程序的基本情況。
(蛋白口袋/配體結合位點預測本地程序或在線服務,點擊此處跳轉相關鏈接頁面)
各程序對輸入內容的要求大同小異,輸出結果卻千差萬別。感興趣的讀者,可進行一番探索。這里以在線服務POCASA為例,講解如何預測蛋白受體1UWH的口袋。該晶體結構為蛋白-配體復合物,配體分子指示了結合位點,正好用來檢驗POCASA能否正確預測口袋位置。
1、登錄POCASA網站:http://altair.sci.hokudai.ac.jp/g6/service/pocasa/
2、在PDB ID欄輸入1uwh,其他參數保持默認值,點擊Get Pockets and Cavities按鈕
等待片刻即返回結果。Chain ID默認為NULL,表示選擇蛋白文件的第一條鏈。該蛋白晶體結構包含A、B兩條鏈,均有配體小分子,我們預測A鏈上的口袋位置。
(POCASA提交任務界面)
3、從返回的結果中找到Output files,下載我們需要的pdb文件
文件①是輸入的pdb文件(我們輸入了PDB ID,POCASA自動從RCSB PDB庫中下載蛋白文件),文件②是我們需要的輸出結果,包含了若干潛在口袋的位置信息。將兩者下載下來,然后使用PyMOL或其他分子圖形軟件觀察分析。
(POCASA的輸出文件,其中XXXX_TopN_pockets.pdb是預測的口袋位置)
另外,在Rank order欄目下,POCASA還告訴我們一共生成了多少個Pocket,每個Pocket都有自己的編號,按照體積排序,依次是Rank 1、2、3……通常,體積最大的Pocket最有可能是真正的蛋白口袋,但體積太大也有可能是假口袋。最保險的做法是進行可視化分析。
(POCASA計算的口袋體積和口袋可能性排序)
4、使用PyMOL可視化分析
打開1uwh.pdb和1uwh_TopN_pockets.pdb文件,隱藏冗余結構,以cartoon形式顯示蛋白A鏈,以sticks形式顯示配體,以spheres形式顯示pockets。
(蛋白是深綠色條帶,配體是粉橙色棍棒,Pocket A~F用各種顏色的小球表示)
可見,體積最大的Pocket并不完全是配體的結合口袋;Pocket A只有大約一半體積與配體重疊,Pocket B與配體分子大部分重疊,兩個Pocket共同構成配體結合口袋。正如本例所示,我們不能完全相信軟件預測的結果,只看體積大小,可能會判斷失誤。在實踐中,應花時間去考察各個預測口袋。
四、 人工觀察法對蛋白口袋/配體結合位點的準確識別,離不開人工觀察和分析,僅憑軟件預測就匆匆下結論是非常危險的。上面使用POCASA預測1uwh蛋白的口袋位置,Pocket A和B正好組成配體的結合口袋,其實這里面存在一點trick。根據“誘導契合”理論,在配體結合過程中,蛋白與配體都會發生不同程度的構象調整,以達到“最舒服”的狀態。這種狀態與游離蛋白(free protein,無配體結合的蛋白)是有差異的。上述示例使用了實際上是復合物的蛋白進行預測,成功概率會更大。但實際情況中,需要用到口袋預測的蛋白往往是不含配體的。因此,我們不能期望軟件預測的結果總能如示例那樣顯而易見(Pocket A和B的體積顯著大于其他)。在一些口袋不典型、存在多口袋的蛋白中,軟件很可能預測不出有效的Pocket,或者預測出多個Pocket。這就需要人工觀察去排除可能性極低的Pocket、保留可能性高的Pocket。
續上例,使用PyMOL顯示蛋白的(范德華)分子表面。通過觀察,我們發現,兩個Pocket各自形成亞口袋,配體分子橫跨兩者。Pocket A開口足夠大,并與Pocket F共同形成一個極大的空間區域;Pocket B較為典型,深而且窄;其他Pocket要么體積太小,要么幾乎完全暴露在溶液中,不適合充當口袋。因而,Pocket A和B都是有潛在口袋。如果沒有配體分子,我們并不能確定哪個才是真正的口袋,或者兩者都是或不是。這是普遍存在的情況。嚴謹的做法是(按照上述標準)排除明顯不行的Pocket,把剩下的作為候選口袋,留到后續研究(比如分子對接)中再進一步排除或識別。
還記得上面給出的尋找口袋的原則嗎?沒錯,配體的結合需要疏水作用,通常來說,疏水性空腔更有可能成為口袋。通過蛋白的疏水性分布表面,可以進一步判斷口袋的可行性。當然,蛋白內部通常是疏水性的,從形狀和位置上也能大致判斷某個預測的口袋的疏水性是否足夠。PyMOL做疏水性分布表面不怎么方便,我們就忽略這一步驟了。另外,對接打分在一定程度上也能反映口袋的疏水程度,可據此篩選蛋白口袋、識別正確的結合位點。
(淺紫色的蛋白表面顯示出大大小小的空腔,預測的Pocket小球指示潛在口袋的位置)
在殷賦云計算平臺上定義對接口袋
說了這么多,分子對接中使用游離蛋白作為受體時,又該如何定義對接口袋呢?
計算平臺為我們提供了三種定義口袋的方式,對于復合物蛋白,可以通過“選擇文件”選擇之前就提取出來的配體分子進行定義(詳見平臺教程,在微信公眾號首頁回復“計算教程”即可獲得下載鏈接);對于游離蛋白,可通過上傳包含口袋信息的分子文件或者通過下拉列表選擇口袋中的氨基酸殘基來定義。
還是以1UWH為例,我們把蛋白擺放到與上圖差不多的角度,就知道口袋的大致位置(下圖綠圈),然后在口袋中找一個或幾個氨基酸殘基(要求其原子集合的幾何中心盡量接近口袋中心),把鼠標放至其上,就會顯示出相關信息(下圖黃圈)。然后,在下拉列表中勾選這些殘基(下圖紅框)即可。
(在殷賦云計算平臺上通過指定氨基酸殘基的方式來定義對接口袋)
另一種更便捷的方式是,上傳一個指明口袋中心的分子文件(使用pdb、mol2、sdf等常用格式[2-4])到平臺,平臺會計算它們的幾何中心,從而確定對接口袋的中心位置。比如,用文本編輯器NotePad++打開POCASA輸出文件1uwh_TopN_pockets.pdb,刪除Pocket C~F的信息,保留Pocket A和B的信息,保存pdb文件,上傳到平臺。POCASA非常貼心地為各個Pocket分配了不同的鏈名A~F;根據上面提到的Rank order信息,Pocket A的殘基名為222、Pocket B為146。據此,可以迅速找到兩個Pocket的所有信息。
(用文本編輯器處理POCASA輸出文件中的Pocket信息)
(通過上傳刪減的POCASA 1uwh_TopN_pockets.pdb文件來定義對接口袋)
當然,該方式不限于POCASA的輸出文件,也可以使用其他預測軟件的輸出文件,還可以上傳自己創建的文件,比如通過PyMOL等軟件在口袋中選擇若干氨基酸殘基,保存為pdb文件。如果格式不正確,平臺會拋出異常錯誤。對于不太了解分子文件格式的用戶,建議使用下拉列表的方式來定義對接口袋。
【下期預告】我們將在下期發布Vina和Dock6方案的5分鐘分子對接視頻教程,敬請期待。
參考文獻
1. Tina Seifert et al. Identification of the Binding Site of Chroman-4-one-Based Sirtuin 2-Selective Inhibitors using Photoaffinity Labeling in Combination with Tandem Mass Spectrometry. J. Med. Chem. 2016, 59, 23: 10794-99. DOI:10.1021/acs.jmedchem.6b01117
2. PDB格式:http://www.wwpdb.org/documentation/file-format-content/format33/v3.3.html
Mol2格式:http://chemyang.ccnu.edu.cn/ccb/server/AIMMS/mol2.pdf 或http://www.csb.yale.edu/userguides/datamanip/dock/DOCK_4.0.1/html/Manual.41.html
SDF格式:http://www.nonlinear.com/progenesis/sdf-studio/v0.9/faq/sdf-file-format-guidance.aspx或http://link.fyicenter.com/out.php?ID=571
更多資訊,請登錄www.yinfotek.com或關注微信公眾號“殷賦科技”。我司建立了微信學術交流群,為生物醫藥領域的朋友搭建溝通交流的互動平臺。想入群的朋友,請在微信公眾號菜單欄輸入“加群”,根據提示操作即可。