" />
glimmer基因預(yù)測軟件是時下互聯(lián)網(wǎng)常用的教育教學(xué)軟件之一,該軟件綠色、安全、無毒,讓你可以放心使用。
下面我們拿結(jié)核分枝桿菌H37RV的基因組來做下練習(xí),Glimmer做基因預(yù)測一般需要2個步奏。
首先是建立預(yù)測的模型,第二步是利用模型來對基因組進(jìn)行基因預(yù)測。模型也叫訓(xùn)練集,也就是先讓軟件了解基因的一些特征,這樣軟件就能根據(jù)已知的信息,來推測未知的信息。
建立模型采用build-icm程序來完成。build-icm的輸入有三種。
1、某基因組的已知信息;
2、通過long-orfs產(chǎn)生的長的無重疊的orfs;
3、高度相似的物種的基因。
這里面我們選用自身作為訓(xùn)練集來作為模型。
那么就使用long-orfs產(chǎn)生訓(xùn)練集,那么作為long-orf的訓(xùn)練集,我們首先要將輸入文件格式化到一條。
聽到這里大家可能有些亂了。下面我們具體來演示一遍大家就明白了。
首先我們將多條fasta文件合并成一條,用于long-orfs程序。
這里面采用sed 命令。
sed -e '/>/d' K12.fna |tr -d '\n' |awk 'BEGIN {print ">wholefile"}{print $0}' >wholefile
這樣就可以用作long-orfs的輸入了。
運(yùn)行l(wèi)ong-orfs產(chǎn)生無重疊的orfs
long-orfs -n -t 1.15 $wholefile $tagname.longorfs 1>/dev/null 2>/dev/null
然后運(yùn)行extract來提取訓(xùn)練集
extract -t $wholefile $tagname.longorfs > $tagname.train 2>/dev/null
這樣訓(xùn)練集就處理好了。
產(chǎn)生訓(xùn)練集有收那種方法,這里面我們用的是第二種方法,通過long-orfs產(chǎn)生。
如果有某基因組的已知基因,或者高度相似的物種基因不用以上三個步驟
接下來我們運(yùn)行bulid-icm通過訓(xùn)練集,來生產(chǎn)預(yù)測的模型,用于基因預(yù)測
build-icm -r $tagname.icm < $tagname.train 1>/dev/null 2>/dev/null
最后我們就可以直接運(yùn)行g(shù)limmer3來完成基因預(yù)測。
glimmer3 -o50 -g110 -t30 [options]。
生成*.detail *.predict
那么*.predict就是我們最終得到的預(yù)測基因文件,它其實只是一個列表,我們打開看一下。也是以“>"進(jìn)行分割,
基因的各列信息分別為:
Column 1 預(yù)測基因編號,此編號和*.detail文件里編號一致。
Column 2 基因的開始位置。
Column 3 基因的結(jié)束位置。為終止密碼子的最后一個堿基位置,也就是說包含終止密碼子。
Column 4 閱讀框。
Column 5 基因的“raw”分值。
基因(遺傳因子、遺傳基因)指攜帶有遺傳信息的DNA序列,是控制性狀的基本遺傳單位,亦即一段具有功能性的DNA序列;蛲ㄟ^指導(dǎo)蛋白質(zhì)的合成來表達(dá)自己所攜帶的遺傳信息,從而控制生物個體的性狀表現(xiàn)。人類約有兩萬至兩萬五千個基因。染色體在體細(xì)胞中是成對存在的,每條染色體上都帶有一定數(shù)量的基因。一個基因在細(xì)胞有絲分裂時有兩個對列的位點(diǎn),稱為等位基因,分別來自父與母輩。按照其控制的性狀,又可分為顯性基因和隱性基因。一般來說,生物體中的每個細(xì)胞都含有相同的基因,但并不是每個細(xì)胞中的每個基因所攜帶的遺傳信息都會被表達(dá)出來。不同部位和功能的細(xì)胞,能將遺傳信息表達(dá)出來的基因也不同。