全基因組de novo測序

產品介紹常見問題經典案例結果展示


結果展示

基因組組裝

組裝策略

1. 二代測序組裝策略

2010年,以諾禾致源創始人李瑞強博士為第一作者而研發的SOAPdenovo軟件,主要針對簡單基因組組裝,使得整個組裝流程更加簡單、精準,且在國際上得到廣泛應用。SOAPdenovo組裝流程示意圖(右圖)。
2014年,由諾禾致源資深分析團隊自主研發的軟件NovoHeter,該軟件主要針對雜合基因組組裝,使整個分析更為高效,所得的信息更加全面、優質,已占據行業領域制高點。

2. 2+3組裝策略

諾禾致源團隊在成熟的組裝技術基礎上,開發出2+3數據組裝流程,通過二代數據和三代數據相互補充和提升,在保證組裝質量的基礎上很大程度地提升了組裝指標。

3. 三代測序策略

三代測序技術具有測序讀長長、測序速度快、無GC偏好等優勢,諾禾致源團隊研發出針對三代數據的組裝流程,極大的提升了三代數據組裝的運算效率,并且,結合10X Genomics,BioNano等新技術,能夠得到更加完整的基因組,Contig N50,Scaffold N50更長,甚至獲得近染色體級別的基因組序列圖譜。

基因組組裝

組裝結果評估

1. 序列一致性評估

在為了評估組裝的準確性,選取一定量的測序數據與組裝基因組比對,統計reads的比對率、覆蓋基因組的程度以及深分布情況,由此評估組裝的效果。

2. GC含量分析

組裝的基因序列計算其GC含量和平均深度,根據此圖分析測序數據是否存在GC偏向性以及樣本是否存在污染。

3. BAC/fosmid評估

通過一定數量的BAC/fosmid克隆序列對基因組進行評估,檢查拼接序列對克隆序列的覆蓋度水平。


4.CEGMA評估

CEGMA(Core Eukaryotic Genes Mapping Approach) 評估是根據廣泛存在于大量真核生物中的保守蛋白家族集合(248個core gene),對組裝得到基因組進行評估,評估組裝基因組中的core gene的準確性和完整性(見下表)

Species Complete Complete+Partial
Prots %Completeness Prots %Completeness
Cli 179 72.18 213 85.89
Mun 180 72.58 210 84.68
Mga 175 70.56 209 84.27
Gga 186 73.39 201 81.85

基因組注釋

注釋流程

基因組注釋主要包括四個方面:重復序列注釋、基因結構注釋、基因功能注釋、非編碼RNA注釋。
重復序列注釋方法分為同源序列比對和從頭預測兩類;基因結構預測通常會結合多種預測方法,
主要有同源預測、de novo 預測和其他證據支持的預測;基因功能注釋是將基因結構注釋得到的基因集,
利用比對軟件與已知蛋白數據庫比對,得到基因的功能信息;非編碼RNA的注釋包括tRNA、rRNA、miRNA和
snRNA注釋,各個方面的注釋結果都可以以數據統計或圖像的形式體現出來。

1. 重復序列注釋

重復序列可分為串聯重復序列(Tendam repeat)和散在重復序列(Interpersed repeat)兩大類,分別用de novo 預測和同源預測的方法對基因組進行repeat注釋。

2. 基因結構注釋

基因結構de novo 預測中用于比對的同源物種包括多個物種,可以預測多種元件情況。

3. 基因功能注釋

將基因結構注釋得到的基因集與已知蛋白數據庫比對,得到基因的功能信息。常用的蛋白數據庫有SwissProt,TrEMBL,KEGG,Go和InterPro”配表如下:

Number Percent(%)
Total 28355 -
InterPro 18417 64.951508
KEGG 18670 65.843767
Swissprot 21329 75.221301
TrEMBL 22920 80.832305
GO 14767 52.078998
Annotated 23045 81.273144
Unanotated 5310 18.726856

4. 非編碼RNA(ncRNA)注釋

非編碼RNA,指不翻譯蛋白質的RNA,如rRNA、tRNA等,這些RNA都具有重要的生物學功能。通過與已知ncRNA庫進行比對得到基因組的ncRNA信息(統計結果如下表)。

Type Copy(w) Average length(bp) Total length(bp) % of genome
miRNA 536 139.341417910448 74687 0.001834
tRNA 1238 75.218901453958 93121 0.002287
rRNA rRNA 6758 186.523527670909 1260526 0.030954
18S 688 871.928779069767 599887 0.014731
28S 572 121.784965034965 69661 0.001711
5.8S 275 125.298181818182 34457 0.000846
5S 5223 106.551981619759 556521 0.013666
snRNA snRNA 381 118.968503937008 45327 0.001113
CD-box 99 107.060606060606 10599 0.000260
HACA-box 19 135.631578947368 2577 0.000063
splicing 263 122.247148288973 32151 0.000790

生物學分析

標準分析

1. 基因家族分析

基于基因家族聚類的結果,鑒定物種特有的基因或者基因家族;發生顯著擴增/收縮的基因家族;重要基因家族深入分析等(下圖 左)。

2. 系統進化分析

構建物種進化樹,在全基因組水平上評估物種間進化關系;探討整體進化地位和物種起源問題,估算與其他近緣物種之間的分化時間。

3. 正選擇分析

通過自然選擇某些有利的基因被固定下來,受到了正選擇的基因,往往在該物種對環境的適應性方面有重要作用,全基因組測序能充分挖掘正選擇基因。

4. 共線性分析

根據重復基因的進化動態或基因組共線性分析,追溯古老的基因組重復事件;根據染色體共線性關系,追溯染色體進化歷史,如重排、融合(下圖 右)。

生物學分析

個性化分析

全基因組測序完成后不僅可進行常規標準分析,還可針對所研究物種的個性化生物學問題進行分析,
針對某一類或特定一個物種的自身特點,結合轉錄組、重測序信息展開深入分析。
如對金絲猴基因組的分析,對其植食性機制進行了深入研究;
對于藏豬基因組分析,重點探討了藏豬基因組中與高原適應性相關基因。
這些方面與物種的獨特生物學特征息息相關,一些生物學亮點也成為全基因組測序的研究重點。

有參考基因組de novo 測序

一些物種,雖然已經有參考基因組,但是一些性狀定位工作仍然進行困難,
一部分原因是與該性狀相關的基因在參考基因組中不存在,另外一部分原因是性狀相關基因處于基因組中的快速進化區域,
使用傳統手段難以進行鑒定。因此,在一個物種已有參考基因組情況下,對具有重要性狀的品種展開de novo 測序,
以獲得品種特有的基因并對高變區域進行變異檢測,有很大的必要性。

1. 特有基因檢測

不同品種及同一品種不同個體都會有自己特有的基因,這些特有的基因與其性狀密切相關,同一作物不同品種之間的變異遠比我們想象的要大。充分了解這些信息之后,在農業研究中將有重要的價值。通過基因組de novo 研究可充分檢測到與差異性狀相關的基因。

2. 變異檢測

各類栽培作物的基因組中存在大量在進化過程中受到強烈人工選擇的區段,這些區段往往是快速進化的區域,傳統手段難以檢測。在野生品種和栽培品種之間存在大量堿基變異,通過當前高通量測序技術,可全面、快速、準確的檢測到變異區域。對于通過重測序技術無法判別的變異區,通過基因組de novo 可準確的識別出高變區域內的所有變異位點。

安卓手机捕鱼游戏 2004年3D走势图带连线 骰子牛牛玩法 二十分走势表 十三张扑克单机下载 龙虎和时时彩走势图 捕鱼大师客服 北京pk历史查询 上海时时zoushitu 分分彩打流水公式 湖南快乐十分开奘结果