全基因組關聯分析

產品介紹常見問題經典案例結果展示


結果展示

SNP檢測、注釋及過濾

SNP(單核苷酸多態性) 主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性,包括單個堿基的轉換、顛換等。我們采用SAMTOOLS軟件進行樣本SNP的檢測及過濾,獲得高質量的SNP。有效的高質量SNP通過以下過濾標準進行過濾:
1. 測序深度過濾;
2. MAF(Minor allele frequency)>0.01(0.05);
3. Call rate>90%(80%)。

SNP檢測及注釋結果統計

Category Number of SNPs
Upstream 203,062
Exonic Stop gain 2,142
Stop loss 564
Synonymous 247,194
Non-synonymous 167,809
Intronic 321,306
Splicing 1,471
Downstream 189,867
upstream/downstream 51,199
Intergenic 986,703
ts 1,256,052
tv 915,265
ts/tv 1.372
Total 2,171,317

群體分層分析

獲取群體分群信息,降低結果假陽性

1. 系統進化樹

系統進化樹(phylogenetic tree,又稱evolutionary tree,進化樹)是描述群體間進化順序的分支圖或樹,用來表示群體間的進化關系。根據群體的物理或遺傳學特征等方面的共同點或差異可以推斷出它們的親緣關系遠近,即群體個體間由于共同祖先而產生的相互關系。

2. 群體主成分分析

主成分分析(PCA)是一種純數學的運算方法,可將多個相關變量經過線形轉換選出較少個數的重要變量。PCA方法被廣泛運用于多學科,在遺傳學中,主要用于聚類分析,它是基于個體基因組SNP差異程度,按照不同性狀特征將個體按主成分聚類成不同亞群,同時用于和其它方法做相互驗證。

連鎖不平衡分析

決定關聯分析的精度和所標記的數目

連鎖不平衡(linkage disequilibrium,LD),指群體內不同基因座位上等位基因間的非隨機組合。通常所說的LD多是指染色體內的LD,它是關聯分析的基礎。LD的水平可以決定關聯分析的精度、所選標記的數目。

全基因組關聯分析

找到與目標性狀關聯的區域

全基因組關聯分析(Genome-wide association study,GWAS)是一種對全基因組范圍內的
常見遺傳變異(單核苷酸多態性和拷貝數)基因總體關聯分析的方法。
采用GWAS技術在全基因組范圍內進行研究,能夠一次性對多個性狀進行定位,
適用于定位性狀關聯區間、功能基因研究、開發性狀選育標記等方面的研究。

1. 性狀關聯分析

GWAS分析過程中,個體親緣關系和群體分層是造成假陽性關聯的主要因素。因此,采用混合線性模型進行性狀關聯分析,群體遺傳結構作為固定效應,個體親緣關系作為隨機效應,以校正群體結構和個體親緣關系的影響。

2. 多重假設檢驗矯正

多重假設檢驗會導致I型錯誤擴大和假陽性關聯,這是影響GWAS分析可靠性的重要因素。多重假設檢驗的次數取決于基因組包含SNPs的數量,我們采用Bonferroni校正法來校正GWAS分析中多重假設檢驗后的P值以降低假陽性的概率。

3. 目標性狀相關區域基因功能注釋

根據連鎖不平衡衰減距離分析結果,對顯著SNP位點所在物理位置上下游一定區域內(如50 Kb)的相關基因進行功能注釋(連鎖不平衡衰減距離具有物種特異性,一般自花授粉植物會較大,也與樣品群體有關,一般野生群體會最小,栽培品系或選育品系會較大)。

構建單體型圖譜

利用全基因組范圍內高密度的SNPs構建單倍型圖譜,可以將關聯位點定位到相對應的單倍型上,有利于在關聯分析中尋找和定位功能位點。通過圖譜可以直接觀測顯著關聯SNP位點之間的LD關系以及候選基因內各SNP位點之間的LD關系,從而更準確地鑒定性狀功能位點。

安卓手机捕鱼游戏 重庆时时五星走综合图乐彩网 时时彩0369是什么意思 欧洲指数中心 平安彩票网官网首页 足彩胜负彩任选场 甘肃快3奖结果全部 足彩判断平局公式 cba总冠军 山东时时记录 加拿大大神吧在线预测