R語言go富集柱狀圖 r語言 富集分析

【R語言】--- ggplot2包的geom_bar()函數(shù)繪制柱狀圖

柱狀圖又叫條形圖,是數(shù)據(jù)展示最重要的一類統(tǒng)計圖,數(shù)據(jù)分析結果展示中使用頻率非常高,各類統(tǒng)計軟件均能繪制。在R語言中,有很多包可繪制柱狀圖,比如graphics包barplot()函數(shù)和ggplot2包geom_bar()函數(shù)。 本文介紹ggplot2包的geom_bar()函數(shù)繪制柱狀圖。

創(chuàng)新互聯(lián)專注于富縣企業(yè)網(wǎng)站建設,成都響應式網(wǎng)站建設,商城網(wǎng)站開發(fā)。富縣網(wǎng)站建設公司,為富縣等地區(qū)提供建站服務。全流程按需搭建網(wǎng)站,專業(yè)設計,全程項目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務

geom_bar()函數(shù)的基本用法:

[1]

[2] Robert I. Kabacoff (著). R語言實戰(zhàn)(高濤/肖楠/陳鋼 譯). 北京: 人民郵電出版社.

[3]

[4]

[5]

【R語言】解決GO富集分析繪圖,標簽重疊問題

前面我給大家詳細介紹過

?GO簡介及GO富集結果解讀

?四種GO富集柱形圖、氣泡圖解讀

?GO富集分析四種風格展示結果—柱形圖,氣泡圖

?KEGG富集分析—柱形圖,氣泡圖,通路圖

? DAVID GO和KEGG富集分析及結果可視化

也用視頻給大家介紹過

? GO和KEGG富集分析視頻講解

最近有粉絲反映說,利用clusterProfiler這個包繪制GO富集分析氣泡圖和柱形圖的時候,發(fā)現(xiàn)GO條目的名字都重疊在一起了。

氣泡圖

柱形圖

這個圖別說美觀了,簡直不忍直視。經(jīng)過我的認真研究,發(fā)現(xiàn)跟R版本有關。前面我給大家展示的基本都是R 3.6.3做出來的圖。很多粉絲可能用的都是最新版本的R 4.1.2。

我們知道R的版本在不停的更新,相應的R包也在不停的更新。我把繪制氣泡圖和柱形圖相關的函數(shù)拿出來認真的研究了一下,終于發(fā)現(xiàn)的癥結所在。

dotplot這個函數(shù),多了個 label_format 參數(shù)

我們來看看這個參數(shù)究竟是干什么用的,看看參數(shù)說明

label_format :

a numeric value sets wrap length, alternatively a custom function to format axis labels. by default wraps names longer that 30 characters

原來這個參數(shù)默認值是30,當標簽的長度大于30個字符就會被折疊,用多行來展示。既然問題找到了,我們就來調節(jié)一下這個參數(shù),把他設置成100,讓我們的標簽可以一行展示。

是不是還是原來的配方,還是熟悉的味道

同樣的柱形圖,我們也能讓他恢復原來的容貌。

關于如何使用R做GO和KEGG富集分析,可參考下文

GO和KEGG富集分析視頻講解

R語言繪圖——條形圖/柱狀圖

直方圖又稱柱狀圖/條形圖,用來展示連續(xù)數(shù)據(jù)分布的常用工具,用來估計數(shù)據(jù)的概率分布。

使用格式:hist(x,breaks=n,main="name",labels=FASLE,col="blue",border="red",freq=TRUE)

x 向量,直方圖的數(shù)據(jù);

breaks 描直方圖的斷點,例如breaks=20表示畫出20個柱子;

labels 邏輯變量,TRUE標出頻數(shù)

main 標題

col 顏色

border外框顏色

freq 邏輯變量,TRUE為數(shù)據(jù)頻數(shù),默認為TRUE;FALSE則為密度

我們可以用lines畫出數(shù)據(jù)的密度曲線

還可以畫正態(tài)分布的密度曲線

使用格式 ggplot(data,aes(x=class))+geom_bar()

x 繪制的數(shù)據(jù)

或者 ggplot(data,aes(y=class))+geom_bar(),則類型分布在y軸

當想看在該因素中其他因素的情況,可以利用fill進行繪制,得出疊堆條形圖

橫向的柱狀

大多數(shù)時候我們想比較多個組直接某些因素的情況,例如有時候我們要畫幾個樣本中各個細胞比例的情況

這是我們可以畫堆疊條形圖

此時不好比較,我們可以把同類型細胞放在一塊比較,即橫坐標變?yōu)榧毎愋?/p>

在實驗過程中可以采用容易分析的形式進行比較

以上是基本繪制的參數(shù),此外還有美化的一些參數(shù)

labs 橫縱坐標軸的名稱

ggttitle 標題名稱

geom_bar(width= )設置條形大小,默認情況下,設置為數(shù)據(jù)分辨率的90%。

theme_bw() 改變背景顏色

scale_fill_manual 自定義顏色

更多參數(shù)見 R語言繪圖——數(shù)據(jù)可視化ggplot2 介紹和主要的參數(shù)

富集分析第二彈

富集分析,來自于Enrichment這個詞語

F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.

通俗來說:富集分析是基于一個先驗的知識圖譜將輸入內容進行聚類分析,得到聚類后結果。

上句話中逐個概念解析:

figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO 富集結果(柱狀圖)/figcaption

結果解析:我們可以基于柱狀圖,清楚的看出,每一個聚類后結果(橫軸下方的字段),以及每一個分類所對應的基因/基因產(chǎn)物數(shù)量(此圖中為蛋白質數(shù)量)

上圖是氣泡圖形式,由于GO有三個互不交集的ontology本體,所以要單獨分區(qū)展示。氣泡圖比柱狀圖可以多展現(xiàn)1個維度,在上圖中,體現(xiàn)了4個維度信息:

(1)氣泡表示分類條目

(2)氣泡大小表示基因/基因產(chǎn)物數(shù)量。

(3)增加了p-value的展示。p值的負對數(shù)分配給y軸(越高就越重要),統(tǒng)計學基礎是超幾何分布。( 從總的N個基因中挑出n個基因,作為分母(這是背景基因),分子則是M個基因(我們的差異基因,這是前景基因),有k個落在了某通路里,有n-k個不落在了某通路里,然后使用超幾何分布來對它們進行計算,即前景基因落在某通路的比例是否高于背景基因在這一通路的比例 )

(4)表達量的上下調。橫軸zscore表示是表達量是高了還是低了(一般應用于RNA和蛋白中,基因一般不涉及)。 [圖片上傳失敗...(image-efb449-1611106941603)]

figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"點擊一個分類,可以查看其所對應的局部知識圖譜/figcaption

得到目標對象(基因或者基因產(chǎn)物)的富集結果(詞條)后,通過查看網(wǎng)站對詞條的注釋聲明,來驗證或判斷目標對象作為生物標志物的合理性。

figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"方法論示例/figcaption

示例1:《 與胰腺癌相關的重要基因本體論術語和生物學途徑分析 》IF: 2.197

示例 2: 《 使用基因本體論術語和KEGG途徑進行化學毒性作用分析 》 IF: 3.681

GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析

(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在線進行GO功能富集分析。 工作組 很多華人(從名字上看)

(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在線進行GO功能富集分析。

(3) KOBAS ——KEGG Orthology Based Annotation System,支持在線進行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 關聯(lián)疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大團隊做的。

(4) clusterProfiler : universal enrichment tool for functional and comparative study。推薦一個R分析工作包,是生信分析領域大牛 Y叔 寫的,幾乎能支持市面上常見的各類功能、通路、關聯(lián)疾病分析,受science大力推薦(反正Y叔公眾號上他自己是這么說的,有沒有忽悠成分咱就不管了哈,但是吃過的都說香)。

以 KOBAS 為例,演示兩個流程:

(1) GO分析

step i :選擇“基于基因列表進行富集分析”

step ii:在計算頁面等一會,查看分析結果

step iii:查看GO的DAG圖

figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:3A004408/figcaption

也有這樣的:

figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);"GO:0045893/figcaption

(2)KEGG pathway分析

step i: 參數(shù)選擇KEGG

step ii: 查看計算結果

step iii: 查看通路圖

有些情況下KEGG會報錯:

解決方法:注意將url的末尾添加一個/符號,即可正常展示。

當前標題:R語言go富集柱狀圖 r語言 富集分析
標題鏈接:http://muchs.cn/article40/ddcjoeo.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供標簽優(yōu)化、品牌網(wǎng)站制作、云服務器、靜態(tài)網(wǎng)站、關鍵詞優(yōu)化建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站