导航:首页 > 数据处理 > 如何利用wgcna分析转录组数据

如何利用wgcna分析转录组数据

发布时间:2022-11-29 02:44:54

A. 如何快速从转录组数据中筛选目标基因!

如何从海量高通量测序数据中筛选出目标数据?这是困扰大多数老师的一个难题!

我以一个excel的简单函数为例,演示一下如何从表格中快速筛选感兴趣的基因等信息。

函数的名称是 VLOOKUP函数 ,该函数是Excel表中的一个纵向查找函数,学会该函数之后, 可以方便我们从所有基因的结果中筛选我们关心的基因相关信息,比如:基因的长度、基因在样品中的表达量、基因的注释等等信息 。

VLOOKUP函数需要输入4个值:

1、要查找的值,比如:基因的ID;

2、需要查找的区域;

3、区域中包含返回值的列号,也就是找到相关值之后返回第几列的信息;

4、精确匹配或者近似匹配,一般我们选择精确匹配。精确匹配采用0/FALSE、近似匹配采用1/TRUE。

一般来说,我们做完转录组测序,都会有一个总表,表里有所有基因的ID、长度、表达量、差异倍数、注释信息等等,表格很大,内容很多。

如果我们想提取某些差异基因的基因长度信息,那么我们该如何操作呢?

我们需要在需要提取长度信息的差异基因表中加上一列gene_length列。

然后插入VLOOKUP函数,按要求输入4个参数,点击确定即可。

以上是利用基因ID在总表中查找一列信息,比较简单。如果我们想查找多列信息该如何操作呢?

方法相似,我们可以在总表中插入deg_gene列,然后去差异基因表中查找基因ID即可,具体操作如下:

到这里,一个简单的Excel表筛选基因信息的方法就介绍完了,实际上在公司给出转录组标准分析之后,很多个性化都可以由自己解决,您需要的仅仅是高手领进门!

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析

8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。

B. 转录组WGCNA分析

介绍这个包之前,先要搞清楚这个包能干啥。(部分内容摘抄自学术咖)

Q1:WGCNA能干嘛?
A1:能够将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系。具体一点:1)构建分层聚类树(hierarchical clustering tree),聚类树的不同分支代表不同的基因模块(mole),模块内基因共表达程度高,而分属不同模块的基因共表达程度低。2)探索模块与特定表型或疾病的关联关系,最终达到鉴定疾病治疗的靶点基因、基因网络的目的。

Q2:WGCNA分析结果中总是提到共表达网络,是什么?
A2:共表达网络特指利用基因间的表达相关性预测基因间调控关系的方法,WGCNA是共表达网络分析中最有效的方法之一。

Q3:一般说WGCNA的样品不少于15个,15个样品考虑重复吗?
A3:15个样本这个是包含了生物学重复,比如5个时间点3个重复。

Q4:每个样本有3个生物学重复,不需要对三个重复的表达量求平均值代表该样本吗?
A4:做WGCNA的时候每个样本是独立的,三个生物学重复样本是全部导入做分析,不是取均值再做分析,每个样本都是独立的。

Q5:WGCNA里面一般会提到hubgene,如何确定hubgene?
A5:在WGCNA分析里面,每个基因都会计算连通性,连通性高的就是hubgene。

那么根据它能做的事情,再结合具体的数据,那么我们在做WGCNA之前需要准备的数据有两个:表达量数据和表型数据。
表达量数据,FPKM矩阵即可。
表型数据,即性状数据,比如肿瘤的stage、肿瘤的预后等等。可以是质量性状也可以是数量性状。

1、安装包
你可以直接安装,但是后面会报错。

看了半天发现,是少了一个impute的包。所以需要重新安装。

2、导入数据

3、用hclust给所有的样本建树。看看不同个体之间的距离,以及有没有一些具体特别远的个体。

4、确定最佳的beta值,

画图

5(5.1)、构建共表达矩阵(自动构建网络 + 模块识别)

可视化mole

5(5.2)、构建共表达矩阵(逐渐构建网络 + 模块识别)
Step_1:Co-expression similarity and adjacency

Step_2:计算拓扑重叠矩阵(TOM)

Step_3:使用TOM(拓扑重叠矩阵)进行聚类,绘制聚类得到的树形图。

Step_4:使用dynamic tree cut来识别模块。

Step_5:将基因表达相似的模块进行合并

Step_6:保存模块相关变量,用于后续的分析.需要保存的变量有①模块的特征基因②模块的数字标签③模块的颜色标签④基因的树形图。

6、展示模块之间的相关性

7、可视化基因网络 (TOM plot)

8、模块和性状的关联分析
看完资料之后,性状关联分析貌似有两种处理方法。
第一种:质量性状。一列subtype但是包含有5种类型的癌症。( https://cloud.tencent.com/developer/article/1516749 )

除了上面的热图展现性状与基因模块的相关性外。
还可以是条形图,但是只能是指定某个性状。
或者自己循环一下批量出图。

9、感兴趣性状的模块的相关性分析

C. TCGA 数据分析实战 —— WGCNA

加权基因共表达网络分析( WGCNA , Weighted gene co-expression network analysis )是一种用来描述不同基因在样本中的表达关联模式的系统生物学方法。

通过将表达高度相关的基因聚集成不同的模块,并探究不同模块与样本表型之间的关联。还可以探究模块内的关键基因的功能,作为潜在的生物标志物或治疗靶点进行后续分析

WGCNA 模块识别算法大致包含以下几个步骤:

输入数据的格式要符合行为样本,列为基因的矩阵格式,因为计算的是基因之间的相关性,所以数据可以是标准化的表达值或者是 read counts 。

探针集或基因可以通过平均表达量或方差(如中位数或绝对中位差)进行过滤,因为低表达或无变化的基因通常代表噪音。

注意 :并不推荐使用差异基因作为输入矩阵,通过差异表达基因过滤将会导致一个(或几个高度相关的)基因聚成一个模块,同时,也破坏了无标度拓扑的假设,所以通过无标度拓扑拟合来选择软阈值的将会失败。

主要是过滤一些离群或异常的样本,可以对样本数据进行聚类,如果存在异常样本,则其在聚类图中会显示出离群现象,可考虑将其剔除。

首先,对基因的表达量进行 0-1 标准化,即

其中, 为样本方差

然后,使用 pearson 计算基因之间的相关性

两个基因的共表达相似性表示为

然后将基因之间的相似度转换为邻接值,对于非加权网络,计算方式为

其中 为硬阈值,大于等于该阈值表示这两个基因之间存在连接,而低于阈值则认为两个基因没有连接。它们并不能反映共表达信息的连续性质,因此可能导致信息损失。例如,阈值为 0.8 ,那 0.79 是不是应该也有一定的相关性呢?

在介绍软阈值之前,我们先引出两个图论的概念:

度表示为节点所连接的边的数量

无标度网络具有很好的鲁棒性,网络中某些节点的错误并不会导致整个网络的瘫痪,具有很多的代偿连接。而这一特点,与生物体中的复杂生化网络非常类似,只有少数的基因执行着关键性的功能,而大多数的基因执行较为单一的功能。

无标度网络中,节点 d 的度为 k 的概率满足幂律分布

通过对数变换,变为

从这个公式可以看出,节点的度数与其出现的概率是负相关的,通过计算各个节点的度数 k 与该度数 k 在所有节点度数中的占比的 pearson 相关性,我们可以得到关于无标度网络的适应系数。该系数越接近 1 则越像无标度网络,越接近 0 则越像随机网络。

所以,对于加权网络,其邻接值的计算方式为:

当软阈值 时,会让相关系数小的更小,而大的更大。

可以根据适应系数来筛选软阈值

光有邻接矩阵是不够的,基因间的相似性应该要同时体现在其表达和网络拓扑水平,为了能能够尽可能地最小化噪音和假阳性的影响,因此引入了拓扑重叠矩阵

这个概念的主要表达的是,两个基因 a 和 b 之间的相关性,不光考虑两个基因的表达相关性,还需要考虑一些 A 和 B 共有的表达相关基因 u ,如果 u 足够多,则说明 A 与 B 的网络重叠性强,应该被聚成一类

换个说法,两个人之间的亲密度不仅与他们两人之间有关,还与他们的共同好友有关,共同好友越多,说明他们两人之间应该越亲密

计算公式为:

其中, 分别为 i 和 j 的度数

表示的是两个基因的相似性,转换成距离度量就是 ,并使用该值来进行聚类,并分割模块

我们以 TCGA 的乳腺癌数据作为示例,来完整的做一遍 WGCNA 分析

先安装模块

获取 50 个样本的 FPKM 数据, WGCNA 最少需要 15 个样本, 20 个以上的样本会更好,样本越多越好,这里为了方便,我们只挑了 50 个样本

过滤基因,取绝对中位差 top 5000 的基因

过滤异常样本

确定软阈值的时候,需要选择网络类型,不同的网络类型,其计算邻接值的方法是不一样的。

默认为 unsigned

我在 RStudio 中使用 enableWGCNAThreads() 会引发下面的错误

所以,我改用了 allowWGCNAThreads() ,就可以运行了

绘制软阈值曲线

其中横坐标为软阈值的梯度,第一幅图的纵坐标为无标度网络适应系数,越大越好;第二幅图的纵坐标为节点的平均连通度,越小越好。

查看系统给我们推荐的软阈值

与我们从图上看到的结果是一致的,如果出现了异常的值,也就是说在有效的 power 梯度范围内(无向网络在 power 小于 15 ,有向网络 power 小于 30 ),无法使适应系数的值超过 0.8 ,且平均连接度在 100 以上

可能是由于部分样品与其他样品差别较大。这可能是由于批次效应、样品异质性或实验条件对表达影响太大等因素造成的。

可以对样本绘制聚类图来查看有无异常样品,如果这确实是由于生物学差异引起的,也可以使用下面的经验 power 值。

一步法构建网络,我们使用上面推荐的软阈值 5

查看各模块的基因数量

可以使用 labels2colors 函数将数值转换为颜色名称

使用 plotDendroAndColors 函数来展示各个模块的层次聚类结果

其中,无法聚类到模块中的基因会标示为灰色,如果灰色区域较多,可能由于样本中基因共表达趋势不明显,可能需要调整基因过滤的方法。

展示模块之间的相关性

展示 TOM 矩阵,为了节省时间,我们只使用第一个聚类分支

或者更换一种配色

颜色越深表示基因表达的相关性更高,我们可以看到,模块内的基因之间具有较高的共表达,而模块之间的表达相关性较低

将整个网络全部导出成 Cytoscape 输入文件

保存网络

也可以提取某一模块的基因

获取到基因之后,可以进行富集分析找到相关的生物学通路

我们可以分析各网络模块与样本表型之间的关系,从而找到与我们感兴趣表型相关的模块。

样本表型可以是各种指标,比如肿瘤分期分级、已知的分类亚型、药物响应等,并计算模块与这些表型之间是否具有显着相关性

但是模块是一个矩阵,无法直接计算矩阵和向量之间的相关性,需要转换为向量之间的相关性。

而 WGCNA 选择使用 PCA 的方法对数据降维,并将第一主成分定义为 eigengenes ,然后计算 eigengenes 与表型之间的相关性

先获取并处理临床数据

计算模块与 ER 状态的相关性

如果使用的是其他相关性方法,则可以使用 bicorAndPvalue 函数来计算显着性

绘制相关性图

可以看到有些模块的相关性挺高的,而且也具有显着性。我们计算出模块与表型之间相关性之后,可以挑选最相关的那些模块来进行后续分析。但是,模块本身可能还包含很多的基因,还需要进一步识别关键基因基因。

如何寻找关键基因呢?我们可以计算所有基因与模块之间的相关性,也可以计算基因与表型之间的相关性。如果存在一些基因,既与表型显着相关又跟某个模块显着相关,那么这些基因可能就是非常重要的关键基因了

从上图中,我们可以看到 paleturquoise 具有较高的相关性,且具有显着性,我们就来尝试找找这个模块的关键基因

计算基因与模块的相关性

再计算基因与表型的相关性

展示模块内基因与模块和表型之间的相关性

从图中我们可以看出,基因与表型的相关性和基因与模块的相关性还是有一定的线性趋势的,这说明与表型高度相关的基因,通常也是该表型对应模块内比较重要的基因。

因此,当我们要选择关键基因时,推荐选取散点图中右上角部分的基因,即两个相关性均较大的基因

我们可以导出这个模块的网络

D. 2021-03-28 WGCNA

        加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是基于基因的共表达特性进行基因模块聚类,以探索基因与性状之间的关联性,基因模块与性状的关联性,并筛选网络中的核心基因。

相关概念

co-expression network (共表达网络): 一种无方向性的,加权网络,网络的节点代表基因(也可以是蛋白质、代谢产物等),网络的变可以描述基因和基因间共表达程度的高低。为了衡量基因间共表达程度的高低,在计算基因间相关系数(例如皮尔森相关系数)的基础上,对其进行β次方加权,进而可以强化强相关性节点的关系。

Weighted (加权) :指对相关性值进行幂次运算 。 这种处理方式强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络特征,更具有生物意义。如果没有合适的 power ,一般是由于部分样品与其它样品因为某种原因差别太大导致的,可根据具体问题移除部分样品或查看后面的经验值。

Adjacency matrix(邻接矩阵) :邻接矩阵有分布在0-1之间的数值组成,是基因和基因之间的加权相关性值构成的矩阵,用来描述节点间相关性强度。

TOM (Topological overlap matrix) :拓扑重叠是通过比较两个节点和网络中其他节点的加权相关性来定量描述节点间相似性的方法。把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。

Mole(模块) :指具有高拓扑重叠相似性的基因集,即高度内连的基因集。共表达模块是更加非相似性矩阵,利用聚类算法获得的。在无向网络中,模块内是高度 相关 的基因。在有向网络中,模块内是高度 正相关 的基因。把基因聚类成模块后,可以对每个模块进行三个层次的分析:1. 功能富集分析查看其功能特征是否与研究目的相符;2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;3. 模块与样本进行关联分析,找到样品特异高表达的模块。

Mole eigengene (ME) :给定模块的第一主成分,代表整个模块的基因表达谱,用来描述模块在各样品中的表达模式。

Mole membership (MM) :指给定基因和给定ME之间的相关系数,描述基因属于一个模块的可靠性。

Intramolar connectivity (模块内连通性) :某一个基因的模块内连通性等同于该基因与模块内其他基因关联程度之和,该值越大说明这个基因在模块中越处于核心位置。

Connectivity (连通性) :类似于网络中 "度"(degree)的概念。每个基因的连连通性是与其相连的基因的边属性之和。

Hub gene :关键基因 (连接度最多或连接多个模块的基因)。

Gene significance (GS): 基因显着性,定义单个基因与外部信息的关联性,即基因与某个性状的相关性。

基本分析流程

1.建立关系矩阵:计算两个基因表达量之间的相关系数,构建成关系矩阵。

2. 建立邻接矩阵:根据基因表达的相关系数进行加权计算,构建邻接矩阵。

3. 建立拓扑重叠矩阵:计算节点间的相异程度,将邻接矩阵转换为拓扑重叠矩阵。

4.基因模块识别:基于拓扑邻接矩阵,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。

5. 核心模块选择:根据表型特征确定核心模块。

6.核心基因筛选:基于基因连通性筛选核心基因,并围绕核心基因进行网络构建

WGCNA分析输入数据

        鉴于WGCNA依靠基因的共表达情况进行分析,因此必须要有足够的样本数,才能保证相关系数计算的准确性;此外样本必须包含丰富的变化信息,才能鉴定出有意义的基因模块。因此WGCNA对于输入数据有一定的要求:1.不包含生物学重复的独立样本组:样本数>=8;2.包含生物学重复的样本组:样本数>=15;3. 输入数据要求是进行标准化的数据;4. 输入数据的基因数建议不要超过5000(可以根据变化程度或者表达丰度进行筛选;基因越多,运行时间越长)。

E. WGCNA(转载)

WGCNA原理及应用

WGCNA介绍:

WGCNA(weighted gene co-expression network analysis,权重基因共表达网络分析)是一种分析多个样本基因表达模式的分析方法,可将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系,因此在疾病以及其他性状与基因关联分析等方面的研究中被广泛应用。

WGCNA算法是构建基因共表达网络的常用算法(详解: http://www.jianshu.com/p/94b11358b3f3 )。WGCNA算法首先假定基因网络服从无尺度分布,并定义基因共表达相关矩阵、基因网络形成的邻接函数,然后计算不同节点的相异系数,并据此构建分层聚类树(hierarchical clustering tree),该聚类树的不同分支代表不同的基因模块(mole),模块内基因共表达程度高,而分属不同模块的基因共表达程度低。最后,探索模块与特定表型或疾病的关联关系,最终达到鉴定疾病治疗的靶点基因、基因网络的目的。在该方法中mole被定义为一组具有类似表达谱的基因,如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,可以把他们定义为一个模块(mole)。这似乎有点类似于进行聚类分析所得到结果,但不同的是,WGCNA的聚类准则具有生物学意义,而非常规的聚类方法(如利用数据间的几何距离),因此该方法所得出的结果具有更高的可信度。当基因mole被定义出来后,我们可以利用这些结果做很多进一步的工作,如关联性状,代谢通路建模,建立基因互作网络等。

WGCNA的用处:

这类处于调控网络中心的基因称为核心基因(hub gene),这类基因通常是转录因子等关键的调控因子,是值得我们优先深入分析和挖掘的对象。

在网络中,被调控线连接的基因,其表达模式是相似的。那么它们潜在有相似的功能。所以,在这个网络中,如果线条一端的基因功能是已知的,那么就可以预测线条另一端的功能未知的基因也有相似的功能。

下面的问答来自基迪奥,也能加深对WGCNA的理解

问1、调控网络和共表达网络有什么区别?

答:调控网络是个更广泛的概念,而共表达网络是调控网络的一种。

理论上我们可以利用各类信息构建调控网络(表达相关性,序列靶向关系、蛋白互作关系),另外调控网络构建的信息既可以来源真实的实验验证的关系,也可以来源生物信息的预测。而共表达网络特指利用基因间的表达相关性预测基因间调控关系的方法,而WGCNA又是共表达网络分析中最有效的方法之一。

问2、WGCNA分析适合的生物物种范围有规定么?

答:没有限制。对于任何物种中心法则都是存在的,调控关系对于任何物种都是存在的,所以WGCNA没有物种限定。

问3、同一物种,不同来源的转录组数据(比如不同文章/资料来源的),可以放在一起做WGCNA分析吗?

答:只要样本间有相似的生物学意义,是可以合并在一起做分析的。但要注意,不同批次之间的样本是有批次效应的,所以可能会带来一些误差,但是是可以放在一起分析的。

问4、相同材料不同处理之间,可以放在一起做WGCNA分析吗?比如重金属和盐碱处理。

答:可以的。这也正式WGCNA强大的地方,其可以将不同处理的样本,合并在一起做分析。其他方法则不一定有这么强大的能力,比如做基因表达趋势分析时,如果样本涉及到多个处理不同时期的时候,就不好合并分析(或合并后难以解读)。但WGCNA的方法关注的是调控关系,所以不管是多少个处理组,都可以很好的整合在一起做分析。

问5、不同批次的数据能放一起做WGCNA吗?

答:可以的。虽然有批次的干扰,但是干扰对WGCNA网络没有太大影响。因为WGCNA不是做差异分析,而是基因的共表达。因为批次效应理论上不影响相关性。

问6、不同类型的材料,比如亲本和F1,适合放一起进行WGCNA么?

答:如果是一个作图群体,当然亲本与F1是可以放在一起分析的,因为你只关心基因的表达模式,所以把亲本加进来是没有问题的。

问7、没有生物学重复,共3组,每组5个时间点能够做吗?

答:理论上有15个样本,是可以做WGCNA分析的。并且,分析出来的结果对你的研究应该是非常有用的。至少他会比趋势分析更有意义,更加准确。

问8、一般说WGCNA的样品不少于15个,15个样品考虑重复吗?不同倍性的材料呢?

答:15个样本这个是包含了生物学重复,比如5个时间点3个重复;在RNA-seq里面建议不要用不同倍性材料加进来。除非是有参考的多倍体,如果是无参的多倍体,不同倍性之间差异太大,会让调控网络不准确。所以用单一倍性的材料做调控网络会更加准确。

问9、可以将RNA-seq数据与蛋白组数据,甲基化数据放一起做WGCNA分析?

答:不能与蛋白数据一起分析。因为WGCNA是基于相关系数的算法。所以最好一起分析的数据变异度是类似的,RNAseq变异非常大,而蛋白的数据变异很小,两者的变化不在一个数量级上面。所以两种数据放在一起分析不合理。

但RNA数据可以尝试跟甲基化数据一起分析。当然我们也建议RNA数据与代谢组数据一起分析,因为代谢组的数据变异也非常大。

问10、表达量和表达的基因数目差异太大的样品可以一起分析吗?比如样品A有2k个gene表达 而样品B有2w个gene表达了 AB可以一起分析吗?

答:做WGCNA分析的时候,不能脱离生物学意义,既然要分析调控网络,那么应该分析有相似生物学意义的一组基因,比如说拿相似组织来一起做分析,比如不应该拿大脑的样本与脚趾的样本合并在一起做分析,因为很显然,这两个组织没有关联。如果两个样本之间是有相关联的生物学意义,哪怕表达的基因数不一样,或表达模式差异很大,那依然可以放在一起分析;但如果样本之间完全没有生物学意义,那么分析就没有意义。

问11、实验设计是case3个时间点(各点都有三个重复),control同样的3个时间点(每点三个重复),WGCNA怎么做?3个时间点和case-control两个因素能同时考虑进来分析吗?

答:可以的。做WGCNA是更加合理的,因为有两个梯度的样本,如果只是做差异分析的话,逻辑可能非常复杂,做WGCNA分析是对样本特性更好的解析,可以直观看到基因在六个处理组里面是怎样表达的。

问12、可以拿混合样本分析吗?比如一个病原细菌跟人类细胞的基因,能说明细菌跟人类细胞基因有调控关系吗?

答:可以。前提是病原菌有足够的数据并定量准确,并且这个分析是非常有意义的,最后可以说明这些病原菌可以调控哪些宿主基因。

问13、但是病原宿主混合分析的话,宿主蛋白不能分泌到宿主体内岂不是WGCNA生物学上也没有意义吗?

答:依然有意义。即使病原的基因没有分泌到宿主里面,但是病原的蛋白是会影响宿主基因的调控的,比如某个细菌感染某个植物,虽然细菌的蛋白不能直接分泌到植物体内,但会影响植物蛋白的分泌。混在一起分析依然是有意义,可以看到植物里面到底哪个基因对细菌蛋白产生应答作用。

问14、芯片数据两分类,每组20个样本,能否每组单独做WGCNA?

答:可以。WGCNA还有一种重要功能是做两个网络的比较,比如病人20个样本做一个调控网络,健康人做一个调控网络,然后两个网络做比较。

问15、WGCNA可以用来分析lncRNA对下游基因的调控分析吗?

答:可以。WGCNA网络有利于预测lncRNA的潜在功能。

问16、构建网络是用所有表达基因还是差异基因?

答:这个是具体问题具体分析。如果使用所有的基因分析,会导致运算量非常大。而也不是所有的基因在这个实验中都有生物学意义,所以我们会提前做一些过滤。

但用于分析的基因不一定是差异表达基因,有时可以用差异表达基因做一个并集,或通过计算变异系数将变异系数低的基因以及低表达的基因去除。但注意,如果你有关心的特定目标基因的话,应该尽量给予保留。

问17、关注某一个pathway上的基因以及调控因子之间的相关性,构建WGCNA网络的时候属于这个pathway的基因数量太少会不会影响结果呢?

答:这不是问题。在一个调控网络里面,样本的某个pathway上,并不是所有基因参与调控(或存在差异性),所以在做WGCNA分析的时候,会做一些过滤,将有变化的基因挑出来再做分析。即分析的是某个pathway上有变化的基因,不需要分析pathway上所有的基因,只需要分析那些变化的基因就够了。

问18、前期筛选的时候,要选出在所有样本中变异系数比较大的基因呢?还是直接用差异表达的基因取并集?用基因还是转录本,哪个好呢?

答:两则都可以,我推荐使用变异系数,选择那些变异较大的基因,来做下面的分析。然后建议用基因不要用转录本,因为转录本的定量是不准确的。

问19、变异系数一般取多大?

答:具体问题具体分析。例如,没有特定目标的时候,可以先计算变异系数,将变异系数的百分之前50来做分析,把变异系数偏低的后面一半过滤掉。

问20、输入数据用FPKM合适吗?

答:可以。

问21、RNA seq数据是RSEM值怎么办?

答:RSEM值原始输出结果为reads数,如果是RSEM值建议做一个RPKM校正再做分析。

问22、除了RPKM值以外,做WGANA是否还需要其他数据?TCGA数据可否来做WGCNA分析?

答:在做WGCNA分析必须要用表达量数据,但TCGA的数据某些层级没有表达量数据,没有表达量数据自然就无法做WGCNA分析。

问23、请问输入的基因样本的矩阵的时候,要不要对数据标准化?

答:做WGCNA分析的时候,不需要对数据进行标准化,输入RPKM值就足以做这个分析。虽然一些文章会做log2处理,但我认为取了LOG2后,会让一些表达关系没有那么丰富。

问24、每个样本有3个生物学重复,不需要对三个重复的表达量求平均值代表该样本吗?

答:注意,做WGCNA的时候每个样本是独立的,三个生物学重复样本是全部导入做分析,不是取均值再做分析,每个样本都是独立的。

问25、如果3个生物学重复,做WGCNA的时候是取三个值,还是用cuffdiff处理后取一个值?

答:如果是生物学重复样本进行调控网络分析,每个样本独立使用,而不是取均值。

问26、请问将样本信息同模块特征值进行相关性分析的时候,样本信息是怎么处理的呢?比如不同取样点、不同性别什么的,这不是数量性状信息的,这种情况应该怎么处理呢?

答:样本的任何信息都可以做模块相关性分析。比如相关时间点,可以按照先后量化为12134567。又如不同性别,男与女,可以定义为1,-1。任何性状量化为数字后,都可以进行相关性分析。

问27、怎么将模块与性状对应起来呢有些性状不好量化,如果直接将模块与分组对应,如何实现, 不需要量化指标么?

答:首先需要将性状量化,如果无法将性状量化,那么就无法分析。至于分组信息,也可以量化为类似00001111000(1代表一种组别,2代表另一组组别),实现分组信息的数字化。

问28、基因数量为3w左右时,moles数量为多少结果较为理想?怎么评价聚类效果的好坏?

答:moles数量没有标准,moles数量无法评估模块分的好坏,分组是否合理应该看树的树形图,比如树的分支很清晰就说明模块式清晰的。moles数量数由生物性状决定的。比如样本表达信息很丰富的时候,moles数量会很多;如果样本的基因表达相对单一,moles数量就会比较少。

问29、我运行例子的时候,得出来基因之间的direction全是undirected,这和前面的几种关系有什么区别?

答:WGCNA是一个undirected的方法,它的网络是无方向的,有相关关系但是无方向。

问30、如果做有向网络的构建,您推荐那些方法?

答:很多方法,例如贝叶斯的方法。

问31、非模式物种可以得出基因之间的相互关系类型么?得出的结果也是undirected么?

答:WGCNA是基于表达两处理的,所以即使是非模式生物,当然也可以他们之间关系,并且关系也是一个无向网络。

问32、选择几个表型数据进行结合分析比较好

答:越多越好,看实验设计。

问33、感染小鼠,5个时间点,3个重复,找不到合适的表型怎么办?

答:如果找不到合适表型,可以找某个时间点应答的基因,本身基因的表达趋势已经有某种生物学意义的。没有找到合适表型,也可以看变化趋势。不一定要做表型的相关分析,其他分析也是很有趣的。例如,可以对模块功能的富集分析,其实都是可以帮助你找到特定模块的。所以不用纠结于做某个表型的关联分析。

问34、weight就是tom值吗?

答:是的。

问35、剪模块是怎么做的?是根据TOM划分吗?需要自己设定,还是R自动的?

答:剪模块是R中自动完成的,不需要划分,但合并的时候你可以设定一个指标,比如差异度是0.25。

问36、看WGCNA说明是用相异矩阵D(D=1-TOM)去做聚类,然后动态剪切?

答:用TOM值来构建矩阵,TOM值就是两个样本的相似度,1-TOM值就是两个样本的差异度,相似度与差异度可以理解为一个东西,并不矛盾。

问37、模块特征值和样本性状相关分析的具体方法是?

答:R包用的是计算相关系数的方法。

问38、WGCNA里面一般会提到hubgene,如何确定hubgene?

答:在WGCNA分析里面,每个基因都会计算连通性,连通性高的就是hubgene。

问39、在R中安装“”WGCNA“”说不适合R3.3.1,那适合哪个版本?

答:WGCNA应该是所有版本都适合,如果版本没有可以考虑降低R软件的版本,这个对分析没有影响。因为不同R版本是一样的。

问40、用STEM分析的时候拟合多少个模型合适?

答:建议不要超过20个。模块太多不好分析。

参考网站:

http://tiramisutes.github.io/2016/09/14/WGCNA.html

http://www.jianshu.com/p/94b11358b3f3

http://www.omicshare.com/class/home/index/classdetail?id=20

F. wgcna中weight值

你好,首先,wgcna中的weighted(权重)值(也就是题主所说的weigh值)的解释是:基因之间不仅是相关与否,还保存记录着它们间的相关性数值,此数值即为基因之间联系的权重与相关性。然后,wcgna(即weighted gene co-expression network analysis,权重基因共表达网络分析)是适于大样本分析,分析转录组数据的的方法,具体的模型,数据不同,具体的weight值也不同。最后,若想得知所需的weight值,必须要结合具体模型和数据,才可以去计算,分析出其中的weight值,希望可以帮到题主。

G. WGCNA相关重点

WGCNA定义,来源以及发展可阅读:https://wiki.mbalib.com/wiki/Scale_Free_Network

WGCNA无尺度网络是指在某一复杂的系统中,大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结。这些具有大量连结的节点称为“集散节点”,所拥有的连结可能高达数百、数千甚至数百万。这一特性说明该网络是无尺度的,因此,凡具有这一特性的网络都是无尺度网络。无尺度网络是指在某一复杂的系统中,大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结。这些具有大量连结的节点称为“集散节点”,所拥有的连结可能高达数百、数千甚至数百万。这一特性说明该网络是无尺度的,因此,凡具有这一特性的网络都是无尺度网络。

GCNA是加权基因共表达网络分析,旨在分析协同表达的基因模块,分析基因网络与疾病(表型)之间的关联,并找出网络中的核心基因。从方法讲,WGCNA分为表达量聚类分析和表型关联。主要包括基因相关系数的计算,基因模块的确定,共表达网络,模块与性状关联。

R-seq的根本目的是找到差异基因,而在数据归一化以后所进行的差异基因的寻找有两种:1 DEseq2差异分析;2 go ontology analysis

第一步 计算基因之间的相关系数   相关系数计算采用相关系数加权值,取相关系数的N次幂,这样使基因网络呈无尺度网络分布。而阈值的界定决定对相似基因表达的判定。

第二步  构建聚类树   根据相关系数进行分层聚类,而不同的分枝代表不同的基因模块,同一基因模块是表达相似的基因。将几万个基因按基因表达相关系数的N次幂分成几十个模块。这是信息归纳的过程。

重要含义

邻接矩阵   就是将顶点的基因和顶点之间的相关系数组成的矩阵称为邻接矩阵。一般邻接矩阵是具体数值,并不是由阈值设定的0/1矩阵。

topilogical matrix 

在邻接矩阵的基础上再计算一个邻接矩阵,TOM

WGCNA基本概念

理解WGCNA,需要先理解下面几个术语和它们在WGCNA中的定义。

共表达网络:定义为加权基因网络。点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算.(冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。无向网络的边属性计算方式为abs(cor(genex, geney)) ^ power;有向网络的边属性计算方式为(1+cor(genex, geney)/2) ^ power; signhybrid的边属性计算方式为cor(genex, geney)^power if cor>0 else 0。这种处理方式强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络特征,更具有生物意义。如果没有合适的power,一般是由于部分样品与其它样品因为某种原因差别太大导致的,可根据具体问题移除部分样品或查看后面的经验值。

Mole(模块):高度内连的基因集。在无向网络中,模块内是高度相关的基因。在有向网络中,模块内是高度正相关的基因。把基因聚类成模块后,可以对每个模块进行三个层次的分析:1. 功能富集分析查看其功能特征是否与研究目的相符;2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;3. 模块与样本进行关联分析,找到样品特异高表达的模块。

基因富集相关文章 去东方,最好用的在线GO富集分析工具;GO、GSEA富集分析一网打进;GSEA富集分析-界面操作。其它关联后面都会提及。

Connectivity (连接度):类似于网络中 "度"

(degree)的概念。每个基因的连接度是与其相连的基因的边属性之和。

Mole eigengene E:

给定模型的第一主成分,代表整个模型的基因表达谱。这个是个很巧妙的梳理,我们之前讲过PCA分析的降维作用,之前主要是拿来做可视化,现在用到这个地方,很好的用一个向量代替了一个矩阵,方便后期计算。(降维除了PCA,还可以看看tSNE)  (补充:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。)

Intramolar connectivity:

给定基因与给定模型内其他基因的关联度,判断基因所属关系。

Mole membership: 给定基因表达谱与给定模型的eigengene的相关性。

Hub gene: 关键基因 (连接度最多或连接多个模块的基因)。

Adjacency matrix

(邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。

TOM (Topological overlap

matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。

基本分析流程

image

构建基因共表达网络:使用加权的表达相关性。

识别基因集:基于加权相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示。

如果有表型信息,计算基因模块与表型的相关性,鉴定性状相关的模块。

研究模型之间的关系,从系统层面查看不同模型的互作网络。

从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。

导出TOM矩阵,绘制相关性图。

WGCNA包实战

R包WGCNA是用于计算各种加权关联分析的功能集合,可用于网络构建,基因筛选,基因簇鉴定,拓扑特征计算,数据模拟和可视化等。

输入数据和参数选择

WGCNA本质是基于相关系数的网络分析方法,适用于多样品数据模式,一般要求样本数多于15个。样本数多于20时效果更好,样本越多,结果越稳定。

基因表达矩阵:

常规表达矩阵即可,即基因在行,样品在列,进入分析前做一个转置。RPKM、FPKM或其它标准化方法影响不大,推荐使用Deseq2的或log2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次,需要先移除批次效应

(记得上次转录组培训课讲过如何操作)。如果数据存在系统偏移,需要做下quantile normalization。

性状矩阵:用于关联分析的性状必须是数值型特征

(如下面示例中的Height, Weight,

Diameter)。如果是区域或分类变量,需要转换为0-1矩阵的形式(1表示属于此组或有此属性,0表示不属于此组或无此属性,如样品分组信息WT,

KO, OE)。

链接:https://www.jianshu.com/p/e9cc3f43441d

下游分析:

得到模块以后进行  模块功能富集   计算基因模块与表型的关系   计算基因与样本的关系    

关键挖掘:分析核心基因    利用关系预测基因功能。

实操步骤:

1  数据准备是最复杂的,如果是芯片数据 直接归一化矩阵即可,而如果是RNAseq数据,那么用RPKM或者TPM都可以,然后就是样本的属性方面信息。

材料准备:需要将正常组织的数据剔除。

2  一般聚类用的是hcust

H. WGCNA分析详解专题(一)

此次分析详解专题将讲述以下内容,老规矩,如有理解错误,还请各位大侠批评指正!

WGCNA适用于什么分析内容?

表型变量中的分类变量应该如何合理的数值化?

做WGCNA分析我该使用什么数据,是否需要过滤?

我该选取哪些基因进入分析?是全部的基因还是只用差异表达的基因?

多少样本量合适呢?怎么检测异常(离群样本)?

如何选取softpower?

如何选取模块以及模块中的Hub基因?

WGCNA分析应用(一):发育调控

此次讲解应用的文章信息如下:

Title :A novel microglial subset plays a key role in myelinogenesis in developing brain

Published Date :28 September 2017

Published Journal  :The EMBO Journal(2017 IF: 10.557)

第一作者 :Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)

1.背景知识

Microglia:小胶质细胞。 中枢神经系统 (central nervous system,CNS) 中的细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。小胶质细胞是神经胶质细胞的一种,正常情况下,数量不多,主要分布在大脑、小脑的皮质以及脊髓的灰质中。主要功能:作为中枢神经系统固有的免疫效应细胞,针对刺激,形成活化的小神经胶质细胞,可表达各种抗原,行使抗原递呈细胞(APC)的功能。

2.数据使用(WGCNA分析使用数据)

数据情况如下:GSE78809(17个样本)

8个新生儿 Neonates :4个CD11C+和4个CD11C-

6个 EA E(experimental autoimmune encephalomyelitis):3个CD11C+和3个CD11C-

3个成年组 alt :3个CD11C-

解读 :主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。

3.结果解读

文章中主要有8个结果,这里我们主要看WGCNA部分的结果,结果3:Distinct gene signatures in microglia subsets ring development and EAE

1.使用的数据:作者使用的是二代测序数据中

所有基因表达的CPM值

WGCNA was applied to the count per million ( CPM ) expression data.

2.图A: 样本关系聚类图 ,这里看到三个组 成年组 , 新生儿组 以及 EAE组 都分开了,并且组内的CD11c+和CD11c-也可以区分开。

疑问点 :有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。 一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。

3.图B: 模块聚类树, 图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。

4.图E: 每个模块的基因数以及各个模块的功能 ,灰色模块是没有聚类到任何模块的基因集合。

5.图C: 表型和模块相关性图, 这里可以看出哪些模块和你关注的表型之间的关系是否显着

这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:

Six binary variables were generated that were used to calculate the mole trait relationships in which all groups were set to zero with the exception of particular groups of interest:

control (1’s for microglia obtained from healthy control brain)

CD11c (1’s for both EAE CD11c and neonatal CD11c),

EAE (1’s for CD11c negative and microglia obtained from EAE brains),

neonatal (1’s for CD11c negative and microglia obtained from neonatal brains),

CD11c EAE , and CD11c neonatal .

翻译为表格就是:

对这张图的解读很重要,它关系到了你后面挑选的具体重点分析模块,以及你如何看这里面的正相关和负相关,曾经有个小伙伴问我:

这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析

具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。

4.总结

这篇文章IF在10以上,虽然发表时间比较早了,但是还是值得仔细读一下的。特别是对结果层面的生物学意义的解读,很多文章最终结果都只是空泛的说挖掘出了一个biomarker就完了,空洞又无趣

。 作为技术层面的细节,这篇文章里可以看到用于WGCNA分析的目的,样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化以及对结果如何进行解读和下游分析。

I. WGCNA分析--提升转录组测序文章档次的利器

现在做转录组测序,看看差异基因,做做富集分析,再讨论下差异基因功能与自己研究性状或处理之间的关系,最后加简单的qPCR验证,这样的数据发SCI影响因子越来越低了。必须增加新的分析内容才能有所突破。今天给大家介绍一个能给文章增色的分析内容--基因共表达网络分析(WGCNA),该分析对样品数有一定要求,建议不少于15个,不过现在测序便宜了,达到这个数量已经不是难事了。下面就给大家介绍两篇利用WGCNA分析基因共表达网络来提升文章档次。

文章1:

题目:

Identification of regulatory networks and hub genes controlling soybean seed set and size using RNA sequencing analysis

期刊: Journal of Experimental Botany

IF: 5.3

性状: 大豆籽粒大小

实验材料

大豆籽粒的大小是一个非常重要的农艺性状,直接关系到大豆产量,找到决定大豆籽粒大小的关键调控基因对后续的分子育种具有重要意义,因此作者,选取了两个大豆品种做转录组分析,分别是:大籽粒Wandou 28 (V1),小籽粒Peixian Layanghuang (V2),取样时期为三个时期:seed set (S1), seed growth (S2), and early seed maturation (S3),其中前两个时期的取样部位分别为:Seed pod with whole seed(S1),Whole seed(S2),S3时期取了两个部位分别为:Seed coat(S3-1),Seed cotyledon(S3-2),两个品种每个样品三个生物学重复共24个样品。下图为种子发育不同时期照片以及籽粒大小差异统计结果:

转录组分析结果:

对转录组分析结果中每个基因做表达量分析,计算每个基因的表达量FPKM,如果基因的表达量,也就是FPKM值<0.5,认为基因无表达,去除这部分基因。然后,统计每个时期不同品种基因表达量高低的分布图,大约一半的基因处于低表达水平0.5<=FPKM<=5(下图A);pca分析发现样品按照不同发育时期聚类在一起,而不是按照不同品种聚类,说明发育时期是决定基因表达谱的关键因素,而性状的不同引起的转录表达差异较小(下图B),下图C展示的为不同品种,不同发育时期之间表达基因的韦恩图,在不同的发育时期都表达的基因还是占绝大多数:

差异基因分析:

差异基因分析,下图A按相同发育时期,不同的品种之间差异比较,下图B为不同发育时期之间的差异比较,红色数字代表上调差异基因数量,黑色代表下调的差异基因数量:

差异基因功能注释分析,主要针对决定籽粒大小的差异基因的比较,也就是上图A中的差异基因进行功能分析,挑出一些代表基因,看一下他的功能和表达量,例如,V1S1  vs V2S1差异比较当中,共找到973个差异基因,其中489个基因上调,484个基因下调,上调的代表基因的功能及表达量表格如下图所示,其中有转录因子,植物荷尔蒙(生长素等),脂肪酸代谢,蛋白激酶活性,类黄酮生物合成等功能相关的基因,总之挑选与种子果实等发育生长相关的基因来展示,其他还有好几个表格,也是关于上图A中不同时期的上调下调基因的功能注释表格,展示类似,我这里就不详细说明了,感兴趣的可以查看原文:

不同发育时期差异比较:

不同的发育时期差异基因比较,分别绘制每个发育时期高表达的基因的热图,差异基因很多,作者挑选的都是和发育相关,或者和重要农艺性状相关的差异基因做热图,例如转录因子相关的基因,荷尔蒙相关的,脂肪酸代谢,淀粉糖代谢等相关的基因。

WGCNA分析找到调控籽粒大小的关键hub基因:

首先对所有样品所有基因的表达量矩阵进行过滤,删除表达量低的基因(FPKM<0.05),一共有7359个基因用于基因共表达网络构建,总共分析得到12个共表达基因模块下图A(聚类树每一个枝代表一个基因,下面不同的颜色划分代表基因所处不同的模块),其中有4个模块和种子大小相关下图B,例如,lightyellow模块,所有的V1的不同时期的样品与这个模块高度相关,再例如green模块,有793个基因,不管是V1样品,还是V2样品,这个模块都与S1相关等等。

4个关键模块基因共表达网络构建发现hub基因:

导出WGCNA共表达网络分析结果,绘制模块当中基因的表达量热图和网络图,左边热图从上到下分别代表:green mole(A),darkturquoise mole(C),black mole(E),lightyellow mole(G),右边网络图分别对应共表达网络,其中红颜色标记的为连通性较高的hub基因。通过研究这些hub基因的功能发现:这些网络中的关键hub基因,包括MYB家族转录因子,荷尔蒙(ABA,CK,BA)响应因子,细胞色素P450,BR信号激酶等等,都可能与籽粒的大小相关。

文章2:

题目:

Global transcriptome and co-expression network analyses reveal cultivar-specific molecular signatures associated with seed development and seed size/weight determination in chickpea analysis

期刊: The Plant Journal

IF: 5.7

性状: 鹰嘴豆籽粒大小

实验材料与方法

这篇文章与上一篇文章思路几乎一致,只是研究的物种变成了鹰嘴豆。同样的,也是选取了两个籽粒大小差异明显的栽培品种:Himchana 1 (small-seeded) and JGK 3 (large-seeded),取样时期为每个样品7个时期S1-S7,分别为授粉后5, 9, 12, 19, 25, 30 and 40 天(day after pollination DAP),还测了一下叶片的转录组,并取3个生物学重复,共48个样品。不同发育时期和种子重量差异结果如下:

转录组测序结果:

利用转录组测序所有基因以及所有样品的表达矩阵做样品间的相关性分析和PCA聚类分析,从中可以发现,相同的发育状态或者组织聚类在一起,说明他们之间具有较强的相关性。

差异基因比较分析:

作者主要比较了相同发育状态不同品种之间的转录组差异比较,差异基因的上下调数量和其中转录因子的数量图a,另外还统计差异基因中不同类型转录因子的数量展示图b,图c为不同时期差异基因的富集结果,颜色越深说明在该功能上越富集,最后S3时期差异基因在mapman中的Metabolic pathways做了富集分析,可以将差异基因的表达量变化情况展示在通路图中。

基因共表达网络分析

首先作者将不同的样品按籽粒大小不同品种分开,分别用WGCNA做共表达网络分析,其中在Himchana 1样品中共找到27个模块(a),在JGK 3样品中找到21个模块(b)如下图所示:

模块与样品之间相关性分析,从而发现不同发育时期的特有的基因模块,这部分也是分开做,图中颜色越红的方框对应的模块和样品具有较高的相关性,左边一半为Himchana 1中模块与发育时期相关图,右边一半为JGK3模块与发育时期相关结果,然后得到每个样品中每个时期对应的最相关的模块,(如下图):

结合上一步的分析结果,再来分析两个品种各自得到的模块之间的相关性,理论上讲,虽然品种不同但是各自品种相同发育时期的对应的特有模块应该具有较高的相关性,例如,在JGK 3样品中左下角黑色模块与S6发育时期相关,通过相关性分析,这个模块与Himchana 1中的darkorange相关,正好呢darkorange模块在Himchana 1 中也与S6相关(下图中红紫色方框);同样的道理其他很多模块都有这样的相关性(下图中红色方框),但是在Himchana 1 中有个orange模块不与JGK 3中任何一个模块相关,作者推断这个特殊的模块很可能与籽粒大小相关,当然还有其他几个模块也有类似的现象。作者进一步研究这些模块中基因表达情况发现里面很多基因的表达量(在S3 和 S5时期)在不同的品种中具有相反的表达,之后作者进一步研究这些模块里面基因的相关功能等等:

总结:

上述两篇文章都是植物当中普通的转录组文章,由于添加了WGCNA分析从另一个角度分析与性状相关的基因,文章的档次提升不少。想得到WGCNA的分析技能吗,点击《 WGCNA视频教学视频 》即可观看:手把手教学包你学会。

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读

5.  微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析

8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。

J. 初识WGCNA-基础知识

WGCNA其译为 加权基因共表达网络分析 。该分析方法旨在寻找协同表达的基因模块(mole),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。

适用于复杂的数据模式, 推荐5组(或者15个样品)以上的数据 。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

从方法上来讲,WGCNA分为 表达量聚类分析和表型关联 两部分,主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联四个步骤。

第一步计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显着差别的。因此, WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂 ,使得网络中的基因之间的连接服从 无尺度网络分布(scale-freenetworks) ,这种算法更具生物学意义。

第二步通过基因之间的相关系数构建分层聚类树, 聚类树的不同分支代表不同的基因模块 ,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以 将几万个基因通过基因表达模式被分成了几十个模块 ,是一个提取归纳信息的过程。

基因之间不仅仅是相关与否,还记录着它们的相关性数值,数值就是基因之间的 联系的权重(相关性)。

模块(mole):表达模式相似的基因分为一类,这样的一类基因成为模块;

Eigengene(eigen +‎ gene):基因和样本构成的矩阵, https://en.wiktionary.org/wiki/eigengene

邻近矩阵: 是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个 二维数组 称为邻接矩阵;在WGCNA分析里面指的是基因与基因之间的 相关性系数矩阵。 如果用了阈值来判断基因相关与否,那么这个邻近矩阵就是0/1矩阵,只记录基因相关与否。但是WGCNA没有用阈值来卡基因的相关性,而是记录了所有基因之间的相关性。

WGNA认为基因之间的简单的相关性不足以计算共表达,所以它利用上面的邻近矩阵,又计算了一个新的邻近矩阵。一般来说,TOM就是WGCNA分析的最终结果,后续的只是对TOM的下游注释。

1.模块的功能富集

2.模块与性状之间的相关性

3.模块与样本间的相关系数

1.找到模块的核心基因

2.利用关系预测基因功能

参考
一文看懂WGCNA 分析(2019更新版)

阅读全文

与如何利用wgcna分析转录组数据相关的资料

热点内容
内黄职业技术学院有什么专业 浏览:288
怎么看仓位和交易 浏览:236
编好程序怎么写入主板 浏览:159
彩票站点代理怎么做 浏览:442
藏药核心技术是什么 浏览:666
农行解除账户贵金属交易业务是什么意思 浏览:253
期货交易的buy什么意思 浏览:523
账号交易平台哪个好2021 浏览:24
微信小程序如何发录音 浏览:203
数字算法程序如何运行的 浏览:507
技术偏离标没有对照说明怎么填 浏览:690
争取孩子抚养权需要多少代理费 浏览:378
如何在淘宝上找到产品的绕口令 浏览:312
苏苏数据是什么 浏览:237
剑川县代理记账公司有哪些 浏览:164
贴吧小程序在哪里找 浏览:642
惠东大数据中心在哪里 浏览:191
什么样的离婚诉讼属于简易程序 浏览:958
华阳建材市场在哪里 浏览:245
从事高级技术工作工资多少 浏览:423