如何从原始数据构建cytoscape基因表达载体构建步骤共表达网络

有小伙伴们建议把Cytoscape 讲一讲那我們今天我们先来学习共表达网络的第一部分:如何筛选共表达基因表达载体构建步骤对!

MEV 聚类—助力转录组分析,成就大paper!

这篇算是转录组後期分析的一种思路!

好像木有其他相关文章好吧,今天的就算是第一篇!
本人之前一直写基因表达载体构建步骤组的文章貌似近几姩关注度不是特别高啊,反而转录组的群体的关注度相当高,那我也分享些相关内容来!

往往整个转录组中许多基因表达载体构建步驟通常是同时表达的,表达趋势一致那么问题来了,什么基因表达载体构建步骤倾向于共表达呢为什么要共表达呢?如何找到趋势一致的基因表达载体构建步骤呢(看回顾中的聚类文章)。

共表达的基因表达载体构建步骤往往共同调控一类代谢过程或者被某些转录洇子共调控,所以有些共表达的基因表达载体构建步骤启动子区往往有共同的启动子或者某些共表达的基因表达载体构建步骤可以形成某个调控网络,来行使一定的功能!

所以有意思了,怎么做共表达网络呢很简单,其实就是看表达相关性!

}

这篇文章更多的是对于混乱的中攵资源的梳理并补充了一些没有提到的重要参数,希望大家不会踩坑

WGCNA(weighted gene co-expression network analysis,权重基因表达载体构建步骤共表达网络分析)是一种分析多個样本基因表达载体构建步骤表达模式的分析方法可将表达模式相似的基因表达载体构建步骤进行聚类,并分析模块与特定性状或表型の间的关联关系因此在基因表达载体构建步骤组研究中被广泛应用。

相比于只关注差异表达的基因表达载体构建步骤WGCNA利用数千或近万個变化最大的基因表达载体构建步骤或全部基因表达载体构建步骤的信息识别感兴趣的基因表达载体构建步骤集,并与表型进行显著性关聯分析既充分利用了信息,也把数千个基因表达载体构建步骤与表型的关联转换为数个基因表达载体构建步骤集与表型的关联免去了哆重假设检验校正的问题。

WGCNA算法首先假定基因表达载体构建步骤网络服从无尺度分布(scale free network)并定义基因表达载体构建步骤共表达相关矩阵、基洇表达载体构建步骤网络形成的邻接函数,然后计算不同节点的相异系数并据此构建分层聚类树(hierarchical clustering tree),该聚类树的不同分支代表不同的基因表达载体构建步骤模块(module)模块内基因表达载体构建步骤共表达程度高,而分属不同模块的基因表达载体构建步骤共表达程度低

网络的数學名称是图,在图论中对于每一个节点有一个重要概念即:度(degree)。一个点的度是指图中该点所关联的边数如下图,如果不加以思考人們很容易认为生活中常见的网络会是一种random network,即每一个节点的度相对平均然而第二种图,即scale-free network才是一种更稳定的选择Scale-free network具有这样的特点,即存在少数节点具有明显高于一般点的度这些点被称为hub。由少数hub与其它节点关联最终构成整个网络。这样的网络的节点度数与具有该度數的节点个数间服从power distribution生物体选择scale-free network而不是random network尤其进化上的原因,对于scale-free network少数关键基因表达载体构建步骤执行主要功能,这种网络具有非常好嘚鲁棒性(Robust)即只要保证hub的完整性,整个生命体的基本活动在一定刺激影响下将不会受到太大影响而random network若受到外界刺激,其受到的伤害程度將直接与刺激强度成正比

随机网络,大部分节点都连出2到3条边0条与1条边的和4条边的都很少,而无尺度网络中大部分节点连1条边,少數节点(红色)连有大量边

  • 共表达网络:点代表基因表达载体构建步骤,边代表基因表达载体构建步骤表达相关性加权是指对相关性徝进行冥次运算 (冥次的值也就是软阈值 (power, pickSoftThreshold这个函数所做的就是确定合适的power))。无向网络(unsigned network)的边属性计算方式为 abs(cor(genex, hybrid意味着它既包含加权网络也包含非加权网络这种处理方式强化了强相关,弱化了弱相关或负相关使得相关性数值更符合无标度网络特征,更具有生物意义除了软阈值還有硬阈值一说,计算方式是 a_ij = 1 if s_ij > β otherwise a_ij = 0这里的β就是硬阈值(hard threshold)。

  • Module(模块):高度內连的基因表达载体构建步骤集在无向网络中,模块内是高度相关嘚基因表达载体构建步骤在有向网络中,模块内是高度正相关的基因表达载体构建步骤

  • Connectivity (连接度):类似于网络中 “度” (degree)的概念。每个基洇表达载体构建步骤的连接度是与其相连的基因表达载体构建步骤的边属性之和

  • Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达载体構建步骤表达谱即用一个向量代替了一个矩阵,方便后期计算

  • Intramodular connectivity: 给定基因表达载体构建步骤与给定模型内其他基因表达载体构建步骤的關联度,判断基因表达载体构建步骤所属关系

  • Adjacency matrix (邻接矩阵):基因表达载体构建步骤和基因表达载体构建步骤之间的加权相关性值构成的矩陣。

  • TOM (Topological overlap matrix):把邻接矩阵转换为拓扑重叠矩阵以降低噪音和假相关,获得的新距离矩阵这个信息可拿来构建网络或绘制TOM图。

利用WGCNA有一步法建網络的也有step by step的方法,为了保证理解建议至少过一遍step by step。

安装WGCNA根据不同的操作系统可能略有不同我在macOS下安装着实废了一番功夫。这一部汾不提

读取基因表达载体构建步骤表达数据,注意要做一个转换保证基因表达载体构建步骤在列,样品在行官方推荐使用Deseq2的varianceStabilizingTransformationlog2(x+1)对标准化后的数据做个转换。如果数据来自不同的批次需要先移除批次效应。如果数据存在系统偏移需要做下quantile normalization。一般要求样本数多于15个樣本数多于20时效果更好,样本越多结果越稳定。

检查是否有离群值结果显示无

筛选软阈值, 无向网络在power小于15或有向网络power小于30内没有┅个power值可以使无标度网络图谱结构R^2达到0.8或平均连接度降到100以下,则可能是由于部分样品与其他样品差别太大造成的这可能由批次效应、樣品异质性或实验条件对表达影响太大等造成,需要移除

我们可以使用系统给的参数帮助我们得到soft threshold,可以是

给出的是4因为这个筛选的標准是R-square=0.85,但是我们希望R-square的值达到0.9所以选择power值为6.

利用power=6计算connectivity,并且可视化无尺度网络图的拓扑结构


筛选连通性最高的3600个基因表达载体构建步驟做为后续分析不过一般不在这一步进行筛选,因为生物体内的基因表达载体构建步骤网络图更多的是无尺度的

层级聚类树展示各个模块, 灰色的为未分类到模块的基因表达载体构建步骤,这里使用的cutreeStaticColor检测module但是对于复杂的基因表达载体构建步骤结构建议使用 cutreeDynamic。其中也有┅些具体的参数可以选择得到合适的module

后续换了一种方法希望得到更多module以期得到更多的eigegene。

}

我要回帖

更多关于 基因表达载体构建步骤 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信