新闻中心

EEPW首页 > 测试测量 > 设计应用 > 基于Alpha-NMF的AD样本分类及特异性基因选择方法

基于Alpha-NMF的AD样本分类及特异性基因选择方法

作者:时间:2012-05-25来源:网络收藏

1.2 算法
算法是NMF算法的一种改进,它是针对信号处理所提出的一种新的算法。
算法的数学模型为:
c.jpg

2 非负矩阵分解在基因表达谱数据中的应用
2.1 数据预处理
文中所选的实验数据为基因表达综合数据库(GEO)中23组大脑海马区域(HIP)和23组内嗅区皮质(EC)的AD,54 675个基因表达数据;其中海马区域的基因数据集由13个control AD和10个affected AD组成,内鼻皮质区域的基因数据集由13个control AD样本和10个affectedAD样本组成。由于基因表达谱数据的复杂性,在进行聚类分析前必须先进行预处理和数据转换等过程。本文先采用小波变换(wave let transform,WT)对数据进行降噪,然后通过微阵列显著性分析(significance analysis of microarrays,SAM)工具箱筛选出显著变化的上下调基因。
2.2 Alpha-NMF算法应用于基因表达谱数据
Alpha-NMF算法被提出后,至今还设被应用于基因表达数据中,通过大量的实验,证明了Alpha-NMF算法能够有效的应用到该领域中,相比传统NMF算法,其算法稳定性和准确率明显较高。
基因表达谱数据的Alpha-NMF混合模型如图1所示。Y表示mxn维基因表达谱数据,每一行表示一个样本集,每一列表示一个基因在不同条件下的表达水平。yij表示第j个基因在条件i下的表达水平。通常nm。

本文引用地址:http://www.eepw.com.cn/article/193834.htm

f.jpg


任一样本yi可以表示为:
e.jpg
也就是说每一个样本可以近似看做是非负矩阵X的行向量的非负线性组合,组合系数是矩阵A对应行向量的分量。把分解后的矩阵X的每一行称为一个集合基因。矩阵A的第k列为X的第k个集合基因的系数,若矩阵X能表征原始数据的局部特征,则系数矩阵A与样本类别紧密相关,即类别c1对于特征k的贡献大,而c2对于特征k的贡献小。对于每一个集合基因(图2为HIP数据经Alpha-NMF算法,α=0.5时分解后相关系数为0.97集合基因的柱状图),若元素的值相对较大,说明其对应的基因j与AD紧密相关。

g.jpg



3 实验结果与分析
首先采用WT-SAM分别对HIP和EC数据进行预处理,筛选后的基因数分别为13 587个、6 567个,再对数据进行菲负化处理,然后通过Alphs-NMF算法进行分解,利用分解后的A矩阵进行聚类,本文采用k均值聚类对A的行向量进行聚类,得到一聚类结果。对于矩阵X,设定一阈值,筛选出集合基因中大于该阈值的信息基因。



评论


相关推荐

技术专区

关闭