摘要:随着大数据时代的到来,如何从海量的多变量数据中提取有用的信息,成为了科研和工业界面临的重要问题。在这方面,稀疏广义典型相关分析(Sparse Generalized Canonical Correlation Analysis,简称SGCCA)作为一种新的数据
本文来源于“海洋与湿地”(OceanWetlands):
文 | Richard & Linda
本文约2800字,阅读约7分钟
随着大数据时代的到来,如何从海量的多变量数据中提取有用的信息,成为了科研和工业界面临的重要问题。在这方面,稀疏广义典型相关分析(Sparse Generalized Canonical Correlation Analysis,简称SGCCA)作为一种新的数据分析方法,越来越受欢迎。它结合了传统的广义典型相关分析(GCCA)和稀疏性技术,能够在处理高维数据时,提取出更具意义、也更好用的变量关系。
SGCCA的核心思想,是通过分析不同数据集之间的相关性,揭示它们之间的内在联系。广义典型相关分析(GCCA)就是为了解决这一问题而提出的。GCCA通过寻找不同数据集的最佳线性组合,使得这些组合之间的相关性尽可能强。这个方法适用于处理多种类型的数据,能够帮助我们找到多个数据集之间最相关的变量组合。但当数据的维度非常高时,传统的GCCA方法容易受到噪声和冗余信息的影响,导致分析结果不准确、或过于复杂。
所以,为了应对这些问题,SGCCA在GCCA的基础上引入了“稀疏性”概念。稀疏性是指在数据分析中,选择重要的特征,忽略掉那些对结果贡献较小的特征。简单来说,SGCCA通过“压缩”不重要的变量,把注意力集中在最具影响力的特征上,这样不仅减少了计算量,也提高了结果的可解释性。稀疏性约束的加入,使得SGCCA能够在高维数据中自动筛选出最相关的变量组合,从而减少了模型的复杂度。
©Linda Wong | 绿会融媒·“海洋与湿地”(图文无关)(CC BY-SA 4.0)
SGCCA的优势,在于它不仅能处理多个数据集之间的线性相关性,还能通过稀疏性技术,去除冗余信息,保留最有价值的数据。所以,现在SGCCA在很多领域都得到了广泛应用。比方说,在基因研究中,SGCCA可以帮助科学家找出与某种疾病相关的关键基因;在金融分析中,SGCCA则能帮助分析市场上不同因素之间的关系,为投资决策提供依据。
【应用案例】
在《化学品污染如何影响湖泊生态?新研究揭示淡水湖泊生物多样性变化的驱动因素》这片研究中,这种SGCCA的方法,被用来分析不同植物保护产品(PPPs)与水体和生物膜(biofilm)样本中物种多样性之间的关系。SGCCA帮助研究人员识别出植物保护产品(如杀虫剂、除草剂等)对不同基因标记下(如16S、18S、rbcL等)生物群落的影响。
在《稀疏广义典型相关分析:分布式交替迭代方法》一文中,作者团队提出了一种利用SGCCA来处理多视图数据的算法。传统稀疏典型相关分析 (sparse CCA) 仅适用于处理两个数据集,即两个视图或对象。为了克服这一限制,作者提出了稀疏广义典型相关分析 (SGCCA),该方法能够检测具有稀疏结构的多视图数据的潜在关系。具体而言,该研究将广义典型相关分析 (GCCA) 转换为线性方程组,并引入 L1 范数惩罚项以实现稀疏性。这转化为一个非凸优化问题。为了解决该问题,作者基于共识优化 (consensus optimization) 思想,设计了一种分布式交替迭代算法,并在适当的条件下分析了该算法的一致性。最后,通过多个合成数据集和真实数据集的实验证明了该算法的有效性。(参见参考资料[2])
在《用于生物模型整合的稀疏广义典型相关分析:精神疾病的遗传学研究》一文中,研究人员提出了一种基于SGCCA的方法,来整合多种生物学数据,如基因组关联研究 (GWAS) 数据和基因表达谱数据,以深入研究复杂疾病的发病机制。该研究旨在通过同时利用多种数据,更全面地分析复杂的生物学机制。同时,该方法还旨在从大量变量中识别出对系统具有显著影响的少数元素。该方法的优势之一在于能够输出易于解释的解决方案。为了验证SGCCA的性能,研究者们对模拟数据和人类精神疾病的大脑数据进行了实验,评估了其检测数据集中的重要元素和复杂系统关系的能力。(参见参考资料[3])
SGCCA的工作原理相对简单,但它的实施,还是需要一定的计算资源的。特别是在当面对大规模数据时,优化算法的效率显得尤为重要。为了实现这一目标,常见的优化方法包括交替最小二乘法(ALS)和梯度下降法等。这些方法帮助SGCCA在复杂的数据空间中找到最佳的变量组合,从而得出最有价值的分析结果。
这张图片中心,是儒艮双胞胎在母兽两侧畅游。周围有成年的儒艮守护。这也反映了儒艮的社交群体活动模式。图源:卡塔尔海湾地区鲸鲨保护中心(图文无关)
当然了,SGCCA虽的确是具有许多优点,它的应用也并非没有挑战。比如说,在处理稀疏性约束时,研究人员需要根据不同的应用背景,来选择合适的参数。这些参数的设置直接影响到分析结果的效果,因此选择合适的稀疏性程度至关重要。此外,SGCCA处理多个数据集时,如何平衡各个数据集的重要性,也是一个需要解决的问题。尤其在处理非线性关系或者复杂的数据分布时,如何确保结果的可解释性,仍然是未来研究的重要方向。(因为SGCCA作为一种线性方法,在处理数据时隐含了数据之间存在线性关系的假设。当数据之间存在复杂的非线性关系时,SGCCA的性能可能就会受到限制。)
应用领域
SGCCA适用于处理多源、多维度数据,尤其是在数据间关系复杂且互相关联的场景中,能够揭示数据集之间的潜在联系,具有广泛的跨学科应用前景。下面是一些应用领域的例子(当然了,其实远不止此)
生态学和环境科学。在生态学研究中,SGCCA被广泛应用于分析不同生态因素(如物种数据、环境变量、基因组信息等)之间的关系。比如,研究物种的生态适应性,或探索环境变量对物种多样性和分布的影响。举例来说,使用SGCCA研究一个物种时,研究人员通常会整合该物种的多维度数据,如基因组数据、生态数据、行为数据和环境因素等,通过稀疏广义典型相关分析来探索不同数据之间的关系;进而帮助识别出影响物种生存和繁衍的主要环境变量,来为这个物种的保护和生态恢复提供数据支持。
基因组学和生物信息学。SGCCA可以将基因组数据与其他生物学数据(如表型数据、基因表达数据等)结合,帮助识别与特定生物特征相关的基因或突变。在药物发现和个性化医学中,也有应用。
医学和临床研究。可以用SGCCA来分析多组临床数据(如基因数据、临床指标、影像数据等)之间的关系,探索疾病的潜在病理机制,以及诊断、治疗策略的优化。
社会科学与心理学的研究。在心理学和社会学研究中,SGCCA能够帮助分析多维度的社会行为数据、心理特征数据与外部环境因素的关联,从而更好地理解复杂的人类行为模式。
商业和市场研究。在市场营销领域,SGCCA可以用于分析消费者行为数据、市场动态和产品信息之间的关系,帮助公司根据多方数据做出更精准的市场决策。
多媒体和人工智能领域。SGCCA还应用于多模态学习,结合图像、文本和声音数据进行分析,特别是在人工智能和深度学习的训练过程中,研究不同模态信息如何共同影响模型的表现。
从研究趋势看,稀疏广义典型相关分析(SGCCA)为多变量数据分析提供了一种新的思路。它通过引入稀疏性技术,能够有效地从高维数据中提取出最相关的变量组合,提升分析的精度和可解释性。随着计算技术的不断进步,SGCCA有望在更多领域得到应用,帮助人们更好地理解复杂的系统,并为实际决策提供科学依据。
(注:本文仅代表资讯+学习笔记,不代表平台观点。欢迎留言、讨论。)
文 | Richard, Linda
编辑 | 花花
排版 | 绿叶
引
用
本
文
Richard & Linda. 稀疏广义典型相关分析(SGCCA),一种高维数据分析的新方法 | 海洋与湿地·小百科. 海洋与湿地. 2025-01-25
海湿资讯·欢迎评论
QUESTIONS & CRITICAL THINKING
©摄影:王敏幹(John MK Wong) | 绿会融媒·“海洋与湿地”(OceanWetlands)
【参考资料】
[1]Eastwood, N., Watson, A., Zhou, J. and Orsini, L. (2025), Unveiling Landscape-Level Drivers of Freshwater Biodiversity Dynamics. Environmental DNA, 7: e70058. https://doi.org/10.1002/edn3.70058
[2]Lv K, Cai J, Huo J, et al. Sparse Generalized Canonical Correlation Analysis: Distributed Alternating Iteration-Based Approach[J]. Neural Computation, 2024, 36(7): 1380-1409.
[3]Kang M, Zhang B, Wu X, et al. Sparse generalized canonical correlation analysis for biological model integration: a genetic study of psychiatric disorders[C]//2013 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2013: 1490-1493.
[4]https://www.liebertpub.com/doi/10.1089/omi.2014.0062
来源:中国绿发会