多变量分析 (Multivariate Analysis)

https://npyc-toolbox.readthedocs.io/en/latest/multivariate.html

multicariate模块为对象Dataset`对象提供多变量分析

该模块可以实现:

  • 主成分分析 (Principal Components Analysis, PCA) [1]

[1] Pearson, K., “On Lines and Planes of Closest Fit to Systems of Points in Space”, Philosophical Magazine. 2 (11):559–572., 1901 doi:10.1080/14786440109462720.

nPYc.multivariate.pcaSignificance(values, classes, valueType)

  • 计算值(PCA得分图)和组别(样品元数据sample metadata)之间是否存在潜在关联的局部函数。通过相关(连续数据)或Kruskal-Wallis检验(分类数据)

  • Params numpy. ndarray values:

    • Array of values (例如:PCA得分图)

    • Params pandas. series classes:

    • Serries of values (例如:样品的元数据)

    • Params pandas. series value Type:

    • 每个类条目的实例类型Sample type of each class entry

nPYc.multivariate.``metadataTypeGrouping(classes, sampleGroups=None, catVsContRatio=0.75)

  • 计算值(PCA得分图)和组别(样品元数据sample metadata)之间是否存在潜在关联的局部函数。通过相关(连续数据)或Kruskal-Wallis检验(分类数据)

  • Params pandas. series classes:

    • Series of values (例如:样品的元数据)

    • Params pandas. series value Type:

    • 每个类条目的实例类型Sample type of each class entry

    • Params float catVsContRatio:

    • 数值分类数据与连续数值数据的比值。如果唯一条目数/样本总数之间的比值超过这个阈值数据,则视为连续数据,否则视为类别数据。

nPYc.multivariate.exploratoryAnalysisPCA(npycDataset, scaling=1, maxComponents=10, minQ2=0.05, withExclusions=False, **kwargs)

  • Dataset使用PCA对所包含的数据进行探索性分析

  • 参数

  • npycDataset(Dataset)-要进行分析的数据集

    • scaling-建模的选择

    • minQ2-比上一个要添加的组件,在Q2Y中至少有%的改进

    • withExclusions(Boolean)-如果为真,则在应用特性和样本掩码后,PCA将被安装在npyc_dataset上,如果为假,则在整个数据集上执行PCA

  • 返回:

拟合的主成分分析模型

  • 返回方式:

化学计量学PCA