报告功能(Reporting Functions)

https://npyc-toolbox.readthedocs.io/en/latest/reports.html

reports`子模块提供了在数据集对象上生成各种自动报告的功能。大多数报告可以内联显示(即在Jupyter笔记本中显示),或者以HTML文件的形式保存到磁盘上。

  1. nPYc.reports.generateMSIDrequests`(msData, features, outputDir='', rawData=None, database=None, returnFiles=3, msDataPrecorrection=None)

    从数据集msData为特性中列出的特性生成特性ID(feature ID)报告

    特性ID报告可视化数据集中特性的丰富性,识别特性最丰富的分析数据文件,查找与数据集中其他特性的相关性,如果指定,则根据提供的数据库进行搜索

    • 参数Parameters:

      • msData(MSDataset)—关于此数据集的特性的报告(数据集必须经过修正)

      • features(list)—将从msData.featureMetadata绘制的特性ID列表

      • outputDir(list)—将报告保存到此目录

      • rawData(None or str)—原始数据所在位置

      • database(None or str)—尝试在指定的数据库中查找特性

      • msDataPrecorrection(MSDataset)—没有或MSDataset预校正,如果目前的样本强度将绘制前到后校正


  1. nPYc.reports.generateReport(data, reportType, destinationPath=None, **kwargs)

    生成显示数据集不同质量的一系列报告之一。报表可以交互绘制,也可以保存到磁盘

    报告方式'sample summary'

    总结数据集中的样本。列出已获得的样本,如果可能,还包括根据预期的样本清单而缺失的样本

    表1:获得的样本摘要。列出按样本类型划分的所获得的样本数量(如果有的话)。还列出了标记为排除的总数(样本掩码中的样本设置为False,以及在MS数据中标记为_x的样本)、LIMS中缺失的(如果有的话)和缺失的样本信息(如果有的话)。最后,如果已经排除了任何样本,这些数字将在末尾的另一栏中列出(注意,这些数字不包括在总数中)。

    表2:因取得/进口而遗失的样本摘要(即,在LIMS中存在,但未获得/进口)。如果LIMS可用,这个表列出了LIMS文件中列出但在获取过程中丢失的样本数量。未提供标为缺失的样品,预计标为样品,本表还记录了已排除的样品。

    剩余表:如果任何表1中列出了样本标记为排斥、缺少主题信息,或在表2中标记为样本(但不是已经排除在外),列出了这些样品的详细信息在后续tablesSamples标记为失踪没有提供,样品标记为样品预计,这个表还记录那些已经被排除在外。

    报告特定于MSDataset的选项:

    • 'feature summary': 生成特征总结报告,包括特征丰度,样本TIC和采集结构,稀释相关性,RSD和离子图

    • 'correlation to dilution': 生成一份更详细的稀释相关性报告,用TIC、检测器电压、总结和热图(指示潜在饱和或其他问题)按批子集分解

    • 'batch correction assessment': 在批处理之前生成一个报告,显示TIC总体和强度以及批处理适合于一个特性子集,以帮助规范批处理起始点和结束点

    • 'batch correction summary': 生成带有相关图片(TIC,RSD 等)的批量更正报告

    • 'feature selection':生成通过特征选择的特征数的总结(当前的设置在SOP中是明确的),以及一个热图,显示该数字如何受RSD的变化和稀释阈值的相关性的影响

    • 'BI-LISA': 绘制BI-LISA数据集,可视化参数的内部相关性

    • 'BI Quant-UK'绘制BI Quant-UR数据集,可视化特征分布

    • 'merge loq assessment'在合并limitsofquantification()之前生成一个报告,强调跨批更新量化限制的影响。改变量化的列表和图限,影响样本数量

    生成报告需要在数据集中至少存在两个研究样本和两个研究参考样本,以便生成汇总统计信息。

    参数

    • data (Dataset) – 要报告的数据集对象

    • reportType (str) – 生成报告的种类。如果是MS数据集,那么报告的种类是 ‘sample summary’, ‘feature summary’, ‘correlation to dilution’, ‘batch correction’, ‘feature selection’, 或 ‘final report`’中的一个;如果是NMR数据集,那么是‘sample summary’, ‘feature summary’, 或者 ‘final summary’中的一个

    • destinationPath (None or str) – 如果没有交互式绘图,则将图形保存到指定的路径

    • withExclusions (bool) – 如果为真,则只报告未被示例和特性掩码掩盖的特性和示例

    • msDataCorrected (MSDataset) – 只有当“batch correction”,如果msDataCorrected 包括,将生成报告后修正

    • pcaModel (PCAmodel) – 只有当“sample summary”,如果PCAmodel对象是可用的,PCA分数图将添加到报告由样本类型


  1. nPYc.reports.multivariateQCreport(dataTrue, pcaModel, reportType='all', withExclusions=False, biologicalMeasurements=None, dModX_criticalVal=None, dModX_criticalVal_type=None, scores_criticalVal=None, kw_threshold=0.05, r_threshold=0.3, hotellings_alpha=0.05, excludeFields=None, destinationPath=None)

    基于PCA的数据集分析。为数据对象生成PCA模型,然后在分数和任何由相关性(连续数据)或Kruskal-Wallis测试(分类数据)确定的样本元数据之间潜在关联。

    • 'analytical'仅报告数据的分析质量(如相关SOP中定义)

    • 'biological'仅报告数据的生物质量(sampleMetadata中的所有列除了在SOP中定义为分析或跳过的那些列)

    • 'all' 报告数据的所有质量(sampleMetadata中的所有列,SOP中定义为跳过的列除外)

    参数

    • dataTrue (Dataset) – 要报告的数据集

    • pcaModel (ChemometricsPCA) – CA模型对象(基于scikit-learn)

    • reportType (str) – 要报告的样本元数据类型,analytical,biological或者all中的一个

    • withExclusions (bool) – 如果是True,只报告没有被样本和特征掩码掩盖的特性和样本

    • biologicalMeasurements (dict) – 每个生物sampleMetadata字段中包含的数据类型字典。键是sampleMetadata列名,值为‘categorical’、‘continuous’、‘date’

    • dModX_criticalVal (None or float) – DModX空间中的值超过这个临界值的样本被列为潜在的异常值

    • dModX_criticalVal_type (None or str) –DModX临界值的类型,FcritPercentile

    • scores_criticalVal (None or float) – 得分空间中值超过该临界值的样本被列为潜在异常值

    • kw_threshold (None or float) – Kruskal-Willis p值大于这个值的字段不认为与PCA分数有显著关联

    • r_threshold (None or float) – (绝对)相关系数值小于该值的字段不认为与PCA得分有显著关联

    • hotellings_alpha (float) – 在分数图中绘制霍特林椭圆的Alpha值(默认= 0.05)

    • excludeFields (None or list) – 如果不是,则列出将被排除在分析之外的示例元数据字段

    • destinationPath (None or str) – 如果没有交互式绘图,则将报告保存到指定的路径

范本

将报表保存为HTML时使用的报表Templates基于Jinja2,可以通过修改模板目录中的模板文档来定制

The base_generic.html template is the root template from which all others inherit - changes made here will be reflected in all reports.(“base_generic。html模板是所有其他模板继承的根模板——这里所做的更改将反映在所有报告中)

The base_QC.html template is the root template for all QC reports.(“base_QC。html模板是所有QC报告的根模板)