一句话评价
- 题目起得好!
- 写作中规中矩,适合模仿
- 使用更专业的机器学习软件,进行较严格的交叉验证及error analysis
文章信息
- 题目:Machine learning-aided analyses of thousands of draft genomes reveal specific features of activated sludge processes
- 单位:南京大学环境学院
- DOI:10.1186/s40168-020-0794-3
- 杂志:Microbiome (IF 11.607)
- 分类:Research article
要解决的问题
在MAG及蛋白质水平上是否存在大量污水处理厂共有的典型核心活性污泥群落?在活性污泥MAGs中是否有处理厂特异的特征?
活性污泥中的MAGs与其它环境中的基因组有没有差异?是否存在环境特异性特征?
实验设计
数据
从中国8个城市的11个污水处理厂的好氧反应罐取了57份活性污泥样品进行宏基因组测序。南京的两个污水处理厂按照时序每个月采样,持续一年;其它污水处理厂都是一次性采样。
BioProject:PRJNA556302
下载了57个其他污水处理厂活性污泥宏基因组数据集[1]
下载了从其它环境宏基因组数据中获得的7164个细菌基因组草图
软件
宏基因组分箱
质控:Trimmomatic v0.32
组装:MEGAHIT v1.1.1
同一个污水处理厂的所有样品一起组装
reads回贴:Bowtie2 v2.2.9
测序深度评估:MetaBAT2
jgi_summarize_bam_contig_depths
分箱:MetaBAT2 v2.12.1
质量评估:CheckM v1.0.7
ORF预测:Prodigal v2.6.1
蛋白序列聚类:CD-HIT v4.7
比对:Diamond v0.9.24.125
分箱结果合并优化
- 合并:CheckM v1.0.7:
merge
- 完整度增加10%以上,且污染率增加不到1%
- bins的平均GC含量相差不到3%
- bins的平均覆盖度相差不到25%
- bins的物种分类相似
- 优化:RefineM v0.0.24[1]
- 物种分类:GTDB-Tk v0.2.1
- ANI计算:FastANI
- 合并:CheckM v1.0.7:
基因组系统发育树
为避免树的分支过于拥挤,随机选择活性污泥MAGs及非活性污泥MAGs各1000个用于建树
- 构建:PhyloPhlAn
- 可视化:GraPhlAn v1.1.3
功能分析
注释:Prokka v1.13.3
构建行名为MAGs,列名为COGs的0-1矩阵
t-SNE:Rtsne package
机器学习模型
- scikit-learn: random forest & SVM
- 训练集(80%),测试集(20%)
- 10-fold交叉验证
结果
从不同污水处理厂的活性污泥中获得2045个MAGs
8个国家23个城市污水处理厂的114个活性污泥样品的1.35T宏基因组数据用于构建MAGs
分箱获得7548个细菌和古菌基因组,其中2045个总体质量超过50[1] (图1a)
overall quality defined as completeness − 5 × contamination
2045个MAGs属于49个门,其中21个门是古菌 (图1b)
数据量较大的四个污水厂的宏基因组数据中有54%-63%的reads能回贴到MAGs上,其它污水厂中能回贴到MAGAs的reads占34%-72% (图1c)
衡量MAGs的代表性
活性污泥MAGs呈现明显的污水厂特异性特征
各污水处理厂样品中的大部分reads都回贴到来自该污水处理厂的MAGs (图2a)
WWTP1和WWTP2位于同一个城市,回贴到彼此MAGs上的reads多一些
除了WWTP1和WWTP2,来自其它污水处理厂的MAGs相互之间ANI大于95%的数量较少 (图2b)
非冗余基因集中,73.2%的蛋白序列只存在于一个WWTP,17%的蛋白序列存在于两个WWTPs,其中一半以上是由于WWTP1和WWTP2在同一个城市 (图2c)
系统发育及功能特征不能很好地区分来自活性污泥及其它环境的MAGs
活性污泥MAGs在系统发育树中散布在非活性污泥MAGs中,没有清晰的分布模式 (图3a)
基于COG矩阵的t-SNE分析能将不同门的MAGs区分开 (图3b),但不能区分来自活性污泥及非活性污泥的MAGs (图3c)
机器学习的方法能根据COGs区分来自活性污泥及非活性污泥的MAGs
通过调参,随机森林模型准确度达到96.6% (图5)
n_estimators: 300, tree_depth: 20, max_features: 100
预测错误的MAGs与预测正确的MAGs的污染率没有显著差异,错误分类的MAGs平均污染率更低,完整度更高
错误率和完整度并不是造成预测错误的主要因素
活性污泥与非活性污泥MAGs的不同功能特征
一些厌氧代谢相关的COGs很少出现在活性污泥MAGs中,感知营养物质及其它环境信号的COGs在活性污泥MAGs中出现的概率更高 (图6a)
148个COGs的累加重要性能达到50%,达到90%需要1500个COGs (图6b)
突出活性污泥微生物组的高度多样性及机器学习算法捕捉复杂信息的强大性能
参考文献
[1] Parks DH, Rinke C, Chuvochina M, Chaumeil P-A, Woodcroft BJ, Evans PN, et al. Recovery of nearly 8,000 metagenome-assembled genomes substantially expands the tree of life. Nat Microbiol. 2017;2:1533–42.