真核微生物基因序列鉴定工具EukRep工具的安装和详细使用方法

发布时间：2024年01月06日

介绍

EukRep是一种用于鉴定并分析环境中的真核微生物的工具。它基于16S rRNA基因序列，可以帮助研究人员确定和分类环境样品中存在的真核微生物群落。

EukRep 从宏基因组数据集中分类真核和原核序列

安装

要求Python3 推荐使用conda安装：

$ conda create -y -n eukrep-env -c bioconda scikit-learn==0.19.2 eukrep

通过pip安装（需要scikit-learn v 0.19.2版本）：

$ pip install EukRep

示例用法从fasta文件中识别并输出预测为真核起源的序列：

$ EukRep -i <fasta格式的序列> -o <真核序列输出文件>

从fasta文件中识别并同时输出真核和原核起源的序列：

$ EukRep -i <fasta格式的序列> -o <真核序列输出文件> --prokarya <原核序列输出文件>

获取真核生物bins EukRep旨在作为大型分析流程的一部分使用。为了实现对已鉴定出的真核连续体进行高质量基因预测和分箱，如“从复杂自然微生物群落中重构真核生物基因组”(West等人，在审稿中)所述，请参阅方法部分：Genome-reconstruction for eukaryotes from complex natural microbial communities | bioRxiv

或者

查看提供的示例工作流程（正在进行中）：GitHub - patrickwest/EukRep_Pipeline

调整识别严格度通过-m参数可以调整识别真核连续体的严格度。以下展示了严格、平衡和宽松模式下的假阳性率（FPR）和假阴性率（FNR）。默认设置为平衡模式。在0.6.5版本之前，默认为宽松模式。

序列长度	严格模式	平衡模式	宽松模式
20kb	FPR, FNR	FPR, FNR	FPR, FNR
5kb	FPR, FNR	FPR, FNR	FPR, FNR

注：以上数据是通过将EukRep应用于来自模拟新门类基因组的20kb和5kb片段化支架上获得的。

重要注意事项根据我们的经验，大多数宏基因组样本中并未包含真核生物基因组；然而，由于EukRep存在假阳性率，即使在这种情况下，您仍可能得到输出结果。

使用流程

以下是一个名为euk_pipeline.sh的示例Bash脚本，其中包含了以下所有步骤。

要求：

具有每个序列的覆盖信息的预组装Shotgun元基因组样本。
EukRep
CONCOCT或metabat
genemark-ES
MAKER2
BUSCO 可选（但建议）：
pyenv

使用EukRep分类运行EukRep来对预组装的Shotgun元基因组样本进行处理： EukRep -i metagenome.fa -o euk_contigs.fa 如果你有一个非常复杂或碎片化的元基因组样本，建议降低最小contig大小：

 EukRep -i metagenome.fa -o euk_contigs.fa --min 1000

自动分bin 这一步对于分离样本中的多个真核基因组非常重要。在基因预测之前，分离基因组是非常重要的，以获取尽可能高质量的基因预测结果。需要每个序列的覆盖信息。使用CONCOCT执行：

concoct --coverage_file euk_contig_cov.txt --composition_file euk_contigs.fa 
mkdir clusters 
python /path/to/CONCOCT/scripts/extract_fasta_bins.py --output_path ./clusters/ euk_contigs.fa clustering_gt1000.csv

使用metabat执行：

metabat -a euk_contig_cov.txt -i euk_contigs.fa -o bin -t 6

通过bin大小进行筛选在这个阶段，我们发现将小于2.5 Mbp的任何bin过滤掉非常有用。这种过滤可以消除大多数假阳性。特别是如果使用CONCOCT，因为CONCOCT会将每个序列分bin，通常会生成许多非常小的bin。

训练GeneMark-ES

perl gmes_petap.pl --ES -min_contig 10000 --sequence bin_1.fa -min_contig

选项指定用于训练bin的基因预测模型的contig的最小长度。您不需要使用bin的每个contig，但是如果您的contig少于阈值，训练可能会失败。许多来自元基因组的bin可能会非常碎片化，因此可能需要调整此选项。

使用训练后的GeneMark-ES模型和MAKER2预测基因 MAKER使用控制文件。至少建议按以下方式修改它们以使用RepeatMasker和GeneMark-ES来预测基因：在'maker_opts.ctl'文件中：

keep_preds=1 
gmhmm=/path/to/output/gmhmm.mod

然后，使用以下命令以6个核心运行MAKER：

maker -g bin_1.fa -c 6 
cd *.maker.output 
fasta_merge -d *_master_datastore_index.log -o bin_1

为了进一步改善基因预测结果，MAKER能够整合相关生物体的同源蛋白质、转录组证据以及其他诸如AUGUSTUS等从头预测的基因预测器。为获取高质量的基因预测结果，通常最好利用尽可能多的这些证据线索。

对于许多元基因组样本，执行从头预测基因可能是唯一的可用选项。

运行BUSCO

python3 BUSCO.py -i *.maker.proteins.fasta -l eukaryota_odb9 -o bin_1 -m prot

BUSCO将在您的bin中查找单拷贝正交基因（SCGs），给出完整性的估计（以及具有重复单拷贝基因的污染的粗略估计）。 -l指定要使用的SCGs的谱系集。通常我们使用eukaryota_odb9，因为它是最通用的，但是如果您对您的bin属于什么类型的生物有更好的了解，可以使用更具体的谱系集。

文章来源:https://blog.csdn.net/zrc_xiaoguo/article/details/135416410
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！