HUMAnN (HMP Unified Metabolic Analysis Network) es un pipeline bioinformático diseñado para perfilar de manera eficiente y precisa la presencia, ausencia y abundancia de vías metabólicas en comunidades microbianas a partir de datos de secuenciación metagenómica o metatranscriptómica (shotgun sequencing).
HUMAnN es software de código abierto.
Para poder usar HUMAnN una vez logueado en drago.csic.es, tendrá que cargar el módulo correspondiente a la versión que desee utilizar:
Para la versión 3.6
module load rama0.4 GCC/11.3.0 OpenMPI/4.1.4
module load humann/3.6
Para la versión 3.9 (se recomienda usar esta version por su compatibilidad con MetaPhLan 4.1.1):
module load rama0.4 GCC/12.3.0 OpenMPI/4.1.5
module load humann/3.9
#!/bin/bash
#SBATCH --partition=generic
#SBATCH --cpus-per-task=8
#SBATCH --mem=16G
#SBATCH --job-name=humann_job
# Carga del módulo (ejemplo con 3.9)
module load rama0.4 GCC/12.3.0 OpenMPI/4.1.5
module load humann/3.9
# Ejecución de humann
# Sustituir <input.fastq> por el nombre de su archivo de entrada
humann --input <input.fastq> --output output_directory --threads $SLURM_CPUS_PER_TASK
En Drago tenemos varias bases de datos que podemos ver en:
En caso de necesitar alguna en concreto, contactar con soporteaic@csic.es.
#!/bin/bash
#SBATCH --partition=generic
#SBATCH --cpus-per-task=8
#SBATCH --mem=12G
#SBATCH --job-name=humann_full
module load rama0.4 GCC/12.3.0 OpenMPI/4.1.5
module load humann/3.9
humann \
--input H8_fixed.fastq \
--input-format fastq \
--output humann_out \
--threads $SLURM_CPUS_PER_TASK \
--nucleotide-database /lustre/databases/humann/full_chocophlan.v201901_v31 \
--protein-database /lustre/databases/humann/uniref90_diamond \
--metaphlan-options "--bowtie2db /lustre/databases/metaphlan/ -x mpa_vJun23_CHOCOPhlAnSGB_202307 --bowtie2out humann_out/metaphlan.bowtie2.bz2 --stat_q 0.1"
Para optimizar la ejecución en el clúster, se recomienda apuntar directamente a las rutas de /lustre/databases/humann:
--nucleotide-database:
Especifica la ruta a la base de datos ChocoPhlAn. Se utiliza para la búsqueda de pangenomas mediante alineamiento de nucleótidos.
--protein-database:
Indica la ubicación de la base de datos UniRef90. Se emplea para el alineamiento traducido de proteínas en aquellas lecturas que no mapearon en el paso anterior.
--metaphlan-options:
Permite pasar parámetros directamente a MetaPhlAn (el paso previo de perfilado taxonómico):
--bowtie2db:
Define la ruta donde se encuentran los índices de Bowtie2 para MetaPhlAn.
-x:
Especifica el índice exacto de la base de datos taxonómica a utilizar (en este caso, la versión de junio 2023).
--stat_q (Quantile-based trimming)
Este parámetro define el umbral para el cálculo del promedio robusto de la abundancia de los marcadores. MetaPhlAn ordena todos los marcadores detectados para una especie de menor a mayor abundancia. Con --stat_q 0.1, el programa descarta el 10% inferior y el 10% superior de los valores (los extremos) y calcula la abundancia final promediando solo los marcadores que están entre el percentil 10 y el 90.