Drago es un cluster de computación que consisten en 250 nodos de procesadores multi-core corriendo en el sistema operativo Rocky Linux. En esta página podrá acceder a más información sobre la configuración del sistema, hardware disponible, etc.
drago.csic.es
El sistema Drago es un Sistema de Alto Rendimiento (en inglés, HPC), a día de hoy, con dos tipo de servidores (nodos) configurados para ejecutar trabajos intensivos y paralelos. Todos los nodos ejecutan el Sistema Operativo Linux, en concreto Rocky Linux 8, clónico de RedHat Linux.
Los nodos y el sistema de almacenamiento jerárquico (en inglés, HSM) están conectados mediante una red HDR Infiniband de alta velocidad sin bloqueo, en arquitectura FAT TREE.
A continuación, se describe la configuración y características de los nodos, interconexión y sistemas de archivo.
Nº nodos | Memoria | Procesadores | GPU | Almacenamiento local | |
250 | 192 GB | Dual Intel Xeon Gold 6248R 24C 3.0GHz procesors | N/A | 1 disco 240GB SSD | |
2 | 512 GB | Dual Intel Xeon Gold 6330 28C 3.0GHz procesors | 4 NVIDIA Ampere A100 | 2 discos SSD 240GB, 1 volumen discos 10TB NVMe PCI4 |
Para acceso a nodos login es necesario acceder mediante ssh al registro dns drago.csic.es:
# ssh usuario@drago.csic.es
ó
# ssh -l usuario drago.csic.es
La red de Drago para la interconexión de todos los nodos de cómputo y la red de almacenamiento está basado en Infiniband, en concreto de HDR, basada en una arquitectura FAT TREE sin bloqueo.
El sistema Jerárquico de Almacenamiento (a partir de ahora HSM) está basado en un Sistema de archivos Distribuido Paralelo implementado mediante LUSTRE (cubre 2 primeros niveles) y un tercer nivel basado en Librería Quantum SCALAR i6 con cintas LTO-8, implentado con RobinHood.
El HSM tiene 3 niveles:
Tal como se indica anteriormente, tenemos un HSM implentado en sus 2 primeros niveles mediante el Sistetma de Archivos distribuido paralelo LUSTRE, que es un sistema de archivos de código abierto.
A continuación de describe cómo podemos hacer uso de los recursos de Drago.
Para poder seleccionar diferentes agrupaciones de hardware, los nodos de cómputo se agrupan en distintas particiones. Cada partición incluye un subconjunto de nodos, con un tiempo de duración máxima y una serie de recursos específicos.
La siguiente tabla resume las particiones disponibles en Drago a las que se puede acceder seleccionándolos con la opción de SLURM:
#SBATCH --partition=<nombre de partición>
La partición compile es un caso especial destinado a compilaciones largas, esta está formada por 2 nodos, uno estándar y otro de GPUs, en la tabla de abajo se especifica entre paréntesis los recursos disponibles en el nodo de GPUs. Para utilizar está partición se procede de la misma forma que las demás, especificando, en caso de necesitarlo, que se quiere utilizar el nodo de GPU mediante la opción #SBATCH --gres=gpu:1 En la sección slurm se pueden encontrar más información sobre cómo utilizar las diferentes particiones.
Nombre partición | Nº Nodos | Recursos por nodo | Recursos asignables job | Duración máxima |
---|---|---|---|---|
generic | 244 | 48 cores / 192 GB RAM | 1 nodo | 15 días |
special | 244 | 48 cores / 192 GB RAM | 2-8 nodos | 7 días y 10 horas |
gpu | 2 | 56 cores / 4 GPUs / 512 GB RAM | 2 nodos | 7 días y 10 horas |
express | 3 | 48 cores / 192 GB RAM | 1 nodo | 10 horas |
long | 112 | 48 cores / 192 GB RAM | 8-112 | 30 días |
compile | 2(1 GPU) | 48(56) cores / 0(4 GPUs) / 192(512) GB RAM | 1 nodo | 10 horas |