Alphafold 2 sur Jean Zay
Liens utiles
- 🌐 Site officiel : https://github.com/deepmind/alphafold
- 📘 Documentation : https://github.com/deepmind/alphafold
- 🧬 Dépôt Git : https://github.com/deepmind/alphafold
Conseils d'utilisation
Alignements de séquences
Les outils d'alignement de séquences ne sont pas portés sur GPU. Cette phase pouvant être assez longue, il est recommandé de ne pas utiliser de partition GPU pour éviter de gâcher des ressources. Vous pouvez cependant demander une allocation sur la partition CPU ou bien utiliser la partition prepost.
Gestion des fichiers temporaires
La procédure d'Alphafold écrit des fichiers temporaires dans le répertoire /tmp du noeud de calcul.
Ce répertoire est très petit et cela peut créer des erreurs du type No space left on device.
Il faut ajouter la ligne suivante au script de soumission :
export TMPDIR=$JOBSCRATCH
Exemples de fichiers de soumission
- Partition V100
- Partition A100
#!/usr/bin/env bash
#SBATCH --nodes=1 # Number of nodes
#SBATCH --ntasks-per-node=1 # Number of MPI tasks per node
#SBATCH --cpus-per-task=10 # Number of core for each MPI task
#SBATCH --gpus-per-node=1 # Number of GPU per node
#SBATCH --hint=nomultithread
#SBATCH --job-name=alphafold
#SBATCH --output=%x.%j # output in <job-name>.<jobid>
#SBATCH --error=%x.%j # errors <job-name>.<jobid>
#SBATCH --account=<project_id>@v100 # project_id available with idracct
#SBATCH --time=02:00:00
module purge
module load alphafold/2.3.2
export TMPDIR=$JOBSCRATCH
export ALPHAFOLDDB=$DSDIR/Alphafold-2024-04
python $(which run_alphafold.py) \
--fasta_paths=<list_of fasta files> \
--nobenchmark \
--data_dir=$ALPHAFOLDDB \
--uniref90_database_path=${ALPHAFOLDDB}/uniref90/uniref90.fasta \
--mgnify_database_path=${ALPHAFOLDDB}/mgnify/mgy_clusters_2022_05.fa \
--template_mmcif_dir=${ALPHAFOLDDB}/pdb_mmcif/mmcif_files \
--obsolete_pdbs_path=${ALPHAFOLDDB}/pdb_mmcif/obsolete.dat \
--pdb_seqres_database_path=${ALPHAFOLDDB}/pdb_seqres/pdb_seqres.txt \
--bfd_database_path=${ALPHAFOLDDB}/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
--uniref30_database_path=${ALPHAFOLDDB}/uniref30/UniRef30_2021_03 \
--uniprot_database_path=${ALPHAFOLDDB}/uniprot/uniprot.fasta \
--db_preset=full_dbs \
--output_dir=./outputs \
--max_template_date=2023-12-12 \
--model_preset=multimer \
--num_multimer_predictions_per_model=1 \
--models_to_relax=best \
--random_seed=424242 \
--use_gpu_relax
#!/usr/bin/env bash
#SBATCH --nodes=1 # Number of nodes
#SBATCH --ntasks-per-node=1 # Number of MPI tasks per node
#SBATCH --cpus-per-task=8 # Number of core for each MPI task
#SBATCH --gpus-per-node=1 # Number of GPU per node
#SBATCH --hint=nomultithread # Disable hyperthreading
#SBATCH --constraint=a100 # Aim A100 partition
#SBATCH --job-name=alphafold
#SBATCH --output=%x.%j # output in <job-name>.<jobid>
#SBATCH --error=%x.%j # errors <job-name>.<jobid>
#SBATCH --account=<project_id>@a100 # project_id available with idracct
#SBATCH --time=02:00:00
module purge
module load arch/a100
module load alphafold/2.3.2
export TMPDIR=$JOBSCRATCH
export ALPHAFOLDDB=$DSDIR/Alphafold-2024-04
python $(which run_alphafold.py) \
--fasta_paths=<list_of fasta files> \
--nobenchmark \
--data_dir=$ALPHAFOLDDB \
--uniref90_database_path=${ALPHAFOLDDB}/uniref90/uniref90.fasta \
--mgnify_database_path=${ALPHAFOLDDB}/mgnify/mgy_clusters_2022_05.fa \
--template_mmcif_dir=${ALPHAFOLDDB}/pdb_mmcif/mmcif_files \
--obsolete_pdbs_path=${ALPHAFOLDDB}/pdb_mmcif/obsolete.dat \
--pdb_seqres_database_path=${ALPHAFOLDDB}/pdb_seqres/pdb_seqres.txt \
--bfd_database_path=${ALPHAFOLDDB}/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
--uniref30_database_path=${ALPHAFOLDDB}/uniref30/UniRef30_2021_03 \
--uniprot_database_path=${ALPHAFOLDDB}/uniprot/uniprot.fasta \
--db_preset=full_dbs \
--output_dir=./outputs \
--max_template_date=2023-12-12 \
--model_preset=multimer \
--num_multimer_predictions_per_model=1 \
--models_to_relax=best \
--random_seed=424242 \
--use_gpu_relax