Jeux de données et modèles disponibles pour l'IA dans DSDIR
Sur Jean Zay, le DSDIR est un espace de stockage dédié aux jeux de données volumineux (en taille et/ou en nombre de fichiers) et aux collections de modèles largement utilisées qui sont nécessaires à l'utilisation d'outils de l'Intelligence Artificielle. Ces données sont publiques et visibles par l'ensemble des utilisateurs de Jean Zay.
Si vous exploitez de tels jeux de données ou modèles publiques et que ceux-ci ne se trouvent pas déjà dans l'espace DSDIR, l'IDRIS les téléchargera et les installera dans cet espace disque. Vous pouvez pour cela envoyer votre demande à assist@idris.fr.
Bases de données publiques
Licence
L'IDRIS vérifie que les bases de données présentes dans le DSDIR sont distribuables, selon les termes des licences associées. L'usage que vous faites des bases de données est ensuite sous votre responsabilité et doit également suivre les termes de la licence**. Vous trouverez la licence de chaque base de données dans le répertoire correspondant.
Jeux de données présents sur le HuggingFace Hub
Certains jeux de données disponibles sur la page HuggingFace Hub datasets
sont déjà téléchargés dans le répertoire $DSDIR/HuggingFace/.
Pour instancier ces jeux de données, les lignes de codes suivantes sont nécessaires :
import datasets, os
root_path = os.environ['DSDIR'] + '/HuggingFace'
dataset_name = nom_du_dataset
datatset_subset = nom_du_subset
dataset = datasets.load_from_disk(root_path + '/' + dataset_name + '/' + datatset_subset)
Recherche dans la liste complète des jeux de données sur Jean Zay
Pour rechercher directement un jeu de données sur Jean Zay et ainsi avoir accès à une liste à jour, il est possible d'utiliser la commande suivante en remplaçant search_string par le nom (même partiel) du jeu de données recherché (environ 20 secondes d'exécution) :
find $DSDIR $DSDIR/HuggingFace/ -maxdepth 2 -path "$DSDIR/HuggingFace" -prune -o -type d -iname "*search_string*" -print
Modèles publics (HuggingFace Hub)
Une grande quantité de modèles parmi les plus téléchargés depuis le Hub HuggingFace sont déjà téléchargés dans le répertoire $DSDIR/HuggingFace_Models/.
Licence
La plupart des modèles disponibles sont soumis à une licence open
source. Pour avoir plus de détail sur les conditions d'utilisation de
chacun des modèles vous pouvez vous référer à la page source du modèle
(dont le lien se trouve dans le fichier source.txt dans le répertoire
de chaque modèle) ou à la liste ci-dessous. La licence associée au
modèle se trouve dans les étiquettes en haut de page.
Le fichier suivant résume quelques termes et conditions des licences sous lesquelles les modèles sont publiés.
Utiliser un modèle disponible sur le DSDIR
Les modèles sont organisés de la façon suivante :
- ils se trouvent dans le dossier :
$DSDIR/HuggingFace_Models/(appelérootci-après) - chaque modèle se trouve dans le dossier :
root/nom_du_modèle(ex :root/cross-encoder/ms-marco-MiniLM-L-12-v2/)
Pour charger un modèle depuis le DSDIR, il faut utiliser la fonction
from_pretrained du modèle que vous souhaitez charger (il faut importer
la librairie tranformers dans votre programme) :
transformers.AutoModel.from_pretrained(root+'/'+nom_du_modèle)pour un modèle génériquetransformers.BertModel.from_pretrained(root+'/'+'bert_base_uncased')pour charger un modèle spécifique pris en charge dans l'API HugingFace.
De même, les tokenizers associés à chaque modèles se trouvent dans le
dossier du modèle. Il faut également utiliser la fonction
from_pretrained du tokenizer désiré:
transformers.AutoTokenizer.from_pretrained(root+'/'+nom_du_modèle)pour un tokenizer associé à un modèle génériquetransformers.BertTokenizer.from_pretrained(root+'/'+'bert_base_uncased')pour un tokenizer associé à un modèle pris en charge dans l'API HugingFace.
Recherche dans la liste complète des modèles sur Jean Zay
Pour rechercher directement un modèle sur Jean Zay et ainsi avoir accès à une liste à jour, il est possible d'utiliser la commande suivante en remplaçant search_string par le nom (même partiel) du modèle recherché ou de l'auteur du modèle :
find $DSDIR/HuggingFace_Models -maxdepth 2 -type d -iname '*search_string*'