Aller au contenu principal

Jeux de données et modèles disponibles pour l'IA dans DSDIR

Sur Jean Zay, le DSDIR est un espace de stockage dédié aux jeux de données volumineux (en taille et/ou en nombre de fichiers) et aux collections de modèles largement utilisées qui sont nécessaires à l'utilisation d'outils de l'Intelligence Artificielle. Ces données sont publiques et visibles par l'ensemble des utilisateurs de Jean Zay.

Si vous exploitez de tels jeux de données ou modèles publiques et que ceux-ci ne se trouvent pas déjà dans l'espace DSDIR, l'IDRIS les téléchargera et les installera dans cet espace disque. Vous pouvez pour cela envoyer votre demande à assist@idris.fr.

Bases de données publiques

Licence

L'IDRIS vérifie que les bases de données présentes dans le DSDIR sont distribuables, selon les termes des licences associées. L'usage que vous faites des bases de données est ensuite sous votre responsabilité et doit également suivre les termes de la licence**. Vous trouverez la licence de chaque base de données dans le répertoire correspondant.

Jeux de données présents sur le HuggingFace Hub

Certains jeux de données disponibles sur la page HuggingFace Hub datasets sont déjà téléchargés dans le répertoire $DSDIR/HuggingFace/.

Pour instancier ces jeux de données, les lignes de codes suivantes sont nécessaires :

import datasets, os
root_path = os.environ['DSDIR'] + '/HuggingFace'
dataset_name = nom_du_dataset
datatset_subset = nom_du_subset

dataset = datasets.load_from_disk(root_path + '/' + dataset_name + '/' + datatset_subset)

Recherche dans la liste complète des jeux de données sur Jean Zay

Pour rechercher directement un jeu de données sur Jean Zay et ainsi avoir accès à une liste à jour, il est possible d'utiliser la commande suivante en remplaçant search_string par le nom (même partiel) du jeu de données recherché (environ 20 secondes d'exécution) :

find $DSDIR $DSDIR/HuggingFace/ -maxdepth 2 -path "$DSDIR/HuggingFace" -prune -o -type d -iname "*search_string*" -print

Modèles publics (HuggingFace Hub)

Une grande quantité de modèles parmi les plus téléchargés depuis le Hub HuggingFace sont déjà téléchargés dans le répertoire $DSDIR/HuggingFace_Models/.

Licence

La plupart des modèles disponibles sont soumis à une licence open source. Pour avoir plus de détail sur les conditions d'utilisation de chacun des modèles vous pouvez vous référer à la page source du modèle (dont le lien se trouve dans le fichier source.txt dans le répertoire de chaque modèle) ou à la liste ci-dessous. La licence associée au modèle se trouve dans les étiquettes en haut de page.

Le fichier suivant résume quelques termes et conditions des licences sous lesquelles les modèles sont publiés.

Utiliser un modèle disponible sur le DSDIR

Les modèles sont organisés de la façon suivante :

  • ils se trouvent dans le dossier : $DSDIR/HuggingFace_Models/ (appelé root ci-après)
  • chaque modèle se trouve dans le dossier : root/nom_du_modèle (ex : root/cross-encoder/ms-marco-MiniLM-L-12-v2/)

Pour charger un modèle depuis le DSDIR, il faut utiliser la fonction from_pretrained du modèle que vous souhaitez charger (il faut importer la librairie tranformers dans votre programme) :

  • transformers.AutoModel.from_pretrained(root+'/'+nom_du_modèle) pour un modèle générique
  • transformers.BertModel.from_pretrained(root+'/'+'bert_base_uncased') pour charger un modèle spécifique pris en charge dans l'API HugingFace.

De même, les tokenizers associés à chaque modèles se trouvent dans le dossier du modèle. Il faut également utiliser la fonction from_pretrained du tokenizer désiré:

  • transformers.AutoTokenizer.from_pretrained(root+'/'+nom_du_modèle) pour un tokenizer associé à un modèle générique
  • transformers.BertTokenizer.from_pretrained(root+'/'+'bert_base_uncased') pour un tokenizer associé à un modèle pris en charge dans l'API HugingFace.

Recherche dans la liste complète des modèles sur Jean Zay

Pour rechercher directement un modèle sur Jean Zay et ainsi avoir accès à une liste à jour, il est possible d'utiliser la commande suivante en remplaçant search_string par le nom (même partiel) du modèle recherché ou de l'auteur du modèle :

find $DSDIR/HuggingFace_Models -maxdepth 2 -type d -iname '*search_string*'