Jean Zay : jeux de données et modèles disponibles dans l'espace de stockage $DSDIR

Sur Jean Zay, le $DSDIR est un espace de stockage dédié aux jeux de données volumineux (en taille ou en nombre de fichiers) et aux collections de modèles largement utilisées nécessaires à l'utilisation d'outils de l'Intelligence Artificielle. Ces données sont publiques et visibles par l'ensemble des utilisateurs de Jean Zay.

Si vous exploitez de tels jeux de données ou modèles et que ceux-ci ne se trouvent pas déjà dans l'espace $DSDIR, l'IDRIS les téléchargera et les installera dans cet espace disque. Vous pouvez pour cela envoyer votre demande à assist@idris.fr.

Bases de données publiques

Licence

L'IDRIS vérifie que les bases de données présentes dans le $DSDIR sont distribuables, selon les termes des licences associées.
L'usage que vous faites des bases de données est ensuite sous votre responsabilité et doit également suivre les termes de la licence.
Vous trouverez la licence de chaque base de données dans le répertoire correspondant.

Liste des jeux de données disponibles sur Jean Zay

Par ordre alphabétique :

Datasets présents sur le HuggingFace Hub

Certains datasets disponibles sur le HuggingFace Hub datasets sont déjà téléchargés dans le répertoire $DSDIR/HuggingFace/.

Pour instancier ces datasets, ces lignes de codes sont nécessaires :

import datasets, os
root_path = os.environ['DSDIR'] + '/HuggingFace'
dataset_name = <nom_du_dataset>
datatset_subset = <nom_du_subset>
 
dataset = datasets.load_from_disk(root_path + '/' + dataset_name + '/' + datatset_subset)

Modèles publics (HuggingFace Hub)

Environ 400 modèles parmi les plus téléchargés depuis le HuggingFace Hub sont disponibles.

Licence

La plupart des modèles disponibles sont soumis à une licence open source. Pour avoir plus de détail sur les conditions d’utilisation de chacun des modèles vous pouvez vous référer à la page source du modèle (dont le lien se trouve dans le fichier source.txt dans le répertoire de chaque modèle) ou à la liste ci-dessous. La licence associée au modèle se trouve dans les étiquettes en haut de page.

Ce fichier résume quelques termes et conditions des licences sous lesquelles les modèles sont publiés.

Utiliser un modèle disponible sur le $DSDIR

Les modèles sont organisés de la façon suivante :

  • ils se trouvent dans le dossier : $DSDIR/HuggingFace_Models/ (appelé <root> ci-après)
  • chaque modèle se trouve dans le dossier : <root>/<nom_du_modèle> (ex : <root>/cross-encoder/ms-marco-MiniLM-L-12-v2/)

Pour charger un modèle depuis le $DSDIR, il faut utiliser la fonction from_pretrained du modèle que vous souhaitez charger (il faut importer la librairie tranformers dans votre programme) :

  • transformers.AutoModel.from_pretrained(<root>+'/'+<model_name>) pour un modèle générique
  • transformers.BertModel.from_pretrained(<root>+'/'+'bert_base_uncased') pour charger un modèle spécifique pris en charge dans l'API HugingFace

De même, les tokenizers associés à chaque modèles se trouvent dans le dossier du modèle. Il faut également utiliser la fonction from_pretrained du tokenizer désiré:

  • transformers.AutoTokenizer.from_pretrained(<root>+'/'+<model_name>) pour un tokenizer associé à un modèle générique
  • transformers.BertTokenizer.from_pretrained(<root>+'/'+'bert_base_uncased') pour un tokenizer associé à un modèle pris en charge dans l'API HugingFace

Liste des modèles disponibles sur Jean Zay

Par ordre alphabétique :