MyDocker@Paris-Saclay - MyDocker@Paris-Saclay

MyDocker@Paris-Saclay est un service d’environnements virtuels permettant d’accéder à de nombreux logiciels scientifiques (dont Jupyter) à partir d’un simple navigateur web, notamment pour du calcul interactif, du traitement de données, etc.

Ce service est ouvert aux étudiants et personnels de l’Université Paris-Saclay. À titre expérimental, il est ouvert plus généralement aux établissements de la fédération d’identité «Recherche et Enseignement Supérieur» de Renater); contactez nous avant tout usage intensif.

Accès aux environnements¶

Les items ci-dessous vous donne accès à quelques environnements génériques. Si vous êtes enseignante ou enseignant, vous pouvez créer vos propres environnements (documentation à venir), voire proposer qu’ils soient ajoutés ici. De nombreux autres environnements ont été créés par des collègues pour toutes sortes de besoin.

Votre page d’accueil de myDocker vous donne accès à tous les environnements que vous avez déjà utilisé.

Sur demande: VSCode et Java

À propos du service¶

Contact et support technique¶

En cas de panne du service, ou pour de l’aide à l’organisation de cours utilisant myDocker, vous pouvez contacter le support technique: mydocker-upsaclay@listes.centralesupelec.fr.

Limitations connues et résolution de problèmes¶

Authentification¶

Symptôme: Auprès l’étape d’authentification, myDocker affiche «impossible de s’authentifier»:
Vérifier que l’ordinateur d’où l’on accède à myDocker est bien à l’heure. Un décalage de plus de quelques minutes bloque l’authentification pour des questions de sécurité. Une évolution de mydocker est prévue pour avoir un message clair dans ce cas.

Démarrage d’un environnement¶

Lorsque que le démarrage d’un environnement mets du temps ou échoue, très peu de retour est donné à l’utilisateur, rendant le diagnostic difficile. Cela sera progressivement amélioré dans les semaines qui viennent.
Le temps de démarrage d’un environnement est souvent plus long qu’il ne devrait. Cela apparaît notamment lorsque l’environnement n’a été utilisé par personne depuis le week-end précédent et nécessite donc un retéléchargement de l’image. Normalement on peut contourner cela en rechargeant la page et redemandant un environnement et cela fini par passer au bout de quelques essais. Ce problème est en cours d’analyse.

Usage¶

Symptôme: erreur Keybord interrupt et plantage de l’environnement lors d’un calcul nécessitant du parallélisme massif (par exemple apprentissage avec scikit-learn ou pytorch)
Analyse: sur l’instance mydocker de Paris-Saclay basée sur Docker-Swarm, lorsque la limitation en nombre de CPU utilisé est atteinte, le conteneur entier est tué avec un signal SIGTERM, plutôt que de continuer en respectant la limite.
Contournement: ne pas mettre de limite de CPU à l’environnement.
Le déploiement actuel ne permet pas encore la collaboration temps réel entre plusieurs utilisateurs dans le même environnement.

Suite à venir

Documentation¶

Concepts¶

myDocker mets à la disposition de ses utilisatrices et utilisateurs une variété d’environnements virtuels (ou simplement environnements), fournis à la demande; chacun de ces environnement virtuel consiste en un ensemble de ressources :

une interface utilisateur (ex. Jupyter, RStudio, VSCode, environnement de bureau type XFCE, terminal via SSH, ...) donnant accès à des logiciels (ex. Python, scikit-learn) et des données
avec un dossier personnel
le tout s’appuyant sur des ressources physiques: processeur (CPU, GPU), mémoire, espace disque, etc.

Lorsque l’utilisateur demande un environnement :

un serveur est identifié pour héberger l’environnement
l’image docker contenant les logiciels de l’environnement est téléchargée sur ce serveur (si elle n’y est pas déjà présente);
une machine virtuelle légère (conteneur docker) est lancée sur le serveur;
le cas échéant, le dossier personnel de l’utilisateur est monté dans la machine virtuelle;
l’interface utilisateur est démarrée dans la machine virtuelle, et mise à disposition de l’utilisateur, typiquement via une nouvelle page web.

Demander un environnement¶

Pour demander un environnement, l’utilisateur peut au choix :

le sélectionner depuis son tableau de bord s’il l’a déjà utilisé;
ouvrir un lien web (URL) de la forme https://mydocker.../join/xxxx où xxx identifie l’environnement. Cette lien peut par exemple venir de cette page de documentation du service, ou être fournie par un enseignant, par mail, sur la page web du cours, ou via un Environnement Numérique de Travail comme Moodle;
ouvrir une activité myDocker depuis un Environnement Numérique de Travail comme Moodle. Une telle activité utilise le protocole d’intégration LTI qui permet de transmettre à myDocker l’identité de l’utilisateur et son rôle (élève, professeur).

Dossiers personnels persistants¶

Dans la plupart des environnements virtuels, l’utilisatrice dispose d’un dossier pour héberger des documents personnel. Ce dossier est persistant: l’utilisatrice y retrouvera ces documents après avoir éteint puis redémarré l’environnement. Selon l’environnement, ce dossier personnel peut être dédié à l’environnement, ou partagé avec les autres environnements (global).

Pour permettre une large gamme d’usages, il n’y a actuellement pas de quota imposé. Cependant dossier personnel est conçu pour un usage interactif, pas pour du stockage de fichiers sur le long terme. Aussi il n’y a pas de garanties de sauvegarde ou de préservation de longue durée (plusieurs années).

Nous comptons sur votre coopération pour nous permettre de conserver une politique des données libérales. Nous nous réservons le droit d’intervenir sans préavis pour, par exemple, nettoyer des fichiers temporaires facilement reconstructibles (typiquement cache pip, conda, ...) ou des contenus illégaux. Ou avec préavis pour d’autres fichiers volumineux.

Rôles: élève, professeur, administrateur¶

myDocker ne fait pas de différence entre les utilisateurs pour utiliser des environnements virtuels: une fois dans l’un d’entre eux, on est sur une machine linux générique avec un compte local; comme par exemple en salle de TP.

Le rôle de «Professeur» permet en outre à l’utilisateur de définir et mettre à disposition de nouvelles images et nouveaux environnements, via un onglet dédié sur le tableau de bord de myDocker. On peut avoir le rôle de Professeur parce que l’établissement auprès du quel on s’est authentifié a indiqué que l’on était personnel de l’établissement et non étudiant, ou parce qu’un admin a donné le rôle de Professeur.

Le rôle d’«Administrateur» permet enfin de gérer les utilisateurs (notamment de configurer leur rôle).

Comment organiser un cours utilisant myDocker¶

Si l’un des environnements préexistant vous convient, vous pouvez simplement indiquer à vos étudiants de l’utiliser, par exemple en leur fournissant un lien vers l’environnement.

Si l’utilisation est large (par exemple plus d’une centaine d’étudiants utilisant simultanément myDocker), merci de nous contacter; nous essayerons alors de garder un œil plus attentif sur le service, notamment lors des premières séances. Cela permettra aussi de mieux planifier d’éventuelles interruptions de service hors de périodes critiques (exemple: rendus de projets). Merci aussi de nous contacter si vous avez besoin de ressources physiques importantes (exemple: GPU, gros volumes de données).

Si vous avez des besoins spécifiques (par exemple un logiciel ou version d’un logiciel particulière), vous pouvez créer et partager votre propre environnement.

Alternativement, la plupart des environnements existants utilisent un système de paquet comme pip ou conda. Il est alors possible d’installer des nouveaux logiciels directement depuis l’environnement. Ils seront typiquement installés dans un dossier /conda où l’utilisateur a les droits d’écriture. Notez cependant que cette installation n’est pas persistante (sauf à explicitement installer dans le dossier utilisateur): il faudra réinstaller les logiciels à chaque redémarrage de l’environnement. Cette alternative est donc plutôt à réserver pour des petits logiciels rapides à télécharger et installer.

Enfin, nous vous proposons ci-dessous plusieurs stratégies pour mettre des ressources pédagogiques à la disposition des élèves.

Gestion des devoirs (à détailler)¶

Comment fournir des documents pédagogiques aux étudiants :

Importer des documents ou archives (avec jupyterlab-archive) à la main
nbgitpuller
travo

Comment organiser le rendu des devoirs :

à la main, éventuellement avec jupyterlab-archive
travo

Comment fournir des données (à venir)¶

Télécharger au vol
Inclure dans l’environnement, typiquement via un fichier de contexte
Montage S3 (à venir)

(collaboration)

Collaboration temps réel (à venir)¶

À ce stade, mydocker (comme JupyterHub@Paris-Saclay précédemment) ne propose pas en soi de fonctionnalité de collaboration. C’est une limitation bien identifiée!

Cela étant dit: pour les environnements basés sur JupyterLab, il est possible de configurer l’environnement pour lancer JupyterLab en mode collaboratif. Dans ce cas, l’utilisateur pourra partager un lien d’invitation pour que d’autres personnes se joignent à sa session, avec édition collaborative comme dans Google colab.

https://jupyterlab-realtime-collaboration.readthedocs.io/en/latest/ https://github.com/jupyterlab-contrib/jupyterlab-link-share

Les limitations sont:

Nous n’avons pas encore eu l’occasion de tester sur le terrain
Cela donne un accès complet à l’environnement de l’utilisateur. Si cet environnement contient par exemple des dossiers correspondant à différents cours, tous ces dossiers seront accessibles.
Le lien est limité à la session courante. Les invités ne peuvent pas l’utiliser pour accéder à l’environnement collaboratif -- et notamment le redémarrer -- une fois la session terminée.

Nous souhaiterions avancer sur le sujet, et serions très intéressés pour vous accompagner si vous étiez partant pour béta tester.

En complément, vous pourriez être intéressés pour l’outil de gestion des devoirs (préparation, distribution, suivi, collecte) Travo, basé sur GitLab, qui dispose de quelques fonctionnalités de collaboration asynchrone simple.

Comment créer son propre environnement¶

La première étape est d’identifier les besoins pour vos usages: ressources physiques, logiciels, interface, données.

En principe, toute interface permettant un usage depuis le navigateur peut être utilisée. Ainsi JupyterLab, VSCode ou des environnements de bureaux type XFCE ont déjà été déployés sur myDocker. De même, des interfaces comme RStudio ne devraient pas poser de difficulté.

Tout logiciel libre pouvant tourner sous Linux peut être en principe installé. Si vous avez besoin d’un logiciel non libre, contactez pour nous pour étudier s’il peut y avoir une solution technique et financière. De même dans le cas d’un logiciel tournant sous un autre système d’exploitation.

Il est aussi possible de prévoir l’inclusion de données directement dans l’environnement. Au delà de 1Go, nous contacter pour étudier ensemble les impacts éventuels et alternatives.

Une fois ces éléments identifiés, nous recommandons de chercher une image et un environnement similaires et de consulter comment il ont été construits pour vous en inspirer. N’hésitez pas le cas échéant à contacter le mainteneur pour avoir accès à leur configuration. Vous pourrez alors créer votre propre image et votre propre environnement en recopiant et adaptant la configuration.

La plupart des environnements utilisent un gestionnaire de paquets comme apt, conda, pip, voire guix pour des besoins pointus de reproductibilité. L’adaptation consistera alors simplement à adapter la liste des paquets à installer. À titre d’essai préalable, vous pouvez tester l’installation des logiciels directement dans l’environnement d’inspiration.

Nous documentons ci-dessous quelques uns des éléments de configuration:

Extinction automatique des environnements

Dans l’onglet «informations générales» d’un environnement il est possible de configurer une extinction automatique des environnements. Cette fonctionnalité est prévue pour les cas où l’on souhaite imposer une durée limitée d’accès à l’environnement (examen, accès à des ressources coûteuses, etc).

Si l’on utilise JupyterLab et si l’on souhaite juste que l’environnement s’éteigne automatiquement au bout d’un certain temps d’inactivité, une meilleure alternative est de déléguer cette tâche à en spécifiant les options adéquates dans la commande de lancement de JupyterLab. Dans l’exemple suivant, les noyaux, les terminaux puis l’application JupyterLab tout entière s’éteignent automatiquement au bout de 20 minutes (1200 secondes) d’inactivité:

jupyter lab --no-browser --ip="0.0.0.0" --IdentityProvider.token={{PASSWORD}} --ServerApp.shutdown_no_activity_timeout=1200 --MappingKernelManager.cull_idle_timeout=1200 --TerminalManager.cull_inactive_timeout=1200

Options d’affichage

L’onglet «Options d’affichage» permet de configurer comment l’utilisateur accède à l’interface du conteneur docker. Pour cela, on peut configurer un ou plusieurs boutons avec pour chacun un lien de connexion.

Cette connexion est sécurisée par une authentification par un mot de passe tiré au hasard et éventuellement un identifiant associé qui ont par ailleurs été transmis au conteneur au démarrage de celui-ci. Le traitement d’une telle authentification dépend de l’interface utilisée dans le conteneur docker (JupyterLab, ssh, ...). Idéalement, cette étape est automatisée, typiquement en transmettant le token via le lien. Par exemple, avec JupyterLab, on peut utiliser comme lien:

https://{{HOST['8888']}}/?token={{PASSWORD}}

Sinon, ce sera à l’utilisateur de saisir manuellement le mot de passe et l’éventuel identifiant à l’ouverture de l’interface. Il faudra donc les avoir préalablement affichés.

Références¶

Documentation de myDocker

Alternatives et projets similaires (à venir)¶

JupyterHub, SSPCloud, CoCalc, https://nuvolos.cloud/, PlasmaBio, ... Interactive notebook service of EOSC EU Node