Submitted by vloux on

[Edit : les problèmes avec le cluster on été résolus / the issues with the cluster  have been solved]

 

Quelques soucis techniques en cours sur la soumission de jobs et les mots de passe utilisateur

Bonjour à toutes et tous,
Nous rencontrons depuis quelques semaines des problèmes réseau aléatoires mais récurrents. Ceux-ci peuvent perturber la soumission de jobs en ligne de commande.
Les commandes qstat, qsub ou qacct peuvent renvoyer l'erreur suivante :
error: commlib error: got select error (Connection refused)

Nous travaillons avec la DSI INRAE, en charge du réseau au Datacenter INRAE IdF où sont hébergées nos machines pour résoudre ce problème. Sa nature est cependant complexe et nous n'avons pas pu isoler la cause de ce comportement. Celle-ci nous parait cependant liée au réseau et nous faisons tout notre possible pour que la DSI  résolve ce problème dans un temps raisonnable.

Si vous êtes touché par ce bug, attendre quelques second et relancer la commande permet de le contourner.

Un autre problème aléatoire mais relativement fréquent est lié à la corruption de mot de passe de notre annuaire d'utilisateurs. Votre compte n'expire pas mais d'un coup votre mot de passe n'est plus reconnu. Cela touche les utilisateurs en ligne de commande mais également tous ceux s'authentifiant sur nos machines (Galaxy, Rstudio…).

Ce bug a commencé à toucher notre annuaire il y a quelques années, mais devient nettement plus fréquent ces derniers mois. Là encore, nous cherchons la source de ce comportement anormal sans succès pour l'instant. Si vous êtes touché, vous pouvez utiliser l'interface de réinitialisation de mot de passe SSP pour générer un lien de réinitialisation qui vous sera envoyé sur le mail que vous nous avez commmuniqué à l'ouverture de votre compte. Une fois le mot de passe réinitialisé, vous devriez pouvoir vous connecter à nouveau sans souci.

Nous sommes conscient de la gène causée par ces deux bugs et nous en excusons. L'absence d'administrateur dans l'équipe impacte fortement notre capacité à régler ces problèmes de manière rapide et efficace. Nous vous tiendrons au courant de l'évolution de la situation.

N'hésitez pas à nous contacter si vous rencontrez ces problèmes et n'arrivez pas à les contourner avec les solutions proposées.


Some technical issues on job submission and user passwords

Hello to everyone,
Since a few weeks we have been experiencing random but recurrent network problems. These problems can impact the job submission via command line.
The commands qstat, qsub or qacct may return the following error:
error: commlib error: got select error (Connection refused)

We are working with the INRAE service in charge of the network at the Datacenter INRAE IdF where our servers are hosted to solve this problem. Its nature is however complex and we have not been able to isolate the cause of this behavior. It seems to us related to a network issue and we are doing our best to have the INRAE service resolve it in a reasonable time.

If you are affected by this bug, waiting a few seconds and resubmiting the command should help you get around it.

Another random but relatively frequent problem is related to password corruption in our user directory. Your account doesn't expire but suddenly your password is not recognized anymore. It affects all the users on the command line but also all those authenticating on our machines (Galaxy, Rstudio...). Again, we are looking for the source of this abnormal behavior without success for the moment. If you are affected, you can use the password reset interface SSP to generate a reset link that will be sent to you on the email you gave us when you opened your account. Once the password has been reset, you should be able to log in without worry.

We are aware of the inconvenience caused by these two bugs and we apologize. The absence of an administrator in the team has a strong impact on our ability to solve these problems in a fast and efficient way. We will keep you informed of the situation as it develops.

Do not hesitate to contact us if you encounter these problems and are unable to solve them with the proposed solutions.