Problème de performance sur l'IFB Core Cluster

2019-12-16 - Message from the Support IFB Core Cluster

:fr: Nous constatons des problèmes de performance du IFB Core Cluster depuis 1 semaine.

  • Observation : d'une manière générale les jobs tournent plus lentement et la réactivité est impacté (cp, vi, ...)
  • Cause : un utilisateur lance actuellement des jobs qui écrivent et effacent des millions de fichiers en un laps de temps court. Notre système de fichier actuel (MooseFS) n'arrive plus à gérer.
  • Actions immédiates : i) nous avons supprimer une partie des mécanismes de snapshot dans cet espace projet. ii) nous avons contacter l'utilisateur et il va réduire son nombre de job concurrent
  • Actions long-termes : i) nous allons mettre en place un espace scratch sous BeeJFS dédié au calcul. ii) l'IFB Core Cluster a entamé un appel d'offre pour renouveler son stockage : plus de capacité, un filesystem plus performant, un espace dédié scratch.

:uk: We have noticed some performance problems on the IFB Core Cluster since 1 week.

  • Observation: in general, jobs run more slowly and reactivity is impacted (cp, vi, ...)
  • Cause: a user is currently launching jobs that write and delete millions of files in a short period of time. Our current file system (MooseFS) can no longer handle that.
  • Immediate actions: i) we have removed part of the snapshot mechanisms in this project space. ii) we have contacted the user, he will reduce his number of concurrent jobs
  • Long-term actions: i) we will set up a scratch area under BeeJFS dedicated to calculation. ii) the IFB Core Cluster has launched a call to renew its storage: more capacity, a more efficient filesystem, a dedicated scratch space.

The @team.ifbcorecluster

1 « J'aime »

J'avais cru comprendre que les tâches qui nécessitaient des millions de calculs avaient été annulées et le code révisé, mais le cluster semble toujours extrêmement lent pour démarrer des toutes petites tâches. Se pourrait-il qu'il y ait un autre problème, ou bien des traces des processus précédents ? Y aurait-il moyen de faire un diagnostic ?

Merci

Jacques

1 « J'aime »

@gseith nous disait que les actions correctives ont mis plusieurs semaines à ce terminer.
Cela peut du coup expliquer les latences observées même plusieurs jours après.