Install MMSEQ2 and formatting popular DBs

Guillaume · Avril 25, 2019, 12:50

oui oui pas de problème

dbenaben · Avril 25, 2019, 3:22

Les index on été copiés dans /shared/bank/nr/current/mmseqs/ (nr.idx, nr.idx.dbtype, nr.idx.index).
Merci pour l'aide !

gildaslecorguille · Avril 26, 2019, 7:13

Ca devrait aussi être bon pour uniref90. Ca devrait !

Guillaume · Octobre 30, 2019, 2:52

Bonjour

j'ai refait le formatage de NR avec la nouvelle version installée le 7 octobre sur le cluster

Serait il possible de remplacer les fichiers qui sont dans /shared/bank/nr/current/mmseqs par ceux dispo dans /shared/projects/phycovir/FORMATED_DB/nr/

Merci

Guillaume

dbenaben · Octobre 31, 2019, 8:44

Bonjour Guillaume,

C'est fait.
Les anciens fichiers ont été gardé sous /shared/bank/nr/current/mmseqs.2019-04-24
Les nouveaux fichiers dans /shared/bank/nr/current/mmseqs
On notera que les noms des fichiers ont changés:

$ ls /shared/bank/nr/current/mmseqs.2019-04-24/
nr  nr.dbtype  nr_h  nr_h.dbtype  nr_h.index  nr.idx  nr.idx.0  nr.idx.dbtype  nr.idx.index  nr.idx.index.0  nr.index  nr.lookup

$ ls /shared/bank/nr/current/mmseqs
nr.mmdb  nr.mmdb.dbtype  nr.mmdb_h  nr.mmdb_h.dbtype  nr.mmdb_h.index  nr.mmdb.idx  nr.mmdb.idx.dbtype  nr.mmdb.idx.index  nr.mmdb.index  nr.mmdb.lookup

Bonne journée

Guillaume · Novembre 3, 2019, 7:51

Bonjour David

j'ai ajouté un formatage de la base pour pouvoir travailler sur les informations taxonomiques.
Pourrais tu ajouter les fichiers suivants au dossier partagé:

cd /shared/projects/phycovir/FORMATED_DB/nr
cp nr.mmdb_mapping nr.mmdb_names.dmp nr.mmdb_nodes.dmp nr.mmdb_merged.dmp rr.mmdb_delnodes.dmp /shared/bank/nr/current/mmseqs

Je compte aussi générer ces mêmes fichiers pour la base uniref90 dont je me sers souvent.
Sera t-il possible de les déposer aussi sur /shared/bank/ ?
merci
Guillaume

dbenaben · Novembre 4, 2019, 2:23

Bonjour Guillaume,

Les fichiers indiqués ont été déposés dans /shared/bank/nr/current/mmseqs

$ ls /shared/bank/nr/current/mmseqs
nr.mmdb         nr.mmdb_delnodes.dmp  nr.mmdb_h.dbtype  nr.mmdb.idx         nr.mmdb.idx.index  nr.mmdb.lookup   nr.mmdb_merged.dmp  nr.mmdb_nodes.dmp
nr.mmdb.dbtype  nr.mmdb_h             nr.mmdb_h.index   nr.mmdb.idx.dbtype  nr.mmdb.index      nr.mmdb_mapping  nr.mmdb_names.dmp

Pour uniref90, Gildas a déjà déposé une version (datant de juillet 2019)

$ ls -l /shared/bank/uniref90/
total 5897
lrwxrwxrwx 1 glecorguille glecorguille      16 Oct  8 10:26 current -> uniref90_2019_07
drwxrwxr-x 6 glecorguille glecorguille 3033297 Apr 24  2019 uniref90_2018-10-10
drwxrwxr-x 5 glecorguille glecorguille 3004249 Oct  8 09:56 uniref90_2019_07

Je pense qu'il y a pas de souçis si vous voulez mettre à jour.
De la même façon, je pourrais les déposer pour vous.

A bientôt

Guillaume · Novembre 27, 2019, 10:10

Bonjour

serait il possible d'installer la toute dernière version de MMSEQ2 (V10) qui intègre de nouvelles méthodes qui ne sont pas dispos sur la vieille version installée (V8) sur le cluster?

Meurci
Guillaume

dbenaben · Novembre 27, 2019, 11:10

Bonjour Guillaume,

L'installation est en cours: https://gitlab.com/ifb-elixirfr/cluster/conda-env/merge_requests/169
On revient vers vous dès que c'est installé.

Bonne journée

dbenaben · Novembre 27, 2019, 1:57

Guillaume,

mmseq2 est maintenant disponible en dernière version (10-6d92c, 23/08/2019). Merci @Francois

module load mmseqs2/10-6d92c

A bientôt

Guillaume · Novembre 27, 2019, 2:30

merci !!!!!!!!!!!!!!!

Guillaume · Novembre 28, 2019, 12:52

Bonjour

ça m'embête de vous ennuyer encore avec ça, mais il se trouve qu'après discussion avec les développeurs, la nouvelle méthode qui m’intéresse vient juste d'être intégrée au code et ne sera distribuée que dans la prochaine release.

La seule façon de l'avoir dès maintenant est de récupérer le code depuis git et de compiler.
Je viens de le faire sur mon PC et ça c'est passé en 2 min sans problème apparent.
Cependant, je ne peux pas faire tourner le programme sur mon PC car pas assez de RAM.

Bref, vous est-il possible de télécharger le code et de le compiler sur les noeuds du cluster?

Voici la méthode indiquée dans le README, que j'ai suivie:

    Compiling MMseqs2 from source has the advantage that it will be optimized to the specific 
    system, which should improve its performance. To compile MMseqs2 `git`, `g++` (4.8 or later)
    and `cmake` (2.8.12 or later) are needed. Afterwards, the MMseqs2 binary will be located in the 
    `build/bin/` directory.

    git clone https://github.com/soedinglab/MMseqs2.git
    cd MMseqs2
    mkdir build
    cd build
    cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. ..
    make -j 4
    make install

Bonne journée
Guillaume

dbenaben · Novembre 28, 2019, 1:36

Bonjour Guillaume,

Vous nous ennuyer pas du tout.
Pour des versions en développement, en effet, il me semble préférable de compiler vous-même et pour vous le logiciel sur le cluster.

Il suffit de suivre exactement la même méthode en préfixant les commandes de compilation par srun.
Ces travaux de compilation se feront alors sur des nœuds de calcul (et pas sur le nœud de login).
On peut aussi préciser à srun les options Slurm comme --cpus-per-task=4 pour avoir plusieurs CPU.
Dans notre cas, cela donne:

srun git clone https://github.com/soedinglab/MMseqs2.git
cd MMseqs2
mkdir build
cd build
srun cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. ..
sun --cpus-per-task=4 make -j 4
srun make install

MMseqs2 est alors compilé et accessible (en précisant le chemin):

./bin/mmseqs version
e10238de0a096d98ef78e41d91711cc0bd07a205

Dites-nous signe si vous avez besoin de plus d'aide.

Bonne après-midi

Guillaume · Juillet 20, 2020, 6:41

Bonjour la team

Je remarque que les bases de données NR, uniprot, uniref installées sur le cluster commence à dater.
Serait il possible de faire une mise à jour et de les formater pour les softs les plus utilisés (BLAST, MMSEQS,DIAMOND,etc.)
JE veux bien contribuer de ces manips pour vous décharger si vous me donnez droit d'écriture dans le répertoire bank.
A+
Guillaume

gildaslecorguille · Juillet 28, 2020, 8:49

[X] /shared/bank/nr/nr_2020-7-19/mmseqs

gildaslecorguille · Juillet 29, 2020, 3:44

Bonjour @Guillaume,

J'ai refait le tour des banques et indexes demandés. Et je pense qu'on est à jour.
Désolé pour le manque de réactivité.

phingamp · Octobre 1, 2020, 2:46

Oh joli, mmseqs2 déployé avec ses index, ça c'est tip top !
Dans le temps, il fallait indexer sur le même type de machine que là où on faisait ensuite tourner les searchs, sinon ça crashait/swapait... Comme je crois comprendre du fil de discussion que les BD mmseqs2 semblent indexées sur un noeud "fat RAM", @Guillaume est-ce que tu joues avec les paramètres type --split-memory-limit ou --compress pour contenir les besoins en RAM lors des search ?
Bonne journée !

Guillaume · Octobre 1, 2020, 3:03

Salut Pascal

non je n'ai pas joué avec ces parametres. Je fais tout tourner sur bigmem (pour NR and co.), y compris indexage car les autres nœuds ne sont pas assez dimensionnés. Ca passe crème Du coup je n'ai pas été confronté au problème de crash que tu évoques.
A+
G

emendes · Mars 30, 2023, 9:36

Bonjour,

J'ai des problèmes pour faire tourner l'outil à cause des DBs (pour la taxonomie des contigs). Il y a des fichiers manquants dans les dossiers mmseqs de nr par exemple. Ce n'est pas à jour aussi car il faut aller dans des dossiers plus anciens (non current).

Je vais tester un autre outil (CAT) qui m'a l'air plus simple d'utilisation mais je tenais à vous dire que je ne peux pas faire tourner l'outil avec l'état actuel des DBs.

Merci

Guillaume · Juin 12, 2023, 10:58

Bonjour
pour ma part, je fais des copies locales des DBs récentes car trop compliqué de demander des mises jours à l'équipe admin
G+