oui oui pas de problème
Les index on été copiés dans /shared/bank/nr/current/mmseqs/
(nr.idx
, nr.idx.dbtype
, nr.idx.index
).
Merci pour l'aide !
Ca devrait aussi être bon pour uniref90. Ca devrait !
Bonjour
j'ai refait le formatage de NR avec la nouvelle version installée le 7 octobre sur le cluster
Serait il possible de remplacer les fichiers qui sont dans /shared/bank/nr/current/mmseqs par ceux dispo dans /shared/projects/phycovir/FORMATED_DB/nr/
Merci
Guillaume
Bonjour Guillaume,
C'est fait.
Les anciens fichiers ont été gardé sous /shared/bank/nr/current/mmseqs.2019-04-24
Les nouveaux fichiers dans /shared/bank/nr/current/mmseqs
On notera que les noms des fichiers ont changés:
$ ls /shared/bank/nr/current/mmseqs.2019-04-24/
nr nr.dbtype nr_h nr_h.dbtype nr_h.index nr.idx nr.idx.0 nr.idx.dbtype nr.idx.index nr.idx.index.0 nr.index nr.lookup
$ ls /shared/bank/nr/current/mmseqs
nr.mmdb nr.mmdb.dbtype nr.mmdb_h nr.mmdb_h.dbtype nr.mmdb_h.index nr.mmdb.idx nr.mmdb.idx.dbtype nr.mmdb.idx.index nr.mmdb.index nr.mmdb.lookup
Bonne journée
Bonjour David
j'ai ajouté un formatage de la base pour pouvoir travailler sur les informations taxonomiques.
Pourrais tu ajouter les fichiers suivants au dossier partagé:
cd /shared/projects/phycovir/FORMATED_DB/nr
cp nr.mmdb_mapping nr.mmdb_names.dmp nr.mmdb_nodes.dmp nr.mmdb_merged.dmp rr.mmdb_delnodes.dmp /shared/bank/nr/current/mmseqs
Je compte aussi générer ces mêmes fichiers pour la base uniref90 dont je me sers souvent.
Sera t-il possible de les déposer aussi sur /shared/bank/ ?
merci
Guillaume
Bonjour Guillaume,
Les fichiers indiqués ont été déposés dans /shared/bank/nr/current/mmseqs
$ ls /shared/bank/nr/current/mmseqs
nr.mmdb nr.mmdb_delnodes.dmp nr.mmdb_h.dbtype nr.mmdb.idx nr.mmdb.idx.index nr.mmdb.lookup nr.mmdb_merged.dmp nr.mmdb_nodes.dmp
nr.mmdb.dbtype nr.mmdb_h nr.mmdb_h.index nr.mmdb.idx.dbtype nr.mmdb.index nr.mmdb_mapping nr.mmdb_names.dmp
Pour uniref90, Gildas a déjà déposé une version (datant de juillet 2019)
$ ls -l /shared/bank/uniref90/
total 5897
lrwxrwxrwx 1 glecorguille glecorguille 16 Oct 8 10:26 current -> uniref90_2019_07
drwxrwxr-x 6 glecorguille glecorguille 3033297 Apr 24 2019 uniref90_2018-10-10
drwxrwxr-x 5 glecorguille glecorguille 3004249 Oct 8 09:56 uniref90_2019_07
Je pense qu'il y a pas de souçis si vous voulez mettre à jour.
De la même façon, je pourrais les déposer pour vous.
A bientôt
Bonjour
serait il possible d'installer la toute dernière version de MMSEQ2 (V10) qui intègre de nouvelles méthodes qui ne sont pas dispos sur la vieille version installée (V8) sur le cluster?
Meurci
Guillaume
Bonjour Guillaume,
L'installation est en cours: https://gitlab.com/ifb-elixirfr/cluster/conda-env/merge_requests/169
On revient vers vous dès que c'est installé.
Bonne journée
Guillaume,
mmseq2 est maintenant disponible en dernière version (10-6d92c, 23/08/2019). Merci @Francois
module load mmseqs2/10-6d92c
A bientôt
merci !!!!!!!!!!!!!!!
Bonjour
ça m'embête de vous ennuyer encore avec ça, mais il se trouve qu'après discussion avec les développeurs, la nouvelle méthode qui m’intéresse vient juste d'être intégrée au code et ne sera distribuée que dans la prochaine release.
La seule façon de l'avoir dès maintenant est de récupérer le code depuis git et de compiler.
Je viens de le faire sur mon PC et ça c'est passé en 2 min sans problème apparent.
Cependant, je ne peux pas faire tourner le programme sur mon PC car pas assez de RAM.
Bref, vous est-il possible de télécharger le code et de le compiler sur les noeuds du cluster?
Voici la méthode indiquée dans le README, que j'ai suivie:
Compiling MMseqs2 from source has the advantage that it will be optimized to the specific
system, which should improve its performance. To compile MMseqs2 `git`, `g++` (4.8 or later)
and `cmake` (2.8.12 or later) are needed. Afterwards, the MMseqs2 binary will be located in the
`build/bin/` directory.
git clone https://github.com/soedinglab/MMseqs2.git
cd MMseqs2
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. ..
make -j 4
make install
Bonne journée
Guillaume
Bonjour Guillaume,
Vous nous ennuyer pas du tout.
Pour des versions en développement, en effet, il me semble préférable de compiler vous-même et pour vous le logiciel sur le cluster.
Il suffit de suivre exactement la même méthode en préfixant les commandes de compilation par srun
.
Ces travaux de compilation se feront alors sur des nœuds de calcul (et pas sur le nœud de login).
On peut aussi préciser à srun les options Slurm comme --cpus-per-task=4
pour avoir plusieurs CPU.
Dans notre cas, cela donne:
srun git clone https://github.com/soedinglab/MMseqs2.git
cd MMseqs2
mkdir build
cd build
srun cmake -DCMAKE_BUILD_TYPE=RELEASE -DCMAKE_INSTALL_PREFIX=. ..
sun --cpus-per-task=4 make -j 4
srun make install
MMseqs2 est alors compilé et accessible (en précisant le chemin):
./bin/mmseqs version
e10238de0a096d98ef78e41d91711cc0bd07a205
Dites-nous signe si vous avez besoin de plus d'aide.
Bonne après-midi
Bonjour la team
Je remarque que les bases de données NR, uniprot, uniref installées sur le cluster commence à dater.
Serait il possible de faire une mise à jour et de les formater pour les softs les plus utilisés (BLAST, MMSEQS,DIAMOND,etc.)
JE veux bien contribuer de ces manips pour vous décharger si vous me donnez droit d'écriture dans le répertoire bank.
A+
Guillaume
- [X] /shared/bank/nr/nr_2020-7-19/mmseqs
Bonjour @Guillaume,
J'ai refait le tour des banques et indexes demandés. Et je pense qu'on est à jour.
Désolé pour le manque de réactivité.
Oh joli, mmseqs2 déployé avec ses index, ça c'est tip top !
Dans le temps, il fallait indexer sur le même type de machine que là où on faisait ensuite tourner les searchs, sinon ça crashait/swapait... Comme je crois comprendre du fil de discussion que les BD mmseqs2 semblent indexées sur un noeud "fat RAM", @Guillaume est-ce que tu joues avec les paramètres type --split-memory-limit ou --compress pour contenir les besoins en RAM lors des search ?
Bonne journée !
Salut Pascal
non je n'ai pas joué avec ces parametres. Je fais tout tourner sur bigmem (pour NR and co.), y compris indexage car les autres nœuds ne sont pas assez dimensionnés. Ca passe crème Du coup je n'ai pas été confronté au problème de crash que tu évoques.
A+
G
Bonjour,
J'ai des problèmes pour faire tourner l'outil à cause des DBs (pour la taxonomie des contigs). Il y a des fichiers manquants dans les dossiers mmseqs de nr par exemple. Ce n'est pas à jour aussi car il faut aller dans des dossiers plus anciens (non current).
Je vais tester un autre outil (CAT) qui m'a l'air plus simple d'utilisation mais je tenais à vous dire que je ne peux pas faire tourner l'outil avec l'état actuel des DBs.
Merci
Bonjour
pour ma part, je fais des copies locales des DBs récentes car trop compliqué de demander des mises jours à l'équipe admin
G+