SLURM: оповещения об изменении статуса задач по почте

Немного о SLURM.
Система управления ресурсами суперкомпьютеров SLURM умеет оповещать пользователей о статусе их задач по электронной почте. Для этого при запуске задачи нужно указать свой е-мейл и (в зависимости от версии slurm) тип событий, о которых мы хотим получать уведомления. Например, в результате исполнения команды

sbatch --mail-type=ALL --mail-user=myname@gmail.com -N1 -p test -J myNAMDjob impi ~/programs/namd testinput.inp

на адрес myname@gmail.com придёт сообщение с темой “SLURM Job_id=<jobid> Name=myNAMDjob Began, Queued time 00:00:25“. Когда задача досчитается (если досчитается), в сообщении вместо “Began” будет указано “Ended” и отражено время, в течение которого она считалась (Run time). Кроме того, slurm более поздних версий выдаст текущий статус (например, COMPLETED) и ExitCode (если всё в порядке, 0). Возможные значения --mail-typeBEGIN, END, FAIL, REQUEUE, и ALL.


Примечание 1. SLURM 2.5.6, что на Ломоносове-1 (t500), не позволяет указать --mail-type=END,FAIL (через запятую). Не знаю, может, нужен другой синтаксис?


Примечание 2. Необходимо учесть, что эти письма-уведомления всегда попадают в спам. Поэтому есть смысл создать у себя в ящике фильтр.


И напоследок приведу цитату с одного сайта:

Note: We recommend that you do NOT include a command for the batch system to send an email when the job has finished, particularly if you are running large amounts of jobs. The reason for this is that many mail servers have a limit and may block accounts (or domains) temporarily if they send too many mails. Instead use

scontrol show job <jobid>

or

squeue -l -u <username>

Так что использовать эту возможность лучше только в самых крайних случаях. Но помнить о ней полезно.

Leave a Reply