LSF (GPU 스케쥴링) 명령어 사용법
=================주로사용하는 명령어============================
# 큐 확인
bqueues
# 큐 선택방법
Deep learning을 할거면 s822lc_p100nvme 라는 queue job을 submit
HPC을 할거면 s822lc_p100 라는 queue job을 submit
# 스케쥴링 걸어서 실행 (-x는 혼자 한장의 GPU만 쓰더라도 전체를 독점적으로 쓰겠다는 옵션)
bsub -R "select[ngpus>0] rusage[ngpus_excl_p=1]" -x -q s822lc_p100nvme PYTHONPATH=/~/bin/python /~/cifar10_main.py
# 수행 중인 Job-id에 대한 정보 (Job-id는 위에 스케쥴링 걸어서 실행하면 보여줌)
bhist -l Job-id
=================명령어 설명============================
bqueues : job을 submit할 큐의 정보를 보여줍니다
bsub : job을 큐에 submit 해줍니다
bjobs : 큐에 submit된 job의 상태를 보여줍니다
bhist : 현재 수행 중인, 혹은 이미 수행이 끝난 job의 history를 보여줍니다
bkill : submit되어 현재 수행 중인 상태의 job을 도중에 kill 시켜 줍니다
bhosts : 수퍼컴 클러스터 내의 노드들 상황을 보여줍니다.
==================예제===========================
# 쉘스크립트 작성
b7p193aa@p10login1:~$ cat cifar10.sh
#!/bin/bash
source /opt/DL/tensorflow/bin/tensorflow-activate
source /opt/DL/bazel/bin/bazel-activate
export FLOWERS_DIR=/gpfs/gpfs_gl4_16mb/b7p193aa/inception/models/inception
export INCEPTION_DIR=/gpfs/gpfs_gl4_16mb/b7p193aa/inception
/gpfs/gpfs_gl4_16mb/b7p193aa/inception/models/inception/bazel-bin/inception/flowers_train --train_dir=$FLOWERS_DIR/train --data_dir=$FLOWERS_DIR/data --pretrained_model_checkpoint_path=$INCEPTION_DIR/inception-v3/model.ckpt-157585 --fine_tune=True --initial_learning_rate=0.005 -input_queue_memory_factor=1 --max_steps=500 --num_gpus 4 --batch_size=64
# 실행
bsub -q s822lc_p100nvme /gpfs/gpfs_gl4_16mb/home/b7p193aa/cifar10.sh
# 결과
Job <113856> is submitted to queue <s822lc_p100nvme>
# 현재 작업 상황보기
bjobs 113856
# 작업 히스토리보기 (종료뒤에도 볼 수 있음)
bhist -l 113856
# 작업이 돌고 있는 상황 보기
bpeek 113856
# 작업 수행중 발생하는 에러를 기록하는 방법
bsub -q s822lc_p100nvme -e ./err.1 /gpfs/gpfs_gl4_16mb/home/b7p193aa/cifar10.sh
댓글
댓글 쓰기