LSF (GPU 스케쥴링) 명령어 사용법
=================주로사용하는 명령어============================ # 큐 확인 bqueues # 큐 선택방법 Deep learning을 할거면 s822lc_p100nvme 라는 queue job을 submit HPC을 할거면 s822lc_p100 라는 queue job을 submit # 스케쥴링 걸어서 실행 (-x는 혼자 한장의 GPU만 쓰더라도 전체를 독점적으로 쓰겠다는 옵션) bsub -R "select[ngpus>0] rusage[ngpus_excl_p=1]" -x -q s822lc_p100nvme PYTHONPATH=/~/bin/python /~/cifar10_main.py # 수행 중인 Job-id에 대한 정보 (Job-id는 위에 스케쥴링 걸어서 실행하면 보여줌) bhist -l Job-id =================명령어 설명============================ bqueues : job을 submit할 큐의 정보를 보여줍니다 bsub : job을 큐에 submit 해줍니다 bjobs : 큐에 submit된 job의 상태를 보여줍니다 bhist : 현재 수행 중인, 혹은 이미 수행이 끝난 job의 history를 보여줍니다 bkill : submit되어 현재 수행 중인 상태의 job을 도중에 kill 시켜 줍니다 bhosts : 수퍼컴 클러스터 내의 노드들 상황을 보여줍니다. ==================예제=========================== # 쉘스크립트 작성 b7p193aa@p10login1:~$ cat cifar10.sh #!/bin/bash source /opt/DL/tensorflow/bin/tensorflow-activate source /opt/DL/bazel/bin/bazel-activate export FLOWERS_DIR=/gpfs/gpfs_gl4_16mb/...
댓글
댓글 쓰기