슈퍼컴퓨터에서 멀티노드기반 분산딥러닝하기
Date:
최근에 구축되는 Top10 슈퍼컴퓨터들은 한 노드에 최신 GPU 4~8개를 장착하고 있다. 본 세션에서는 슈퍼컴퓨터에서의 멀티 GPU노드를 활용한 대규모 분산딥러닝하기 Best Practices를 소개한다. (1)슈퍼컴퓨터에 접속해서 (2)각자의 가상 환경을 만들고 (3)온라인으로 GPU 1~2개를 할당받아 터미널 또는 주피터 환경에서 분산딥러닝 코드를 개발 및 테스트 한 후에 (4)배치 작업을 통해서 대규모 분산딥러닝 작업을 실행하는 슈퍼컴퓨터에서의 AI/DL 연구프로세스에 대해서 공유하고 의견을 나누고자 한다.
구분 | 주제 | 주요 내용 |
---|---|---|
강의 | 분산딥런닝 방법론 소개 | - 분산딥러닝 개요 - 데이터 병렬화 - 모델 병렬화 - Horovod vs. Pytorch Lightning 분산딥러닝 프레임워크 소개 |
데모 | KISTI GPU 클러스터(뉴론) 와 미국 LBNL/NERSC 슈퍼 컴퓨터(펄뮤터) 접속 및 시연 | - Conda & Horovod 설치 - Horovod기반 분산딥러닝 시연 - Singularity 컨테이너 및 주피터 시연 - Pytorch Lightning+SLURM 분산딥러닝 맛보기 |