슈퍼컴퓨터에서 멀티노드기반 분산딥러닝하기

Date:

최근에 구축되는 Top10 슈퍼컴퓨터들은 한 노드에 최신 GPU 4~8개를 장착하고 있다. 본 세션에서는 슈퍼컴퓨터에서의 멀티 GPU노드를 활용한 대규모 분산딥러닝하기 Best Practices를 소개한다. (1)슈퍼컴퓨터에 접속해서 (2)각자의 가상 환경을 만들고 (3)온라인으로 GPU 1~2개를 할당받아 터미널 또는 주피터 환경에서 분산딥러닝 코드를 개발 및 테스트 한 후에 (4)배치 작업을 통해서 대규모 분산딥러닝 작업을 실행하는 슈퍼컴퓨터에서의 AI/DL 연구프로세스에 대해서 공유하고 의견을 나누고자 한다.

구분주제주요 내용
강의분산딥런닝 방법론 소개- 분산딥러닝 개요
- 데이터 병렬화
- 모델 병렬화
- Horovod vs. Pytorch Lightning 분산딥러닝 프레임워크 소개
데모KISTI GPU 클러스터(뉴론)
와 미국 LBNL/NERSC 슈퍼
컴퓨터(펄뮤터) 접속 및 시연
- Conda & Horovod 설치
- Horovod기반 분산딥러닝 시연
- Singularity 컨테이너 및 주피터 시연
- Pytorch Lightning+SLURM 분산딥러닝 맛보기

2023 한국인공지능학회 하계학술대회