본문 바로가기
실험실/Ph.D in Norway

Orion High Performance Computing (OHPC)

by 준준xy 2023. 7. 24.

연구원으로 있는 NMBU (Norwegian University of Life Sciences)에는 bioinformatic 분석을 위해 cluster를 구축하고 있으며,

현재 1680개의 CPU와 12T의 Ram 그리고 1 petabyte의 저장 공간을 가지고 있다. CIGENE computational unit | CIGENE

Orion이라 부르는데 (data를 사냥하는 목적이라 그런가…? 이름의 기원은 모르겠다.),

거대 데이터 분석에 대한 전문 지식이 전혀 없는 상태에서 시작하다 보니 정말 복잡하였지만,

이제는 조금 편해진 이 Orion에 대해 이야기 해보고자 한다.

 

Orion은 Linux 기반 서버로, 자신의 computer에서 secure shell (SSH)을 이용하거나 JupyterHub를 통해 연결할 수 있다.

mac terminal의 새하얀 바탕에서 글을 치는것이 아직도 어색하여,

terminal 자체에서만 돌려야 하는 tool을 제외하고는 보통 JupyterHub를 통해 Rstudio 소프트웨어를 열어서 작업을 한다.

(Rstudio의 장점은 file, code, terminal 3개를 동시에 볼 수 있다는 것과 그래픽 UI에 익숙해서 그런지 하얀 창만 있으면 생기는 울렁증 완화 기능이 있다.)

 

기본적으로 $HOME, $SCRATCH, 그리고 $PROJECT의 filesystem을 사용하는데,

$HOME은 보통 스크립트와 프로그램을 저장할 수 있는 개인 연구자의 기본 공간으로 200-300G가 할당된다.

그리고 보통 job을 돌린 결과물들은 SCRATCH에 output 되도록 설정을 하는데,

이 공간은 500G - 1T가 할당된다. (처음에는 엄청 많다고 생각했는데, 600M read의 Hi-C data 한 개를 돌리고 나니 약 480G의 용량을 사용하였다 / 전체가 results file은 아니고 job을 수행하면서 나오는 산물이 차지하는 용량이 훨씬 크다… )

 

기본적인 흐름은, $HOME에서 .sh file에 job script와 함께 pipeline의 script를 작성하고

sbatch 명령어를 통해 SLURM에 제출하는 것이다.

보통 pipeline을 돌리면 여러 bioinformatic tool을 돌리게 되어 conda, Docker, 또는 Singularity (apptainer) container를 사용하게 된다. container는 그러니까 여러 tool들의 install과 configuration에 신경 쓰지 않아도 되는 종합선물세트 같은 느낌이다.

 

'실험실 > Ph.D in Norway' 카테고리의 다른 글

23.09.01  (0) 2023.09.02
23.08.23  (0) 2023.08.24
Standing at the boundary between wet and dry laboratory area  (0) 2023.05.23
22.11.25  (2) 2022.11.27
22.09.04  (2) 2022.09.05