[Server Setting] GPU server setting

Issue가 있었던 부분이 있어서 정리하고자한다.

RTX 2080 ti 7way 서버를 조립 받아와서 부팅을 해왔더니 BIOS setting이 초기화되는 문제가 발생했다. 따라서 아래와 같이 BIOS setting을 해주었다.








이렇게해서 RTX 7개 짜리를 꽂고 ubuntu 18.04를 설치하려고 하니, 설치 후 부팅되는 순간 충돌이나는 현상을 맞닥뜨려서, 아래와 같이 해결해보고자 한다.

0. Ethernet 설정

1. RTX 7개를 다 빼고, GTX 1080 TI 하나를 꽂아서 ubuntu 18.04 설치
2. 최신 버전의 Nvidia-driver 를 https://www.geforce.com/drivers/results/148435 에서 설정(ubuntu)에 맞게 설치한다.
  1. cd Downloads/
  2. ls
    NVIDIA-Linux-x86_64–410.57.run #output of ls
  3. chmod +x NVIDIA-Linux-x86_64–410.57.run
    #to get permission to execute the run file.
  4. sudo ./NVIDIA-Linux-x86_64–410.57.run — no-x-check


* "중간에 X config file update할거냐"는 No를 선택하면된다.

3. Cuda 10.1 파일 다운로드: https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1804&target_type=runfilelocal

4. CuDNN 7.5.0 파일 다운로드: https://developer.nvidia.com/rdp/cudnn-archive



5. NCCL 설치:



6 Ubuntu 내장 driver blacklist 처리 및 cuda 10.1 설치

vi blacklist-nouveau.conf # 파일 생성, 아래의 내용을 입력

blacklist nouveau
options nouveau modeset=0

sudo apt-get purge nvidia-cuda* # cuda installation 되어있으면 삭제
CTRL+ALT+ F1 # GUI말고 terminal로 접속

sudo service lightdm stop # X-server disable
sudo -i # super user mode 접속
sudo cp /home/avin/blacklist-nouveau.conf /etc/modprobe.d
sudo update-initramfs -u
# 이후에, super user mode에서 exit 후 exit
cd Downloads/
md5sum cuda_10.0.130_410.48_linux.run
sudo sh cuda_10.0.130_410.48_linux.run # Q (skip) , accept 적절히 typing해줄것

아래의 내용을 ~/.profile 의 맨 밑에 추가

# set PATH for CUDA installation
if [ -d "/usr/local/cuda/bin/" ]; then
    export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
fi

/etc/environment에 큰 따옴표(")안에 :/usr/local/cuda/bin 추가 (sudo vi /etc/environment)

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/usr/local/cuda/bin"
source ~/.profile

sudo reboot

nvcc -V

8 CuDNN 7.5.0 설치 & 나머지(NCCL 설치 등)
이 이후부터는 https://2kangho.github.io/ServerResetting/ 에서 그대로 진행

댓글