NVIDIA의 GPU, CUDA, PyTorch, TensorRT

AI/ETC

NVIDIA의 GPU, CUDA, PyTorch, TensorRT

칼쵸쵸 2025. 3. 10. 22:27

NVIDIA GPU와 CUDA의 관계

CUDA(Compute Unified Device Architecture)는 NVIDIA에서 개발한 병렬 컴퓨팅 플랫폼으로, GPU의 강력한 병렬 처리 능력을 활용하여 일반적인 계산 작업을 가속화합니다. 이는 그래픽 처리뿐만 아니라 과학 계산, 머신 러닝 등 다양한 분야에서 활용됩니다.

GPU 아키텍처별 지원하는 CUDA 버전:GPU 모델아키텍처지원 가능한 CUDA 최소 버전

GPU 모델 아키텍처 지원 가능한 CUDA 최소 버전

P40 Pascal CUDA 8.0 이상

T4 Turing CUDA 10.0 이상

A100 Ampere CUDA 11.0 이상

H100 Hopper CUDA 12.0 이상

주의: 최신 CUDA 버전은 이전 GPU 아키텍처와의 호환성을 유지하지만, 최신 GPU의 기능을 완전히 활용하려면 해당 GPU가 요구하는 최소 CUDA 버전을 사용하는 것이 중요합니다.

NVIDIA는 다양한 용도와 성능 요구 사항을 충족시키기 위해 여러 세대의 GPU를 출시해 왔습니다. 아래는 P40, T4, A100, H100을 포함한 주요 NVIDIA GPU의 성능과 특징을 정리한 표입니다.

GPU 모델	아키텍처	출시일	CUDA 코어 수	메모리	대역폭	주요 특징
P40	Pascal	2016년	3,840	24GB GDDR5	346 GB/s	고성능 컴퓨팅 및 딥러닝 추론에 최적화
T4	Turing	2018년	2,560	16GB GDDR6	320 GB/s	에너지 효율성이 높으며, AI 추론 및 그래픽 작업에 적합
A100	Ampere	2020년	6,912	40GB 또는 80GB HBM2e	1,555 GB/s	고성능 컴퓨팅, AI 학습 및 추론에 최적화
H100	Hopper	2022년	8,192	80GB HBM3	2,000 GB/s	차세대 고성능 컴퓨팅 및 AI 워크로드에 최적화
RTX 5090	Blackwell	2025년	21,760	32GB GDDR7	1,792 GB/s	최고 수준의 게임 및 그래픽 성능 제공

참고 사항:

P40: Pascal 아키텍처 기반으로, 딥러닝 추론 및 고성능 컴퓨팅 작업에 사용되었습니다.
T4: Turing 아키텍처를 채택하여 에너지 효율성이 높고, AI 추론 및 그래픽 작업에 널리 활용되었습니다.
A100: Ampere 아키텍처 기반으로, 대규모 AI 학습 및 추론, 고성능 컴퓨팅에 최적화되었습니다.
H100: Hopper 아키텍처를 적용하여 이전 세대보다 향상된 성능과 메모리 대역폭을 제공합니다.

CPU 코어와 CUDA 코어

CPU 코어와 CUDA 코어는 모두 연산 작업을 수행하는 프로세서의 기본 단위이지만, 그 설계 목적과 구조에는 차이가 있습니다.

CPU 코어:

설계 목적: 순차적 작업 처리와 낮은 지연 시간에 최적화되어 있습니다.
구조: 상대적으로 적은 수의 코어(일반적으로 4~16개)를 가지고 있으며, 각 코어는 복잡한 제어 로직과 큰 캐시 메모리를 포함하여 다양한 작업을 빠르게 처리할 수 있습니다.
특징: 높은 클럭 속도와 복잡한 연산 처리를 통해 단일 또는 소수의 스레드를 효율적으로 처리합니다.

CUDA 코어:

설계 목적: 대규모 병렬 처리를 통해 높은 처리량을 제공하도록 최적화되어 있습니다.
구조: 수백에서 수천 개의 간단한 코어로 구성되어 있으며, 각 코어는 단순한 연산을 수행하도록 설계되어 대량의 데이터를 동시에 처리할 수 있습니다.
특징: 낮은 클럭 속도와 단순한 제어 로직을 통해 에너지 효율성을 높이고, 대규모 병렬 연산을 효율적으로 수행합니다.

비교 요약:

코어 수: CPU는 적은 수의 복잡한 코어를, GPU는 많은 수의 단순한 코어를 가집니다.
처리 방식: CPU는 순차적 처리에, GPU는 병렬 처리에 최적화되어 있습니다.
용도: CPU는 일반적인 컴퓨팅 작업에, GPU는 그래픽 처리 및 병렬 연산이 필요한 작업에 주로 사용됩니다.

이러한 차이로 인해 CPU와 GPU는 각기 다른 작업 부하에 대해 최적의 성능을 발휘하며, 현대 컴퓨팅 환경에서는 두 프로세서의 협업을 통해 다양한 작업을 효율적으로 처리합니다.

PyTorch와 CUDA의 관계

PyTorch는 Python 기반의 오픈 소스 머신 러닝 라이브러리로, 자연어 처리와 컴퓨터 비전과 같은 분야에서 널리 사용됩니다. PyTorch는 CUDA를 지원하여 NVIDIA GPU를 활용한 고속 연산을 가능하게 합니다.

PyTorch 버전별 지원하는 CUDA 버전:PyTorch 버전지원하는 CUDA 버전

PyTorch 버전 지원하는 CUDA 버전

1.8 10.2, 11.1

1.9 10.2, 11.1

1.10 10.2, 11.3

1.11 10.2, 11.3

1.12 10.2, 11.6

1.13 11.6

2.0 11.7, 11.8

2.1 11.8, 12.1

참고: PyTorch는 CUDA와의 호환성을 위해 다양한 버전의 빌드를 제공합니다. 따라서, 사용 중인 GPU와 CUDA 버전에 맞는 PyTorch 버전을 선택하여 설치하는 것이 중요합니다.

TensorRT와의 통합

TensorRT는 NVIDIA의 딥러닝 추론 최적화 라이브러리로, 모델의 추론 속도를 크게 향상시킵니다. PyTorch와 TensorRT의 통합은 Torch-TensorRT를 통해 이루어지며, 이는 PyTorch에서 학습한 모델을 TensorRT로 변환하여 추론 성능을 최대 6배까지 향상시킬 수 있습니다.

Torch-TensorRT 사용 예시:

import torch
import torch_tensorrt

model = MyModel().eval().cuda()  # 모델 정의
inputs = [torch.randn((1, 3, 224, 224)).cuda()]  # 입력 데이터 정의

# Torch-TensorRT를 사용하여 모델 최적화
optimized_model = torch_tensorrt.compile(model, inputs=inputs, enabled_precisions={torch.float})

nvidia/pytorch 컨테이너 버전별 주요 변경 사항

# NVIDIA PyTorch 최신 컨테이너 사용
FROM nvcr.io/nvidia/pytorch:25.02-py3

NVIDIA는 딥러닝 프레임워크와 라이브러리의 호환성을 유지하기 위해 정기적으로 컨테이너를 업데이트합니다. 아래는 주요 변경 사항이 있었던 컨테이너 버전의 목록입니다:

https://docs.nvidia.com/deeplearning/frameworks/pytorch-release-notes/rel-25-02.html

PyTorch Release 25.02 - NVIDIA Docs

NVIDIA Optimized Frameworks

docs.nvidia.com

컨테이너 버전	Ubuntu 버전	Python 버전	CUDA 버전	PyTorch 버전	TensorRT 버전	주요 변경 사항
25.02	24.04	3.12	12.8.0.38	2.7.0a0	10.8.0.43	Ubuntu 24.04 및 Python 3.12로 업그레이드
23.06	22.04	3.10	12.0	2.1.0a0	8.6.1	CUDA 12.0 지원 시작
22.08	22.04	3.10	11.7	1.13.0a0	8.5.2	Ubuntu 22.04 및 Python 3.10으로 업그레이드
21.03	20.04	3.8	11.2	1.8.0a0	7.2.2	Ubuntu 20.04 및 Python 3.8로 업그레이드
20.06	18.04	3.6	11.0	1.6.0a0	7.0.0	CUDA 11.0 지원 시작
20.01	18.04	3.6	10.1	1.4.0a0	6.0.1	초기 릴리스

참고: 각 컨테이너 버전은 해당 시점의 최신 소프트웨어 스택을 포함하고 있으며, 새로운 기능과 성능 향상을 제공합니다. 따라서, 프로젝트의 요구 사항과 사용 중인 하드웨어에 맞게 적절한 버전을 선택하는 것이 중요합니다.

저작자표시 (새창열림)

'AI > ETC' 카테고리의 다른 글

Open WebUI 설치 및 사용법 (0)	2025.01.18
Scikit-learn을 활용한 데이터 처리와 성능 평가 (0)	2022.05.13

현재글NVIDIA의 GPU, CUDA, PyTorch, TensorRT

칼의 치치