목록2025/01 (1)
잡동사니 블로그

Gradient Accumulation은 메모리 제약이 있는 환경에서 큰 batch를 가진 것과 같은 효과를 구현하기 위한 학습 기법으로 작은 크기의 mini-batch를 여러 번 처리하며 Gradient를 누적(accumulate)하고, 누적이 끝난 뒤에 Optimizer를 업데이트하는 방식으로 작동함. Gradient Accumulation가 필요한 이유?1.1. GPU 메모리 한계배치 크기를 늘리면 더 많은 데이터와 모델 파라미터를 메모리에 로드해야 하며, 이는 종종 GPU 메모리 부족 문제를 일으킴.1.2. 큰 배치 크기의 이점Gradient 안정성: Gradient의 분산을 줄여 학습이 더 안정적임.일반화 성능: 큰 배치 크기는 모델이 더 일반화된 패턴을 학습하도록 함.model.train() ..
공부용
2025. 1. 1. 15:37