본문 바로가기

잡동사니 블로그

검색하기
잡동사니 블로그
프로필사진 코딩부대찌개

  • 분류 전체보기 (75)
    • Python (16)
      • 백준 (31)
    • 회고 (8)
    • Jetson nano (1)
    • 공부용 (17)
    • R (1)
    • Ruby (1)
Guestbook
Notice
Recent Posts
Recent Comments
Link
«   2025/01   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록2025/01 (1)

잡동사니 블로그

Gradient Accumulation

Gradient Accumulation은 메모리 제약이 있는 환경에서 큰 batch를 가진 것과 같은 효과를 구현하기 위한 학습 기법으로 작은 크기의 mini-batch를 여러 번 처리하며 Gradient를 누적(accumulate)하고, 누적이 끝난 뒤에 Optimizer를 업데이트하는 방식으로 작동함. Gradient Accumulation가 필요한 이유?1.1. GPU 메모리 한계배치 크기를 늘리면 더 많은 데이터와 모델 파라미터를 메모리에 로드해야 하며, 이는 종종 GPU 메모리 부족 문제를 일으킴.1.2. 큰 배치 크기의 이점Gradient 안정성: Gradient의 분산을 줄여 학습이 더 안정적임.일반화 성능: 큰 배치 크기는 모델이 더 일반화된 패턴을 학습하도록 함.model.train() ..

공부용 2025. 1. 1. 15:37
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바