본문 바로가기
반응형

KLUE2

35년치 뉴스 분류기 개발기 (2): A100의 I/O 병목과 54%의 배신 (시계열 드리프트) 1편에서는 프로젝트의 목표를 수립하고,훈련을 방해하던 치명적인 CUDA Assert Error(max_length=512)와 AttributeError(시각화 오타) 등의초기 버그를 모두 해결했습니다. 그리고 본격적으로 학습을 진행했는데A100에서 본격적으로 실행하자마자 '뭘 해도 1시간 46분'이라는 두 번째 벽에 부딪혔습니다. 이번엔 A100 GPU의 한계 성능을 끌어내는 최적화 과정과,그렇게 훈련된 모델의 충격적인 '과거 데이터' 성능 분석을 기록합니다.1. 🚀 [로그 1] A100 최적화: "뭘 해도 1시간 46분"A100(80GB VRAM)이라는 머신을 할당받았음에도, 훈련 속도가 기대만큼 나오지 않았습니다.[훈련 1차] (1시간 46분 소요)증상: A100 GPU임에도 VRAM을 15GB/8.. 2025. 11. 8.
35년치 뉴스 데이터 분류기 개발기 (1): 30개 라벨을 6개로, 그리고 첫 번째 CUDA Assert 삽질기 5년치(1990-2025)에 달하는 방대한 뉴스 데이터를 분류하는 AI 모델을 개발하는전 과정을 기록하는 기술 보고서의 첫 번째 편입니다.1. 🚀 프로젝트의 시작: 30개의 라벨과 2개의 질문모든 프로젝트는 '왜?'라는 질문에서 시작합니다. 우리가 가진 combined_articles.parquet 데이터는 수십만 건에 달하지만, 그대로 사용하기엔 두 가지 큰 문제가 있었습니다.라벨 문제 (Complication 1): sector1 라벨이 30개가 넘었습니다. '경제', '부동산', '머니랩'이 섞여있고, '피플', '세상과 함께' 등 기준이 모호한 라벨도 많았습니다.시계열 문제 (Complication 2): 데이터가 1990년부터 2025년까지 분포해, 시대별로 사용하는 용어, 문체, 토픽이 완전.. 2025. 11. 8.
반응형