반응형 AI/DeepLearning5 35년치 뉴스 분류기 개발기 (2): A100의 I/O 병목과 54%의 배신 (시계열 드리프트) 1편에서는 프로젝트의 목표를 수립하고,훈련을 방해하던 치명적인 CUDA Assert Error(max_length=512)와 AttributeError(시각화 오타) 등의초기 버그를 모두 해결했습니다. 그리고 본격적으로 학습을 진행했는데A100에서 본격적으로 실행하자마자 '뭘 해도 1시간 46분'이라는 두 번째 벽에 부딪혔습니다. 이번엔 A100 GPU의 한계 성능을 끌어내는 최적화 과정과,그렇게 훈련된 모델의 충격적인 '과거 데이터' 성능 분석을 기록합니다.1. 🚀 [로그 1] A100 최적화: "뭘 해도 1시간 46분"A100(80GB VRAM)이라는 머신을 할당받았음에도, 훈련 속도가 기대만큼 나오지 않았습니다.[훈련 1차] (1시간 46분 소요)증상: A100 GPU임에도 VRAM을 15GB/8.. 2025. 11. 8. 35년치 뉴스 데이터 분류기 개발기 (1): 30개 라벨을 6개로, 그리고 첫 번째 CUDA Assert 삽질기 5년치(1990-2025)에 달하는 방대한 뉴스 데이터를 분류하는 AI 모델을 개발하는전 과정을 기록하는 기술 보고서의 첫 번째 편입니다.1. 🚀 프로젝트의 시작: 30개의 라벨과 2개의 질문모든 프로젝트는 '왜?'라는 질문에서 시작합니다. 우리가 가진 combined_articles.parquet 데이터는 수십만 건에 달하지만, 그대로 사용하기엔 두 가지 큰 문제가 있었습니다.라벨 문제 (Complication 1): sector1 라벨이 30개가 넘었습니다. '경제', '부동산', '머니랩'이 섞여있고, '피플', '세상과 함께' 등 기준이 모호한 라벨도 많았습니다.시계열 문제 (Complication 2): 데이터가 1990년부터 2025년까지 분포해, 시대별로 사용하는 용어, 문체, 토픽이 완전.. 2025. 11. 8. Chain-of-Tools: LLM이 처음 보는 도구도 척척 활용하는 기술 (Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models) 한눈에 보는 Chain-of-ToolsChain-of-Tools(CoTools)는 대규모 언어 모델(LLM)이 학습하지 않은 도구까지 자유롭게 활용할 수 있게 하는 혁신적인 방법입니다. 기존의 도구 학습 방식과 달리, 언어 모델을 동결(frozen)한 상태로 유지하면서도 수천 개의 다양한 도구를 효과적으로 선택하고 활용할 수 있는 기술입니다. 마치 처음 보는 앱이나 웹사이트를 직관적으로 사용할 수 있는 것처럼, Chain-of-Tools는 LLM이 처음 접하는 도구도 그 설명만 보고 적절하게 활용할 수 있게 해줍니다. 더 나아가 이 기술은 LLM의 본래 추론 능력을 해치지 않으면서도 외부 도구의 힘을 빌릴 수 있게 하는 균형을 실현했습니다.왜 Chain-of-Tools가 중요한가?최근 다양한 외부 도구와.. 2025. 3. 26. DNN 회귀 모델 스크레치 구현 및 역전파 완전 정리로 빠르게 복습하기 1. 개요본 글에서는 Python으로 딥러닝 기반 회귀 모델을 스크래치로 구현하고, 역전파 과정에서 발생하는 수식을 체계적으로 정리한다. 특히, 체인룰(Chain Rule)에 따라 손실 함수, 출력층 및 은닉층에서의 기울기 계산이 어떤 논리로 이루어지는지 명확히 설명한다. 가중치와 편향의 미분이 어떻게 전개되는지, 행렬 미분에서 전치 연산이 필요한 이유를 포함해 완벽하게 이해하는 것을 목표로 한다.2. 회귀 모델 구조 및 데이터 생성기본적인 회귀 문제는 다음과 같은 3차 다항식을 따르는 데이터셋을 생성하는 것으로 시작한다.import numpy as npimport matplotlib.pyplot as plt# 데이터 생성np.random.seed(42)X = np.random.rand(100, 1) *.. 2025. 3. 24. [DL] Transformer 코드로 공부하기 Transformer를 코드로 이해해보기 위해 작성한 포스팅이다.파이토치에 이미 nn.Transformer로 구현되어있지만사용하지 않고 직접 Pytorch Layer들로 구현하고자 한다.학습 데이터한국어 챗봇 훈련용 대화 데이터셋으로자주 사용되는 ChatbotData.csv를학습용 데이터로 사용하고자 한다.import urllib.requestimport pandas as pdurllib.request.urlretrieve("https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv", filename="ChatBotData.csv")data_df = pd.read_csv('ChatBotData.csv')data_df.head.. 2025. 3. 15. 이전 1 다음 반응형