본문 바로가기
반응형

pytorch4

35년치 뉴스 분류기 개발기 (2): A100의 I/O 병목과 54%의 배신 (시계열 드리프트) 1편에서는 프로젝트의 목표를 수립하고,훈련을 방해하던 치명적인 CUDA Assert Error(max_length=512)와 AttributeError(시각화 오타) 등의초기 버그를 모두 해결했습니다. 그리고 본격적으로 학습을 진행했는데A100에서 본격적으로 실행하자마자 '뭘 해도 1시간 46분'이라는 두 번째 벽에 부딪혔습니다. 이번엔 A100 GPU의 한계 성능을 끌어내는 최적화 과정과,그렇게 훈련된 모델의 충격적인 '과거 데이터' 성능 분석을 기록합니다.1. 🚀 [로그 1] A100 최적화: "뭘 해도 1시간 46분"A100(80GB VRAM)이라는 머신을 할당받았음에도, 훈련 속도가 기대만큼 나오지 않았습니다.[훈련 1차] (1시간 46분 소요)증상: A100 GPU임에도 VRAM을 15GB/8.. 2025. 11. 8.
35년치 뉴스 데이터 분류기 개발기 (1): 30개 라벨을 6개로, 그리고 첫 번째 CUDA Assert 삽질기 5년치(1990-2025)에 달하는 방대한 뉴스 데이터를 분류하는 AI 모델을 개발하는전 과정을 기록하는 기술 보고서의 첫 번째 편입니다.1. 🚀 프로젝트의 시작: 30개의 라벨과 2개의 질문모든 프로젝트는 '왜?'라는 질문에서 시작합니다. 우리가 가진 combined_articles.parquet 데이터는 수십만 건에 달하지만, 그대로 사용하기엔 두 가지 큰 문제가 있었습니다.라벨 문제 (Complication 1): sector1 라벨이 30개가 넘었습니다. '경제', '부동산', '머니랩'이 섞여있고, '피플', '세상과 함께' 등 기준이 모호한 라벨도 많았습니다.시계열 문제 (Complication 2): 데이터가 1990년부터 2025년까지 분포해, 시대별로 사용하는 용어, 문체, 토픽이 완전.. 2025. 11. 8.
[QUANT] 주가 예측 논문: Accurate Multivariate Stock Movement Prediction via Data-Axis 1. 논문 개요"Accurate Multivariate Stock Movement Prediction via Data-Axis Transformer with Multi-Level Contexts" (DTML)는 주식 가격의 상승/하락을 예측하는 모델로, Transformer를 활용해 주식 간 동적/비대칭 상관관계를 학습합니다. 기존 모델이 개별 주식만 보거나 고정된 섹터 정보를 썼다면, DTML은 end-to-end 방식으로 상관관계를 자동 추출합니다.목표: 다변량 주식 데이터를 활용해 정확한 움직임 예측.데이터셋: US(ACL18, KDD17, NDX100), China(CSI300), Japan(NI225), UK(FTSE100).성과: SOTA 달성(최대 ACC 57.44%, MCC 19.10%),.. 2025. 3. 20.
Machine Learning with Python Python은 데이터 분석 및 기계 학습에 널리 사용되는 다목적 프로그래밍 언어입니다. 다양한 라이브러리와 프레임워크를 갖춘 Python을 사용하면 기계 학습 알고리즘을 쉽게 구현하고 예측 모델을 구축할 수 있습니다. 이 기사에서는 Python을 사용한 기계 학습의 기본 사항을 살펴보고 기계 학습을 위한 가장 인기 있는 라이브러리 및 프레임워크를 소개합니다. Types of Machine Learning 기계 학습은 알고리즘을 사용하여 데이터에서 학습하는 것과 관련된 인공 지능의 하위 분야입니다. 지도 학습, 비지도 학습 및 강화 학습의 세 가지 주요 범주로 나눌 수 있습니다. ① Supervised Learning 감독 학습은 레이블이 지정된 데이터를 사용하여 예측을 수행하도록 모델을 훈련시키는 프로세.. 2023. 1. 25.
반응형