본문 바로가기
Python/Data Exploration and Visualization

Exploratory Data Analysis with Python

by Quantrol 2023. 1. 24.
반응형

탐색적 데이터 분석(EDA)은 데이터 세트를 분석하고 이해하기 위한 접근 방식입니다. 이는 데이터 분석 프로세스에서 중요한 단계입니다. 통찰력을 얻고 추가 ​​분석 및 모델링을 알릴 수 있는 데이터의 패턴을 식별할 수 있기 때문입니다. 광범위한 강력한 라이브러리를 갖춘 Python은 탐색적 데이터 분석을 위한 이상적인 선택입니다. 이 기사에서는 EDA용 Python의 인기 있는 라이브러리를 탐색하고 이를 사용하여 데이터에서 통찰력을 얻는 방법을 보여줍니다.

 

Getting Started

Python을 사용한 EDA의 세부 사항을 살펴보기 전에 먼저 EDA가 무엇이고 왜 중요한지 논의해 보겠습니다. EDA는 탐색과 발견을 강조하는 데이터 분석 접근 방식입니다. 데이터를 더 잘 이해한다는 목표를 가지고 시각화를 만들고, 데이터를 요약하고, 패턴을 식별하는 프로세스입니다. EDA는 반복적인 프로세스이며 한 단계에서 얻은 통찰력은 다음 단계를 알릴 수 있습니다.

EDA용 Python에는 많은 라이브러리가 있지만 가장 인기 있는 라이브러리는 Pandas, Matplotlib 및 Seaborn입니다. 이 기사에서는 Python에서 EDA용으로 가장 널리 사용되는 라이브러리인 Pandas와 Seaborn을 사용합니다. 시작하려면 명령 프롬프트에서 다음 명령을 실행하여 Pandas 및 Seaborn을 설치해야 합니다.

 
pip install pandas seaborn​

 

라이브러리가 설치되면 데이터 탐색을 시작할 준비가 된 것입니다.

 

Pandas

Pandas는 Python에서 데이터 작업을 위한 강력한 라이브러리입니다. 스프레드시트와 유사한 DataFrame 개체를 제공하며 표 형식으로 데이터를 사용할 수 있습니다. Pandas를 사용하면 데이터를 쉽게 로드, 조작 및 분석할 수 있습니다. 또한 평균, 중앙값 및 표준편차와 같은 데이터 요약을 위한 다양한 기능을 제공합니다.

다음은 Pandas DataFrame에 데이터 세트를 로드하고 처음 몇 행을 표시하는 예입니다.

 

import pandas as pd

data = pd.read_csv('data.csv')
data.head()

 

이렇게 하면 데이터 세트의 처음 5개 행이 표시됩니다. head()함수에 정수를 전달하여 특정 수의 행을 표시할 수도 있습니다. 예를 들어 data.head(10)처음 10개 행을 표시합니다.

mean()Pandas는 또한 , median()및 와 같은 데이터 요약을 위한 다양한 기능을 제공합니다 std(). 다음은 데이터 세트에서 특정 열의 평균을 계산하는 예입니다.

 

data['column_name'].mean()

 

그러면 지정된 열에 있는 값의 평균이 계산됩니다.

 

Seaborn

Seaborn은 Python에서 아름답고 유익한 통계 시각화를 생성하기 위한 라이브러리입니다. Matplotlib 위에 구축되었으며 시각화 생성을 위한 높은 수준의 인터페이스를 제공합니다. Seaborn을 사용하면 히스토그램, 산점도 및 박스 플롯을 포함한 다양한 시각화를 쉽게 만들 수 있습니다.

다음은 Seaborn을 사용하여 히스토그램을 생성하는 예입니다.

 

import seaborn as sns

sns.histplot(data['column_name'])

 

이렇게 하면 지정된 열에 있는 값의 히스토그램이 생성됩니다. 함수에 추가 인수를 전달하여 시각화의 모양을 사용자 지정할 수도 있습니다. 예를 들어 색상 인수를 전달하여 막대의 색상을 변경할 수 있습니다.

 

sns.histplot(data['column_name'], color='red')

 

Seaborn은 또한 산점도 및 박스 플롯과 같은 다른 유형의 시각화를 생성하기 위한 다양한 기능을 제공합니다. 산점도를 만드는 예는 다음과 같습니다.

 

sns.scatterplot(x='column_name_x', y='column_name_y', data=data)

 

이렇게 하면 지정된 x 및 y 열에 있는 값의 산점도가 생성됩니다.

 

Conclusion

이 기사에서는 Python을 사용한 탐색적 데이터 분석의 기본 사항을 소개하고 인기 있는 라이브러리인 Pandas 및 Seaborn을 사용하여 데이터에서 통찰력을 얻는 방법을 보여 주었습니다. 이것은 Python을 사용한 EDA와 관련하여 빙산의 일각에 불과하지만 이 강력한 도구의 많은 가능성을 탐색하기 위한 좋은 출발점을 제공해야 합니다. Python을 사용하면 데이터를 쉽게 로드, 조작 및 분석하고 데이터를 이해하고 전달하는 데 도움이 되는 아름답고 유익한 시각화를 만들 수 있습니다.

반응형