본문 바로가기
Python/Data Exploration and Visualization

Data Visualization 101 with Python

by Quantrol 2023. 1. 24.
반응형

데이터 시각화는 복잡한 데이터 세트를 이해하고 전달하기 위한 강력한 도구입니다. 이를 통해 원시 데이터에서 즉시 명확하지 않을 수 있는 패턴과 추세를 탐색하고 결과를 명확하고 설득력 있는 방식으로 전달할 수 있습니다. Python은 광범위한 강력한 라이브러리와 사용하기 쉬운 구문 덕분에 데이터 시각화를 위한 가장 인기 있는 프로그래밍 언어 중 하나입니다. 이 기사에서는 Python을 사용한 데이터 시각화의 기본 사항을 소개하고 첫 번째 시각화를 만드는 방법을 보여줍니다.

 

Getting Started

Python을 사용한 데이터 시각화의 세부 사항을 살펴보기 전에 먼저 데이터 시각화가 무엇이고 왜 중요한지 논의해 보겠습니다. 데이터 시각화는 정보를 탐색하고 전달하기 위해 데이터를 그래픽으로 표현하는 프로세스입니다. 여기에는 간단한 막대 차트에서 더 복잡한 대화형 시각화에 이르기까지 모든 것이 포함될 수 있습니다. 데이터 시각화의 목표는 사람들이 통계나 데이터 분석에 대한 배경 지식이 없더라도 데이터를 쉽게 이해하고 해석할 수 있도록 하는 것입니다.

데이터 시각화를 위해 Python에서 사용할 수 있는 다양한 라이브러리가 있지만 가장 인기 있는 라이브러리는 Matplotlib, Seaborn 및 Plotly입니다. 이 기사에서는 Python에서 데이터 시각화를 위해 가장 널리 사용되는 라이브러리인 Matplotlib를 사용합니다. Matplotlib는 다양한 유형의 시각화를 생성하기 위한 광범위한 옵션을 제공하며 사용자 지정 및 확장도 쉽습니다. 시작하려면 명령 프롬프트에서 다음 명령을 실행하여 Matplotlib를 설치해야 합니다.

 

pip install matplotlib

 

Matplotlib가 설치되면 첫 번째 시각화 생성을 시작할 준비가 된 것입니다.

 

The Basics of Data Visualization

시각화 만들기를 시작하기 전에 데이터 시각화의 기본 사항과 데이터 준비 방법을 이해해야 합니다. 데이터 시각화의 첫 번째 단계는 데이터에 가장 적합한 시각화 유형과 전달하려는 메시지를 결정하는 것입니다. 막대 차트, 선 차트, 산점도 및 히트맵을 포함하여 선택할 수 있는 다양한 유형의 시각화가 있습니다. 각 시각화에는 고유한 강점과 약점이 있으므로 데이터와 메시지에 적합한 것을 선택하는 것이 중요합니다.

시각화 유형을 결정했으면 데이터를 준비해야 합니다. 여기에는 일반적으로 쉽게 그릴 수 있는 형식으로 데이터를 정리하고 변환하는 작업이 포함됩니다. 여기에는 데이터 유형 변환, 누락된 값 처리 또는 어떤 방식으로든 데이터 집계가 포함될 수 있습니다.

 

Creating a Simple Bar Chart

이제 데이터 시각화의 기본 사항과 데이터 준비 방법을 다루었으므로 첫 번째 시각화를 만들어 보겠습니다. 단일 변수의 분포를 시각화하는 좋은 방법인 간단한 막대 차트부터 시작하겠습니다. 첫 번째 단계는 Matplotlib 라이브러리를 가져오고 pyplot모듈을 사용하여 차트를 만드는 것입니다.

 

import matplotlib.pyplot as plt

data = [1, 2, 3, 4, 5]

plt.bar(data)
plt.show()

 

이렇게 하면 각각 데이터 목록에서 하나의 값을 나타내는 5개의 막대가 있는 기본 막대 차트가 생성됩니다. 이 plt.bar()함수는 데이터를 첫 번째 인수로 사용하고 막대를 만듭니다. 이 plt.show()기능은 화면에 차트를 표시합니다.

라벨 추가, 색상 조정 등을 통해 차트를 맞춤설정할 수 있습니다. 예를 들어 다음 코드를 사용하여 x축과 y축에 제목과 레이블을 추가할 수 있습니다.

 

plt.bar(data)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Bar Chart Title')
plt.show()

 

bar() 함수에 색상 인수를 전달하여 막대의 색상을 조정할 수도 있습니다. 예를 들어 문자열 'red'를 전달하여 모든 막대를 빨간색으로 만들 수 있습니다.

 

plt.bar(data, color='red')
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Bar Chart Title')
plt.show()

 

bar()색상 목록을 함수 에 전달하여 각 막대를 다른 색상으로 만들 수도 있습니다 . 예를 들어 첫 번째 막대는 빨간색, 두 번째 막대는 파란색 등으로 만들 수 있습니다.

 

colors = ['red', 'blue', 'green', 'yellow', 'purple']
plt.bar(data, color=colors)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Bar Chart Title')
plt.show()

 

Creating a Line Chart

또 다른 일반적인 유형의 시각화는 선형 차트로, 시간 경과에 따라 또는 여러 범주에 걸쳐 추세를 표시하는 데 유용합니다. Matplotlib에서 꺾은선형 차트를 만들려면 plot()함수 대신 함수를 사용할 수 있습니다 bar(). 예를 들어 다음과 같이 사인파의 꺾은선형 차트를 만들 수 있습니다.

 

import numpy as np

x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.plot(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Line Chart Title')
plt.show()

 

그러면 사인파 모양의 선형 차트가 생성됩니다. 막대형 차트와 마찬가지로 레이블 추가, 색상 조정 등을 통해 차트의 모양을 사용자 지정할 수 있습니다.

 

Creating a Scatter Plot

산점도는 두 변수 간의 관계를 표시하는 데 유용한 시각화입니다. 예를 들어 산점도를 사용하여 시간 경과에 따른 주식 가격의 변화를 표시할 수 있습니다. Matplotlib에서 산점도를 만들려면 이 scatter()함수를 사용할 수 있습니다. 예를 들어 다음과 같이 무작위 데이터의 산점도를 만들 수 있습니다.

 

x = np.random.rand(50)
y = np.random.rand(50)

plt.scatter(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Scatter Plot Title')
plt.show()

 

이렇게 하면 50개의 임의 포인트가 있는 산점도가 생성됩니다. 다른 유형의 시각화와 마찬가지로 레이블 추가, 색상 조정 등을 통해 차트의 모양을 사용자 지정할 수 있습니다.

 

Conclusion

이 기사에서는 Python을 사용한 데이터 시각화의 기본 사항을 소개하고 간단한 막대 차트, 선 차트 및 산점도를 만드는 방법을 보여 주었습니다. 이것은 Python을 사용한 데이터 시각화와 관련하여 빙산의 일각에 불과하지만 이 강력한 도구의 많은 가능성을 탐색하기 위한 좋은 출발점을 제공해야 합니다. Python을 사용하면 데이터를 쉽게 이해하고 전달할 수 있는 고품질 시각화를 만들 수 있습니다.

반응형