본문 바로가기
Python/Data Exploration and Visualization

Visualizing Large Datasets with Python

by Quantrol 2023. 1. 24.
반응형

대규모 데이터 세트로 작업할 때 데이터 시각화가 어려울 수 있습니다. 엄청난 양의 데이터로 인해 명확하고 유익한 시각화를 생성하기 어려울 수 있습니다. 광범위하고 강력한 라이브러리가 있는 Python은 대규모 데이터 세트를 시각화하는 데 이상적인 선택입니다. 이 기사에서는 대규모 데이터 세트를 시각화하기 위해 Python에서 인기 있는 몇 가지 라이브러리를 살펴보고 이를 사용하여 데이터에서 통찰력을 얻는 방법을 보여줍니다.

Getting Started

Python으로 대규모 데이터 세트를 시각화하는 세부 사항을 살펴보기 전에 먼저 대규모 데이터 세트를 시각화하는 것이 어려울 수 있는 이유에 대해 논의해 보겠습니다. 주요 과제 중 하나는 산점도 및 히스토그램과 같은 기존 시각화 기술이 많은 양의 데이터로 작업할 때 복잡해지고 해석하기 어려울 수 있다는 것입니다. 또한 대용량 데이터 세트를 로드하고 처리하는 데 시간이 오래 걸리고 상당한 양의 메모리가 필요할 수 있습니다.

대규모 데이터 세트를 시각화하기 위해 Python에서 사용할 수 있는 많은 라이브러리가 있지만 가장 인기 있는 라이브러리는 Datashader 및 Dask입니다. 이 기사에서는 Python에서 대규모 데이터 세트를 시각화하는 데 가장 널리 사용되는 라이브러리인 Datashader 및 Dask를 사용합니다. 시작하려면 명령 프롬프트에서 다음 명령을 실행하여 Datashader 및 Dask를 설치해야 합니다.

 

pip install datashader dask

 

라이브러리가 설치되면 대규모 데이터 세트 시각화를 시작할 준비가 된 것입니다.

Datashader

Datashader는 Python에서 대규모 데이터 세트를 시각화하기 위한 라이브러리입니다. 인기 라이브러리인 Bokeh를 기반으로 구축되었으며 시각화 생성을 위한 높은 수준의 인터페이스를 제공합니다. Datashader를 사용하면 데이터를 집계하고 래스터 이미지로 표시하여 대규모 데이터 세트의 명확하고 유익한 시각화를 쉽게 만들 수 있습니다.

다음은 Datashader를 사용하여 대규모 데이터 세트를 시각화하는 예입니다.

 

import datashader as ds
import pandas as pd

data = pd.read_csv('large_dataset.csv')

agg = ds.Canvas().points(data, 'x', 'y')
img = tf.shade(agg, cmap=['lightblue', 'darkblue'])

 

이렇게 하면 x 및 y 열을 x 및 y 좌표로 사용하여 데이터 세트의 래스터 이미지가 생성됩니다. 함수 는 Canvas().points()데이터를 집계하고 래스터 이미지로 나타냅니다. 이 shade()함수는 이미지에 컬러 맵을 적용합니다.

Datashader는 또한 이미지의 대비 및 밝기 조정과 같이 시각화의 모양을 사용자 지정하기 위한 다양한 기능을 제공합니다. 다음은 이미지의 밝기를 조정하는 예입니다.

 

img = tf.set_background(img, 'black').normalize(img)

 

이렇게 하면 이미지의 배경색이 검은색으로 설정되고 이미지가 일반화되어 밝기가 조정됩니다.

Dask

Dask는 Python의 병렬 및 분산 컴퓨팅을 위한 라이브러리입니다. 너무 커서 메모리에 담을 수 없는 큰 데이터 세트를 더 작은 청크로 나누고 처리하여 작업할 수 있습니다.

 

Dask는 Datashader로 시각화해야 하는 대규모 데이터 세트로 작업할 때 특히 유용합니다.

다음은 Dask를 사용하여 Datashader로 대규모 데이터 세트를 시각화하는 예입니다.

 

import dask.dataframe as dd

data = dd.read_csv('large_dataset.csv')

agg = ds.Canvas().points(data, 'x', 'y')
img = tf.shade(agg, cmap=['lightblue', 'darkblue'])

 

이렇게 하면 x 및 y 열을 x 및 y 좌표로 사용하여 큰 데이터 세트의 래스터 이미지가 생성됩니다. Dask를 사용하면 데이터가 더 작은 청크로 분할되고 병렬로 처리되므로 대규모 데이터 세트 작업이 더 효율적입니다.

Conclusion

이 기사에서는 대규모 데이터 세트, Datashader 및 Dask를 시각화하기 위해 Python에서 인기 있는 라이브러리를 탐색했습니다. Datashader는 데이터를 집계하고 래스터 이미지로 표시하여 대규모 데이터 세트의 명확하고 유익한 시각화를 만드는 쉬운 방법을 제공합니다. Dask를 사용하면 너무 커서 메모리에 담을 수 없는 큰 데이터 세트를 더 작은 청크로 나누고 병렬로 처리하여 작업할 수 있습니다. Python을 사용하면 대규모 데이터 세트로 쉽게 작업하고 데이터를 이해하고 전달하는 데 도움이 되는 아름답고 유익한 시각화를 만들 수 있습니다.

반응형