본문 바로가기
Python/Pandas

pandas pd.plotting.scatter_matrix() 함수 활용하기

by PySun 2023. 12. 15.
반응형

pd.plotting.scatter_matrix() 함수는 Pandas에서 산점 행렬(scatter matrix)을 생성하는 데 사용됩니다. 산점 행렬은 데이터프레임의 열 간의 상호 관계를 시각적으로 분석하기 위한 유용한 도구입니다. 이 함수를 사용하면 데이터프레임의 열 간의 모든 가능한 산점도(두 열 간의 관계를 나타내는 그래프)를 하나의 그림에 표시할 수 있습니다.

함수 구문:

pd.plotting.scatter_matrix(
    frame,
    alpha=0.5,
    figsize=(6, 6),
    diagonal='hist',
    color='b'
)

주요 매개변수:

  • frame: 산점 행렬을 생성할 데이터프레임.
  • alpha: 각 산점도의 투명도 (기본값은 0.5).
  • figsize: 그림의 크기 (기본값은 (6, 6)).
  • diagonal: 주 대각선 (자기 자신과의 관계)에 표시할 그래프 유형 ('hist', 'kde' 등).
  • color: 산점도의 점 색상.

예시 코드:

import pandas as pd
import matplotlib.pyplot as plt

# 샘플 데이터프레임 생성
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [2, 3, 4, 5, 6],
    'C': [3, 4, 5, 6, 7],
}
df = pd.DataFrame(data)

# 산점 행렬 그리기
scatter_matrix = pd.plotting.scatter_matrix(df, alpha=0.8, figsize=(8, 8), diagonal='hist', color='b')

plt.show()

위의 코드에서는 샘플 데이터프레임을 생성하고, pd.plotting.scatter_matrix() 함수를 사용하여 데이터프레임의 열 간의 산점 행렬을 그립니다. 각 점은 두 열 간의 관계를 나타내며, 주 대각선은 대응하는 열의 분포를 보여줍니다. 이를 통해 데이터의 상호 관계 및 분포를 시각적으로 분석할 수 있습니다.

반응형