본문 바로가기
Python/Pandas

pandas df.describe() 함수 활용하기

by PySun 2023. 11. 24.
반응형

df.describe() 함수는 Pandas 데이터프레임의 숫자형 열에 대한 통계 요약을 제공하는 데 사용됩니다. 이 함수는 각 열의 개수, 평균, 표준편차, 최솟값, 1사분위수, 중앙값 (2사분위수), 3사분위수, 최댓값 등을 반환합니다.

메서드 구문:

df.describe(
    percentiles=None, 
    include=None, 
    exclude=None, 
    datetime_is_numeric=False
)

주요 매개변수:

  • percentiles: 요약에 포함할 백분위수의 목록을 지정합니다. 기본값은 [0.25, 0.5, 0.75]입니다.
  • include: 요약에 포함할 데이터 유형을 지정하는 문자열 또는 리스트. 기본값은 None으로 모든 숫자형 열을 포함합니다.
  • exclude: 요약에서 제외할 데이터 유형을 지정하는 문자열 또는 리스트. 기본값은 None으로 아무 것도 제외하지 않습니다.
  • datetime_is_numeric: True로 설정하면 datetime 열도 숫자형 열로 처리됩니다. 기본값은 False입니다.

예시 코드:

import pandas as pd

# 샘플 데이터프레임 생성
data = {
    'Age': [25, 30, 35, 28, 23, 40, 29],
    'Height': [165, 180, 172, 175, 160, 185, 170],
    'Weight': [60, 85, 70, 78, 55, 90, 68]
}
df = pd.DataFrame(data)


# 데이터프레임 열의 통계 요약 출력
df.describe()



이 코드에서는 샘플 데이터프레임을 생성하고, df.describe() 함수를 사용하여 데이터프레임의 숫자형 열에 대한 통계 요약을 출력합니다. 결과로는 각 열의 개수, 평균, 표준편차, 최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값이 표시됩니다.
df.describe() 함수는 데이터프레임의 수치 데이터에 대한 빠른 요약 정보를 제공하며 데이터의 분포와 중요한 통계적 특성을 파악하는 데 유용합니다.

반응형