본문 바로가기
Python/Pandas

pandas dataframe 그룹화 개념과 활용

by PySun 2023. 9. 21.
반응형

판다스 라이브러리를 사용하여 데이터를 그룹화하고 그룹화된 데이터를 활용하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.

Case 1: 단일 열을 기준으로 그룹화하기

데이터를 단일 열을 기준으로 그룹화하고 각 그룹에 대한 통계를 계산하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby('과목')['점수'].mean()

# 결과 확인
print(grouped)

Case 2: 여러 열을 기준으로 그룹화하기

여러 열을 기준으로 데이터를 그룹화하고 각 그룹에 대한 통계를 계산하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '성별': ['남', '여', '남', '여', '여'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목'과 '성별' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby(['과목', '성별'])['점수'].mean()

# 결과 확인
print(grouped)

Case 3: 그룹별 통계 계산

그룹화된 데이터에서 통계량을 계산하고 그래프로 시각화하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '성별': ['남', '여', '남', '여', '여'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목'과 '성별' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby(['과목', '성별'])['점수'].mean()

# 결과 확인
print(grouped)

위의 예시 코드에서는 데이터를 그룹화하고 각 그룹에 대한 통계를 계산하고 시각화하는 방법을 설명하였습니다. 판다스의 groupby() 함수를 사용하여 데이터를 그룹화하고, 이를 통해 다양한 분석 작업을 수행할 수 있습니다.

반응형