pandas dataframe 그룹화 개념과 활용

판다스 라이브러리를 사용하여 데이터를 그룹화하고 그룹화된 데이터를 활용하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.

Case 1: 단일 열을 기준으로 그룹화하기

데이터를 단일 열을 기준으로 그룹화하고 각 그룹에 대한 통계를 계산하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby('과목')['점수'].mean()

# 결과 확인
print(grouped)

Case 2: 여러 열을 기준으로 그룹화하기

여러 열을 기준으로 데이터를 그룹화하고 각 그룹에 대한 통계를 계산하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '성별': ['남', '여', '남', '여', '여'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목'과 '성별' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby(['과목', '성별'])['점수'].mean()

# 결과 확인
print(grouped)

Case 3: 그룹별 통계 계산

그룹화된 데이터에서 통계량을 계산하고 그래프로 시각화하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '성별': ['남', '여', '남', '여', '여'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목'과 '성별' 열을 기준으로 그룹화하여 평균 점수 계산
grouped = df.groupby(['과목', '성별'])['점수'].mean()

# 결과 확인
print(grouped)

위의 예시 코드에서는 데이터를 그룹화하고 각 그룹에 대한 통계를 계산하고 시각화하는 방법을 설명하였습니다. 판다스의 groupby() 함수를 사용하여 데이터를 그룹화하고, 이를 통해 다양한 분석 작업을 수행할 수 있습니다.

저작자표시 비영리 변경금지

'Python > Pandas' 카테고리의 다른 글

pandas dataframe 집계 함수 활용 (sum, mean, count 등) (0)	2023.09.23
pandas dataframe 다중 조건에 따른 그룹화 (0)	2023.09.22
pandas dataframe 결측치 처리 (0)	2023.09.20
pandas dataframe 데이터 정렬과 변환 (0)	2023.09.19
pandas dataframe 데이터 필터링과 선택 (0)	2023.09.18

pandas dataframe 그룹화 개념과 활용

Case 1: 단일 열을 기준으로 그룹화하기

Case 2: 여러 열을 기준으로 그룹화하기

Case 3: 그룹별 통계 계산

'Python > Pandas' 카테고리의 다른 글

관련글

티스토리툴바