본문 바로가기
Python/Pandas

pandas dataframe 집계 함수 활용 (sum, mean, count 등)

by PySun 2023. 9. 23.
반응형

판다스 라이브러리를 사용하여 집계 함수 (sum, mean, count 등)를 활용하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.

Case 1: 데이터프레임의 열 합계 계산

데이터프레임에서 특정 열의 합계를 계산하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8]}

df = pd.DataFrame(data)

# 'A' 열의 합계 계산
sum_a = df['A'].sum()

# 결과 확인
print(f"'A' 열의 합계: {sum_a}")

Case 2: 그룹화된 데이터에 대한 집계 함수 사용

데이터를 그룹화하고 그룹별로 집계 함수를 사용하는 경우입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
        '성별': ['남', '여', '남', '여', '여'],
        '점수': [90, 85, 88, 92, 78]}

df = pd.DataFrame(data)

# '과목'을 기준으로 그룹화하고 평균 점수 계산
grouped = df.groupby('과목')['점수'].mean()

# 결과 확인
print(grouped)

Case 3: 데이터프레임의 결측치 개수 계산

데이터프레임에서 결측치(NaN)의 개수를 계산하는 경우입니다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}

df = pd.DataFrame(data)

# 결측치(NaN) 개수 계산
missing_count = df.isnull().sum()

# 결과 확인
print(missing_count)

판다스의 집계 함수는 데이터프레임에서 특정 연산을 수행할 때 유용하게 활용됩니다. 이러한 함수를 통해 데이터의 통계 정보를 빠르고 쉽게 얻을 수 있습니다.

반응형