반응형
판다스 라이브러리를 사용하여 집계 함수 (sum, mean, count 등)를 활용하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.
Case 1: 데이터프레임의 열 합계 계산
데이터프레임에서 특정 열의 합계를 계산하는 경우입니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3, 4],
'B': [5, 6, 7, 8]}
df = pd.DataFrame(data)
# 'A' 열의 합계 계산
sum_a = df['A'].sum()
# 결과 확인
print(f"'A' 열의 합계: {sum_a}")
Case 2: 그룹화된 데이터에 대한 집계 함수 사용
데이터를 그룹화하고 그룹별로 집계 함수를 사용하는 경우입니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {'과목': ['수학', '과학', '수학', '과학', '영어'],
'성별': ['남', '여', '남', '여', '여'],
'점수': [90, 85, 88, 92, 78]}
df = pd.DataFrame(data)
# '과목'을 기준으로 그룹화하고 평균 점수 계산
grouped = df.groupby('과목')['점수'].mean()
# 결과 확인
print(grouped)
Case 3: 데이터프레임의 결측치 개수 계산
데이터프레임에서 결측치(NaN)의 개수를 계산하는 경우입니다.
import pandas as pd
import numpy as np
# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 결측치(NaN) 개수 계산
missing_count = df.isnull().sum()
# 결과 확인
print(missing_count)
판다스의 집계 함수는 데이터프레임에서 특정 연산을 수행할 때 유용하게 활용됩니다. 이러한 함수를 통해 데이터의 통계 정보를 빠르고 쉽게 얻을 수 있습니다.
반응형
'Python > Pandas' 카테고리의 다른 글
pandas dataframe 데이터 변환 및 필터링 자동화 (0) | 2023.09.25 |
---|---|
pandas dataframe 엑셀 파일 불러오기 및 수정 (0) | 2023.09.24 |
pandas dataframe 다중 조건에 따른 그룹화 (0) | 2023.09.22 |
pandas dataframe 그룹화 개념과 활용 (0) | 2023.09.21 |
pandas dataframe 결측치 처리 (0) | 2023.09.20 |