반응형
판다스 라이브러리를 사용하여 결측치(NaN)를 처리하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.
Case 1: 결측치 확인
데이터프레임에서 결측치를 확인하고 싶은 경우입니다.
import pandas as pd
import numpy as np
# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 결측치 확인
missing_values = df.isnull()
# 결과 확인
print(missing_values)
Case 2: 결측치 제거
데이터프레임에서 결측치를 제거하려는 경우입니다.
import pandas as pd
import numpy as np
# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 결측치가 있는 행 제거
df_cleaned = df.dropna()
# 결과 확인
print(df_cleaned)
Case 3: 결측치 대체
데이터프레임에서 결측치를 다른 값으로 대체하려는 경우입니다.
import pandas as pd
import numpy as np
# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 결측치를 0으로 대체
df_filled = df.fillna(0)
# 결과 확인
print(df_filled)
Case 4: 결측치 보간
데이터프레임에서 결측치를 인접한 값들을 기반으로 보간하여 채우려는 경우입니다.
import pandas as pd
import numpy as np
# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)
# 선형 보간을 사용하여 결측치 채우기
df_interpolated = df.interpolate()
# 결과 확인
print(df_interpolated)
판다스의 isnull(), dropna(), fillna(), 그리고 interpolate() 함수를 활용하여 데이터프레임에서 결측치를 확인하고 처리할 수 있습니다. 이를 통해 데이터의 무결성을 유지하고 분석을 원활하게 진행할 수 있습니다.
반응형
'Python > Pandas' 카테고리의 다른 글
pandas dataframe 다중 조건에 따른 그룹화 (0) | 2023.09.22 |
---|---|
pandas dataframe 그룹화 개념과 활용 (0) | 2023.09.21 |
pandas dataframe 데이터 정렬과 변환 (0) | 2023.09.19 |
pandas dataframe 데이터 필터링과 선택 (0) | 2023.09.18 |
파이썬 pandas SQL 데이터 저장하기와 불러오기 (0) | 2023.09.17 |