본문 바로가기
Python/Pandas

pandas dataframe 결측치 처리

by PySun 2023. 9. 20.
반응형

판다스 라이브러리를 사용하여 결측치(NaN)를 처리하는 다양한 케이스에 대한 예시 코드와 함께 설명하겠습니다.

Case 1: 결측치 확인

데이터프레임에서 결측치를 확인하고 싶은 경우입니다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}

df = pd.DataFrame(data)

# 결측치 확인
missing_values = df.isnull()

# 결과 확인
print(missing_values)

Case 2: 결측치 제거

데이터프레임에서 결측치를 제거하려는 경우입니다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}

df = pd.DataFrame(data)

# 결측치가 있는 행 제거
df_cleaned = df.dropna()

# 결과 확인
print(df_cleaned)

Case 3: 결측치 대체

데이터프레임에서 결측치를 다른 값으로 대체하려는 경우입니다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}

df = pd.DataFrame(data)

# 결측치를 0으로 대체
df_filled = df.fillna(0)

# 결과 확인
print(df_filled)

Case 4: 결측치 보간

데이터프레임에서 결측치를 인접한 값들을 기반으로 보간하여 채우려는 경우입니다.

import pandas as pd
import numpy as np

# 샘플 데이터프레임 생성 (결측치 포함)
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}

df = pd.DataFrame(data)

# 선형 보간을 사용하여 결측치 채우기
df_interpolated = df.interpolate()

# 결과 확인
print(df_interpolated)

판다스의 isnull(), dropna(), fillna(), 그리고 interpolate() 함수를 활용하여 데이터프레임에서 결측치를 확인하고 처리할 수 있습니다. 이를 통해 데이터의 무결성을 유지하고 분석을 원활하게 진행할 수 있습니다.

반응형