본문 바로가기
Python/Pandas

pandas.dropna로 결측치 삭제하기

by PySun 2025. 6. 4.
반응형

Pandas dropna 함수: 결측치를 쉽고 빠르게 삭제하기

데이터 분석에서 가장 큰 도전 중 하나는 결측치입니다. 불완전한 데이터는 분석 결과에 큰 영향을 미칠 수 있기 때문에 주의가 필요합니다. Pandas 라이브러리의 dropna 함수는 이러한 결측치를 쉽게 제거할 수 있는 강력한 도구입니다. 이번 포스팅에서는 dropna 함수의 사용법을 간단한 코드 예제와 함께 소개하겠습니다.

pandas.dropna 함수 소개

dropna 함수는 DataFrame이나 Series에서 결측치가 포함된 행 또는 열을 삭제하는 데 사용됩니다. 이 함수 덕분에 데이터가 더욱 깔끔해지고, 분석의 신뢰성을 높일 수 있습니다.

함수 시그니처

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

매개변수:

  • axis: 삭제할 방향. 0은 행, 1은 열을 의미합니다.
  • how: 'any'는 하나라도 결측치가 있으면 삭제하고, 'all'은 모든 값이 결측치일 경우 삭제합니다.
  • thresh: 결측치가 아닌 값의 최소 개수를 설정합니다.
  • subset: 결측치를 검사할 특정 열을 선택할 수 있습니다.
  • inplace: True이면 원래 DataFrame에서 수정하고, False이면 수정된 사본을 반환합니다.

반환 값:

  • 결측치가 삭제된 DataFrame 또는 Series를 반환합니다.

사용 예제

기본 예제

다음 예제에서는 간단한 DataFrame을 사용하여 결측치를 삭제하는 방법을 보여드리겠습니다.

import pandas as pd
import numpy as np

# 예제 DataFrame 생성
data = {'A': [1, 2, np.nan, 4],
        'B': [np.nan, np.nan, 3, 4],
        'C': [5, 6, 7, 8]}
df = pd.DataFrame(data)

# 결측치가 포함된 DataFrame 출력
print("원본 DataFrame:")
print(df)

# 결측치 삭제
cleaned_df = df.dropna()

# 결과 출력
print("\n결측치가 삭제된 DataFrame:")
print(cleaned_df)

다양한 옵션 활용 예제

결측치를 더욱 정교하게 처리할 수 있는 다양한 옵션을 활용한 예제입니다.

import pandas as pd
import numpy as np

# 예제 DataFrame 생성
data = {'A': [1, 2, np.nan, 4],
        'B': [np.nan, np.nan, 3, 4],
        'C': [5, 6, 7, 8]}
df = pd.DataFrame(data)

# 특정 열에서만 결측치 삭제
print("\n열 B에서 결측치 삭제:")
cleaned_df_B = df.dropna(subset=['B'])

print(cleaned_df_B)

# 모든 값이 결측치인 행 삭제
print("\n모든 값이 결측치인 행 삭제:")
cleaned_df_all = df.dropna(how='all')

print(cleaned_df_all)

결론

dropna 함수는 결측치를 쉽게 제거할 수 있도록 도와줍니다. 데이터 분석 과정에서 결측치가 문제를 일으킨다면, 이 함수를 통해 효율적으로 해결할 수 있습니다. 데이터의 질을 높이고, 더 나은 분석 결과를 얻기 위해 지금 바로 pandas.dropna를 활용해 보세요!

  • 결측치로부터 데이터의 신뢰성을 높여보세요!
  • 여러 가지 옵션으로 당신만의 방법으로 결측치를 처리해 보세요!
반응형