Python/Pandas

pandas.drop_duplicates로 중복값 제거하기

PySun 2025. 5. 10. 08:01
반응형

Pandas drop_duplicates: 중복값 제거하기

파이썬의 Pandas 라이브러리는 데이터 처리 및 분석에 매우 유용한 도구입니다. 그 중 drop_duplicates 함수는 데이터프레임에서 중복된 행을 제거하여 데이터를 정리하는 데 큰 도움이 됩니다. 이 포스팅에서는 pandas.drop_duplicates 함수의 사용법과 실용적인 예제를 소개합니다.

drop_duplicates 함수 소개

drop_duplicates 함수는 데이터프레임에서 중복된 값을 찾아 제거하는 기능을 제공합니다. 이 함수를 통해 데이터의 무결성을 유지하고, 분석의 효율성을 높이는 데 기여할 수 있습니다.

함수 시그니처

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

매개변수:

  • subset: 중복을 검사할 열 이름 또는 열의 리스트입니다. 기본값은 모든 열을 포함합니다.
  • keep: 중복되는 경우 유지할 값을 선택합니다. 'first', 'last', 또는 False를 사용할 수 있습니다.
  • inplace: True로 설정하면 원본 데이터프레임에서 직접 수정합니다.

반환 값:

  • 중복이 제거된 데이터프레임을 반환합니다. (inplace가 False일 경우)

사용 예제

기본 예제

다음은 drop_duplicates 함수를 사용하여 중복값을 제거하는 기본적인 예제입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {
    '이름': ['김철수', '이영희', '김철수', '박지민'],
    '나이': [25, 30, 25, 28]
}
df = pd.DataFrame(data)

# 중복값 제거
df_unique = df.drop_duplicates()

print(df_unique)
# 출력:
#    이름  나이
# 0  김철수   25
# 1  이영희   30
# 3  박지민   28

특정 열 기반 중복 제거 예제

특정 열을 기준으로 중복을 제거할 수도 있습니다. 이 예제에서는 '이름' 열을 기준으로 중복값을 제거합니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {
    '이름': ['김철수', '이영희', '김철수', '박지민', '이영희'],
    '나이': [25, 30, 25, 28, 30]
}
df = pd.DataFrame(data)

# 이름 열 기준으로 중복값 제거
df_unique_name = df.drop_duplicates(subset='이름')

print(df_unique_name)
# 출력:
#    이름  나이
# 0  김철수   25
# 1  이영희   30
# 3  박지민   28

결론

Pandas drop_duplicates 함수는 데이터에서 중복값을 쉽게 제거할 수 있어 데이터 분석의 신뢰성을 높이고, 더 깨끗한 데이터를 제공하는 데 도움이 됩니다. 이 함수를 활용하여 원활한 데이터 전처리를 수행해 보세요!

  • 중복값을 제거하여 데이터의 품질을 개선해 보세요!
  • 지금 바로 drop_duplicates 함수를 사용해 보세요!
반응형