Python/Pandas
pandas.drop_duplicates로 중복값 제거하기
PySun
2025. 5. 10. 08:01
반응형
Pandas drop_duplicates: 중복값 제거하기
파이썬의 Pandas 라이브러리는 데이터 처리 및 분석에 매우 유용한 도구입니다. 그 중 drop_duplicates 함수는 데이터프레임에서 중복된 행을 제거하여 데이터를 정리하는 데 큰 도움이 됩니다. 이 포스팅에서는 pandas.drop_duplicates 함수의 사용법과 실용적인 예제를 소개합니다.
drop_duplicates 함수 소개
drop_duplicates 함수는 데이터프레임에서 중복된 값을 찾아 제거하는 기능을 제공합니다. 이 함수를 통해 데이터의 무결성을 유지하고, 분석의 효율성을 높이는 데 기여할 수 있습니다.
함수 시그니처
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
매개변수:
- subset: 중복을 검사할 열 이름 또는 열의 리스트입니다. 기본값은 모든 열을 포함합니다.
- keep: 중복되는 경우 유지할 값을 선택합니다. 'first', 'last', 또는 False를 사용할 수 있습니다.
- inplace: True로 설정하면 원본 데이터프레임에서 직접 수정합니다.
반환 값:
- 중복이 제거된 데이터프레임을 반환합니다. (inplace가 False일 경우)
사용 예제
기본 예제
다음은 drop_duplicates 함수를 사용하여 중복값을 제거하는 기본적인 예제입니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {
'이름': ['김철수', '이영희', '김철수', '박지민'],
'나이': [25, 30, 25, 28]
}
df = pd.DataFrame(data)
# 중복값 제거
df_unique = df.drop_duplicates()
print(df_unique)
# 출력:
# 이름 나이
# 0 김철수 25
# 1 이영희 30
# 3 박지민 28
특정 열 기반 중복 제거 예제
특정 열을 기준으로 중복을 제거할 수도 있습니다. 이 예제에서는 '이름' 열을 기준으로 중복값을 제거합니다.
import pandas as pd
# 샘플 데이터프레임 생성
data = {
'이름': ['김철수', '이영희', '김철수', '박지민', '이영희'],
'나이': [25, 30, 25, 28, 30]
}
df = pd.DataFrame(data)
# 이름 열 기준으로 중복값 제거
df_unique_name = df.drop_duplicates(subset='이름')
print(df_unique_name)
# 출력:
# 이름 나이
# 0 김철수 25
# 1 이영희 30
# 3 박지민 28
결론
Pandas drop_duplicates 함수는 데이터에서 중복값을 쉽게 제거할 수 있어 데이터 분석의 신뢰성을 높이고, 더 깨끗한 데이터를 제공하는 데 도움이 됩니다. 이 함수를 활용하여 원활한 데이터 전처리를 수행해 보세요!
- 중복값을 제거하여 데이터의 품질을 개선해 보세요!
- 지금 바로 drop_duplicates 함수를 사용해 보세요!
반응형