본문 바로가기
Python/Pandas

pandas.astype로 데이터형 변환하기

by PySun 2025. 5. 7.
반응형

pandas.astype: 데이터형 변환으로 데이터 가공의 기초 다지기

데이터 분석을 위한 pandas 라이브러리는 데이터형 변환을 간편하게 할 수 있도록 돕는 astype 함수를 제공합니다. 데이터형 변환은 데이터 전처리에 있어 필수적인 단계이며, 정확한 분석 결과를 위한 첫걸음이 됩니다. 이번 포스팅에서는 pandas.astype 메서드의 기본 개념과 활용법에 대해 알아보겠습니다.

pandas.astype 함수 소개

데이터프레임의 열 데이터형을 변경할 때 사용되는 astype 함수는 각 열에 맞는 적절한 데이터 형식을 지정하는 방법을 제공합니다. 이를 통해 데이터의 일관성을 높이고 분석 작업의 효율을 극대화할 수 있습니다.

함수 시그니처

DataFrame.astype(dtype, copy=True, errors='raise')

매개변수:

  • dtype: 변환할 데이터 형식. 문자열 또는 NumPy dtype을 사용할 수 있습니다.
  • copy: 기본값은 True입니다. 변환 시 새로운 객체를 복사할 것인지 여부를 결정합니다.
  • errors: 에러 발생 시 처리 방법을 지정합니다. 기본값은 'raise'입니다.

반환 값:

  • 변환된 데이터형의 새로운 데이터프레임을 반환합니다.

사용 예제

기본 예제

다음은 pandas.astype 함수를 사용하여 데이터프레임의 열 데이터형을 변환하는 기본 예제입니다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': ['1', '2', '3'], 'B': ['4.5', '5.5', '6.5']}
df = pd.DataFrame(data)

# 데이터형 변환
df['A'] = df['A'].astype(int)       # 문자열에서 정수로 변환
df['B'] = df['B'].astype(float)     # 문자열에서 부동소수점으로 변환

print(df)
# 출력:
#    A    B
# 0  1  4.5
# 1  2  5.5
# 2  3  6.5

에러 처리 예제

잘못된 형식의 데이터를 다룰 때, errors 매개변수를 활용한 에러 처리를 할 수 있습니다.

import pandas as pd

# 잘못된 형식 포함된 데이터프레임 생성
data = {'A': ['1', 'two', '3'], 'B': ['4.5', '5.5', '6.5']}
df = pd.DataFrame(data)

# 데이터형 변환 시도 (에러 발생)
try:
    df['A'] = df['A'].astype(int)
except ValueError as e:
    print("Error occurred:", e)

# 대체 방법: 에러가 발생한 경우 NaN으로 대체
df['A'] = pd.to_numeric(df['A'], errors='coerce')
print(df)
# 출력:
#    A    B
# 0  1  4.5
# 1 NaN  5.5
# 2  3  6.5

결론

pandas.astype 함수는 데이터 분석에서 데이터형 변환을 간편하게 수행할 수 있도록 도와줍니다. 이를 통해 데이터의 일관성을 유지하고 분석의 질을 높일 수 있으니, 적절한 데이터형 변환을 통해 더 정확하고 의미 있는 데이터 분석을 시도해 보세요!

  • astype를 사용하여 다양한 데이터형으로 쉽게 변환해 보세요!
  • 지금 바로 pandas를 통해 데이터형 변환의 힘을 느껴 보세요!
반응형