본문 바로가기
Python/Pandas

pandas ParserError: Error tokenizing data 오류 해결하기

by PySun 2025. 4. 27.
반응형

소개

파이썬의 pandas 라이브러리를 사용하여 데이터 파일을 읽어올 때 'ParserError: Error tokenizing data'라는 오류가 발생할 수 있습니다. 이 오류는 일반적으로 CSV 파일의 형식이 예상과 다르거나 구문이 올바르지 않을 때 나타납니다. 이번 블로그 글에서는 이 오류의 원인과 해결책에 대해 알아보도록 하겠습니다.

에러 발생 예시 코드

아래는 이 오류가 발생할 수 있는 간단한 예시 코드입니다.

import pandas as pd

# CSV 파일 읽기
df = pd.read_csv('example.csv')
print(df)

에러 해결 방법

1. 구분자 확인

가장 일반적인 원인은 CSV 파일의 구분자가 쉼표가 아닐 때 발생합니다. 파일의 실제 구분자를 확인한 후, read_csv 함수에 적절한 sep 인자를 지정해야 합니다.

import pandas as pd

# 탭으로 구분된 파일 읽기
df = pd.read_csv('example.csv', sep='\t')
print(df)

2. 결측값 처리

CSV 파일 내에 결측값이나 불완전한 데이터 행이 포함되어 있을 수 있습니다. 이 경우, error_bad_lines=False 인자를 추가하여 문제를 해결할 수 있습니다.

import pandas as pd

# 결측값이 있는 행을 무시하고 파일 읽기
df = pd.read_csv('example.csv', error_bad_lines=False)
print(df)

3. 파일 인코딩 문제

파일의 인코딩이 UTF-8이 아닐 경우, 인코딩 오류가 발생할 수 있습니다. 이럴 때는 encoding 인자를 활용하여 적절한 인코딩을 지정해 줘야 합니다.

import pandas as pd

# ISO-8859-1 인코딩으로 파일 읽기
df = pd.read_csv('example.csv', encoding='ISO-8859-1')
print(df)

마무리

이번 블로그 글에서는 pandas의 'ParserError: Error tokenizing data' 오류를 해결하는 여러 방법을 알아보았습니다. 구분자를 제대로 확인하고, 결측값을 처리하거나 파일 인코딩을 조정함으로써 이 오류를 극복할 수 있습니다. 데이터 작업은 언제나 시험과 같은 과정인데요, 문제가 발생할 때마다 원인을 찾는 데 실패하지 말고 시도해 보세요. 해결의 열쇠는 항상 당신의 손안에 있습니다!

반응형