본문 바로가기
Python/numpy

파이썬 numpy.unique 함수 활용하기

by PySun 2024. 10. 13.
반응형

NumPy unique 함수: 배열의 고유한 값을 찾는 방법

파이썬의 NumPy 라이브러리는 수치 데이터를 처리하기 위한 강력한 도구입니다. 그중에서도 numpy.unique 함수는 배열 내에서 고유한 값을 찾는 데 유용하며, 데이터 분석 및 전처리에 필수적인 기능 중 하나입니다. 이 포스팅에서는 numpy.unique 함수의 활용 방법과 예제를 소개합니다.

numpy.unique 함수 소개

numpy.unique 함수는 주어진 배열에서 중복을 제거하고 고유한 값들만을 추출합니다. 이 함수는 데이터 세트의 고유한 값을 분석하거나, 특정 값의 빈도를 계산하고자 할 때 매우 유용합니다. 다양한 옵션을 설정하여 원하는 형태로 데이터를 가공할 수 있는 기능도 제공합니다.

함수 시그니처

numpy.unique(arr, return_index=False, return_inverse=False, return_counts=False, axis=None)

매개변수:

  • arr: 고유한 값을 찾고자 하는 입력 배열입니다.
  • return_index: True로 설정할 경우 원래 배열에서 고유한 값의 첫 번째 인덱스를 반환합니다.
  • return_inverse: True로 설정할 경우 고유한 값의 인덱스를 사용하여 원래 배열을 재구성할 수 있는 정보를 반환합니다.
  • return_counts: True로 설정할 경우 각 고유한 값의 발생 빈도를 반환합니다.
  • axis: 배열의 특정 축을 따라 고유 값을 찾을 수도 있습니다.

반환 값:

  • 유일한 값들의 배열을 반환하며, 추가 옵션을 설정하면 다른 유용한 정보도 함께 제공합니다.

사용 예제

기본 예제

다음은 numpy.unique 함수를 사용하여 배열의 고유한 값을 찾는 간단한 예제입니다.

import numpy as np

# 배열 생성
arr = np.array([1, 2, 3, 1, 2, 4, 5])

# 고유한 값 찾기
unique_values = np.unique(arr)

print(f"The unique values in the array are: {unique_values}")
# 출력:
# The unique values in the array are: [1 2 3 4 5]

빈도 수와 인덱스 정보 포함 예제

고유한 값뿐만 아니라 이들의 발생 빈도와 원래 인덱스까지 함께 반환하는 방법을 살펴봅니다.

import numpy as np

# 배열 생성
arr = np.array([1, 2, 2, 3, 1, 4, 5, 4, 5])

# 고유한 값, 빈도, 인덱스 확인
unique_values, counts = np.unique(arr, return_counts=True)
indices = np.unique(arr, return_index=True)[1]

print(f"The unique values are: {unique_values}")
print(f"The counts of unique values are: {counts}")
print(f"The first indices of unique values are: {indices}")
# 출력:
# The unique values are: [1 2 3 4 5]
# The counts of unique values are: [2 2 1 2 2]
# The first indices of unique values are: [0 1 3 5 6]

결론

numpy.unique 함수는 배열 내에서 중복 데이터를 필터링하고자 할 때 매우 유용한 도구입니다. 이를 통해 데이터를 정제하고, 각 요소별 빈도를 계산해 더 많은 통찰력을 얻을 수 있습니다. 데이터 분석 작업에서 이 기능을 적절히 활용하여 보다 정확한 결과를 만들어 보세요!

  • numpy.unique를 활용하여 데이터 중복 제거의 새 지평을 열어 보세요!
  • 지금 바로 numpy.unique 함수를 사용하여 고유한 값들을 확인해 보세요!
반응형