파이썬/Pandas

저장된 파일을 데이터프레임으로 읽어올 때 na_values, na_filter 매개변수 활용하기

코샵 2024. 1. 21. 11:09
반응형

Pandas에서는 read_csv(), read_excel(), read_json() 등의 함수를 사용하여 저장된 파일을 데이터프레임으로 읽어올 수 있습니다. 이러한 함수에는 na_values와 na_filter 매개변수를 사용하여 결측값을 처리할 수 있습니다.

 

na_values

na_values 매개변수는 결측값으로 처리할 값을 지정합니다. na_values 매개변수를 지정하지 않으면 기본적으로 None과 np.nan을 결측값으로 처리합니다.

 

na_filter

na_filter 매개변수는 결측값이 포함된 행을 제거할지 여부를 지정합니다. na_filter 매개변수를 True로 설정하면 결측값이 포함된 행이 제거됩니다.

예제

다음은 read_csv() 함수를 사용하여 CSV 파일을 데이터프레임으로 읽어오는 예제입니다.

import pandas as pd

df = pd.read_csv('data.csv')

이 경우 data.csv 파일의 age 열에 NaN 값이 포함되어 있으면 age 열의 값이 NaN인 행이 데이터프레임에 포함됩니다.

 

na_values 활용

na_values 매개변수를 사용하여 NaN 값을 -1로 처리할 수 있습니다.

df = pd.read_csv('data.csv', na_values=['-1'])

이 경우 data.csv 파일의 age 열에 Nan 값이 포함되어 있으면 age 열의 값이 -1인 행이 데이터프레임에 포함됩니다.

 

na_filter 활용

na_filter 매개변수를 사용하여 결측값이 포함된 행을 제거할 수 있습니다.

df = pd.read_csv('data.csv', na_filter=True)

이 경우 data.csv 파일의 age 열에 NaN 값이 포함된 행이 데이터프레임에서 제거됩니다.