저장된 파일을 데이터프레임으로 읽어올 때 na_values, na_filter 매개변수 활용하기

Pandas에서는 read_csv(), read_excel(), read_json() 등의 함수를 사용하여 저장된 파일을 데이터프레임으로 읽어올 수 있습니다. 이러한 함수에는 na_values와 na_filter 매개변수를 사용하여 결측값을 처리할 수 있습니다.

na_values 매개변수는 결측값으로 처리할 값을 지정합니다. na_values 매개변수를 지정하지 않으면 기본적으로 None과 np.nan을 결측값으로 처리합니다.

na_filter 매개변수는 결측값이 포함된 행을 제거할지 여부를 지정합니다. na_filter 매개변수를 True로 설정하면 결측값이 포함된 행이 제거됩니다.

다음은 read_csv() 함수를 사용하여 CSV 파일을 데이터프레임으로 읽어오는 예제입니다.

import pandas as pd

df = pd.read_csv('data.csv')

이 경우 data.csv 파일의 age 열에 NaN 값이 포함되어 있으면 age 열의 값이 NaN인 행이 데이터프레임에 포함됩니다.

na_values 매개변수를 사용하여 NaN 값을 -1로 처리할 수 있습니다.

df = pd.read_csv('data.csv', na_values=['-1'])

이 경우 data.csv 파일의 age 열에 Nan 값이 포함되어 있으면 age 열의 값이 -1인 행이 데이터프레임에 포함됩니다.

na_filter 매개변수를 사용하여 결측값이 포함된 행을 제거할 수 있습니다.

df = pd.read_csv('data.csv', na_filter=True)

이 경우 data.csv 파일의 age 열에 NaN 값이 포함된 행이 데이터프레임에서 제거됩니다.

Pandas에서 SettingWithCopy 에러 발생 원인과 해결 방법 (0)	2024.01.26
Pandas : DataFrame 합치기 (2)	2024.01.22
ValueError: Cannot mask with non-boolean array containing NA / NaN values (0)	2024.01.20
Pandas 데이터 필터링 : 원하는 데이터만 골라내기 (0)	2024.01.19
Pandas DataFrame의 행을 순회하는 방법 (1)	2024.01.18

티스토리툴바