반응형
Pandas에서는 read_csv(), read_excel(), read_json() 등의 함수를 사용하여 저장된 파일을 데이터프레임으로 읽어올 수 있습니다. 이러한 함수에는 na_values와 na_filter 매개변수를 사용하여 결측값을 처리할 수 있습니다.
na_values
na_values 매개변수는 결측값으로 처리할 값을 지정합니다. na_values 매개변수를 지정하지 않으면 기본적으로 None과 np.nan을 결측값으로 처리합니다.
na_filter
na_filter 매개변수는 결측값이 포함된 행을 제거할지 여부를 지정합니다. na_filter 매개변수를 True로 설정하면 결측값이 포함된 행이 제거됩니다.
예제
다음은 read_csv() 함수를 사용하여 CSV 파일을 데이터프레임으로 읽어오는 예제입니다.
import pandas as pd
df = pd.read_csv('data.csv')
이 경우 data.csv 파일의 age 열에 NaN 값이 포함되어 있으면 age 열의 값이 NaN인 행이 데이터프레임에 포함됩니다.
na_values 활용
na_values 매개변수를 사용하여 NaN 값을 -1로 처리할 수 있습니다.
df = pd.read_csv('data.csv', na_values=['-1'])
이 경우 data.csv 파일의 age 열에 Nan 값이 포함되어 있으면 age 열의 값이 -1인 행이 데이터프레임에 포함됩니다.
na_filter 활용
na_filter 매개변수를 사용하여 결측값이 포함된 행을 제거할 수 있습니다.
df = pd.read_csv('data.csv', na_filter=True)
이 경우 data.csv 파일의 age 열에 NaN 값이 포함된 행이 데이터프레임에서 제거됩니다.
'파이썬 > Pandas' 카테고리의 다른 글
Pandas에서 SettingWithCopy 에러 발생 원인과 해결 방법 (0) | 2024.01.26 |
---|---|
Pandas : DataFrame 합치기 (2) | 2024.01.22 |
ValueError: Cannot mask with non-boolean array containing NA / NaN values (0) | 2024.01.20 |
Pandas 데이터 필터링 : 원하는 데이터만 골라내기 (0) | 2024.01.19 |
Pandas DataFrame의 행을 순회하는 방법 (0) | 2024.01.18 |