파이썬/Pandas

Pandas DataFrame - 판다스 데이터프레임 생성 및 조회

코샵 2022. 3. 24. 13:13
반응형

설명


판다스 데이터 프레임은 데이터를 엑셀의 표(테이블) 형태로 처리 할 수 있어 데이터 전처리등 각종 데이터의 핸들링을 편하게 할 수 있는 라이브러리입니다.

pip install pandas

판다스 라이브러리가 설치되어 있지 않은 상태면 먼저 라이브러리를 설치해주어야 합니다.

 

 

데이터프레임 생성 

df 라는 이름의 빈 데이터프레임이 생성되었습니다.

Columns 는 열이고 Index 는 행입니다. 현재 아무것도 지정해주지 않아 [] 으로 표현이 되었고 데이터도 없어 Empty DataFrame 라고 알려줬네요.

 

DataFrame(data, index, columns, dtype, copy) 이런 구조를 가지고 있습니다. 

인덱스, 칼럼, 데이터타입을 지정해 줄 수 있고 지정해주지 않는다면 data의 형태에 맞게 알아서 생성해줍니다.

 

리스트를 데이터프레임으로 만들었습니다.

인덱스와 칼럼을 지정해주지 않았는데 알아서 데이터 길이에 맞게 열과 행이 생성되었습니다.

index는 데이터프레임의 행을 알려주고 columns는 열을 알려줍니다

 

딕셔너리를 데이터프레임으로 만들었습니다

딕셔너리의 키 값이 열이 되었고 인덱스 값이 행이 되었습니다. 

 

인덱스를 지정해주었습니다.

 

데이터프레임을 생성했으니 데이터프레임 안의 내용을 조회를 해볼게요 

열(Columns) 조회

첫번째 열의 데이터를 조회했습니다 df['두번째'] , df['세번째'] 이렇게 작성하면 해당 열의 데이터를 조회할 수 있습니다

데이터프레임[ ' 열 이름 ' ] 이렇게 사용하시면 됩니다. 

df['첫번째'][0]

1

나는 첫번째 열의 대한 행 값을 조회하고 싶다면 위와 같이 사용하시면 됩니다.

df['첫번째'][0] 는 첫번째 열의 0번 순서를 나타낸것입니다. 

위 설명이 이해가 잘 안되시면 이 부분을 보시면 이해가 가실수도...

세번째 열의 2번 순서를 나타낸것입니다. 

 

행(Row)조회

행조회는 행 이름으로 조회하는 방법과 행 인덱스(순서)로 조회하는 방법이 있습니다 

대한 행 값

행 이름으로 조회하는 함수는 loc 입니다 

df.loc['행 이름']

 

행 순서로 조회하는 함수는 iloc 입니다

df.iloc[행 인덱스]

제가봐도 두서없이 설명해서 이해하기가 힘드네요 .... 

df.loc['대한'] 이 노란색이고 df.iloc[2] 가 주황색입니다

만세가 3번째 순서이지 않냐라고 생각하실수도 있는데요 0부터 시작해서 그렇습니다.... 0,1,2 고로 2 가 만세입니다

 

 

 

 

공부를 하면서 적은 내용입니다. 잘못된 정보일 경우 알려주시면 수정하겠습니다