본문 바로가기

AI/ASSOCIATE

ASSOCIATE 5.

[ 데이터프레임 확인하기 ]

데이터 불러오기

 

1. 컬럼(column) : 열 레이블에 대한 정보를 제공

2. 인덱스(index) : 행 레이블에 대한 정보를 제공

3. 생성된 데이터 프레임의 행과 열의 수를 제공

 

위 예시 코드처럼 데이터 데이터프레임 이름만 기입해도 전체 데이터가 출력되지만

head, tail 메소드를 활용해서 일부만 출력되게 하는 것도 가능하다

 

인자가 없으면 5줄 을 제공하고, 인자값을 통해 n=양수 설정할 경우 설정된 수 만큼의 정보를 

head제일 위 기준으로 하위 데이터를,  tail제일 아래 기준으로 상위 데이터를 제공을 한다


데이터프레임의 기본 정보 확인하기

 

판다스는 데이터 분석을 위한 라이브러리로 기본적인 메서드와 속성(attribute)을 활용하여 통계 정보를 확인할 수 있다.

 

shape

  • 행(row)과 열(column) 의 개수를 튜플 형태로 변환해줌

columns

  • 데이터프레임을 구성하는 컬럼명들을 제공


info

  • 데이터 유형, 각 컬럼의 데이터 수 등을 한 번에 볼 수 있다
  • 데이터의 구성이나 결측치 유뮤도 확인이 가능하다

여기서 잠시 짚고 넘어갈 내용으로

 

shape 과 colmun 은 () 를 사용하지 않아도 결과가 잘 나오는 것을 확인할 수 있다.

 

그런데 info 는 () 를 사용하지 않으면 전혀 다른 내용을 보여주는 것을 볼 수 있다.

(우측 사진)

 

이는 내가 사용하고자 하는 기능이 '객체의 변수' 인지, '객체의 속성' 인지, '객체의 함수(메서드)' 인지에 따라 결과가 달라진다.

 

주피터 특성변수만 단일로 명시해둬도 정보를 제공하는 tool 이기 때문에, 

flight.info <- 이 자체는 단순 함수(메서드)를 명시한 거라 해당 함수에 대한 정보를 제공해준다.

그렇기 때문에 결과를 보려면 꼭 호출을 명시하는 () 를 사용해야 원하는 결과를 제공 받을 수 있다.

 

반대로 shape 과 colmun 은 함수(메서드)가 아니기 때문에 () 를 사용하면 에러가 나는 것을 확인할 수 있다.


describe

  • 데이터 칼럼별 요약 통계량 정보를 제공
  • float 이나 int 처럼 숫자형 데이터의 통계치를 확인하는데 유용
    (count: 데이터 수,  mean: 평균값,  std: 표준편차,  min:  최솟값, max:  최댓값,  4분위값)
  • 범주형 데이터의 경우 데이터 개수, 최빈값, 최빈값의 개수를 제공

결과를 보면 이전 info 의 결과에서

 

수치형 데이터인 float 과 int 형인 4개의 컬럼만 나온것을 확인할 수 있다.

 

범주형 데이터 컬럼의 정보도 확인을 하려면 인자 값을 include='all' 로 설정해주면 된다.

결과를 보다시피 수치형으로 계산 할 수 없는 것들은 NaN 처리 된 것을 확인할 수 있다.

 

25% 50% 75% 는 각각 제 1 ~ 3 사분위수 값을 의미하면 하위 25%, 50%, 70% 지정에 위치한 값을 표현

 

dtypes

  • 데이터프레임이 가지는 데이터 형태의 종류를 나타냄

여기서 또 하나 짚고 넘어갈 내용으로

그림의 마지막에 출력된 dtype: object 는

컬럼들의 데이터 자료형이(int64, float64, object) 가 하나라도 다르면 object 로 출력된다.

 

반대로 모두가 같은 자료형으로 통일된다면 해당 자료형이 출력된다.

value_counts

  • '지정된 특정 컬럼' 이 소유하고 있는 값(value) 들의 각 값들의 개수를 제공

'AI > ASSOCIATE' 카테고리의 다른 글

ASSOCIATE 4.  (1) 2025.07.02
ASSOCIATE 3.  (0) 2025.04.18
ASSOCIATE 2.  (0) 2025.04.18
ASSOCIATE 1.  (0) 2025.04.18