[ 데이터프레임 확인하기 ]
데이터 불러오기
1. 컬럼(column) : 열 레이블에 대한 정보를 제공
2. 인덱스(index) : 행 레이블에 대한 정보를 제공
3. 생성된 데이터 프레임의 행과 열의 수를 제공
위 예시 코드처럼 데이터 데이터프레임 이름만 기입해도 전체 데이터가 출력되지만
head, tail 메소드를 활용해서 일부만 출력되게 하는 것도 가능하다
인자가 없으면 5줄 을 제공하고, 인자값을 통해 n=양수 설정할 경우 설정된 수 만큼의 정보를
head 는 제일 위 기준으로 하위 데이터를, tail 은 제일 아래 기준으로 상위 데이터를 제공을 한다
데이터프레임의 기본 정보 확인하기
판다스는 데이터 분석을 위한 라이브러리로 기본적인 메서드와 속성(attribute)을 활용하여 통계 정보를 확인할 수 있다.
shape
- 행(row)과 열(column) 의 개수를 튜플 형태로 변환해줌
columns
- 데이터프레임을 구성하는 컬럼명들을 제공
info
- 데이터 유형, 각 컬럼의 데이터 수 등을 한 번에 볼 수 있다
- 데이터의 구성이나 결측치 유뮤도 확인이 가능하다
여기서 잠시 짚고 넘어갈 내용으로
shape 과 colmun 은 () 를 사용하지 않아도 결과가 잘 나오는 것을 확인할 수 있다.
그런데 info 는 () 를 사용하지 않으면 전혀 다른 내용을 보여주는 것을 볼 수 있다.
(우측 사진)
이는 내가 사용하고자 하는 기능이 '객체의 변수' 인지, '객체의 속성' 인지, '객체의 함수(메서드)' 인지에 따라 결과가 달라진다.
주피터 특성상 변수만 단일로 명시해둬도 정보를 제공하는 tool 이기 때문에,
flight.info <- 이 자체는 단순 함수(메서드)를 명시한 거라 해당 함수에 대한 정보를 제공해준다.
그렇기 때문에 결과를 보려면 꼭 호출을 명시하는 () 를 사용해야 원하는 결과를 제공 받을 수 있다.
반대로 shape 과 colmun 은 함수(메서드)가 아니기 때문에 () 를 사용하면 에러가 나는 것을 확인할 수 있다.
describe
- 데이터 칼럼별 요약 통계량 정보를 제공
- float 이나 int 처럼 숫자형 데이터의 통계치를 확인하는데 유용
(count: 데이터 수, mean: 평균값, std: 표준편차, min: 최솟값, max: 최댓값, 4분위값) - 범주형 데이터의 경우 데이터 개수, 최빈값, 최빈값의 개수를 제공
결과를 보면 이전 info 의 결과에서
수치형 데이터인 float 과 int 형인 4개의 컬럼만 나온것을 확인할 수 있다.
범주형 데이터 컬럼의 정보도 확인을 하려면 인자 값을 include='all' 로 설정해주면 된다.
결과를 보다시피 수치형으로 계산 할 수 없는 것들은 NaN 처리 된 것을 확인할 수 있다.
25% 50% 75% 는 각각 제 1 ~ 3 사분위수 값을 의미하면 하위 25%, 50%, 70% 지정에 위치한 값을 표현
dtypes
- 데이터프레임이 가지는 데이터 형태의 종류를 나타냄
여기서 또 하나 짚고 넘어갈 내용으로
그림의 마지막에 출력된 dtype: object 는
컬럼들의 데이터 자료형이(int64, float64, object) 가 하나라도 다르면 object 로 출력된다.
반대로 모두가 같은 자료형으로 통일된다면 해당 자료형이 출력된다.
value_counts
- '지정된 특정 컬럼' 이 소유하고 있는 값(value) 들의 각 값들의 개수를 제공
'AI > ASSOCIATE' 카테고리의 다른 글
ASSOCIATE 4. (1) | 2025.07.02 |
---|---|
ASSOCIATE 3. (0) | 2025.04.18 |
ASSOCIATE 2. (0) | 2025.04.18 |
ASSOCIATE 1. (0) | 2025.04.18 |