본문 바로가기
Pandas

[Pandas] 데이터프레임 생성 및 확인 함수 정리 (pd.DataFrame, head(), info(), tail(), describe())

by PredictLab | 데이터 예측 연구소 2025. 4. 15.

1. 개요

Pandas는 파이썬에서 데이터 분석을 수행할 때 가장 많이 사용하는 라이브러리 중 하나입니다. 이번 글에서는 Pandas의 핵심 객체인 DataFrame을 생성하고, 데이터를 확인하는 데 유용한 기본 함수들을 소개합니다.

2. 내용

2-1. pd.DataFrame

pd.DataFrame은 Pandas의 기본 구조로, 행과 열로 구성된 2차원 데이터 구조입니다. 딕셔너리, 리스트, 배열 등을 이용해 만들 수 있습니다.

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['Seoul', 'Busan', 'Incheon']
}

df = pd.DataFrame(data)
print(df)
      Name  Age    City
0    Alice   25   Seoul
1      Bob   30   Busan
2  Charlie   35  Incheon

2-2. head()

head() 함수는 상위 5개의 데이터를 확인할 수 있습니다. 큰 데이터셋의 구조를 빠르게 파악할 때 유용합니다.

print(df.head())
      Name  Age    City
0    Alice   25   Seoul
1      Bob   30   Busan
2  Charlie   35  Incheon

2-3. tail()

tail() 함수는 마지막 5개의 행을 보여줍니다. 데이터의 끝부분을 확인하고 싶을 때 사용합니다.

print(df.tail())
      Name  Age    City
0    Alice   25   Seoul
1      Bob   30   Busan
2  Charlie   35  Incheon

2-4. info()

info() 함수는 데이터프레임의 전체적인 구조를 출력합니다. 열의 개수, 데이터 타입, 결측치 등을 확인할 수 있습니다.

print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   City    3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

2-5. describe()

describe() 함수는 수치형 데이터의 요약 통계를 보여줍니다. 평균, 표준편차, 최소/최대값, 분위수 등의 정보를 확인할 수 있습니다.

print(df.describe())
             Age
count   3.000000
mean   30.000000
std     5.000000
min    25.000000
25%    27.500000
50%    30.000000
75%    32.500000
max    35.000000

3. 결론

이번 글에서는 Pandas의 핵심 자료구조인 DataFrame을 생성하고, 기본 정보를 빠르게 확인할 수 있는 함수들을 소개했습니다. head(), tail(), info(), describe()는 데이터 분석의 첫 단계에서 반드시 사용되는 함수들이므로, 익숙하게 다뤄두는 것이 중요합니다.