1. 개요
Pandas는 파이썬에서 데이터 분석을 수행할 때 가장 많이 사용하는 라이브러리 중 하나입니다. 이번 글에서는 Pandas의 핵심 객체인 DataFrame
을 생성하고, 데이터를 확인하는 데 유용한 기본 함수들을 소개합니다.
2. 내용
2-1. pd.DataFrame
pd.DataFrame
은 Pandas의 기본 구조로, 행과 열로 구성된 2차원 데이터 구조입니다. 딕셔너리, 리스트, 배열 등을 이용해 만들 수 있습니다.
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['Seoul', 'Busan', 'Incheon']
}
df = pd.DataFrame(data)
print(df)
Name Age City
0 Alice 25 Seoul
1 Bob 30 Busan
2 Charlie 35 Incheon
2-2. head()
head()
함수는 상위 5개의 데이터를 확인할 수 있습니다. 큰 데이터셋의 구조를 빠르게 파악할 때 유용합니다.
print(df.head())
Name Age City
0 Alice 25 Seoul
1 Bob 30 Busan
2 Charlie 35 Incheon
2-3. tail()
tail()
함수는 마지막 5개의 행을 보여줍니다. 데이터의 끝부분을 확인하고 싶을 때 사용합니다.
print(df.tail())
Name Age City
0 Alice 25 Seoul
1 Bob 30 Busan
2 Charlie 35 Incheon
2-4. info()
info()
함수는 데이터프레임의 전체적인 구조를 출력합니다. 열의 개수, 데이터 타입, 결측치 등을 확인할 수 있습니다.
print(df.info())
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 3 non-null object
1 Age 3 non-null int64
2 City 3 non-null object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
2-5. describe()
describe()
함수는 수치형 데이터의 요약 통계를 보여줍니다. 평균, 표준편차, 최소/최대값, 분위수 등의 정보를 확인할 수 있습니다.
print(df.describe())
Age
count 3.000000
mean 30.000000
std 5.000000
min 25.000000
25% 27.500000
50% 30.000000
75% 32.500000
max 35.000000
3. 결론
이번 글에서는 Pandas의 핵심 자료구조인 DataFrame
을 생성하고, 기본 정보를 빠르게 확인할 수 있는 함수들을 소개했습니다. head()
, tail()
, info()
, describe()
는 데이터 분석의 첫 단계에서 반드시 사용되는 함수들이므로, 익숙하게 다뤄두는 것이 중요합니다.
'Pandas' 카테고리의 다른 글
[Pandas] 결측치 탐색과 처리 함수 (isna, fillna, dropna 등) (0) | 2025.04.20 |
---|---|
[Pandas] 열 추가·삭제·변경 함수 정리 (assign, drop, rename,insert) (0) | 2025.04.17 |
[Pandas] 데이터 필터링과 조건 선택 함수 정리 (boolean indexing, query, isin 등) (0) | 2025.04.16 |
[Pandas] 데이터 선택과 인덱싱 함수 정리 (loc, iloc, at, iat 등) (0) | 2025.04.16 |