분류 전체보기35 [Numpy] pandas와 numpy 호환 목차1. 개요2. 내용2-1. Pandas 객체와 Numpy 배열 간 변환Series를 Numpy 배열로 변환 (.values)DataFrame의 열을 Numpy 배열로 변환DataFrame 전체를 Numpy 배열로 변환 (.values)2-2. Numpy로 Pandas 데이터 처리하기Numpy의 유니버설 함수 활용Numpy의 집계 함수 활용Numpy의 브로드캐스팅 활용2-3. 효율적인 데이터 분석을 위한 전략벡터화 연산의 중요성Numpy를 활용한 조건부 처리3. 결론 1. 개요Pandas는 강력한 데이터 분석 및 조작 라이브러리로서, 테이블 형태의 데이터를 효율적으로 다룰 수 있는 DataFrame과 1차원 데이터를 위한 Series 객체를 제공합니다. 반면, Numpy는 수치 계산에 특화된 라이브러리.. 2025. 5. 19. [Numpy] Numpy로 배우는 기술 통계부터 상관 분석까지 목차1. 개요2. 내용2-1. 기술 통계 (Descriptive Statistics)평균 (Mean)중앙값 (Median)최댓값 (Maximum) 및 최솟값 (Minimum)범위 (Range)분산 (Variance)표준 편차 (Standard Deviation)백분위수 (Percentile)2-2. 확률 분포 (Probability Distribution)정규 분포 (Normal Distribution)균등 분포 (Uniform Distribution)2-3. 상관 분석 (Correlation Analysis)3. 결론 1. 개요데이터 분석에서 통계는 핵심적인 역할을 수행합니다. 데이터의 특징을 요약하고, 패턴을 발견하며, 불확실성을 추론하는 데 필수적인 도구이기 때문입니다. Numpy는 이러한 기본적인.. 2025. 5. 17. [Numpy] Numpy로 시작하는 선형대수 - 벡터, 행렬, 그리고 방정식 풀이 목차1. 개요2. 내용2-1. 벡터 (Vector)벡터 연산2-2. 행렬 (Matrix)행렬 연산2-3. 행렬식 (Determinant)2-4. 역행렬 (Inverse Matrix)2-5. 선형 시스템 (Linear System)3. 결론 1. 개요데이터 분석과 과학 컴퓨팅의 핵심 라이브러리인 Numpy는 강력한 다차원 배열 객체와 이를 조작하기 위한 다양한 함수를 제공합니다. 특히 선형대수는 공학, 물리학, 컴퓨터 그래픽스, 머신러닝 등 광범위한 분야의 기초가 되며, Numpy는 이러한 선형대수 연산을 효율적으로 수행할 수 있도록 최적화되어 있습니다.이번 글에서는 Numpy를 이용하여 선형대수의 기본적인 개념들을 쉽게 이해하고 실제로 코드로 구현해보는 과정을 다룹니다. 벡터와 행렬의 표현, 기본적인 연.. 2025. 5. 15. [pandas] Pandas 피벗(pivot)과 피벗 테이블(pivot_table) 완전 정복 목차1. 개요2. 내용2-1. pivot()의 기본 사용법2-2. pivot_table()의 기본 사용법2-3. aggfunc로 다양한 집계 적용2-4. 다중 인덱스와 열 이름 처리2-5. pivot_table vs groupby 비교3. 결론1. 개요데이터를 넓은 형식으로 재구조화할 때 자주 사용하는 도구가 pivot()과 pivot_table()입니다. 이 함수들은 데이터를 요약하고 가독성을 높이며, 분석을 위한 전처리에서 매우 중요한 역할을 합니다. 특히 피벗 테이블은 다중 집계, 결측값 처리 등에서 강력한 기능을 제공합니다.2. 내용2-1. pivot()의 기본 사용법pivot은 행-열 값을 기준으로 데이터를 재구성하며, 중복된 인덱스가 있으면 에러가 발생합니다.import pandas as pd.. 2025. 5. 13. [pandas] 집계 함수 완전정복: sum, mean, count, agg의 모든 것 목차1. 개요2. 내용2-1. sum(): 합계2-2. mean(): 평균2-3. count(): 개수2-4. agg(): 다중 집계2-5. describe(): 전체 요약 통계3. 결론1. 개요데이터 분석에서 가장 기본이 되는 작업은 숫자 데이터를 요약하는 일입니다. Pandas에서는 sum(), mean(), count() 같은 집계 함수뿐 아니라, 여러 함수를 동시에 적용할 수 있는 agg()와 전체 통계를 한 번에 보는 describe()까지 다양한 집계 도구를 제공합니다.이번 글에서는 이들 집계 함수를 실제 예제를 통해 하나씩 살펴보고, 각 함수의 특징과 실전에서의 활용 포인트를 정리해봅니다.2. 내용2-1. sum(): 합계sum() 함수는 각 열 또는 그룹의 합계를 계산합니다.import p.. 2025. 5. 10. [pandas] Pandas 그룹화(GroupBy) 기초 완전정복 목차1. 개요2. 내용2-1. groupby() 기본 사용법2-2. 그룹별 집계 함수 적용2-3. 여러 열 기준 그룹화2-4. 그룹 객체 반복 처리2-5. 그룹별 transform과 filter3. 결론1. 개요Pandas의 groupby()는 데이터를 카테고리별로 묶고, 집계/변환/필터링 등의 연산을 효율적으로 수행할 수 있게 해주는 핵심 함수입니다. 데이터 분석에서 특정 기준으로 집계하는 일이 매우 많기 때문에 groupby()는 반드시 숙지해야 할 기능입니다.이번 글에서는 그룹화의 기본 개념부터 집계 함수, 다중 그룹화, transform과 filter까지 실제 예제를 통해 단계적으로 설명합니다.2. 내용2-1. groupby() 기본 사용법기본적으로 groupby('열이름') 형태로 그룹을 생성한.. 2025. 5. 9. [pandas] 정렬과 순위_sort_values, sort_index, rank 완전정복 목차1. 개요2. 내용2-1. sort_values(): 열 기준 정렬2-2. sort_index(): 인덱스 기준 정렬2-3. rank(): 순위 매기기2-4. 여러 조건 정렬 실전 예제2-5. 정렬 옵션 비교 및 팁3. 결론1. 개요Pandas의 강력한 기능 중 하나는 정렬 및 순위 매기기입니다. 데이터프레임의 값을 기준으로 정렬하거나, 인덱스를 기준으로 정렬하며, 특정 열을 기준으로 순위를 매기는 작업은 데이터 분석의 기본입니다. 본 글에서는 sort_values(), sort_index(), rank() 세 가지 핵심 함수를 중심으로 실전 예제와 함께 정리합니다.2. 내용2-1. sort_values(): 열 기준 정렬sort_values()는 특정 열의 값을 기준으로 오름차순 또는 내림차순 정렬.. 2025. 5. 8. [scikit-learn] Permutation Importance로 특성 중요도 평가하기 목차1. 서론2. Permutation Importance 개념 및 구현 방식2-1. 기본 개념2-2. 모델 불가지론적 특성2-3. 정확한 평가를 위한 팁2-4. Permutation Importance vs Feature Importance2-5. Permutation Importance 사용 시 주의사항3. 예제: 분류 모델에 적용하기4. 시각화로 중요도 해석5. 결론1. 서론머신러닝 모델의 해석 가능성은 모델 성능만큼이나 중요합니다. 특히 복잡한 앙상블이나 딥러닝 모델에서는 각각의 입력 피처가 예측 결과에 얼마나 영향을 미쳤는지를 이해하는 것이 어렵습니다. 이때 Permutation Importance는 모델에 관계없이, 각 특성이 예측 정확도에 얼마나 기여하는지를 직관적으로 평가할 수 있는 유용한.. 2025. 5. 7. [scikit-learn] SelectFromModel로 특성 선택 자동화하기 목차1. 서론2. SelectFromModel 개념 및 작동 방식3. 예제: 회귀 및 분류 모델 적용4. 중요도 기준 설정: threshold 옵션5. 결론1. 서론머신러닝 모델에 불필요한 특성이 많을 경우, 모델의 학습 속도가 느려지고 과적합(overfitting)의 위험도 증가합니다. 이를 해결하기 위해 특성 선택은 매우 중요한 전처리 과정 중 하나이며, scikit-learn에서는 SelectFromModel이라는 강력한 기능을 통해 모델 기반으로 자동화된 피처 선택을 수행할 수 있습니다.SelectFromModel은 주어진 모델이 계산한 특성 중요도(coef_ 또는 feature_importances_)를 기준으로 불필요한 피처를 제거합니다. 이 글에서는 해당 기법의 개념, 사용법, 회귀 및 분류.. 2025. 5. 6. [scikit-learn] RFE vs RFECV, 재귀적 특성 제거 방법 비교 목차1. 서론2. RFE 개념 및 사용법3. RFECV 개념 및 사용법4. 실전 예제 비교5. 결론1. 서론머신러닝 모델의 성능을 높이기 위해서는 적절한 특성 선택이 필수입니다. 특히 특성이 너무 많으면 과적합 위험이 커지고 학습 시간도 늘어나기 때문에, 핵심적인 피처만 선택하는 것이 중요합니다. 그중에서도 RFE와 RFECV는 재귀적으로 피처를 제거하며 최적의 조합을 찾아주는 방법으로 널리 사용됩니다.이번 글에서는 Recursive Feature Elimination (RFE)와 RFECV의 개념과 차이점, 사용법을 실제 예제와 함께 비교해보겠습니다.2. RFE 개념 및 사용법RFE (Recursive Feature Elimination)는 전체 특성에서 시작해, 가장 중요도가 낮은 특성을 하나씩 제거.. 2025. 5. 5. 이전 1 2 3 4 다음