scikit-learn11 [scikit-learn] Permutation Importance로 특성 중요도 평가하기 목차1. 서론2. Permutation Importance 개념 및 구현 방식2-1. 기본 개념2-2. 모델 불가지론적 특성2-3. 정확한 평가를 위한 팁2-4. Permutation Importance vs Feature Importance2-5. Permutation Importance 사용 시 주의사항3. 예제: 분류 모델에 적용하기4. 시각화로 중요도 해석5. 결론1. 서론머신러닝 모델의 해석 가능성은 모델 성능만큼이나 중요합니다. 특히 복잡한 앙상블이나 딥러닝 모델에서는 각각의 입력 피처가 예측 결과에 얼마나 영향을 미쳤는지를 이해하는 것이 어렵습니다. 이때 Permutation Importance는 모델에 관계없이, 각 특성이 예측 정확도에 얼마나 기여하는지를 직관적으로 평가할 수 있는 유용한.. 2025. 5. 7. [scikit-learn] SelectFromModel로 특성 선택 자동화하기 목차1. 서론2. SelectFromModel 개념 및 작동 방식3. 예제: 회귀 및 분류 모델 적용4. 중요도 기준 설정: threshold 옵션5. 결론1. 서론머신러닝 모델에 불필요한 특성이 많을 경우, 모델의 학습 속도가 느려지고 과적합(overfitting)의 위험도 증가합니다. 이를 해결하기 위해 특성 선택은 매우 중요한 전처리 과정 중 하나이며, scikit-learn에서는 SelectFromModel이라는 강력한 기능을 통해 모델 기반으로 자동화된 피처 선택을 수행할 수 있습니다.SelectFromModel은 주어진 모델이 계산한 특성 중요도(coef_ 또는 feature_importances_)를 기준으로 불필요한 피처를 제거합니다. 이 글에서는 해당 기법의 개념, 사용법, 회귀 및 분류.. 2025. 5. 6. [scikit-learn] RFE vs RFECV, 재귀적 특성 제거 방법 비교 목차1. 서론2. RFE 개념 및 사용법3. RFECV 개념 및 사용법4. 실전 예제 비교5. 결론1. 서론머신러닝 모델의 성능을 높이기 위해서는 적절한 특성 선택이 필수입니다. 특히 특성이 너무 많으면 과적합 위험이 커지고 학습 시간도 늘어나기 때문에, 핵심적인 피처만 선택하는 것이 중요합니다. 그중에서도 RFE와 RFECV는 재귀적으로 피처를 제거하며 최적의 조합을 찾아주는 방법으로 널리 사용됩니다.이번 글에서는 Recursive Feature Elimination (RFE)와 RFECV의 개념과 차이점, 사용법을 실제 예제와 함께 비교해보겠습니다.2. RFE 개념 및 사용법RFE (Recursive Feature Elimination)는 전체 특성에서 시작해, 가장 중요도가 낮은 특성을 하나씩 제거.. 2025. 5. 5. [scikit-learn] SelectKBest scoring 함수, f_regression vs mutual_info_regression 목차1. 서론2. 주요 scoring 함수 소개2-1. f_regression2-2. mutual_info_regression3. 실전 예제 비교4. 결론1. 서론특성 선택(Feature Selection)은 머신러닝 성능을 높이는 핵심 과정 중 하나입니다. 특히 SelectKBest는 특정 기준에 따라 가장 중요한 피처를 골라주는 유용한 도구입니다. 하지만 어떤 scoring 함수를 사용하느냐에 따라 결과가 크게 달라질 수 있습니다.이번 글에서는 회귀(Regression) 문제를 중심으로, f_regression과 mutual_info_regression 두 가지 스코어링 함수를 비교하고 각각의 특징과 활용 방법을 정리해보겠습니다.2. 주요 scoring 함수 소개2-1. f_regressionf_re.. 2025. 4. 28. [scikit-learn] 특성 선택 기법 비교: VarianceThreshold, SelectKBest, RFE, SelectFromModel 목차1. 서론2. 주요 기법 소개2-1. VarianceThreshold2-2. SelectKBest2-3. RFE (Recursive Feature Elimination)2-4. SelectFromModel3. 결론1. 서론머신러닝 모델의 성능을 높이고, 해석 가능성을 높이며, 과적합을 방지하기 위해 꼭 필요한 과정이 바로 특성 선택(Feature Selection)입니다. 특성 선택은 모델에 불필요한 피처를 제거함으로써 학습 속도를 높이고, 모델을 단순화하며 예측 성능 향상에도 기여할 수 있습니다.이번 글에서는 scikit-learn에서 제공하는 대표적인 특성 선택 기법 4가지를 비교합니다. VarianceThreshold, SelectKBest, RFE, SelectFromModel 각각의 동작 원.. 2025. 4. 24. [scikit-learn] 회귀(Regression) 모델 실전 비교 목차1. 서론2. 주요 모델 소개2-1. Linear Regression2-2. Ridge Regression2-3. Lasso Regression2-4. SVR (Support Vector Regression)2-5. Random Forest Regressor3. 결론1. 서론회귀(Regression)는 머신러닝에서 연속적인 수치를 예측하는 데 사용되는 대표적인 문제 유형입니다. 예를 들어 집값, 매출, 기온, 수요량 등 다양한 비즈니스 문제에 적용되며, 분류보다 더 넓은 응용 분야를 가집니다. 이번 글에서는 scikit-learn을 이용해 다양한 회귀 모델을 실전 예제와 함께 비교해보고, 각 모델의 특징과 장단점을 파악해보겠습니다.다룰 모델은 Linear Regression, Ridge, Lasso,.. 2025. 4. 23. [scikit-learn] 분류(Classification) 모델 실전 비교 목차1. 서론2. 주요 모델 소개2-1. Logistic Regression2-2. K-Nearest Neighbors2-3. SVC (Support Vector Classifier)2-4. Decision Tree2-5. Random Forest3. 결론1. 서론머신러닝에서 가장 기본적이면서도 중요한 문제 유형 중 하나는 분류(Classification)입니다. 타겟 변수가 범주형일 때, 우리는 이 데이터를 통해 새 샘플이 어떤 클래스에 속할지 예측하고자 합니다. 이 글에서는 대표적인 분류 알고리즘 5가지를 소개하고, 동일한 데이터셋에서 비교 분석함으로써 각 모델의 특성과 성능 차이를 실감할 수 있도록 구성했습니다.소개할 분류 모델은 Logistic Regression, K-Nearest Neighbo.. 2025. 4. 22. [scikit-learn] 파이프라인과 ColumnTransformer로 전처리 자동화하기 목차1. 서론2. 주요 함수 소개2-1. Pipeline2-2. ColumnTransformer2-3. 파이프라인과 모델 통합2-4. GridSearchCV 적용3. 결론1. 서론머신러닝 실무에서는 전처리, 모델링, 하이퍼파라미터 튜닝 등의 과정이 여러 단계로 나뉘고 반복적으로 실행됩니다. 이 과정을 코드로 일일이 반복 작성하면 실수도 많아지고 유지보수도 어려워집니다. 이를 해결해주는 가장 강력한 도구가 바로 Pipeline과 ColumnTransformer입니다.2. 주요 함수 소개2-1. PipelinePipeline은 여러 전처리 단계를 순차적으로 연결해주는 도구로, 코드의 재사용성과 일관성을 높여줍니다. 예를 들어, 데이터 스케일링 → 특성 선택 → 모델 학습 과정을 하나로 묶어 실행할 수 있습니.. 2025. 4. 21. [scikit-learn] 모델 성능을 높이는 전처리 핵심 - 특성 선택(Feature Selection) 목차1. 서론2. 주요 함수 소개2-1. VarianceThreshold2-2. SelectKBest2-3. mutual_info_classif2-4. RFE (Recursive Feature Elimination)2-5. SelectFromModel3. 결론1. 서론머신러닝 모델의 성능은 좋은 알고리즘뿐 아니라, 올바른 입력 특성(feature)을 선택하는 데 달려 있습니다. 너무 많은 피처는 과적합을 유발하고, 불필요한 피처는 노이즈로 작용하여 성능을 저하시킵니다. 이번 글에서는 scikit-learn에서 제공하는 특성 선택(Feature Selection) 도구들을 정리하고, 실전 예제와 함께 사용하는 법을 소개합니다.특성 선택은 모델 학습 전에 사전 처리로 수행하거나, 모델 기반 방식으로 학습 결.. 2025. 4. 18. [scikit-learn] 인코딩과 결측치 처리 목차1. 서론2. 주요 함수 소개2-1. 범주형 변수 인코딩: OneHotEncoder2-2. 레이블 인코딩: LabelEncoder2-3. 순서형 인코딩: OrdinalEncoder2-4. 단순 대체: SimpleImputer2-5. KNN 기반 결측치 대체: KNNImputer3. 결론1. 서론머신러닝 모델은 숫자형 입력을 기대합니다. 따라서 범주형 데이터를 숫자로 변환하고, 결측치를 적절히 처리하는 것은 전처리의 핵심입니다. 이 글에서는 OneHotEncoder, LabelEncoder, OrdinalEncoder, SimpleImputer, KNNImputer의 개념과 실전 적용 예제를 통해, 인코딩과 결측치 처리 방법을 상세히 소개합니다.2. 주요 함수 소개2-1. 범주형 변수 인코딩: OneH.. 2025. 4. 16. 이전 1 2 다음