경사하강법 2

[ML] 05-3 트리의 앙상블

앙상블 학습은 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘이다. 이는 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다. 랜덤 포레스트 랜덤 포레스트는 대표적인 결정 트리 기반의 앙상블 학습 방법이다. 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 특징을 지닌다. 부트스트랩이란 데이터 세트에서 중복을 허용하여 데이터를 샘플링하는 방식을 말한다. 랜덤 포레스트는 위 특징들로 인해 훈련 세트에 과대적합되는 것을 막아주고 검증 세트와 테스트 세트에서 안정적인 성능을 얻을 수 있다. RandomForestClassifier 클래스를 활용한 와인 분류 문제에 적용해보자. 첫째로 와인 데이터셋을 판다스로 불러오고 훈련 세트와 테스트 세트로 분리..

[ML] 04-2 확률적 경사하강법

SGDClassifier import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') Species 열을 제외한 나머지 5개는 입력 데이터로, Species 열은 타깃 데이터로 사용한다. fish_input = fish[['Weight', 'Length', 'Diagonal','Height','Width']].to_numpy() fish_target = fish['Species'].to_numpy() 훈련 세트와 테스트 세트로 나눈다. from sklearn.model_selection import train_test_split train_input, test_input, train_target, test_target = train_tes..