지도학습 2

[ML] 3. 머신 러닝 핵심 알고리즘: 지도학습

3.1 지도학습지도 학습 : 정답을 컴퓨터에 미리 알려주고 데이터를 학습시키는 방법구분분류회귀데이터 유형이산형 데이터연속성 데이터결과훈련 데이터의 레이블 중 하나를 예측연속된 값을 예측예시학습 데이터를 A-B-C 그룹 중 하나로 매핑결과값이 어떤 값이든 나올 수 있음3.1.1 K-최근접 이웃왜 사용할까?→ 주어진 데이터에 대한 분류 언제 사용하면 좋을까?→ K-최근접 이웃은 직관전이며 사용하기 쉽기 때문에 초보자가 쓰기에 좋다. 또한, 훈련 데이터를 충분히 확보할 수 있는 환경에서 사용하면 좋다. K-최근접 이웃(K-nearst neighbor)은 새로운 입력을 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘이다.과거 데..

[ML] 05-3 트리의 앙상블

앙상블 학습은 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘이다. 이는 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다. 랜덤 포레스트 랜덤 포레스트는 대표적인 결정 트리 기반의 앙상블 학습 방법이다. 부트스트랩 샘플을 사용하고 랜덤하게 일부 특성을 선택하여 트리를 만드는 특징을 지닌다. 부트스트랩이란 데이터 세트에서 중복을 허용하여 데이터를 샘플링하는 방식을 말한다. 랜덤 포레스트는 위 특징들로 인해 훈련 세트에 과대적합되는 것을 막아주고 검증 세트와 테스트 세트에서 안정적인 성능을 얻을 수 있다. RandomForestClassifier 클래스를 활용한 와인 분류 문제에 적용해보자. 첫째로 와인 데이터셋을 판다스로 불러오고 훈련 세트와 테스트 세트로 분리..