로지스틱회귀 3

[ML] 3. 머신 러닝 핵심 알고리즘: 지도학습

3.1 지도학습지도 학습 : 정답을 컴퓨터에 미리 알려주고 데이터를 학습시키는 방법구분분류회귀데이터 유형이산형 데이터연속성 데이터결과훈련 데이터의 레이블 중 하나를 예측연속된 값을 예측예시학습 데이터를 A-B-C 그룹 중 하나로 매핑결과값이 어떤 값이든 나올 수 있음3.1.1 K-최근접 이웃왜 사용할까?→ 주어진 데이터에 대한 분류 언제 사용하면 좋을까?→ K-최근접 이웃은 직관전이며 사용하기 쉽기 때문에 초보자가 쓰기에 좋다. 또한, 훈련 데이터를 충분히 확보할 수 있는 환경에서 사용하면 좋다. K-최근접 이웃(K-nearst neighbor)은 새로운 입력을 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘이다.과거 데..

[ML] 05-1 결정 트리

로지스틱 회귀로 와인 분류하기 import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') 데이터셋을 판다스 데이터프레임으로 제대로 읽어 들였는지 head() 메서드를 통해 처음 5개의 샘플을 확인한다. wine.head() 판다스 데이터프레임의 info()메서드는 데이터프레임의 각 열의 데이터 타입과 누락된 데이터 확인에 유용하다. wine.info() describe()메서드는 열에 대한 간략한 통계를 출력한다. 이 메서드는 평균, 표준편차, 최소, 최대 등의 값을 보여준다. wine.describe() 위 통계를 통해 알코올 도수와 당도, pH값의 스케일이 다르다는 것을 확인할 수 있다. 표준화를 하기 전, 판다스 데이터 프레임을 넘..

[ML] 04-1 로지스틱 회귀

럭키백의 확률럭키백에 생선이 7개 들어있고, 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때 7개의 생선에 대한 확률을 출력해아한다. 데이터 준비import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() 판다스의 unique()함수를 사용하여 Species 열에서의 고유한 값들을 출력할 수 있다.print(pd.unique(fish['Species'])) species를 제외한 나머지 5개의 열을 입력 데이터로 사용한다.fish_input = fish[['Weight','Length','Diagonal','Height','Width']].to_numpy() print(fish_input[:5]) species는..