AI 30

[ML] 02-1 훈련 세트와 테스트 세트

지도 학습과 비지도 학습 지도 학습 : 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용 비지도 학습 : 타깃 데이터 없이 입력 데이터에서 어떤 특징을 찾는 데 주로 활용 훈련 세트 : 모델을 훈련할 때 사용하는 데이터로 보통 훈련 세트가 클수록 좋기 때문에 테스트 데이터를 제외한 모든 데이터를 사용 테스트 세트 : 일반적으로 전체 데이터에서 20~30%를 테스트 세트로 사용 훈련 세트와 테스트 세트 생선의 길이와 무게를 위한 리스트를 생성한다. fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33..

[ML] 01-3 마켓과 머신러닝

생선 분류 문제 1. 도미 데이터 준비 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 6..

머신러닝 기본 용어와 기초 수학 개념

데이터의 구성 데이터는 피처(feature)와 라벨(label, 맞추고싶은 목표)로 구성됨 독립변수와 종속변수로도 불림 라벨은 y로 표기, 라벨의 유무로 지도학습, 비지도학습 구분 Feature(=attribute, 피처) 데이터 X의 특징, 혹은 항목을 의미 N : 데이터 샘플 갯수, D: 피처의 갯수 ex) 혈압, 몸무게, 나이 Parameter(=weight, 피라미터, 가중치) 주어진 데이터(입력값)말고, 모델이 가지고 있는 학습 가능한(learnable) 파라미터 ex) w0, w1, w2, ... , wD Hyperparameter(하이퍼 파라미터) 모델 학습에 있어, 인간이 정해야하는 변수들 학습률, 배치 크기 등등 Input(입력값) vs Output(출력값) ML 규칙 1. 평가 데이터를..

AI 2024.01.04

Regression vs Classification

회귀(Regression) 입력값: 연속값(실수형), 이산값(범주형) 등 모두 가능 출력값: 연속값(실수형) 모델 형태: 일반적인 함수 형태( eg. y = w1 x + w0) :머신러닝 모델이 함수 형태로 표현되는 것 분류(Classfication) 입력값: 연속값(실수형), 이산값(범주형)등 모두 출력값: 이산값(범주형) 모델 형태: 이진 분류라면 시그모이드(sigmoid)함수, 다중 분류일 경우 소프트맥스(softmax)함수 꼭 포함 위의 내용 비교를 통해 회귀모델은 연속값을 예측할 경우, 분류 모델은 이산값을 예측할 경우 활용할 수 있다.  혈압 몸무게 나이 지병 길동 130 34 14 X 철수 120 76 30 X ... ... ... ... ... 영희 150 50 51 O 위의 표의 데이터..

AI 2024.01.04

train & test & validation data set

데이터 셋 train set 모델을 학습 시키는 것에 유일하게 사용되는 데이터 보통 train set을 이용해 각기 다른 모델을 서로 다른 epoch로 학습을 시킨다. 여기서 각기 다른 모델이란 hidden layer 혹은 hyper parameter에 약간씩 변화를 줌을 뜻한다. Validation set 학습이 이미 완료된 모델을 검증하기 위한 data set 학습을 시키지 않지만 학습에 관여함 Test set 학습과 검증이 완료된 모델의 성능을 평가하기 위한 data set 학습에 전혀 관여하지 않고 "최종 성능"을 평가하는 용도 base line 기준으로 더 학습시키면 overfitting되어 test set에 대한 결과가 점점 안좋아진다. base line에 해당하는 epoch를 찾아야하는데 이..

AI 2023.10.21

batch size & epoch & iteration

사전적 의미 batch (일괄적으로 처리되는) 집단, 무리 한 회분(한 번에 만들어 내는 음식기계 등의 양) (일괄 처리를 위해)함께 묶다 epoch (중요한 사건 / 변화들이 일어난) 시대 (=era) iteration (계산,컴퓨터 처리 절차의) 반복 batch size 전체 트레이닝 데이터 셋을 여러 작은 그룹을 나누었을 때 batch size는 하나의 소그룹에 속하는 데이터 수를 의미 전체 트레이닝 셋을 작게 나누는 이유 : 트레이닝 데이터를 통째로 신경망에 넣으면 비효율적인 리소스 사용으로 학습 시간이 오래 걸림 epoch 딥러닝에서의 epoch : 전체 트레이닝 셋이 신경망을 통과한 횟수 ex) 1-epoch는 전체 트레이닝 셋이 하나의 신경망에 적용되어 순전파와 역전파를 통해 신경망을 한 번..

AI 2023.10.20

K-Fold Cross Validation

정의 K개의 Fold를 만들어서 진행하는 교차검증 사용 이유 총 데이터 갯수가 적은 데이터 셋에 대하여 정확도를 향상시킬 수 있음 기존 분류보다 train, test로만 분류할 때 학습 데이터 셋이 더 많기 때문 데이터 수가 적은데 검증과 테스트에 데이터를 더 뺏기면 underfitting등 성능이 미달되는 모델이 학습됨overfitting에 k-fold가 유용한 이유 단점 iteration 횟수가 많아지기 때문에 학습에 걸리는 시간이 늘어남 과정 기존 과정과 같이 train data set과 test data set을 나눈다. train data set을 K개의 fold로 나눈다. 한 개의 fold에 있는 데이터를 다시 k개로 쪼갠 다음, k-1개는 train data, 마지막 한 개는 validati..

AI 2023.10.20

ROC curve

머신러닝 모델을 평가할 때 쓰이는 것 재현율(TPR) : 실제 병에 걸린 사람이 양성 판정을 받는 비율 $\frac{TP}{TP+FN}$ 특이도(TNR) : 정상인이 음성 판정을 받는 비율 $\frac{TN}{FP+TN}$ False positive rate(FPR) == Fall-out = 1-specificity $\frac{FN}{FP+TN}$ 정확도(Accuracy): 전체 데이터 중 제대로 분류된 데이터 비율 $\frac{TP+TN}{TP+FP+FN+TN}$ 에러율(Error Rate): 전체 데이터 중 제대로 분류되지 않은 데이터 비율 $\frac{FP+FN}{TP+FP+FN+TN}$ 정밀도(Precision): Positive로 예측했을 때, 실제로 Positive인 비율 $\frac{TP}..

AI 2023.10.20

Loss Function

손실 함수 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수 값이 0에 가까울수록 모델의 정확도가 높고, 반대로 0에서 멀어질수록 모델의 정확도가 낮음 L1 손실 함수 실제값과 예측값의 차이 학습 목적 : 실제값과 예측값의 차이를 줄이는 것 관련 비용 함수 : MAE(Mean Absolute Error) -L1 Loss의 평균을 나타내는 함수이다. == error의 절대값의 평균 -y_i 는 i번째 실제값, y^_i는 i번째 예측값_ L2 손실 함수 실제값과 예측값의 차이의 제곱 학습 목적 : 실제값과 예측값의 제곱의 차를 줄이는 것 관련 비용 함수 : MSE(Mean Squared Error)/ RMES(Root Mean Squared Error) -..

AI 2023.10.20

Entropy

Entropy 확률변수의 불확실성의 척도 높다는 것은 정보가 많고, 확률이 낮다는 것을 의미 q - 실제 / p - 예측 p(xi)는 각각의 요소들이 나올 수 있는 확률값이다. 모든 요소들이 나올 확률이 동일하다면, -log p(xi) 값도 모두 동일하기 때문에 식을 간결하게 만들 수 있다. p(xi)값의 총 합은 1이기 때문에 수식은 -log p(xi)가 됩니다. x값이 작아질수록 -log x 값은 기하급수적으로 커진다. x가 작아진 것 보다 log x가 커지는 폭이 훨씬 크기 때문에 전체 엔트로피는 증가한다. Cross-Entropy 원래의 cross entropy는 예측 모형은 실제 분포인 q 를 모르고, 모델링을 하여 q 분포를 예측하고자 하는 것이다. 예측 모델링을 통해 구한 분포를 p(x) 라..

AI 2023.10.20