AI

머신러닝 기본 용어와 기초 수학 개념

inthyes 2024. 1. 4. 02:54

데이터의 구성

  • 데이터는 피처(feature)와 라벨(label, 맞추고싶은 목표)로 구성됨
  • 독립변수와 종속변수로도 불림
  • 라벨은 y로 표기, 라벨의 유무로 지도학습, 비지도학습 구분

Feature(=attribute, 피처)

  • 데이터 X의 특징, 혹은 항목을 의미
  • N : 데이터 샘플 갯수, D: 피처의 갯수
  • ex) 혈압, 몸무게, 나이

Parameter(=weight, 피라미터, 가중치)

  • 주어진 데이터(입력값)말고, 모델이 가지고 있는 학습 가능한(learnable) 파라미터
    ex) w0, w1, w2, ... , wD

Hyperparameter(하이퍼 파라미터)

  • 모델 학습에 있어, 인간이 정해야하는 변수들
  • 학습률, 배치 크기 등등

Input(입력값) vs Output(출력값)

ML 규칙
1. 평가 데이터를 모델 학습에 사용하지 말것
2. 학습 데이터안에서 라벨(y)를 건내주지 말것
  • Input: 모델(함수)에 입력되는 값으로 데이터의 피처 부분(x로 표기)
  • Output: 모델로부터 출력되는 예측값($\hat{y}$로 표기)

예측값과 y값과의 손실(오류)를 계산함

선형 모델 vs 비선형 모델

  • Linear regression (선형 회귀) : 파라미터를 선형 결합식으로 표현 가능한 모델
    ex) y = w0 + w1x1 + w2x2 + ... + wDxD, y = w0 + w1x + w2x2
  • Nonlinear regression (비선형 회귀) : 선형 결합식으로 표현 불가능한 모델
    ex) log(y) = w0 + w1log(x), y = max(x, 0)

Basic Math for ML

함수 모양의 선형/비선형이 아니라 관계를 선형적으로 설명 가능한가를 의미함

  • 두 집합 사이의 관계, 혹은 규칙
  • y = f(x)의 식으로 표현, 이 때의 x는 입력값, y는 출력값

y = f(x) : 완벽한 f를 찾기 위해 모델을 학습. 완벽하지 않기 때문에 예측값 $\hat{y}$ 가 나오게 됨

일차 함수

  • y가 x에 대한 일차식으로 표현된 경우
  • y = ax + b (a != 0)
  • a를 기울기, b를 절편이라고 표현

이차 함수

  • y가 x에 대한 이차식으로 표현된 경우
  • y = a(x - p)2 + q(a != 0)

순간 변화율

  • x의 값이 미세하게 변화했을 때 y의 변화율
    $\lim_{\Delta x \to\ zero} \frac{f(a+\Delta x)-f(a)}{\Delta x}$
    $\Delta x = x(변화후)- x(변화전)$
  • 어떤 x값(=a)에서의 그래프와 맞닿는 접선의 기울이

미분

  • 함수 f(x)를 미분한다는 것은 함수의 (a라는 포인트)순간 변화율을 구한다는 뜻
  • $f'(x)$ 또는 $\frac{d}{dx} f(x)$ 로 표기
  • ex) $f(x) = ax, f(x) = x^2$

함수의 최솟값

  • 함수의 최솟값에서의 미분값(순간 변화율)은 항상 0임
  • 이를 바탕으로 파라미터의 최적값을 구할 수 있음

지수함수

  • $y = a^x(a !=1, a>0)$
  • a를 밑, x를 지수라고 부름

자연 상수

  • $e = \lim_{n \to\infty}(1+\frac{1}{n})^n$
  • '자연 로그의 밑' 또는 '오일러의 수' 등으로 불림
  • 처럼 수학에서 중요하게 사용되는 무리수($\approx 2.718281828...$ )
  • 100%의 성장률을 가지고 1회 연속 성장할 때 가질 수 있는 최대 성장량
  • $\frac{d}{dx}e^x = e^x$ 자연상수는 미분을 취했을 때 자기 자신의 형태를 가짐

시그모이드 함수(sigmoid function)

  • 이진 분류 문제를 위한 비선형 함수
  • $y = \frac{1}{1+e^(-x)}$
  • 함수의 출력값이 항상 0이상 1이하며, 중앙 출력값은 0.5

소프트맥스 함수(softmax function)

  • 다중 분류 문제를 위한 비선형 함수(다중 클래스에 대한 예측값을 확률값으로 변환)
  • $y_i = \frac{e^xi}{\sum_{k=1}^{K} e^xk}$ (k는 클래스 갯수)

로그 함수

  • $y = log_a x$
  • 지수 함수와 역함수의 관계
  • 로그 함수의 밑이 e일 때, $y = ln x$ (자연 로그)

'AI' 카테고리의 다른 글

Regression vs Classification  (0) 2024.01.04
train & test & validation data set  (1) 2023.10.21
batch size & epoch & iteration  (0) 2023.10.20
K-Fold Cross Validation  (0) 2023.10.20
ROC curve  (0) 2023.10.20