분류 전체보기 122

[백준] 10814- 나이순 정렬

https://www.acmicpc.net/problem/10814 10814번: 나이순 정렬 온라인 저지에 가입한 사람들의 나이와 이름이 가입한 순서대로 주어진다. 이때, 회원들을 나이가 증가하는 순으로, 나이가 같으면 먼저 가입한 사람이 앞에 오는 순서로 정렬하는 프로그램을 www.acmicpc.net 문제 온라인 저지에 가입한 사람들의 나이와 이름이 가입한 순서대로 주어진다. 이때, 회원들을 나이가 증가하는 순으로, 나이가 같으면 먼저 가입한 사람이 앞에 오는 순서로 정렬하는 프로그램을 작성하시오. 소스코드 n = int(input()) li = [] for _ in range(n): li.append(list(input().split())) li.sort(key=lambda a:int(a[0]))..

알고리즘 2023.11.02

[백준] 14469 - 소가 길을 건너간 이유 3

https://www.acmicpc.net/problem/14469 14469번: 소가 길을 건너간 이유 3 이웃 농장의 소가 길을 마구잡이로 건너는 것에 진절머리가 난 존은 극단의 결정을 내린다. 농장 둘레에 매우 큰 울타리를 짓는 것이다. 이렇게 하면 근처 농장 출신의 소가 들어올 일이 거의 없 www.acmicpc.net 문제 이웃 농장의 소가 길을 마구잡이로 건너는 것에 진절머리가 난 존은 극단의 결정을 내린다. 농장 둘레에 매우 큰 울타리를 짓는 것이다. 이렇게 하면 근처 농장 출신의 소가 들어올 일이 거의 없다. 이 일로 주변 소들이 분개하였다. 친구네 집에 놀러 갈 수 없을 뿐만 아니라, 매년 참가하던 국제 젖 짜기 올림피아드에도 올해는 참가할 수 없게 되었기 때문이다. 이웃 농장의 소 중 ..

알고리즘 2023.10.31

[백준] 2775 - 부녀회장이 될테야(DP관련)

https://www.acmicpc.net/problem/2775 2775번: 부녀회장이 될테야 첫 번째 줄에 Test case의 수 T가 주어진다. 그리고 각각의 케이스마다 입력으로 첫 번째 줄에 정수 k, 두 번째 줄에 정수 n이 주어진다 www.acmicpc.net 문제 평소 반상회에 참석하는 것을 좋아하는 주희는 이번 기회에 부녀회장이 되고 싶어 각 층의 사람들을 불러 모아 반상회를 주최하려고 한다. 이 아파트에 거주를 하려면 조건이 있는데, “a층의 b호에 살려면 자신의 아래(a-1)층의 1호부터 b호까지 사람들의 수의 합만큼 사람들을 데려와 살아야 한다” 는 계약 조항을 꼭 지키고 들어와야 한다. 아파트에 비어있는 집은 없고 모든 거주민들이 이 계약 조건을 지키고 왔다고 가정했을 때, 주어지는..

알고리즘 2023.10.31

train & test & validation data set

데이터 셋 train set 모델을 학습 시키는 것에 유일하게 사용되는 데이터 보통 train set을 이용해 각기 다른 모델을 서로 다른 epoch로 학습을 시킨다. 여기서 각기 다른 모델이란 hidden layer 혹은 hyper parameter에 약간씩 변화를 줌을 뜻한다. Validation set 학습이 이미 완료된 모델을 검증하기 위한 data set 학습을 시키지 않지만 학습에 관여함 Test set 학습과 검증이 완료된 모델의 성능을 평가하기 위한 data set 학습에 전혀 관여하지 않고 "최종 성능"을 평가하는 용도 base line 기준으로 더 학습시키면 overfitting되어 test set에 대한 결과가 점점 안좋아진다. base line에 해당하는 epoch를 찾아야하는데 이..

AI 2023.10.21

batch size & epoch & iteration

사전적 의미 batch (일괄적으로 처리되는) 집단, 무리 한 회분(한 번에 만들어 내는 음식기계 등의 양) (일괄 처리를 위해)함께 묶다 epoch (중요한 사건 / 변화들이 일어난) 시대 (=era) iteration (계산,컴퓨터 처리 절차의) 반복 batch size 전체 트레이닝 데이터 셋을 여러 작은 그룹을 나누었을 때 batch size는 하나의 소그룹에 속하는 데이터 수를 의미 전체 트레이닝 셋을 작게 나누는 이유 : 트레이닝 데이터를 통째로 신경망에 넣으면 비효율적인 리소스 사용으로 학습 시간이 오래 걸림 epoch 딥러닝에서의 epoch : 전체 트레이닝 셋이 신경망을 통과한 횟수 ex) 1-epoch는 전체 트레이닝 셋이 하나의 신경망에 적용되어 순전파와 역전파를 통해 신경망을 한 번..

AI 2023.10.20

K-Fold Cross Validation

정의 K개의 Fold를 만들어서 진행하는 교차검증 사용 이유 총 데이터 갯수가 적은 데이터 셋에 대하여 정확도를 향상시킬 수 있음 기존 분류보다 train, test로만 분류할 때 학습 데이터 셋이 더 많기 때문 데이터 수가 적은데 검증과 테스트에 데이터를 더 뺏기면 underfitting등 성능이 미달되는 모델이 학습됨overfitting에 k-fold가 유용한 이유 단점 iteration 횟수가 많아지기 때문에 학습에 걸리는 시간이 늘어남 과정 기존 과정과 같이 train data set과 test data set을 나눈다. train data set을 K개의 fold로 나눈다. 한 개의 fold에 있는 데이터를 다시 k개로 쪼갠 다음, k-1개는 train data, 마지막 한 개는 validati..

AI 2023.10.20

ROC curve

머신러닝 모델을 평가할 때 쓰이는 것 재현율(TPR) : 실제 병에 걸린 사람이 양성 판정을 받는 비율 $\frac{TP}{TP+FN}$ 특이도(TNR) : 정상인이 음성 판정을 받는 비율 $\frac{TN}{FP+TN}$ False positive rate(FPR) == Fall-out = 1-specificity $\frac{FN}{FP+TN}$ 정확도(Accuracy): 전체 데이터 중 제대로 분류된 데이터 비율 $\frac{TP+TN}{TP+FP+FN+TN}$ 에러율(Error Rate): 전체 데이터 중 제대로 분류되지 않은 데이터 비율 $\frac{FP+FN}{TP+FP+FN+TN}$ 정밀도(Precision): Positive로 예측했을 때, 실제로 Positive인 비율 $\frac{TP}..

AI 2023.10.20

Loss Function

손실 함수 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수 값이 0에 가까울수록 모델의 정확도가 높고, 반대로 0에서 멀어질수록 모델의 정확도가 낮음 L1 손실 함수 실제값과 예측값의 차이 학습 목적 : 실제값과 예측값의 차이를 줄이는 것 관련 비용 함수 : MAE(Mean Absolute Error) -L1 Loss의 평균을 나타내는 함수이다. == error의 절대값의 평균 -y_i 는 i번째 실제값, y^_i는 i번째 예측값_ L2 손실 함수 실제값과 예측값의 차이의 제곱 학습 목적 : 실제값과 예측값의 제곱의 차를 줄이는 것 관련 비용 함수 : MSE(Mean Squared Error)/ RMES(Root Mean Squared Error) -..

AI 2023.10.20

Entropy

Entropy 확률변수의 불확실성의 척도 높다는 것은 정보가 많고, 확률이 낮다는 것을 의미 q - 실제 / p - 예측 p(xi)는 각각의 요소들이 나올 수 있는 확률값이다. 모든 요소들이 나올 확률이 동일하다면, -log p(xi) 값도 모두 동일하기 때문에 식을 간결하게 만들 수 있다. p(xi)값의 총 합은 1이기 때문에 수식은 -log p(xi)가 됩니다. x값이 작아질수록 -log x 값은 기하급수적으로 커진다. x가 작아진 것 보다 log x가 커지는 폭이 훨씬 크기 때문에 전체 엔트로피는 증가한다. Cross-Entropy 원래의 cross entropy는 예측 모형은 실제 분포인 q 를 모르고, 모델링을 하여 q 분포를 예측하고자 하는 것이다. 예측 모델링을 통해 구한 분포를 p(x) 라..

AI 2023.10.20

빈도주의와 베이지안

확률 : 통계학적으로 한 사건이 장기적으로 일어날 때 발생하는 빈도빈도주의/베이지안은 확률을 해석하는 관점의 차이를 갖는다.빈도주의(Frequentist)얼만큼 빈번하게 특정한 사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어서 검증한다.확률은 장기적으로 일어나는 사건의 빈도!모수(parameter, 우리가 알아내고자 하는 값, 평균, 분산 등)는 우리가 모르는 고정된 상수!장점여러번의 실험, 관찰을 통해 알게된 사건의 확률을 검정하므로 사건이 독립적이고 반복적이며 정규분포형태일 때 사용하면 좋다.대용량 데이터를 처리할 수 있다면 계산이 비교적 복잡하지 않기 때문에 쉽게 처리 가능단점사전에 관찰지식이 없는 경우(데이터 부족으로 인한 결과가 적음) 실험 결과의 신뢰가 떨어짐데이터가 불확실하..

수학 2023.10.20