๐ ์ง๋ฌธ์ zzsza๋์ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ์์ต๋๋ค.
- ์๊ณ ์๋ metric์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์. (ex. RMSE, MAE, recall, precision ...)
- ์ ๊ทํ๋ฅผ ์ ํด์ผํ ๊น์? ์ ๊ทํ์ ๋ฐฉ๋ฒ์ ๋ฌด์์ด ์๋์?
- Local Minima์ Global Minimum์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
- ์ฐจ์์ ์ ์ฃผ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
- dimension reduction ๊ธฐ๋ฒ์ผ๋ก ๋ณดํต ์ด๋ค ๊ฒ๋ค์ด ์๋์?
- PCA๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ด๋ฉด์, ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ด๊ธฐ๋ ํ๊ณ , ๋ ธ์ด์ฆ ์ ๊ฑฐ๊ธฐ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ์ ๊ทธ๋ฐ์ง ์ค๋ช ํด์ฃผ์ค ์ ์๋์?
- LSA, LDA, SVD ๋ฑ์ ์ฝ์๋ค์ด ์ด๋ค ๋ป์ด๊ณ ์๋ก ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๋์ง ์ค๋ช ํ ์ ์๋์?
- Markov Chain์ ๊ณ ๋ฑํ์์๊ฒ ์ค๋ช ํ๋ ค๋ฉด ์ด๋ค ๋ฐฉ์์ด ์ ์ผ ์ข์๊น์?
- ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?
- SVM์ ์ ๋ฐ๋๋ก ์ฐจ์์ ํ์ฅ์ํค๋ ๋ฐฉ์์ผ๋ก ๋์ํ ๊น์? SVM์ ์ ์ข์๊น์?
- ๋ค๋ฅธ ์ข์ ๋จธ์ ๋ฌ๋ ๋๋น, ์ค๋๋ ๊ธฐ๋ฒ์ธ ๋์ด๋ธ ๋ฒ ์ด์ฆ(naive bayes)์ ์ฅ์ ์ ์นํธํด๋ณด์ธ์.
- ํ๊ท / ๋ถ๋ฅ์ ์๋ง์ metric์ ๋ฌด์์ผ๊น?
- Association Rule์ Support, Confidence, Lift์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
- ์ต์ ํ ๊ธฐ๋ฒ์ค Newtonโs Method์ Gradient Descent ๋ฐฉ๋ฒ์ ๋ํด ์๊ณ ์๋์?
- ๋จธ์ ๋ฌ๋(machine)์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ(statistics)์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋๊ฐ์ ์ฐจ์ด์ ๋ํ ๊ฒฌํด๊ฐ ์๋์?
- ์ธ๊ณต์ ๊ฒฝ๋ง(deep learning์ด์ ์ ์ ํต์ ์ธ)์ด ๊ฐ์ง๋ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ์ ์ ๋ฌด์์ผ๊น์?
- ์ง๊ธ ๋์ค๊ณ ์๋ deep learning ๊ณ์ด์ ํ์ ์ ๊ทผ๊ฐ์ ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ์๋์?
- ROC ์ปค๋ธ์ ๋ํด ์ค๋ช ํด์ฃผ์ค ์ ์์ผ์ ๊ฐ์?
- ์ฌ๋ฌ๋ถ์ด ์๋ฒ๋ฅผ 100๋ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ ์ธ๊ณต์ ๊ฒฝ๋ง๋ณด๋ค Random Forest๋ฅผ ์จ์ผํ๋ ์ด์ ๋ ๋ญ๊น์?
- K-means์ ๋ํ์ ์๋ฏธ๋ก ์ ๋จ์ ์ ๋ฌด์์ธ๊ฐ์? (๊ณ์ฐ๋ ๋ง๋ค๋๊ฒ ๋ง๊ณ )
- L1, L2 ์ ๊ทํ์ ๋ํด ์ค๋ช ํด์ฃผ์ธ์.
- Cross Validation์ ๋ฌด์์ด๊ณ ์ด๋ป๊ฒ ํด์ผํ๋์?
- XGBoost์ ์์๋์? ์ ์ด ๋ชจ๋ธ์ด ์บ๊ธ์์ ์ ๋ช ํ ๊น์?
- ์์๋ธ ๋ฐฉ๋ฒ์ ์ด๋ค ๊ฒ๋ค์ด ์๋์?
- feature vector๋ ๋ฌด์์ผ๊น์?
- ์ข์ ๋ชจ๋ธ์ ์ ์๋ ๋ฌด์์ผ๊น์?
- 50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ํฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๊ด์ฐฎ์๊น์? ์ ๊ทธ๋ ๊ฒ ์๊ฐํ๋์?
- ์คํธ ํํฐ์ ๋ก์ง์คํฑ ๋ฆฌ๊ทธ๋ ์ ์ ๋ง์ด ์ฌ์ฉํ๋ ์ด์ ๋ ๋ฌด์์ผ๊น์?
- OLS(ordinary least squre) regression์ ๊ณต์์ ๋ฌด์์ธ๊ฐ์?
ํ๊ฐ์งํ(metric)์ ํฌ๊ฒ ๋ถ๋ฅ๋ฅผ ์ํ ํ๊ฐ์งํ์ ํ๊ท๋ฅผ ์ํ ํ๊ฐ์งํ๋ก ๋๋ ์ ์๋ค.
์ฐ์ ๋ถ๋ฅ ์์ (task)์ ์ ์ฉํ ์ ์๋ ํ๊ฐ์งํ๋ฅผ ์ดํด๋ณด์.
์ ํ๋(accuracy)
์ ํ๋๋ ๋ชจ๋ธ์ ์์ธก์ด ์ผ๋ง๋ ์ ํํ์ง๋ฅผ ์๋ฏธํ๋ค. ์ ํ๋๋ (์์ธก ๊ฒฐ๊ณผ๊ฐ ๋์ผํ ๋ฐ์ดํฐ ๊ฐ์)/(์ ์ฒด ์์ธก ๋ฐ์ดํฐ ๊ฐ์)๋ก ๊ณ์ฐํ ์ ์๋ค. ํ์ง๋ง ๋ผ๋ฒจ ๋ถ๊ท ํ์ด ์๋ ๋ฐ์ดํฐ์์ ์ ํ๋๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด, 0๊ณผ 1์ ๋น์จ์ด 9:1์ธ ๋ฐ์ดํฐ๊ฐ ์๋ค๊ณ ํ์ ๋, ๋ชจ๋ 0์ผ๋ก ์์ธกํ๋ฉด ์ ํ๋๊ฐ 90%๊ฐ ๋์ฌ ๊ฒ์ด๋ค. ์ด๋ ์๋ชป๋ ํ๋จ์ด๋ฏ๋ก ์ ํํ ํ๋จ์ ์ํด์๋ ๋ค๋ฅธ ์งํ๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
์ค์ฐจ ํ๋ ฌ(confusion matrix)
์ค์ฐจ ํ๋ ฌ์ ๋ชจ๋ธ์ด ์์ธก์ ํ๋ฉด์ ์ผ๋ง๋ ํท๊ฐ๋ฆฌ๊ณ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์งํ์ด๋ค. ์ฃผ๋ก ์ด์ง ๋ถ๋ฅ์์ ๋ง์ด ์ฌ์ฉํ๋ฉฐ ์ด์ง ๋ถ๋ฅ์ ๋ํ ์ค์ฐจ ํ๋ ฌ์ ์์ ๊ทธ๋ฆผ์ฒ๋ผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค. True Positive๋ ๊ธ์ ์ผ๋ก ์์ธก์ ํ๋๋ฐ ์ค์ ๋ก ๊ธ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, False Positive๋ ๊ธ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๋ถ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, False Negative๋ ๋ถ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๊ธ์ ์ธ ๊ฒฝ์ฐ๋ฅผ, True Negative๋ ๋ถ์ ์ผ๋ก ์์ธกํ๋๋ฐ ์ค์ ๋ก ๋ถ์ ์ธ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค. ์์ ๊ฐ์ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ์ด๋ค ์ค๋ฅ๋ฅผ ๋ฐ์์์ผฐ๋์ง๋ฅผ ์ดํด๋ณผ ์ ์๋ค.
์ฐธ๊ณ ๋ก ์ ํ๋๋ (TN + TP) / (TN + FP + FN + TP)๋ก ๊ณ์ฐํ ์ ์๋ค.
์ ๋ฐ๋(precision), ์ฌํ์จ(recall)
์ ๋ฐ๋์ ์ฌํ์จ์ ๊ธ์ ๋ฐ์ดํฐ ์์ธก ์ฑ๋ฅ์ ์ด์ ์ ๋ง์ถ ํ๊ฐ์งํ์ด๋ค. ์ ๋ฐ๋๋ ์์ธก์ ๊ธ์ ์ผ๋ก ํ ๋ฐ์ดํฐ ์ค ์ค์ ๋ก ๊ธ์ ์ธ ๋น์จ์ ๋งํ๋ฉฐ, ์ฌํ์จ์ ์ค์ ๋ก ๊ธ์ ์ธ ๋ฐ์ดํฐ ์ค ๊ธ์ ์ผ๋ก ์์ธกํ ๋น์จ์ ๋งํ๋ค. ์ค์ฐจ ํ๋ ฌ์ ๊ธฐ์ค์ผ๋ก ์ ๋ฐ๋๋ TP / (FP + TP)์ผ๋ก, ์ฌํ์จ์ TP / (FN + TP)์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.
์ ๋ฐ๋์ ์ฌํ์จ์ ํธ๋ ์ด๋์คํ ๊ด๊ณ๋ฅผ ๊ฐ๋๋ค. ์ ๋ฐ๋๋ FP๋ฅผ, ์ฌํ์จ์ FN์ ๋ฎ์ถค์ผ๋ก์จ ๊ธ์ ์์ธก์ ์ฑ๋ฅ์ ๋์ธ๋ค. ์ด ๊ฐ์ ํน์ฑ ๋๋ฌธ์ ์ ๋ฐ๋๊ฐ ๋์์ง๋ฉด ์ฌํ์จ์ ๋ฎ์์ง๊ณ ์ฌํ์จ์ด ๋์์ง๋ฉด ์ ๋ฐ๋๋ ๋ฎ์์ง๋ค. ๊ฐ์ฅ ์ข์ ๊ฒฝ์ฐ๋ ๋ ์งํ ๋ค ์ ์ ํ ๋์ ๊ฒฝ์ฐ์ด๋ค.
F1-Score
์ ๋ฐ๋์ ์ฌํ์จ ํ ์ชฝ์ ์น์ฐ์น์ง ์๊ณ ๋ ๋ค ๊ท ํ์ ์ด๋ฃจ๋ ๊ฒ์ ๋ํ๋ธ ๊ฒ์ด F1-Score
์ด๋ค. F1-Score๋ ์ ๋ฐ๋์ ์ฌํ์จ์ ์กฐํํ๊ท ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค.
ROC-AUC
ROC๋ FPR(False Positive Rate)๊ฐ ๋ณํ ๋ TPR(True Positive Rate)๊ฐ ์ด๋ป๊ฒ ๋ณํ๋์ง๋ฅผ ๋ํ๋ด๋ ๊ณก์ ์ ๋งํ๋ค. ์ฌ๊ธฐ์ FPR์ด๋ FP / (FP + TN)์ด๊ณ , TPR์ TP / (FN + TP)์ผ๋ก ์ฌํ์จ์ ๋งํ๋ค. ๊ทธ๋ผ ์ด๋ป๊ฒ FPR์ ์์ง์ผ๊น? ๋ฐ๋ก ๋ถ๋ฅ ๊ฒฐ์ ์๊ณ๊ฐ์ ๋ณ๊ฒฝํจ์ผ๋ก์จ ์์ง์ผ ์ ์๋ค. FPR์ด 0์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 1๋ก ์ค์ ํ๋ฉด ๋๋ค. ๊ทธ๋ผ ๊ธ์ ์ ๊ธฐ์ค์ด ๋์ผ๋ ๋ชจ๋ ๋ถ์ ์ผ๋ก ์์ธก๋ ๊ฒ์ด๋ค. ๋ฐ๋๋ก 1์ด ๋๋ ค๋ฉด ์๊ณ๊ฐ์ 0์ผ๋ก ์ค์ ํ์ฌ ๋ชจ๋ ๊ธ์ ์ผ๋ก ์์ธก์ํค๋ฉด ๋๋ค. ์ด๋ ๊ฒ ์๊ณ๊ฐ์ ์์ง์ด๋ฉด์ ๋์ค๋ FPR๊ณผ TPR์ ๊ฐ๊ฐ x์ y ์ขํ๋ก ๋๊ณ ๊ทธ๋ฆฐ ๊ณก์ ์ด ROC์ด๋ค.
AUC๋ ROC ๊ณก์ ์ ๋์ด๋ฅผ ๋งํ๋ค. AUC๊ฐ ๋์์๋ก ์ฆ, AUC๊ฐ ์ผ์ชฝ ์๋ก ํ์ด์ง์๋ก ์ข์ ์ฑ๋ฅ์ด ๋์จ๋ค๊ณ ํ๋จํ๋ค. ์ฆ, TPR์ด ๋๊ณ FPR์ด ๋ฎ์์๋ก ์์ธก ์ค๋ฅ๋ ๋ฎ์์ง๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ด ์ ๋์จ๋ค ๋ณผ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก ํ๊ท ์์ ์ ์ ์ฉํ ์ ์๋ ํ๊ฐ์งํ๋ฅผ ์ดํด๋ณด์.
MAE(Mean Absolute Error)๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด์ ์ ๋๊ฐ์ ํ๊ท ์ ๋งํ๋ค.
MSE(Mean Squared Error)๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ์ฌ์ด์ ์ฐจ์ด์ ์ ๊ณฑ์ ํ๊ท ์ ๋งํ๋ฉฐ, MAE์ ๋ฌ๋ฆฌ ์ ๊ณฑ์ ํ๊ธฐ ๋๋ฌธ์ ์ด์์น์ ๋ฏผ๊ฐํ๋ค.
RMSE(Root Mean Squared Error)๋ MSE์ ๋ฃจํธ๋ฅผ ์์ด ๊ฐ์ ๋งํ๋ค.
RMSLE(Root Mean Squared Logarithmic Error)๋ RMSE์ ๋น์ทํ๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ์ ๊ฐ๊ฐ ๋ก๊ทธ๋ฅผ ์์ ๊ณ์ฐ์ ํ๋ค.
R Squared๋ ๋ถ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์์ธก ์ฑ๋ฅ์ ํ๊ฐํ๋ ์งํ๋ฅผ ๋งํ๋ค. ์ ๋ต๊ฐ์ ๋ถ์ฐ ๋๋น ์์ธก๊ฐ์ ๋ถ์ฐ ๋น์จ์ ์งํ๋ก ํ๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ์ ํ๋๊ฐ ๋๋ค.
- 14 Popular Machine Learning Evaluation Metrics - RUBIK'S CODE
- Metrics to Evaluate your Machine Learning Algorithm - towards data science
- ๋จธ์ ๋ฌ๋ ์ฉ์ด์ง - ๊ตฌ๊ธ ๋จธ์ ๋ฌ๋ ๋จ๊ธฐ ์ง์ค๊ณผ์
- 3. ํ๊ฐ - ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋
- Regression ๋ชจ๋ธ ํ๊ฐ : MSE, MAE, RMSE, RMSLE, R-Squared - Steadiness
์ ๊ทํ๋ ๊ฐ๋ณ ํผ์ฒ์ ํฌ๊ธฐ๋ฅผ ๋ชจ๋ ๋๊ฐ์ ๋จ์๋ก ๋ณ๊ฒฝํ๋ ๊ฒ์ ๋งํ๋ค. ์ ๊ทํ๋ฅผ ํ๋ ์ด์ ๋ ํผ์ฒ์ ์ค์ผ์ผ์ด ์ฌํ๊ฒ ์ฐจ์ด๊ฐ ๋๋ ๊ฒฝ์ฐ ๊ฐ์ด ํฐ ํผ์ฒ๊ฐ ๋ ์ค์ํ๊ฒ ์ฌ๊ฒจ์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ํผ์ฒ ๋ชจ๋ ๋์ผํ ์ค์ผ์ผ๋ก ๋ฐ์๋๋๋ก ํ๋ ๊ฒ์ด ์ ๊ทํ์ด๋ค.
์ ๊ทํํ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ํ์ ์ผ๋ก ๋ ๊ฐ์ง๊ฐ ์กด์ฌํ๋ค. ์ฒซ ๋ฒ์งธ ์ ๊ทํ ๋ฐฉ๋ฒ์ ์ต์-์ต๋ ์ ๊ทํ(min-max normalization)์ผ๋ก ๊ฐ ํผ์ฒ์ ์ต์๊ฐ์ 0, ์ต๋๊ฐ์ 1๋ก ๋๊ณ ๋ณํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ์
- ์ ๊ทํ(Normalization) ์ฝ๊ฒ ์ดํดํ๊ธฐ - ์๋ฌดํผ ์๋ผ๋ฐธ
- 2. ์ฌ์ดํท๋ฐ์ผ๋ก ์์ํ๋ ๋จธ์ ๋ฌ๋ - ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋
๋น์ฉ ํจ์(cost function)์์์ Global Minimum์ ์๋ฌ๊ฐ ์ต์ํ๋๋ ์ฆ, ์ฐ๋ฆฌ๊ฐ ์ฐพ๊ณ ์ ํ๋ ์ง์ ์ ๋งํ๋ฉฐ, Local Minima๋ ์๋ฌ๊ฐ ์ต์๊ฐ ๋ ์ ์๋ ํ๋ณด๊ฐ ๋๋ ์ง์ ์ค Global Minimum์ ๋บ ์ง์ ์ ๋งํ๋ค. Local Minima๋ ์์นซ ์๋ฌ๊ฐ ์ต์ํ๋๋ ์ง์ ์ ์ฐพ์๋ค๊ณ ์ฐฉ๊ฐํ ์ ์๊ธฐ์ ํจ์ ์ ๋น์ ํ ์ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Momentum๊ณผ ๊ฐ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๊ฑฐ๋ ํ์ต๋ฅ (learning rate)๋ฅผ ์ ์กฐ์ ํ์ฌ Local Minima์์ ๋ฒ์ด๋ ์ ์๋ค.
์ฐจ์์ ์ ์ฃผ๋ ๋ฐ์ดํฐ ์ฐจ์์ด ์ฆ๊ฐํ ์๋ก ํด๋น ๊ณต๊ฐ์ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ๋ฐ์ดํฐ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ฉ์ด์ง๊ณ ํฌ์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฒ ๋๋ ํ์์ ๋งํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ฐจ์์ ์ฆ๊ฐ์ํจ๋งํผ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํ๊ฑฐ๋ PCA, LDA, LLE, MDS์ ๊ฐ์ ์ฐจ์ ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฐจ์์ ์ค์ฌ ํด๊ฒฐํ ์ ์๋ค.
- ์ฐจ์์ ์ ์ฃผ(Curse of dimensionality) - BioinformaticsAndMe
- ์ฐจ์์ ๋ฌธ์ - ๋คํฌ ํ๋ก๊ทธ๋๋จธ
- 6. ์ฐจ์ ์ถ์ - ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋
์ฐจ์ ์ถ์๋ ํผ์ฒ ์ ํ(feature selection)๊ณผ ํผ์ฒ ์ถ์ถ(feature extraction)์ผ๋ก ๋๋ ์ ์๋ค. ์ฐ์ ํผ์ฒ ์ ํ์ ํน์ ํผ์ฒ์ ์ข ์์ฑ์ด ๊ฐํ ๋ถํ์ํ ํผ์ฒ๋ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ์ ํน์ง์ ์ ํํํ๋ ์ฃผ์ ํผ์ฒ๋ง ์ ํํ๋ ๊ฒ์ ๋งํ๋ค. ๋ฐ๋ฉด ํผ์ฒ ์ถ์ถ์ ๊ธฐ์กด ํผ์ฒ๋ฅผ ์ ์ฐจ์์ ํผ์ฒ๋ก ์์ถํ์ฌ, ํผ์ฒ๋ฅผ ํจ์ถ์ ์ผ๋ก ์ ์ค๋ช ํ ์ ์๋๋ก ์ ์ฐจ์์ผ๋ก ๋งคํํ๋ ๊ฒ์ ๋งํ๋ค. ๋ํ์ ์ธ ํผ์ฒ ์ถ์ถ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก PCA, SVD, NMF, LDA ๋ฑ์ด ์๋ค.
PCA๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ด๋ฉด์, ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ด๊ธฐ๋ ํ๊ณ , ๋ ธ์ด์ฆ ์ ๊ฑฐ๊ธฐ๋ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ์ ๊ทธ๋ฐ์ง ์ค๋ช ํด์ฃผ์ค ์ ์๋์?
PCA(Principle Component Analysis)๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ ๊ฒ ๊ตฌํ ๊ณ ์ ๋ฒกํฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณํํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ฐจ์์ ๊ณง ์ ๋ ฅ ๋ฐ์ดํฐ์ ํผ์ฒ๋ฅผ ๋ปํ๋ฏ๋ก ๋ฐ์ดํฐ ์์ถ ๊ธฐ๋ฒ์ผ๋ก ๋ณผ ์๋ ์๋ค.
๋ํ PCA๋ ๊ณ ์ ๊ฐ์ด ๊ฐ์ฅ ํฐ, ์ฆ ๋ฐ์ดํฐ์ ๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ์์ผ๋ก ์ฃผ์ฑ๋ถ ๋ฒกํฐ๋ฅผ ์ถ์ถํ๋๋ฐ, ๊ฐ์ฅ ๋์ค์ ๋ฝํ ๋ฒกํฐ๋ณด๋ค ๊ฐ์ฅ ๋จผ์ ๋ฝํ ๋ฒกํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ค๋ช ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ธฐ๋ฒ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค.
- 6. ์ฐจ์ ์ถ์ - ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋
- [๊ธฐ์ ๋ฉด์ ] ์ฐจ์์ถ์, PCA, SVD, LSA, LDA, MF ๊ฐ๋จ์ ๋ฆฌ (day1 / 201009) - Hui_dea
LSA, LDA, SVD ๋ฑ์ ์ฝ์๋ค์ด ์ด๋ค ๋ป์ด๊ณ ์๋ก ์ด๋ค ๊ด๊ณ๋ฅผ ๊ฐ์ง๋์ง ์ค๋ช ํ ์ ์๋์?
PCA
๋ Principle Component Analysis์ ์ฝ์๋ก ๋ฐ์ดํฐ์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ ๊ฒ ๊ตฌํ ๊ณ ์ ๋ฒกํฐ์ ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ณํํ์ฌ ์ฐจ์์ ์ถ์ํ๋ ๋ฐฉ๋ฒ์ด๋ค. SVD
๋ Singular Value Decomposition์ ์ฝ์๋ก PCA์ ์ ์ฌํ ํ๋ ฌ ๋ถํด ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ ์ ๋ฐฉ ํ๋ ฌ(square matrix)๋ฅผ ๋ถํดํ๋ PCA์ ๋ฌ๋ฆฌ ํ๊ณผ ์ด์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ํ๋ ฌ์๋ ์ ์ฉํ ์ ์๋ค.
LSA
๋ Latent Semantic Analysis์ ์ฝ์๋ก ์ ์ฌ ์๋ฏธ ๋ถ์์ ๋งํ๋ฉฐ, ์ฃผ๋ก ํ ํฝ ๋ชจ๋ธ๋ง์ ์์ฃผ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ์ด๋ค. LSA๋ DTM(Document-Term Matrix)์ด๋ TF-IDF(Term Frequency-Inverse Document Frequency) ํ๋ ฌ์ Truncated SVD๋ฅผ ์ ์ฉํ์ฌ ์ฐจ์์ ์ถ์์ํค๊ณ , ๋จ์ด๋ค์ ์ ์ฌ์ ์ธ ์๋ฏธ๋ฅผ ์ด๋์ด๋ธ๋ค. Truncated SVD๋ SVD์ ๋๊ฐ์ผ๋ ์์ n๊ฐ์ ํน์ด๊ฐ๋ง ์ฌ์ฉํ๋ ์ถ์ ๋ฐฉ๋ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ์ธ ๊ฒฝ์ฐ ์ ํ๋ ฌ๋ก ๋ณต์ํ ์ ์๋ค.
LDA
๋ Latent Dirichlet Allocation ํน์ Linear Discriminant Analysis์ ์ฝ์์ด๋ค. ์ ์๋ ํ ํฝ๋ชจ๋ธ๋ง์ ์ฌ์ฉ๋๋ ๊ธฐ๋ฒ ์ค ํ๋๋ก LSA์๋ ๋ฌ๋ฆฌ ๋จ์ด๊ฐ ํน์ ํ ํฝ์ ์กด์ฌํ ํ๋ฅ ๊ณผ ๋ฌธ์์ ํน์ ํ ํฝ์ด ์กด์ฌํ ํ๋ฅ ์ ๊ฒฐํฉํ๋ฅ ๋ก ์ถ์ ํ์ฌ ํ ํฝ์ ์ถ์ ํ๋ ๊ธฐ๋ฒ์ ๋งํ๋ค. ํ์๋ ์ฐจ์์ถ์๊ธฐ๋ฒ ์ค ํ๋๋ก ๋ถ๋ฅํ๊ธฐ ์ฝ๋๋ก ํด๋์ค ๊ฐ ๋ถ์ฐ์ ์ต๋ํํ๊ณ ํด๋์ค ๋ด๋ถ์ ๋ถ์ฐ์ ์ต์ํํ๋ ๋ฐฉ์์ ๋งํ๋ค.
Latent Dirichlet Allocation์ ๊ด๋ จ๋ ์์ธํ ๋ด์ฉ์ #9 ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?์ ์ฐธ๊ณ ํด์ฃผ์ธ์!
- ์ ์ฌ ์๋ฏธ ๋ถ์(Latent Semantic Analysis, LSA) - ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(Latent Dirichlet Allocation, LDA) - ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ๋ฌธ์ ๋จ์ด ํ๋ ฌ(Document-Term Matrix, DTM) - ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- TF-IDF(Term Frequency-Inverse Document Frequency) - ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- 6. ์ฐจ์ ์ถ์ - ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ ๊ฐ์ด๋
๋ง์ฝํ ์ฒด์ธ(Markov Chain)
๋ง์ฝํ ์ฒด์ธ์ด๋ ๋ง์ฝํ ์ฑ์ง์ ์ง๋ ์ด์ฐ ํ๋ฅ ๊ณผ์ (Discrete-time Stochastic Pross)์ ๋งํ๋ค.
๋ง์ฝํ ์ฑ์ง(Markov Property)
์ ๋ฆฌํ๋ฉด ๋ง์ฝํ ์ฒด์ธ์ ํ๋ฅ ๋ณ์(random variable)๊ฐ ์ด๋ค ์ํ(state)์ ๋๋ฌํ ํ๋ฅ ์ด ์ค์ง ๋ฐ๋ก ์ด์ ์์ ์ ์ํ(state)์ ๋ฌ๋ ค ์๋ ๊ฒฝ์ฐ๋ฅผ ๊ฐ๋ฆฌํจ๋ค.
์๋ฅผ ๋ค์ด, ์ค๋์ ๋ ์จ๊ฐ ์ด์ ์ ๋ ์จ์๋ง ์์กดํ๋ฉด 1์ฐจ ๋ง์ฝํ ์ฒด์ธ, ์ดํ ์ ๊น์ง์ ๋ ์จ์๋ง ์์กดํ๋ฉด 2์ฐจ ๋ง์ฝํ ์ฒด์ธ์ด๋ค.
๋ง์ฝํ ๋ชจ๋ธ(Markov Model)
๋ง์ฝํ ๋ชจ๋ธ์ ์์ ๊ฐ์ ํ์ ํ๋ฅ ์ ๋ชจ๋ธ์ ๋ง๋ ๊ฒ์ผ๋ก์จ ๊ฐ์ฅ ๋จผ์ ๊ฐ ์ํ๋ฅผ ์ ์ํ๊ฒ ๋๋ค. ์ํ(state)๋
๊ทธ๋ฆฌ๊ณ ์ํ์ ์ํ ์ ์ด ํ๋ฅ ์ ์ ๋ฆฌํ์ฌ ์ํ ์ ์ด๋(state transition diagram)์ผ๋ก๋ ํํํ ์ ์๋ค.
- Markov Chain - MLWiki
- [๊ธฐ์ ๋ฉด์ ] Markov Chain, Gibbs Sampling, ๋ง๋ฅด์ฝํ ์ฒด์ธ, ๊น์ค ์ํ๋ง (day2 / 201010) - huidea
- (Bayes ํ์ต)(4)๋ง๋ฅด์ฝํ ์ฐ์-(1) - ์ ๋ณด์ฌํํ์ฐ๊ตฌ์
ํ ์คํธ ๋๋ฏธ์์ ์ฃผ์ ๋ฅผ ์ถ์ถํด์ผ ํฉ๋๋ค. ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํด ๋๊ฐ์๊ฒ ๋์?
์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(Latent Dirichlet Allocation, LDA)
์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(LDA)์ด๋ ๋ฌธ์์ ์งํฉ์์ ํ ํฝ์ ์ฐพ์๋ด๋ ํ๋ก์ธ์ค๋ฅผ ๋ปํ๋ ํ ํฝ ๋ชจ๋ธ๋ง์ ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ๋งํ๋ค. LDA๋ "๋ฌธ์๋ค์ ํ ํฝ๋ค์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ๋์ด์ ธ ์์ผ๋ฉฐ, ํ ํฝ๋ค์ ํ๋ฅ ๋ถํฌ์ ๊ธฐ๋ฐํ์ฌ ๋จ์ด๋ค์ ์์ฑํ๋ค"๊ณ ๊ฐ์ ํ๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ง๋ฉด LDA๋ ํ ํฝ์ ๋ฌธ์๊ฐ ์์ฑ๋๋ ๊ณผ์ ์ ์ญ์ถ์ ํ๋ค.
์๋ฅผ ๋ค์ด, ๋ค์๊ณผ ๊ฐ์ ์์ ๋ฌธ์ฅ 3๊ฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์.
๋ฌธ์1 : ์ ๋ ์ฌ๊ณผ๋ ๋ฐ๋๋๋ฅผ ๋จน์ด์
๋ฌธ์2 : ์ฐ๋ฆฌ๋ ๊ท์ฌ์ด ๊ฐ์์ง๊ฐ ์ข์์
๋ฌธ์3 : ์ ์ ๊น์ฐํ๊ณ ๊ท์ฌ์ด ๊ฐ์์ง๊ฐ ๋ฐ๋๋๋ฅผ ๋จน์ด์
LDA๋ฅผ ํตํด ๊ฐ ๋ฌธ์์ ํ ํฝ ๋ถํฌ์ ๊ฐ ํ ํฝ ๋ด์ ๋จ์ด ๋ถํฌ๋ฅผ ์ถ์ ํ ์ ์๋ค.
- ๊ฐ ๋ฌธ์์ ํ ํฝ ๋ถํฌ
- ๋ฌธ์1 : ํ ํฝ A 100%
- ๋ฌธ์2 : ํ ํฝ B 100%
- ๋ฌธ์3 : ํ ํฝ B 60%, ํ ํฝ A 40%
- ๊ฐ ํ ํฝ์ ๋จ์ด ๋ถํฌ
- ํ ํฝA : ์ฌ๊ณผ 20%, ๋ฐ๋๋ 40%, ๋จน์ด์ 40%, ๊ท์ฌ์ด 0%, ๊ฐ์์ง 0%, ๊น์ฐํ๊ณ 0%, ์ข์์ 0%
- ํ ํฝB : ์ฌ๊ณผ 0%, ๋ฐ๋๋ 0%, ๋จน์ด์ 0%, ๊ท์ฌ์ด 33%, ๊ฐ์์ง 33%, ๊น์ฐํ๊ณ 16%, ์ข์์ 16%
LDA๋ ํ ํฝ์ ์ ๋ชฉ์ ์ ํด์ฃผ์ง ์์ง๋ง, ์ด ์์ ์์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ์๋ ์ ๊ฒฐ๊ณผ๋ก๋ถํฐ ๋ ํ ํฝ์ด ๊ฐ๊ฐ ๊ณผ์ผ์ ๋ํ ํ ํฝ๊ณผ ๊ฐ์์ง์ ๋ํ ํ ํฝ์ด๋ผ๊ณ ํ๋จํด๋ณผ ์ ์๋ค.
- Topic Modeling, LDA - ratsgo's blog
- [๊ธฐ์ ๋ฉด์ ] ์ ์ฌ๋๋ฆฌํด๋ ํ ๋น (day3 / 201012) - huidea
- ๋ฅ ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
SVM์ ์ ๋ฐ๋๋ก ์ฐจ์์ ํ์ฅ์ํค๋ ๋ฐฉ์์ผ๋ก ๋์ํ ๊น์? SVM์ ์ ์ข์๊น์?
SVM(Support Vector Machine)์ ๋ฐ์ดํฐ๊ฐ ์ฌ์๋ ๊ณต๊ฐ์์ ๊ฒฝ๊ณ๋ก ํํ๋๋ฉฐ, ๊ณต๊ฐ์์ ์กด์ฌํ๋ ์ฌ๋ฌ ๊ฒฝ๊ณ ์ค ๊ฐ์ฅ ํฐ ํญ์ ๊ฐ์ง ๊ฒฝ๊ณ๋ฅผ ์ฐพ๋๋ค.
-
$B_1$ : ๊ฒฐ์ ๊ฒฝ๊ณ -
$b_{11}$ : plus-plane -
$b_{12}$ : minus-plane
SVM์ ์ฅ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฅ์ | ๋จ์ |
---|---|
๋ถ๋ฅ์ ํ๊ท์ ๋ชจ๋ ์ฌ์ฉํ ์ ์๋ค. | ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋งค๊ฐ๋ณ์ ์ค์ ์ ๋ฐ๋ผ ์ ํ๋๊ฐ ๋ฌ๋ผ์ง ์ ์๋ค. |
์ ๊ฒฝ๋ง ๊ธฐ๋ฒ์ ๋นํด ๊ณผ์ ํฉ ์ ๋๊ฐ ๋ฎ๋ค. | ์์ธก์ด ์ด๋ป๊ฒ ์ด๋ฃจ์ด์ง๋์ง์ ๋ํ ์ดํด์ ๋ชจ๋ธ์ ๋ํ ํด์์ด ์ด๋ ต๋ค. |
์์ธก์ ์ ํ๋๊ฐ ๋๋ค. | ๋์ฉ๋ ๋ฐ์ดํฐ์ ๋ํ ๋ชจ๋ธ ๊ตฌ์ถ ์ ์๋๊ฐ ๋๋ฆฌ๋ฉฐ,๋ฉ๋ชจ๋ฆฌ ํ ๋น๋์ด ํฌ๋ค. |
์ ์ฐจ์๊ณผ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ํด์ ๋ชจ๋ ์ ์๋ํ๋ค. |
๋ง์ง(Margin)
๋ง์ง(Margin)์ plus-plane๊ณผ minus-plane ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์๋ฏธํ๋ฉฐ, ์ต์ ์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ ๋ง์ง์ ์ต๋ํํ๋ค.
SVM์ ์ ํ ๋ถ๋ฅ๋ฟ๋ง ์๋๋ผ ๋น์ ํ ๋ถ๋ฅ์๋ ์ฌ์ฉ๋๋๋ฐ, ๋น์ ํ ๋ถ๋ฅ์์๋ ์ ๋ ฅ์๋ฃ๋ฅผ ๋ค์ฐจ์ ๊ณต๊ฐ์์ผ๋ก ๋งตํํ ๋ ์ปค๋ ํธ๋ฆญ(kernel trick)์ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค. ์๊ณต๊ฐ(Input Space)์ ๋ฐ์ดํฐ๋ฅผ ์ ํ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ ๊ณ ์ฐจ์ ๊ณต๊ฐ(Feature Space)์ผ๋ก ๋งคํํ ๋ค ๋ ๋ฒ์ฃผ๋ฅผ ๋ถ๋ฅํ๋ ์ดํ๋ฉด์ ์ฐพ๋๋ค. (Kernel-SVM)
์ปค๋ ํธ๋ฆญ(Kernel Trick)
์ปค๋ ํจ์๋ฅผ ์ด์ฉํ์ฌ ์ฐจ์ ๊ณต๊ฐ(low dimensional space)์ ๊ณ ์ฐจ์ ๊ณต๊ฐ(high dimensional space)์ผ๋ก ๋งคํํด์ฃผ๋ ์์ ์ ์ปค๋ํธ๋ฆญ์ด๋ผ ํ๋ค.
์ปค๋ ํจ์์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine) - ratsgo's blog
- Kernel-SVM - ratsgo's blog
- Support Vector Machine (SVM)์ ๊ฐ๋ - butter_shower
- Support Vector Machine (SVM, ์ํฌํธ ๋ฒกํฐ ๋จธ์ ) - Excelsior-JH
- ์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine) ์ฝ๊ฒ ์ดํดํ๊ธฐ - ์๋ฌดํผ ์๋ผ๋ฒจ
- ADP ํ๊ธฐ ์ฌํจํค์ง ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌธ๊ฐ
๋ค๋ฅธ ์ข์ ๋จธ์ ๋ฌ๋ ๋๋น, ์ค๋๋ ๊ธฐ๋ฒ์ธ ๋์ด๋ธ ๋ฒ ์ด์ฆ(naive bayes)์ ์ฅ์ ์ ์นํธํด๋ณด์ธ์.
๋ฐ์ดํฐ์์ ๋ณ์๋ค์ ๋ํ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ ๊ฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํด๋์ค์ ๋ํ ์ฌ์ ์ ๋ณด์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถ์ถ๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๊ณ , ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes Theorem)๋ฅผ ์ด์ฉํ์ฌ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ํน์ ํด๋์ค์ ์ํ๋์ง ๋ถ๋ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋์ด๋ธ ๋ฒ ์ด์ฆ์ ์ฅ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ฅ์ | ๋จ์ |
---|---|
๋จ์ํ๊ณ ๋น ๋ฅด๋ฉฐ ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค | ๋ชจ๋ ์์ฑ์ ๋๋ฑํ๊ฒ ์ค์ํ๊ณ ๋ ๋ฆฝ์ ์ด๋ผ๋ ์๋ ค์ง ๊ฒฐํจ ๊ฐ์ ์ ์์กดํ๋ค |
๋ ธ์ด์ฆ์ ๊ฒฐ์ธก ๋ฐ์ดํฐ๊ฐ ์์ด๋ ์ ์ํํ๋ค | ์์น ์์ฑ์ผ๋ก ๊ตฌ์ฑ๋ ๋ง์ ๋ฐ์ดํฐ์ ์ ๋ํด ์ด์์ ์ด์ง ์๋ค |
ํ๋ จ์ ๋ํ ์๋์ ์ผ๋ก ์ ์ ์์ ๊ฐ ํ์ํ์ง๋ง ๋งค์ฐ ๋ง์ ์์ ๋ ์ ์ํํ๋ค | ์ถ์ ๋ ํ๋ฅ ์ ์์ธก๋ ๋ฒ์ฃผ๋ณด๋ค ๋ ์ ๋ขฐ์ ์ด๋ค |
์์ธก์ ๋ํ ์ถ์ ๋ ํ๋ฅ ์ ์ป๊ธฐ ์ฝ๋ค |
- ์ฝ๊ณ ๊ฐ๋ ฅํ ๋จธ์ ๋ฌ๋, ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ (Naive Bayes Classification)- ์๋น์ค๊ฐ ํ์ํด
- ๋์ด๋ธ ๋ฒ ์ด์ฆ ์๊ณ ๋ฆฌ์ฆ์ ์ฅ์ ๊ณผ ๋จ์ - ์น๊ฐ๋ฐ๊ณต์์
- ADP ํ๊ธฐ ์ฌํจํค์ง ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌธ๊ฐ
#1 ๋ต๋ณ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ํด๋น ๋ต๋ณ์์ ์์ ํ์ง ์์ ์งํ๋ง ์ถ๊ฐ๋ก ์ค๋ช ํฉ๋๋ค.
ํ๊ท
๊ฒฐ์ ๊ณ์(Coefficient of determination)๋ (ํ๊ท์ ์ ์ํด ์ค๋ช ๋๋ ๋ณ๋)/(์ ์ฒด ๋ณ๋)์ ๋งํ๋ฉฐ, ๋ ๋ฆฝ๋ณ์์ ๊ฐ์๊ฐ ๋ง์์ง์๋ก ๊ฒฐ์ ๊ณ์๊ฐ 1์ ๊ฐ๊น์์ง๋ค. ํ๊ท๋ชจํ์ด ๋์ ๊ฒฐ์ ๊ณ์๋ฅผ ๊ฐ๋๋ค๋ฉด ์ค์ ๋ก ๋ชจํ์ด ์ค๋ช ๋ ฅ์ด ๋์ ๊ฒ์ธ์ง ๋จ์ํ ๋ ๋ฆฝ๋ณ์์ ๊ฐ์๊ฐ ๋ง์ ๊ฒ์ธ์ง ์๊ธฐ ์ด๋ ค์ ๊ฒฐ์ ๊ณ์๋ฅผ ์ ๋ขฐํ ์ ์๊ฒ ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์์ ๋ ๊ฒฐ์ ๊ณ์๋ ๊ฒฐ์ ๊ณ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ๋ณธ์ ํฌ๊ธฐ(n)์ ๋ ๋ฆฝ๋ณ์์ ์(p)๋ฅผ ๊ณ ๋ คํ์ฌ ์์ ๋ ๊ฒฐ์ ๊ณ์๋ฅผ ๊ณ์ฐํ๋ค.
๋ถ๋ฅ
Log Loss ํน์ Binary Crossentropy๋ ์ด์ง ๋ถ๋ฅ์์์ ์งํ๋ก ์ฌ์ฉ๋๋ค.
Categorical Crossentropy๋ ๋ถ๋ฅํด์ผํ ํด๋์ค๊ฐ 3๊ฐ ์ด์์ธ ๋ฉํฐ ํด๋์ค ๋ถ๋ฅ์์์ ์งํ๋ก ์ฌ์ฉ๋๋ค.
- ์๊ด๊ณ์ & ๊ฒฐ์ ๊ณ์ & ์์ ๋ ๊ฒฐ์ ๊ณ์ - ๋ชจ์ฐ์ ๋ง์ง ํต๊ณ
- [๊ฒฐ์ ๊ณ์] R square์ adjusted R square - specialscene
- 3 Best metrics to evaluate Regression Model?
- The 5 Classification Evaluation metrics every Data Scientist must know
์ฐ๊ด๊ท์น๋ถ์(Association Analysis)์ ํํ ์ฅ๋ฐ๊ตฌ๋ ๋ถ์(Market Basket Analysis) ๋๋ ์์ด๋ถ์(Sequence Analysis)์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ๊ธฐ์ ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ํ์ ๊ตฌ๋งค, ์๋น์ค ๋ฑ ์ผ๋ จ์ ๊ฑฐ๋ ๋๋ ์ฌ๊ฑด๋ค ๊ฐ์ ๊ท์น์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด ์ ์ฉํ๋ฉฐ, ์ฐ๊ด์ฑ ๋ถ์์ ํ๊ฐ ์งํ๋ก๋ Support, Confidence, Lift๋ฅผ ์ฌ์ฉํ๋ค.
Support(์ง์ง๋)
์ ์ฒด ๊ฑฐ๋ ์ค ํญ๋ชฉ A์ ํญ๋ชฉ B๋ฅผ ๋์์ ํฌํจํ๋ ๊ฑฐ๋์ ๋น์จ๋ก ์ ์ํ๋ค.
Confidence(์ ๋ขฐ๋)
ํญ๋ชฉ A๋ฅผ ํฌํจํ ๊ฑฐ๋ ์ค์์ ํญ๋ชฉ A์ ํญ๋ชฉ B๊ฐ ๊ฐ์ด ํฌํจ๋ ํ๋ฅ ์ด๋ค. ์ฐ๊ด์ฑ์ ์ ๋๋ฅผ ํ์ ํ ์ ์๋ค.
Lift(ํฅ์๋)
A๊ฐ ๊ตฌ๋งค๋์ง ์์์ ๋ ํ๋ชฉ B์ ๊ตฌ๋งคํ๋ฅ ์ ๋นํด A๊ฐ ๊ตฌ๋งค๋์ ๋ ํ๋ชฉ B์ ๊ตฌ๋งคํ๋ฅ ์ ์ฆ๊ฐ ๋น์ด๋ค. ์ฐ๊ด๊ท์น AโB๋ ํ๋ชฉ A์ ํ๋ชฉ B์ ๊ตฌ๋งค๊ฐ ์๋ก ๊ด๋ จ์ด ์๋ ๊ฒฝ์ฐ์ ํฅ์๋๊ฐ 1์ด ๋๋ค.
์๋ฅผ ๋ค์ด ์ด๋ค ์ํผ๋ง์ผ์์ 5๋ช
์ ๊ณ ๊ฐ์ ์ํด ๋ฐ์๋ 5(
Customer ID |
Transaction ID |
Items |
---|---|---|
1131 | no.1 | ๊ณ๋, ์ฐ์ |
2094 | no.2 | ๊ณ๋, ๊ธฐ์ ๊ท, ๋งฅ์ฃผ, ์ฌ๊ณผ |
4122 | no.3 | ์ฐ์ , ๊ธฐ์ ๊ท, ๋งฅ์ฃผ, ์ฝ๋ผ |
4811 | no.4 | ๊ณ๋, ์ฐ์ , ๋งฅ์ฃผ, ๊ธฐ์ ๊ท |
8091 | no.5 | ๊ณ๋, ์ฐ์ , ๋งฅ์ฃผ, ์ฝ๋ผ |
- ์ง์ง๋(Support) =
$s(XโY) = \frac{n(X\cup Y)}{N} = \frac{n \{ no.2, no.4 \} }{N} = \frac{2}{5} = 0.4$ - ์ ๋ขฐ๋(Confidence) =
$c(XโY) = \frac{n(X\cup Y)}{n(X)} = \frac{n \{ no.2, no.4 \} }{n \{ no.2, no.4, no.5 \} } = \frac{2}{3} = 0.6667$ - ํฅ์๋(Lift) =
$Lift(XโY) = \frac{c(XโY)}{s(Y)} = \frac{0.6667}{0.6} = 1.1111$
- [R ์ฐ๊ด๊ท์น(Association Rule)] ์ง์ง๋(support), ์ ๋ขฐ๋(confidence), ํฅ์๋(lift), IS์ธก๋, ๊ต์ฐจ์ง์ง๋ - R, Python ๋ถ์๊ณผ ํ๋ก๊ทธ๋๋ฐ์ ์น๊ตฌ (by R Friend)
- ADP ํ๊ธฐ ์ฌํจํค์ง ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌธ๊ฐ
Newton's Method
ํจ์
์ฌ๊ธฐ์
์ด
Gradient Descent
Gradient descent์์๋ ํจ์
Newtonโs method์ ๋์ผํ๊ฒ ์ ๊ทผ์ฌ์์ gradient๊ฐ 0์ธ
Newton's method์ Gradient descent์ step์ ๋ฐ๋ฅธ ์๋ ด ๋ฐฉํฅ ๋น๊ต
- ํ๋: Newton's method
- ๊ฒ์ : Gradient descent
Gradient descent๋ 2์ฐจ ๋ฏธ๋ถํญ์ ์ ๋ฐฉํ๋ ฌ์ ์์๊ฐ ๊ณฑํด์ง ๊ฐ์ผ๋ก ๊ฐ์ ํ๊ณ gradient๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์, ๋ฑ๊ณ ์ (contour)์ ์ ์ ๋ฐฉํฅ์ ์์งํ๊ฒ(perpendicular) ์๋ ดํจ์ ํ์ธํ ์ ์๊ณ , Newtonโs method์ ๋นํด ๋๋ฆฐ ์๋ ด ์๋๋ฅผ ๋ณด์ธ๋ค.
- 14-01-01 Newton's method interpretation - ๋ชจ๋๋ฅผ ์ํ ์ปจ๋ฒก์ค ์ต์ ํ
- ๋ดํด๋ฒ/๋ดํด-๋ฉ์จ๋ฒ์ ์ดํด์ ํ์ฉ(Newton's method) - ๋คํฌ ํ๋ก๊ทธ๋๋จธ
- Gradient Descent ํ์ ๋ฐฉ๋ฒ - ๋คํฌ ํ๋ก๊ทธ๋๋จธ
- 4์ฃผ์ฐจ_#2. ์ต์ ํ ๊ธฐ๋ฒ์ค Newton's Method์ Gradient Descent ๋ฐฉ๋ฒ์ ์ค๋ช ํ์ธ์. - ๋ด๊ฐ ๋ณด๋ ค๊ณ ๋ง๋ ๊ณต๊ฐ
๋จธ์ ๋ฌ๋(machine)์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ(statistics)์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋๊ฐ์ ์ฐจ์ด์ ๋ํ ๊ฒฌํด๊ฐ ์๋์?
๋จธ์ ๋ฌ๋์ ์ ๊ทผ๋ฐฉ๋ฒ๊ณผ ํต๊ณ์ ์ ๊ทผ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ ๋ ๋ฐฉ๋ฒ์ ์ฃผ ๋ชฉ์ ์ด ๋ค๋ฅด๋ค๋ ๊ฒ์ด๋ค.
๋จธ์ ๋ฌ๋์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ์์ธก ์ฑ๊ณต๋ฅ ์ ๋์ด๋๊ฒ ๋ชฉ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ ๋ขฐ๋๋ ์ ๊ตํ ๊ฐ์ ๋ณด๋ค๋ ๋ค์ํ ํผ์ณ๋ฅผ ์ฌ์ฉํ์ฌ (์ค๋ฒํผํ
์ ๊ฐ์ํ๋๋ผ๋) ๋์ ์์ธก๋ฅ ์ ๋ฌ์ฑํ๊ณ ์ ํ๋ค.
ํต๊ณ์ ์ ๊ทผ๋ฐฉ๋ฒ์ ๋ถํฌ์ ๊ฐ์ ์ ํตํด ์ ๋ขฐ ๊ฐ๋ฅํ๊ณ ์ ๊ตํ ๋ชจ๋ธ์ ๋ง๋๋๊ฒ ๋ชฉ์ ์ด๋ค.
๋ฐ๋ผ์ ๋ชจํ์ ๋ณต์กํ์ง ์๊ณ ๋จ์ํ๊ฒ ๋ง๋ค๊ณ , ์ด๋ค ํผ์ณ๊ฐ ์ด๋ค ์์ธ์ ์ฃผ๋์ง ์ ์ ์๋๋ก ํ๋ค.
- ๋จธ์ ๋ฌ๋๊ณผ ์ ํต์ ํต๊ณํ์ ์ฐจ์ด - Hyunseok Choi
- Machine Learning๊ณผ ์ ํต์ ํต๊ณ๋ถ์ ๋ฐฉ๋ฒ์ ์ฐจ์ด
์ธ๊ณต์ ๊ฒฝ๋ง(deep learning์ด์ ์ ์ ํต์ ์ธ)์ด ๊ฐ์ง๋ ์ผ๋ฐ์ ์ธ ๋ฌธ์ ์ ์ ๋ฌด์์ผ๊น์?
๋ฅ๋ฌ๋ ์ด์ ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ ํ์ ์ผ๋ก๋ง ํ๊ท, ๋ถ๋ฅ๋ฅผ ์ํํ๊ธฐ ๋๋ฌธ์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ง ๋ชปํ๊ณ , ๋๋ฌธ์ XOR ๋ฌธ์ ๊ฐ์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํ์ง ๋ชปํ๋ ๋ฌธ์ ์ ์ด ์์๋ค.
ํ์ง๋ง ์๊ทธ๋ชจ์ด๋์ ๊ฐ์ ๋น์ ํ ํจ์๋ฅผ ์ ํ ๋ชจ๋ธ์ ์ถ๊ฐํ์ฌ XOR ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ํธ๋ฏธ๋ถ ์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ ์ค์ฐจ์ญ์ ํ ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ ์ ์๊ฒ ๋๋ฉด์ ๋ ์ด์ด๋ฅผ ๊น๊ฒ ์์ ๋ฅ๋ฌ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ด ๋ฐ์ ํ์๋ค.
- 1.2 ๋ฅ๋ฌ๋ ์ด์ : ๋จธ์ ๋ฌ๋์ ๊ฐ๋ตํ ์ญ์ฌ - ํ ์ ํ๋ก์ฐ ๋ธ๋ก๊ทธ
- ๋ชจ๋๋ฅผ ์ํ ๋ฅ๋ฌ๋ - Sung Kim
์ง๊ธ ๋์ค๊ณ ์๋ deep learning ๊ณ์ด์ ํ์ ์ ๊ทผ๊ฐ์ ๋ฌด์์ด๋ผ๊ณ ์๊ฐํ์๋์?
ImageNet ๊ณผ ๊ฐ์ ๊ฑฐ๋ํ๊ณ ๋์ ํ์ง์ ๋ฐ์ดํฐ์ ์ด ๋ชจ๋์๊ฒ ๊ณต๊ฐ๋๋ฉด์ ๋ฅ๋ฌ๋์ ํ์ ์ ์ธ ๋ฐ์ ์ด ์์๋ ์ ์์๋ค. ํ์ฌ๋ ๋ ๋ค์ํ ํ์คํฌ์ ์ ํฉํ ์ข์ GLUE ๊ฐ์ ๋ฐ์ดํฐ๋ค๋ ๊ณต๊ฐ๋์ด ๋์ฑ ๋ฅ๋ฌ๋์ ๋ฐ์ ์ ์ด๋ฐ์งํ๊ณ ์๋ค.
ํ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ชจ๋ ํฐ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค์ธ๋ฐ ํ๋์จ์ด์ ๋ฐ์ ์ด ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
๋ํ end-to-end ๋ชจ๋ธ์ด ๋ํ๋๋ฉด์ ๋ฐ์ดํฐ ๋ ์ด๋ธ๋ง, ํ์ดํผํ๋ผ๋ฏธํฐ ์ฐพ๊ธฐ, ์ต์ ๋ชจ๋ธ ์ฐพ๊ธฐ ๋ฑ ๋ชจ๋ ์์ ์ ๊ธฐ๊ณ์๊ฒ ๋งก๊ธฐ๋ฉด์ ๋ฅ๋ฌ๋์ด ํฌ๊ฒ ๋ฐ์ ํ์๋ค.
ROC ์ปค๋ธ๋ ์ด์ง๋ถ๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํ๋ด๋ ์งํ์ด๋ค.
๋ชจ๋ธ์ด ์ฐธ์ด๋ผ๊ณ ์์ธกํ๋ ๊ฒฝ์ฐ๋ FPR (False Positive Rate, ์ค์ ๊ฐ์ด ๊ฑฐ์ง์ผ ๋) ๊ณผ TPR (True Positive Rate, ์ค์ ๊ฐ์ด ์ฐธ์ผ ๋) ๋ ๊ฒฝ์ฐ๋ก ๋๋๋ค.
FPR ๊ณผ TPR ์ ๊ทธ๋ํ์์ x ์ถ, y ์ถ์ผ๋ก ๋์์ ํํํ ROC ์ปค๋ธ๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ณ์ ๊ฐ์ ์ ์์ธกํ๋์ง ์ ์ ์๊ฒ ๋๋ค.
ROC ์ปค๋ธ๊ฐ ์ข์๋จ๊ณผ ๊ฐ๊น์ด ๊ฒฝ์ฐ ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋จํ ์ ์๋ค. ๋ชจ๋ธ์ด FPR ์ ๋ฎ๊ฒ, TPR ์ ๋๊ฒ ์์ธกํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ๋ฌ๋ถ์ด ์๋ฒ๋ฅผ 100๋ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ ์ธ๊ณต์ ๊ฒฝ๋ง๋ณด๋ค Random Forest๋ฅผ ์จ์ผํ๋ ์ด์ ๋ ๋ญ๊น์?
๋๋ค ํฌ๋ ์คํธ๋ ์ฌ๋ฌ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์์๋ธํ์ฌ ํ๋์ ๋ชจ๋ธ๋ก ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋๋ค ํฌ๋ ์คํธ์์๋ ๊ฐ ์๋ฒ๋ฅผ ๋ชจ๋ธ์ ํน์ฑ์ ์ดํดํ๋ ๋จ์ผ ๊ฒฐ์ ํธ๋ฆฌ (Decision tree) ๋ก ๋ณ๋ ฌ์ ์ด๊ฒ ๊ตฌ์ฑํ ์ ์๋ค.
๋ฐ๋ฉด, ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ๋์ ์๋ฒ ์์ฒด๊ฐ ๋ชจ๋ธ์ ํน์ฑ์ ๋ชจ๋ ์ดํดํ๋ end-to-end ๊ตฌ์กฐ๋ก ์ง๋ ฌ์ ์ด๊ฒ ๊ตฌ์ฑ๋๋ค.
๋ฐ๋ผ์ ์๋ฒ๊ฐ 100๋ ์์ ๋๋, ์ด๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ํ์ฉํ ์ ์๋ ๋๋ค ํฌ๋ ์คํธ๋ฅผ ์ฌ์ฉํ๋ค.
- Random Forest(๋๋ค ํฌ๋ ์คํธ) ๊ฐ๋ ์ ๋ฆฌ - Codesigner's Dev Story
- ์์ฌ๊ฒฐ์ ๋๋ฌด - ratsgo's blog
- ์ถ๊ทผ ๋ฃจํด, ํ๋ฃจ 3๋ฌธ์ - Man-About-Town
K-means ๋ ํน์ฑ์ด ๋น์ทํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋ฌถ์ด์ฃผ๋ ํด๋ฌ์คํฐ๋ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, k ๊ฐ์ ๊ตฐ์ง ๊ฐ์๋ฅผ ์ ํ๊ณ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์์ธกํ์ฌ ๊ฐ ๋ฐ์ดํฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋น๊ตํ ํ ๊ตฐ์ง์ ๊ฒฐ์ ํ๋ค.
K-means ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- K ๋ฅผ ๋ช ๊ฐ๋ก ์ค์ ํ๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค.
- K ๊ฐ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์์ธกํ์ฌ์ผ ํ๋๋ฐ, ์ด๋๋ฅผ ์ค์ฌ์ ์ผ๋ก ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค.
- ๋ฐ์ดํฐ๊ฐ ์ ๋ชจ์ฌ์๋ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ด์ง, ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๊ฒฝ์ฐ ํจ๊ณผ์ ์ด์ง ์๋ค.
์ ๊ทํ(์ผ๋ฐํ)์ ๋ชฉ์ ์ ๋ชจ๋ธ์ด ํ์ต ๋ฐ์ดํฐ์ ์ค๋ฒํผํ ๋์ง ์๊ณ ์ฒ์ ๋ณด๋ ํ ์คํธ ๋ฐ์ดํฐ์๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ ํ์ต์ loss ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
์ด ๋, loss ํจ์์ L1, L2 ์ ๊ทํ ํญ (norm) ์ ๋ํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๊ธฐ์กด์ loss ๋ ์ค์ด๋ฉด์ ์ ๊ทํ ํญ (๋ชจ๋ธ์ ํผ์ณ๊ฐ๊ณผ ๊ด๋ จ) ๋ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค.
๋ชจ๋ธ์ ํผ์ณ๊ฐ์ด ์ค์ด๋ฆ์ ๋ฐ๋ผ ํน์ ํผ์ณ๊ฐ ๋๋ฌด ํฐ ๊ฐ์ ๊ฐ์ง ์๊ฒ ๋๋ฉด์ ์ค๋ฒํผํ ์ ๋ฐฉ์งํ ์ ์๊ฒ ๋๋ค.
L1 ์ ๊ทํ (๋ผ์ ํ๊ท)
L1 ์ ๊ทํ๋ ํน์ ํผ์ณ์ ๊ฐ์ด ๋งค์ฐ ๋ฎ์ ๊ฒฝ์ฐ (์์๋ผ์ด์ด) 0์ ์๋ ด๋๋ ํน์ง์ด ์๋ค. ํน์ ํผ์ณ๊ฐ 0์ด ๋์ด ์ฌ๋ผ์ง๋ ๊ฒ์ feature selection ๊ณผ ๋์ผํ๋ค๊ณ ๋ณผ ์ ์๋ค.
L2 ์ ๊ทํ (๋ฆฟ์ง ํ๊ท)
L2 ์ ๊ทํ๋ ํน์ ์จ์ดํธ์ ๊ฐ์ด ๋งค์ฐ ๋ฎ์๋ 0์ ์๋ ด๋์ง๋ ์๊ณ ๊ฐ๊น์์ง๋ ํน์ง์ด ์๋ค. ์ด๋ L1 ์ ๊ทํ์ ๋นํด ๊ฐํ์ง ์๊ฒ ์ ๊ทํ๋ฅผ ์คํํ์ฌ ํญ์ ์ ํ ๋ชจ๋ธ์ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์ค ์ ์๋ค.
loss ์์ ๋๋ค ๋ชจ๋ธ์ ์จ์ดํธ์ ๋ํ L1 or L2 norm ์ ๋ํด์ค์ผ๋ก์จ ๋ชจ๋ธ์ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
loss ๋ ๋ฐ์ดํฐ ๊ฐ๊ณผ ์ถ์ ๊ฐ์ ์ฐจ์ด๋ก ๋ชจ๋ธ์ loss ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋๋ฐ, L1 or L2 ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ฉด loss ๊ฐ ์จ์ดํธ์ ํฌ๊ธฐ๋งํผ ์ปค์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ ๊ฐ์ ์์ธก ๊ฐ์ด fit ํด์ง์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.
Norm
Norm์ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๋ก L1 Norm์ ๋ฒกํฐ์ ์ ๋๊ฐ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๊ณ , L2 Norm์ ์ง์ ๊ฑฐ๋ฆฌ (์ ๊ณฑ์ ๋ฃจํธ) ๋ฅผ ๋ํ๋ธ๋ค.
์ ๊ทธ๋ฆผ์์ ์ด๋ก์ ์ L2 norm ์ ์๋ฏธํ๊ณ , ๋๋จธ์ง ์ ์ L1 norm ์ ์๋ฏธํ๋ค.
- L1 loss
- L2 loss
- ๋ฅ๋ฌ๋ ์ฉ์ด ์ ๋ฆฌ, L1 Regularization, L2 Regularization ์ ์ดํด, ์ฉ๋์ ์ฐจ์ด ์ค๋ช - ๋น๋๋ ๋๋ฌด
- L1, L2 Norm, Loss, Regularization? - ์๊ฐ ์ ๋ฆฌ
- ๋ฆฟ์งํ๊ท, ๋ผ์ํ๊ท, ์๋ผ์คํฑ๋ท - ๋ํ์์์ด ์ฝ๊ฒ ์ค๋ช ํด๋ณด๊ธฐ
cross validation(๊ต์ฐจ๊ฒ์ฆ)์ด๋ train(ํ์ต) ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ด, ํ์ต์ ์ฌ์ฉ๋์ง ์์ validation(๊ฒ์ฆ) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ์ ๋์ํ๋์ง ํ์ธํ๋ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ์ฃผ์ํ ์ ์ train ๋ฐ์ดํฐ์ ๊ณผ validation ๋ฐ์ดํฐ์ ์๋ test ๋ฐ์ดํฐ์ ์ด ํฌํจ๋๋ฉด ์๋๋ค๋ ๊ฒ์ด๋ค.
๊ต์ฐจ๊ฒ์ฆ์ ํตํด ์ป์ ์ ์๋ ์ฅ๋จ์ ์ ์๋์ ๊ฐ๋ค.
- ์ ์ ๋ฐ์ดํฐ์ ๋ํ validation ์ ๋ขฐ์ฑ์ ๋์ผ ์ ์๋ค.
- ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ํ๋ จ์ ํ์ฉํ ์ ์์ผ๋ฏ๋ก ๋ฐ์ดํฐ ํธ์ค์ ๋ง์ ์ ์๋ค. (k-fold ๊ฒฝ์ฐ)
- ๊ฒ์ฆ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ค.
- ๋ชจ๋ธ ํ์ต์ ์ค๋ ์๊ฐ์ด ์์๋๋ค.
๊ต์ฐจ๊ฒ์ฆ ๊ธฐ๋ฒ์ ์ข ๋ฅ๋ ์๋์ ๊ฐ๋ค. (validation ๋ฐ์ดํฐ์ ์ ์ด๋ป๊ฒ ์ง์ ํ๋๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.)
- ํ๋ ์์ ๊ต์ฐจ๊ฒ์ฆ(Holdout Cross Validation)
- K-๊ฒน ๊ต์ฐจ๊ฒ์ฆ(K-fold Cross Validation)
- ๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ(Stratified K-Fold Cross Validation)
ํ๋ ์์ ๊ต์ฐจ๊ฒ์ฆ
ํ๋์์ ๊ต์ฐจ๊ฒ์ฆ๋ฐฉ๋ฒ์ ์ผ์ ํ ๋น์จ์ validation ๋ฐ์ดํฐ์ ํ๋๋ฅผ ์ง์ ํ์ฌ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ๋์์ ๊ต์ฐจ๊ฒ์ฆ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ๋๊ฐ์ง ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค.
- validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ๋ ๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ํ์ต์ ์ผ๋ก ์ฌ์ฉ๋์ง ์๋๋ค๋ ๋ฌธ์
- validation ๋ฐ์ดํฐ์ ์ ํธํฅ๋๋๋ก ๋ชจ๋ธ์ ์กฐ์ ํ๊ฒ ๋๋ค๋ ๋ฌธ์
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ์ด ๋ฑ์ฅํ๋ค.
k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ
k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ train ๋ฐ์ดํฐ๋ฅผ k๊ฐ์ fold๋ก ๋๋์ด, ๊ทธ ์ค ํ๋์ fold๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ผ์ ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ k๋ฒ ๋ฐ๋ณตํ์ฌ, ๊ทธ ํ๊ท ์ ๊ฒฐ๊ณผ๋ก์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ธ๋ถ์ ์ธ ๋์๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
- train ๋ฐ์ดํฐ์ ์ k๊ฐ์ fold๋ก ๋๋๊ณ , ๊ทธ ์ค ํ๋๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๋ค.
- validation ๋ฐ์ดํฐ์ ์ ์ ์ธํ ๋๋จธ์ง ํด๋๋ค์ train ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ค.
- ํ์ตํ ๋ชจ๋ธ์ 1๋ฒ์์ ์ง์ ํด๋ validation ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒ์ฆํ๊ณ , ๊ทธ ๊ฒ์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ ์ฅํด๋๋ค.
- ๋ชจ๋ธ์ ์ด๊ธฐํํ ํ, ๊ธฐ์กด validation ๋ฐ์ดํฐ์ ์ด ์๋ ๋ค๋ฅธ fold๋ฅผ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ง์ ํ๊ณ , 2๋ฒ ๊ณผ์ ๋ถํฐ ๋ค์ ์ํํ๋ค.
- ๋ชจ๋ fold๋ค์ด ํ๋ฒ์ฉ validation ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ฉ๋ ํ์๋, ์ ์ฅํด๋ ๊ฒ์ฆ๊ฒฐ๊ณผ์ ํ๊ท ์ ๋ด์ด, ๊ทธ๊ฒ์ ์ต์ข validation ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํ๋ค.
๊ทธ๋ฌ๋ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋๋คํ๊ฒ validation ๋ฐ์ดํฐ์ ์ ์ง์ ํ๊ฒ ๋๋ฏ๋ก, ํธํฅ๋ ๋ฐ์ดํฐ๋ก ์ด๋ค์ง ํด๋๊ฐ ์์ฑ๋ ์ ์๋ค๋ ๋จ์ ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ด ๋ฑ์ฅํ๋ค.
๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ
๊ณ์ธต๋ณ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์ k-๊ฒน ๊ต์ฐจ๊ฒ์ฆ ๋ฐฉ๋ฒ์์ fold๋ฅผ ๋๋๋, ๋๋คํ๊ฒ fold๋ฅผ ์ง์ ํ๋ ๊ฒ์ด ์๋, ๊ฐ ํด๋์ค๋ณ ๋น์จ์ ๊ณ ๋ คํ์ฌ fold๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๐ก ์ test ๋ฐ์ดํฐ์ ๋ง์ผ๋ก ๊ฒ์ฆํ๋ฉด ์๋ ๊น?
๋ชจ๋ train ๋ฐ์ดํฐ์ ์ ํ์ตํ๊ณ , test ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒ์ฆํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ค๊ณ ํ์. ๊ฐ๋ฐ์๋ test ๋ฐ์ดํฐ์ ์ ์๋ฅผ ๋์ด๊ธฐ ์ํด, test ๋ฐ์ดํฐ์ ์ ํธํฅ๋๋๋ก ๋ชจ๋ธ์ ํ๋ํ๊ฒ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ค์ํ ๊ฒ์ test ๋ฐ์ดํฐ์ ์ ๋ํ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ ๋ฟ๋ง์๋๋ผ, ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ ํ๋๋ฅผ ๋์ด๋ ๊ฒ์ด๋ค. ์ด๋ค ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ์ผ์ ํ๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ ํ ์ ์์ผ๋ฏ๋ก, validation ๋ฐ์ดํฐ์ ๊ณผ test ๋ฐ์ดํฐ์ ์ ๋ถ๋ฆฌํ์ฌ ๊ฒ์ฆํ๋ ๊ณผ์ ์ ํตํด, ๋ชจ๋ธ์ ์ผ๋ฐํ์์ผ์ผ ํ๋ค.
XGBoost(eXtreme Gradient Boosting) ์ด๋, ํธ๋ฆฌ ๊ธฐ๋ฐ์ ์์๋ธ ํ์ต์์ ๊ฐ์ฅ ๊ฐ๊ด๋ฐ๊ณ ์๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ค. Kaggle ๊ฒฝ์ฐ๋ํ์์ ์์๋ฅผ ์ฐจ์งํ ๋ง์ ๊ณผํ์๋ค์ด XGBoost๋ฅผ ์ด์ฉํ๋ฉด์ ๋๋ฆฌ ์๋ ค์ก๋ค. GBM์ ๊ธฐ๋ฐํ๊ณ ์์ง๋ง, GBM์ ๋จ์ ์ธ ๋๋ฆฐ ์ํ์๊ฐ ๋ฐ ๊ณผ์ ํฉ ๊ท์ (Regularization) ๋ถ์ฌ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ ๊ฐ๊ด๋ฐ๊ณ ์๋ค.
XGBoost์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ถ๋ฅ์ ํ๊ท์์ญ์์ ๋ฐ์ด๋ ์์ธก ์ฑ๋ฅ์ ๋ฐํํ๋ค.
- XGBoost๋ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ, GBM ๋๋น ๋น ๋ฅธ ์ํ์๊ฐ์ ๋ณด์ธ๋ค.
- Regularization, Early Stopping ๊ธฐ๋ฅ์ ํตํด ์ค๋ฒํผํ ์ ๋ฐฉ์งํ ์ ์๋ค.
- Tree Pruning(๊ฐ์ง์น๊ธฐ) ์ ๊ณตํ๋ค. ๋ฏธ๋ฆฌ ์ ํด๋ max_depth๊น์ง๋ง splitํ๊ณ pruning์ ํ๊ณ , ๊ฑฐ๊พธ๋ก ์ฌ๋ผ๊ฐ๋ฉด์ positive gain์ด ์๋ ๋ ธ๋๋ฅผ ์ญ์ ํ๋ค.
- ์์ฒด์ ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํด์ค๋ค.
- ๋งค iteration๋ง๋ค ๊ต์ฐจ๊ฒ์ฆ์ ์ํํ๋ค.
GBM(Gradient Boosting Algorithm) ์ด๋ ํ๊ท๋ถ์ ๋๋ ๋ถ๋ฅ ๋ถ์์ ์ํํ ์ ์๋ ์์ธก๋ชจํ์ด๋ฉฐ ์์ธก๋ชจํ์ ์์๋ธ ๋ฐฉ๋ฒ๋ก ์ค ๋ถ์คํ ๊ณ์ด์ ์ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. LightGBM, CatBoost, XGBoost๋ ๋ชจ๋ GBM์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ก๋ค. (์์ธํ ๋ด์ฉ์ Gradient Boosting Algorithm์ ์ง๊ด์ ์ธ ์ดํด - DeepPlay ์ฐธ๊ณ )
๐ก boosting ์ด๋ผ๋ ํ ํฌ๋ ์์ฒด๊ฐ sequential ํ๋ฐ ์ด๋ป๊ฒ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ํ ๊น?
์ธ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ด ์ ๊ธฐ๋๋ค. ๋๋ ๋ถ๊ธฐ๋ง๋ค ๊ฐ๊ฐ ๋ณ๋ ฌ์ฒ๋ฆฌํ๊ฑฐ๋, ๋ถ๊ธฐ๊ฐ ๋๋๋ ์ง์ ๊ณ์ฐ์ ๋ณ๋ ฌ์ฒ๋ฆฌ ํ๊ฑฐ๋, ์ฒ์๋ถํฐ feature๋ณ ์ ๋ ฌ์ ํตํด ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ํ ์ ์๋ค. (์์ธํ ๋ด์ฉ์ XGBoost์ ๋ณ๋ ฌ์ฒ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น? - GoLab ์ฐธ๊ณ )
- ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ-XGBoost - RosyPark
- Gradient Boosting Algorithm์ ์ง๊ด์ ์ธ ์ดํด - DeepPlay
์์๋ธ(Ensemble) ์ ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ์ ์กฐํฉํด์ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ์ ๋ด๋ ๋ฐฉ๋ฒ์ด๋ค. "์ ํ๋๊ฐ ๋์ ๊ฐํ ๋ชจ๋ธ์ ํ๋ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค, ์ ํ๋๊ฐ ๋ฎ์ ์ฝํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ์กฐํฉ ํ๋ ๋ฐฉ์์ ์ ํ๋๊ฐ ๋๋ค"๋ ๊ฐ๋
์์ ๋น๋กฏํ ๋ฐฉ๋ฒ์ด๋ค. Bagging
, Boosting
, Stacking
๋ฑ์ ๋ฐฉ๋ฒ์ด ์๋ค.
๋ฐฐ๊น
(Bagging, Bootstrap Aggregation) ์ด๋ ์ํ์ ์ฌ๋ฌ๋ฒ ๋ฝ์(Bootstrap = ๋ณต์ ๋๋ค ์ํ๋ง) ๊ฐ ๋ชจ๋ธ์ ํ์ต์์ผ ๊ฒฐ๊ณผ๋ฌผ์ ์ง๊ณ(Aggregation)ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์นดํ
๊ณ ๋ฆฌ ๋ฐ์ดํฐ๋ ํฌํ ๋ฐฉ์(Votinig)์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํ๋ฉฐ, ์ฐ์ํ ๋ฐ์ดํฐ๋ ํ๊ท ์ผ๋ก ์ง๊ณํ๋ค. Bagging์ ์ฌ์ฉํ ๋ํ์ ์ธ ๊ธฐ๋ฒ์๋ Random Forest
๋ฐฉ๋ฒ์ด ์๋ค. ํ์ต ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ์ง ์๋๋ผ๋ ์ถฉ๋ถํ ํ์ตํจ๊ณผ๋ฅผ ์ฃผ์ด ๋์ bias์ underfitting ๋ฌธ์ ๋, ๋์ variance๋ก ์ธํ overfitting ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋๋ฐ ๋์์ ์ค๋ค.
๋ถ์คํ
(Boosting) ์ด๋ ์ด์ ๋ชจ๋ธ์ ์ค๋ต์ ๊ฐ์ค์น๋ฅผ ๋๊ฒ ๋ถ์ฌํ์ฌ ๋ค์ ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ค๋ต์ ์ ๋ต์ผ๋ก ๋ง์ถ๊ธฐ ์ํด ์ค๋ต์ ๋ ์ง์คํ์ฌ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ๋ฐฐ๊น
์ ๋นํด ์ ํ๋๊ฐ ๋๋ค. ๊ทธ๋ฌ๋ ํ๋ ธ๋ ๋ถ๋ถ์ ๋ํด ๋ฐ๋ณต์ ์ผ๋ก ํ์ตํ๋ฏ๋ก ์ค๋ฒํผํ
์ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, outlier์ ์ทจ์ฝํ๊ณ , ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๋จ์ ๋ ๊ฐ์ง๊ณ ์๋ค. GBM(Gradient Boosting)
๋ฐฉ๋ฒ์ด ๋ํ์ ์ด๊ณ , XGBoost, AdaBoost, GradientBoost
๋ฑ์ ์๊ณ ๋ฆฌ์ฆ์ด ์กด์ฌํ๋ค.
์คํํน(Stacking) ์ด๋ ์ฌ๋ฌ ๊ฐ๋ณ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ๊ฐ์ ๋ค์ ํ์ต ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ฉํด์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ์คํํน ๋ฐฉ๋ฒ์ ๊ฐ์ ๋ฐ์ดํฐ์
์ ํตํด ์์ธกํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ์ต
ํ๋ฏ๋ก ์ค๋ฒํผํ
๋ฌธ์ ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์คํํน์ Cross Validation ๋ฐฉ์์ ๋์
ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค. ๋ฐ์ดํฐ๋ฅผ ์ชผ๊ฐ๊ณ ์ด๋ค ์ค ์ผ๋ถ๋ง์ ๊ฐ์ง๊ณ ํ์ตํ ๋ชจ๋ธ์ ์ฌ๋ฌ๊ฐ ๋ง๋ค์ด, ๊ทธ ๊ฒฐ๊ณผ๋ค์ ๋ฉํ ํ์ต ๋ฐ์ดํฐ์
(meta train dataset)
์ผ๋ก ์ฌ์ฉํ์ฌ ๋ค์ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ง์ ๊ฐ๋ณ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
๐ก ๋ฐฐ๊น vs ๋ถ์คํ
๋ฐฐ๊น ์ ๋๋ค ๋ณต์์ถ์ถ(๋ถํธ์คํธ๋ฉ)์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํ์ฌ ๋ชจ๋ธ์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ๋ฌ๊ฐ ํ์ต์ ์ํจ ๋ค์, ํ๊ท ์ ๋ด๋ ๋ฐฉ์์ด๋ค. ๋ฐ๋ฉด, ๋ถ์คํ ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ฌ์ฉํ๋, ์ค๋ต์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋์ด ๋ค์ ํ์ฐจ๋ฅผ ํ์ต์ํค๋ ์์ฐจ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
- ๋จธ์ ๋ฌ๋-11.์์๋ธํ์ต: ๋ฐฐ๊น ๊ณผ ๋ถ์คํ - BaekKyunShin
- 1.์์๋ธ ๊ธฐ๋ฒ๊ณผ ๋ฐฐ๊น , ๋ถ์คํ , ์คํํน - ๋ฐ์ดํฐ ๋ง์ง
ํน์ง(feature) ์ด๋, ์ํ(๋ฐ์ดํฐ)์ ์ ์ค๋ช
ํ๋ ์ธก์ ๊ฐ๋ฅํ ์์ฑ์ด๋ค. ํน์ง์ ํตํด ํน์ ์ํ์ ์์นํํ์ฌ ๋ํ๋ผ ์ ์๋ค.
ํน์ง๋ฒกํฐ(feature vector) ๋ ํผ์ณ(feature)๋ค์ ์งํฉ์ด๋ค. ๊ตณ์ด ๋ฒกํฐ๋ก ํ์ํ๋ ์ด์ ๋ ์ํ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ํธํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฐ์ดํฐ๋ณ๋ก ์ด๋ค ํน์ง์ ๊ฐ์ง๊ณ ์๋์ง ์ฐพ์๋ด๊ณ , ๊ทธ๊ฒ์ ํ ๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๋ ์์
์ ํน์ง์ถ์ถ(feature extraction) ์ด๋ผ๊ณ ํ๋ค.
ํน์ง ๊ณต๊ฐ(feature space) ์ด๋ ๊ด์ธก๊ฐ๋ค์ด ์๋ ๊ณต๊ฐ์ ์๋ฏธํ๋ค. ์ด ํน์ง ๊ณต๊ฐ์ ์ฌ๋ฌ ์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋ ์ ์๋ค. ์ด๋ค ๋ฐ์ดํฐ๋ฅผ ํน์ง๊ณต๊ฐ์ ํ๋์ ๋ฒกํฐ๋ก ํํํ๋ ๊ฒฝ์ฐ, ์ฌ๋ฌ ํน์ง ๋ณ์๊ฐ ํน์ง๋ฒกํฐ์ ์ํฅ์ ์ค ์ ์๋ค. ์๋ฅผ๋ค์ด, ํน์ง ๋ณ์๊ฐ ํ๋์ธ ๋ฐ์ดํฐ๋ 1์ฐจ์ ํน์ง ๊ณต๊ฐ์ ๋ํ๋๊ณ , ํน์ง ๋ณ์๊ฐ N๊ฐ๋ผ๋ฉด N์ฐจ์์ ํน์ง ๊ณต๊ฐ์ ๋ํ๋ผ ์ ์๋ค.
d-์ฐจ์ ๋ฐ์ดํฐ์ ํน์ง ๋ฒกํฐ๋ ๋ค์๊ณผ ๊ฐ์ด ํ์๋๋ค.
๐ก ๋ถ์ผ์ ๋ฐ๋ฅธ ํผ์ฒ๋ฒกํฐ์ ์๋ฏธ
- ์ปดํจํฐ๋น์ (์ด๋ฏธ์ง)์์์ ํน์ง์ edge, corner ๋ฑ์ ์๋ฏธํ๋ค. ํฝ์ ๊ฐ์ด ๊ธ๊ฒฉํ ๋ณํํ๋ ๊ณณ, ๋ฐ๊ธฐ์ ๋ณํ, ์์์ ๋ณํ, ๊ทธ๋๋์ธํธ์ ๋ฐฉํฅ ๋ฑ์ ๋งค์นญ ์ ๋ณด๋ฑ์ ํน์ง์ผ๋ก ์ผ๋๋ค. SIFT, SURF ๋ฑ์ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค.
- ์์ฐ์ด์ฒ๋ฆฌ(ํ ์คํธ) ์์์ ํน์ง์ ๋จ์ด, ํํ์, ์๋ธ์๋, ํ ํฐ ๋ฑ์ผ๋ก ํํ๋ ์ ์์ผ๋ฉฐ, BOW(Bag-of-Words)๋ ๋ฌธ์์์ ๋จ์ด์ ๋ฐ์์ ์ค๋ช ํ๋ ํ ์คํธ์ ๋ฒกํฐ ํํ์ด๋ค. ๋ง์ฝ 8๊ฐ์ ๋จ์ด๋ก ์ด๋ฃจ์ด์ง ๋ฌธ์ฅ์ BoW๋ก ๋ง๋ค๋ฉด, 8์ฐจ์(dimension)์ vector๋ก์ ํ๋์ ๋จ์ด๋ฅผ ํํํ ์ ์๋ค.
- ์ ํ๋ฐ์ดํฐ์์์ ํน์ง์ ๊ฐ attribute(์ด)๋ฅผ ์๋ฏธํ๋ค. ํค, ๋์ด, ๊ตญ์ ๋ฑ์ด ํน์ง์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ค.
- ํผ์ณ(๊ธฐ๊ณํ์ต) - ์ํค๋ฐฑ๊ณผ
- 4)๋จธ์ ๋ฌ๋์ด๋? - TCPschool.com
- ๋จธ์ ๋ฌ๋-๋ค์ฐจ์ ํน์ง๊ณต๊ฐ๊ณผ ์ฐจ์์ ์ ์ฃผ - ์๋น ๊ฐ๋ฐ์
- OpenCV-ํน์ง๊ฒ์ถ, ๋์คํฌ๋ฆฝํฐ, ๋งค์นญ - JeongYongHwang
- ์์ฐ์ด์ฒ๋ฆฌ Bag of Words
- ์์ฐ์ด์ ํผ์ฒ์ ์ ์ฒ๋ฆฌ - GeumjaeLee
ํ ์ค๋ก ์์ฝํ์๋ฉด, ์ข์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์ ํจํด์ ์ ํ์ตํ ๋ชจ๋ธ๋ก์, ํ๋ฒ๋ ๋ณธ์ ์๋ ๋ฐ์ดํฐ์ ๋ํด ์ณ์ ํ๋จ์ ๋ด๋ฆฌ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ ๋ฑ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์์ฑํ๋ ์ด์ ๋ ๊ธฐ๊ณ๊ฐ ์ฌ๋ ๋์ ์ด๋ ํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ ์ํจ
์ด๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฒฐ์ ์ ๋์ ํ๋ ๊ธฐ๊ณ, ๊ฒฐ์ ๊ธฐ
๋ผ๊ณ ๋ณผ ์ ์๋ค.
์ด ๊ด์ ์์, ์ข์ ๊ฒฐ์ (์ณ์ ๊ฒฐ์ )์ ๋ด๋ฆฌ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ค. ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์กฐ๊ธ๋ง ๋ค๋ฅธ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด ์ ๋๋ก ๋ถ๋ฅํ์ง ๋ชปํ๋ ์ํฉ์ด ๋ฐ์๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก ๋ชจ๋ธ์ ์ผ๋ฐํ๊ฐ ์ด๋ฃจ์ด์ ธ, ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ์ ํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
์๋ฅผ๋ค์ด, ์์ธก์ด ๋ชฉ์ ์ด๋ผ๋ฉด, ์ค์ ์ ๋ต๊ณผ ์์ธก ๊ฐ์ ์ฐจ์ด(loss, cost, error)๋ฅผ ์ต์ํ ํ๋ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ข์ ๋ชจ๋ธ์ด๋ค. ๋ํ ํ๋ฅ ์ ์ถ์ ํ๋ ๊ฒฝ์ฐ์๋ ๊ฐ๋ฅ์ฑ(likelihood)์ ์ต๋ํํ๋ ๋ชจ๋ธ์ด ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
- ๋จธ์ ๋ฌ๋์ ๋ชจ๋ธํ๊ฐ์ ๋ชจ๋ธ์ ํ, ์๊ณ ๋ฆฌ์ฆ ์ ํ - ํ ์ํ๋ก์ฐ ๋ธ๋ก๊ทธ
- 3.๋จธ์ ๋ฌ๋์ ์ฃผ์ ๊ฐ๋ -๋ชจ๋ธ - Aiden
- ๋ชจ๋ธ ํ์ต ๋ฐฉ๋ฒ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ - ์ธ์์ ๊ตด๋ ์์1
50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ํฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค ๊ด์ฐฎ์๊น์? ์ ๊ทธ๋ ๊ฒ ์๊ฐํ๋์?
50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ ์์๋ธ์์ Bagging
๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ชจ๋ธ๋ก ๋ณผ ์ ์๋ค. ๋ฐ๋ผ์ Bagging์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ธ Random Forest
๋ฐฉ๋ฒ์ด ์ ์ข์์ง ์ค๋ช
ํ๋ ๊ฒ์ผ๋ก, ์ 50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๋ ๋์์ง ์ค๋ช
ํ๊ณ ์ ํ๋ค.
ํฐ ํธ๋ฆฌ๋ ์์ ํธํฅ(bias)์ ํฐ ๋ถ์ฐ(variance)๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์, ๋งค์ฐ ๊น์ด ์ฑ์ฅํ ํธ๋ฆฌ๋ ํ๋ จ๋ฐ์ดํฐ์ ๋ํด ๊ณผ์ ํฉ(overfitting)ํ๊ฒ ๋๋ค. Random Forest ๋ฐฉ์์ผ๋ก ํ์ตํ๋ฉด, ํธ๋ฆฌ๋ค์ ํธํฅ์ ๊ทธ๋๋ก ์ ์งํ๋ฉด์, ์ฌ๋ฌ ๋ฐ์ดํฐ์ /์ฌ๋ฌ ๊ฒฝ์ฐ์ ๋ํด ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋ถ์ฐ์ ๊ฐ์์ํฌ ์ ์๋ค. ๋ํ ํ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ์ ๊ฒฝ์ฐ, train ๋ฐ์ดํฐ์ ์๋ ๋ ธ์ด์ฆ์ ๋ํด ๋งค์ฐ ๋ฏผ๊ฐํ์ง๋ง, ์ฌ๋ฌ ํธ๋ฆฌ๋ค์ ๋ง๋ค๋ฉด์ ํ๊ท ์ ๋ด๋ฉด, ๋ ธ์ด์ฆ์ ๋ํด ๊ฐ์ธํด์ง ์ ์๋ค. ๋ฐ๋ผ์ ํ๋์ ๊น์/ํฐ ์์ฌ๊ฒฐ์ ๋๋ฌด๋ณด๋ค 50๊ฐ์ ์์ ์์ฌ๊ฒฐ์ ๋๋ฌด๊ฐ ๋ ์ข์ ๋ชจ๋ธ์ ์์ฑ์ํจ๋ค๊ณ ํ ์ ์๋ค.
Bagging(Bootstrap Aggregating)
Bagging์ Bootstrap(๋ฐ๋ณต, ๋ณต์์ถ์ถ)ํ๊ณ , ์ด๋ฅผ Aggregation(์ง๊ณ)ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ ๋ฐ์ดํฐ์ ์ ๋ํด์ ์ฌ๋ฌ๊ฐ์ ์์ ๋ฐ์ดํฐ์ N๊ฐ๋ฅผ ์ํ๋งํด์ ๋ง๋ ๋ค์, ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ ๋ชจ๋ธ N๊ฐ๋ก ํ์ต์ ์ํจ๋ค. ๊ทธ ๋ค์ ํ์ต๋ N๊ฐ์ ๋ชจ๋ธ์ ๋ชจ๋ ํ๋๋ก ํฉ์ณ์ ์ต์ข ์ ์ธ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋ฏธํ๋ค. ๊ฒฐ๊ตญ, ๋ณ๋ ฌ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋์ด ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ๋์์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.
Random Forest
Random Forest๋ ์ฌ๋ฌ ์์ฌ ๊ฒฐ์ ๋๋ฌด๋ฅผ ์์ฑํ ํ์ ๋ค์๊ฒฐ(hard voting) ๋๋ ํ๊ท (soft voting)์ ๋ฐ๋ผ ์ถ๋ ฅ์ ์์ธกํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ฆ ์์ฌ ๊ฒฐ์ ๋๋ฌด์ bagging์ ํผํฉํ ํํ๋ผ๊ณ ๋ณผ ์ ์๋ค. Random Forest์ ํน์ง์ bootstrap์ ์ด์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋ค์ํ ์ํ์ ์ถ์ถํ์ฌ ์ผ๋ถ๋ง ํ๋ฒ์ ํ์ต์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๋ฐ์ดํฐ ์ํ๋ง ๋ฐ ๋ณ์ ์ ํ์ ํตํด ์์ฌ ๊ฒฐ์ ๋๋ฌด์ ๋ค์์ฑ์ ํ๋ณดํ ์ ์๋ค. ์ด๋ฅผ ํตํด ์์ธก์ ๋ณ๋์ฑ์ด ์ค์ด๋ค๊ณ , ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์์ด ๊ฒฐ์ธก์น์ ๋ํด ๊ฐ๊ฑดํ๋ค๋ ์ฅ์ ์ ๊ฐ์ง๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์ ์๊ฐ ๋ง์์ง๋ฉด ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋นํด ์๋๊ฐ ํฌ๊ฒ ๋จ์ด์ง๊ณ , ๊ฒฐ๊ณผ์ ๋ํ ํด์์ด ์ด๋ ต๋ค๋ ๋จ์ ์ด ์๋ค.
- Bagging, Boosting, Bootstrapping - ๊ณฝ๋ํ, New Sight
- Bagging(Bootstrap aggregating, ๋ฐฐ๊น )์๊ณ ๋ฆฌ์ฆ - InCastle
- ๋จธ์ ๋ฌ๋: Random Forest ํน์ง, ๊ฐ๋ , ์ฅ์ , ๋จ์
์คํธ ํํฐ๋ ๋ฉ์ผ์ด ์คํธ ๋ฉ์ผ์ธ์ง ์๋์ง์ ๋ํ ํ๋ฅ ์ ๊ณ์ฐํ์ฌ, ๋ฉ์ผ์ ๋ถ๋ฅ(Classification) ํ๋ ๋ฌธ์ ์ด๋ค. ๋ก์ง์คํฑ ํ๊ท๋ ํ๊ท๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ด๋ค ๋ฒ์ฃผ์ ์ํ ํ๋ฅ ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์์ธกํ๊ณ ๊ทธ ํ๋ฅ ์ ๋ฐ๋ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋์ ๋ฒ์ฃผ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ถ๋ฅ(Classification)ํด์ฃผ๋ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ํนํ ์ ๋ ฅ๊ฐ์ด ์๋ฌด๋ฆฌ ํฌ๊ฑฐ๋ ์์๋ 0์์ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋งตํ์ํจ๋ค๋ ์ ์์ ๋ถ๋ฅ๋ฌธ์ ์ ์ ํฉํ๋ค. ๋ฐ๋ผ์ ๋ก์ง์คํฑ ํ๊ท๊ฐ ์คํธํํฐ์ ๋ง์ด ์ฌ์ฉ๋๋ค.
๋ถ๋ฅ๋ฌธ์ ์์ ๋ก์ง์คํฑ ํ๊ท๊ฐ ์ ์ ํ ์ด์
๋ก์ง์คํฑ ํ๊ท๋ ์๊ทธ๋ชจ์ด๋ ํจ์(sigmoid function) ๋ฅผ ํตํด ์ ํํจ์๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ํจ์๋ก ๋ฐ๊พผ ๊ฒ์ด๋ฉฐ, S์ ํํ๋ฅผ ๋ณด์ธ๋ค. ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ ์๋ ์๋์ ๊ฐ๋ค.
๋ก์ง์คํฑ ํ๊ท์ ๊ฐ์คํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
x๊ฐ์ด ์๋ฌด๋ฆฌ +, -๋ก ์์์ง๊ฑฐ๋ ์ปค์ ธ๋ ํญ์ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๋ฐํํ๋ค. ํ๋ฅ ์ 0์์ 1์ฌ์ด์ ๋ฒ์ ๋ด์ ๋ค์ด์์ผํ๋ฏ๋ก ์ด๋ฌํ ํํ๊ฐ ์ ํฉํ๋ค.
์ด๋ ๊ฒ H(x)์ ๊ฐ์ด 0๊ณผ 1์ฌ์ด๋ก ๋์ค๋ฉด, ์์ Hypothesis ํจ์๋ก regression์ ํ ๊ฒฐ๊ณผ๊ฐ์ด threshold(ex.0.5) ์ด์์ธ ๊ฒฝ์ฐ์ 1๋ก ๋ถ๋ฅํ๊ณ , threshold ๋ณด๋ค ์์ผ๋ฉด 0์ผ๋ก ๋ถ๋ฅํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ด๋ค.
๋ถ๋ฅ๋ฌธ์ ์์ ์ ํํ๊ท๊ฐ ์ ํฉํ์ง ์์ ์ด์
๊ทธ๋ฆผ1
๊ณผ ๊ฐ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค, ์ ์ ํ ์ง์ ์ ๊ธฐ์ค์ผ๋ก ๋ ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฅํ ์ ์๋ค.
์ด๋ ๊ทธ๋ฆผ2
์ new
๋ฐ์ดํฐ๊ฐ ์๋ก ๋ค์ด์๋ค๊ณ ํด๋ณด์. ๊ทธ๋ํ๋ ์๋ก์ด ๋ฐ์ดํฐ new
์ ์ํฅ์ ๋ฐ์, ์๋๋ก ๊ธฐ์ธ์ด์ง ํํ๋ก ์
๋ฐ์ดํธ๋์ด, ๊ทธ๋ฆผ3
์ ๋ถ์์ ๊ทธ๋ํ ํํ๊ฐ ๋๋ค.
์ด๋ ๊ฒ ๋๋ฉด, ์๋๋ 1๋ก ์ ๋ถ๋ฅ๋๋ ๊ฒ๋ค์ ์์ธก๊ฐ์ด ๊ธฐ์กด threshold ์๋๋ก ๋ด๋ ค๊ฐ๊ฒ๋์ด, 0์ผ๋ก ๋ถ๋ฅ๋์ด๋ฒ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์ ํํ๊ท ํจ์๋ ์ด๋ค ์ ๋ ฅ๊ฐ์ด ๋ค์ด์ค๋๋์ ๋ฐ๋ผ 0๊ณผ 1 ์ฌ์ด์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ๋ ํ๋ค.
๋ํ, H(x) = 100x
๋ผ๋ ๊ฐ์คํจ์(Hypothesis function)์ด ์๋ค๊ณ ํ์. x๊ฐ 0.01 ์ด์์ธ ๊ฒฝ์ฐ๋ ๋ชจ๋ 1๋ก x๊ฐ 0 ์ดํ์ธ ๊ฒฝ์ฐ๋ ๋ชจ๋ 0์ผ๋ก ๋ถ๋ฅํ๊ฒ ๋๋ค. ์ด์ฒ๋ผ x๊ฐ์ ๋๋ฌด ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ ๋ชจ๋ธ์ด ๋ง๋ค์ด์ง ์ ์๋ค. ์ฐ์ฐ์์ผ๋ก๋ ๋งค์ฐ ์์ ๊ฐ๋ง ๋ฐ๋์ด๋ ์์ ๋ถ๋ฅ์์ฒด๊ฐ ๋ฐ๋์ด๋ฒ๋ฆฐ๋ค.
๋ ๋์๊ฐ, ์ ํ๋ชจ๋ธ์ ํ๋ฅ ์ด ์๋, ์ ๋ค์ ๋ณด๊ฐ(interpolate)๋ง์ผ๋ก ์ด๋ฃจ์ด์ง๋ฏ๋ก ํ๋ฅ ๋ก ํด์ํ ์ ์๋ค. ์์ธก๊ฐ์ด ํ๋ฅ ์ด ์๋๊ธฐ ๋๋ฌธ์ ํ ํด๋์ค์ ๋ค๋ฅธ ํด๋์ค๋ฅผ ๊ตฌ๋ถํ ์ ์๋ ์๋ฏธ ์๋ ์๊ณ๊ฐ์ด ์๋ค. ๋ํ ๋ค์ค ํด๋์ค๋ฅผ ๊ฐ์ง๋ ๋ถ๋ฅ๋ฌธ์ ๋ก ํ์ฅํ ์ ์๋ค๋ ๋ฌธ์ ์ ๋ ์๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ๋ค ๋๋ฌธ์, ๋ถ๋ฅ๋ฌธ์ ์์ ์ ํ ํ๊ท ๋ชจ๋ธ์ ์ ํฉํ์ง ๋ชปํ๋ค.
- 4.2 Logistic Regression - TooTouch
- 5)๋ก์ง์คํฑํ๊ท - ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ๋ชจ๋๋ฅผ ์ํ ๋ฅ๋ฌ๋(sung kim)lec5-Logistic Classification - cdjs์ ์ฝ๋ฉ ๊ณต๋ถ๋ฐฉ
์ต์์์น๋ฒ(OLS, Ordinary Least Squares) ์ด๋, ์ฐ์ ๋๋ฅผ ํตํด ๋ฐ์ดํฐ์ ๋ถํฌ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด๋, ์ด ๋ฐ์ดํฐ๋ค์ ๊ฒฝํฅ์ ์๊ธฐ ์ํ ์ต์ ์ ์ถ์ธ์ ์ ๊ทธ๋ฆฌ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค. OLS๋ ๊ทผ์ฌ์ ์ผ๋ก ๊ตฌํ๋ ค๋ ํด์ ์ค์ ํด์ ์ค์ฐจ์ ์ ๊ณฑ์ ํฉ์ด ์ต์๊ฐ ๋๋ ํด๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ด๋ค.
OLS Regression์ ํ๊ท๋ฅผ ํตํด์ ๋ฐฉ์ ์์ ์์ ๊ฐ๋ค์ ์ถ์ ํ๋ ๋ฐ์ ์ฌ์ฉ๋๋ค. n๊ฐ์ ์
๋ ฅ๊ฐ๊ณผ ๊ทธ์ ๋์ํ๋ ์ถ๋ ฅ๊ฐ
์ถ์ ํ๊ณ ์ ํ๋ ํ๋ผ๋ฏธํฐ ฮฒ์ ๋ํ ํํ์์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
์๋ฅผ๋ค์ด, 7๊ฐ ๋ฐ์ดํฐ์ ๊ฒฝํฅ์ ๋ํ๋ด๋ ์ถ์ธ์ ์ ๊ทธ๋ฆผ2
์ ๊ฐ์ด ๊ทธ๋ ธ๋ค๊ณ ํ์.
์ด๋ ์ค์ ๋ฐ์ดํฐ์ y๊ฐ(์ค์ ๊ฐ)๊ณผ ์ถ์ธ์ ์ y๊ฐ(์์ธก๊ฐ)์ ์ฐจ๋ฅผ ์์ฐจ(Residual) ๋ผ๊ณ ํ๋ค. (์๋ ๊ทธ๋ํ์์ ์์ฐจ๋ ์ ์ ์ผ๋ก ํ์)
์ต์์์น๋ฒ์ ์ด ์์ฐจ์ ์ ๊ณฑ์ ํฉ(RSS, Residual Sum of Squares)์ ์ต์๋ก ํ๋ (๊ฐ์ค์น ๋ฒกํฐ๋ฅผ ๊ตฌํ๋) ๋ฐฉ๋ฒ์ด๋ค.
์์ฐจ ์ ๊ณฑ์ ํฉ์ ๊ทธ๋ฆผ3
์ TOTAL AREA
์ ํด๋นํ๋ ๋์ด์ ๊ฐ๋ค.
์์ฐจ ์ ๊ณฑ์ ํฉ์ ๊ตฌํ๋ ์์ ์๋์ ๊ฐ๋ค.
ํ๋์ ์ถ์ธ์ ๋ณด๋ค ๋ณด๋ผ์ ์ถ์ธ์ ์ ์์ฐจ์ ๊ณฑ์ ํฉ์ด ๋ ์๋ค. ๋ฐ๋ผ์ ํ๋์ ์ถ์ธ์ ๋ณด๋ค ๋ณด๋ผ์ ์ถ์ธ์ ์ด ์ 7๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ํํํด์ฃผ๋ ์ถ์ธ์ ์์ ์ ์ ์๋ค. ์ด๋ ๊ฒ ์์ฐจ ์ ๊ณฑ์ ํฉ์ ์ต์๋ก ํ๋ ๋ฐฉ๋ฒ์ด ์ต์์์น๋ฒ์ด๋ฉฐ, ์ต์์์น๋ฒ์ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ์ ํํํ๋ ์ ํ ํ๊ท์ ์ ๊ทธ๋ฆด ์ ์๋ค.
๐ก OLS vs. MSE
- OLS(Ordinary Least Square): ์ ํ ํ๊ท ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํ ์ ํก ์ต์ ์ ๊ณฑ๋ฒ, ๋ชจ๋ธ์ ๋ง๋ค๋ ์ฌ์ฉํ๋ค.
- MSE(Mean Square Error): ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ, ๋ชจ๋ธ์ ํ๊ฐํ ๋ ์ฌ์ฉํ๋ค.
- DATA-17.์ต์์์น๋ฒ(OLS)์ ํ์ฉํ ๋จ์ ์ ํ ํ๊ท - ๊ทํ์ด ์์ฌ
- ์ ํํ๊ท - ์ํค๋ฐฑ๊ณผ
- ์ต์์ ๊ณฑ๋ฒ - ์ํค๋ฐฑ๊ณผ
- ๋ฐ์ดํฐ๋ถ์ 9.ํ๊ท๋ชจํ - ์ง๋ฐ์ ์ํํด OTL