Skip to content

Latest commit

ย 

History

History
966 lines (590 loc) ยท 66.3 KB

2-machine-learning.md

File metadata and controls

966 lines (590 loc) ยท 66.3 KB

๐Ÿ“Œ ์งˆ๋ฌธ์€ zzsza๋‹˜์˜ Datascience-Interview-Questions๋ฅผ ์ฐธ๊ณ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Table of Contents


#1

์•Œ๊ณ  ์žˆ๋Š” metric์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”. (ex. RMSE, MAE, recall, precision ...)

ํ‰๊ฐ€์ง€ํ‘œ(metric)์„ ํฌ๊ฒŒ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ํ‰๊ฐ€์ง€ํ‘œ์™€ ํšŒ๊ท€๋ฅผ ์œ„ํ•œ ํ‰๊ฐ€์ง€ํ‘œ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.


์šฐ์„  ๋ถ„๋ฅ˜ ์ž‘์—…(task)์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์‚ดํŽด๋ณด์ž.

์ •ํ™•๋„(accuracy)

์ •ํ™•๋„๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ •ํ™•๋„๋Š” (์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜)/(์ „์ฒด ์˜ˆ์ธก ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜)๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ผ๋ฒจ ๋ถˆ๊ท ํ˜•์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์—์„œ ์ •ํ™•๋„๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์•ˆ ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด, 0๊ณผ 1์˜ ๋น„์œจ์ด 9:1์ธ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ, ๋ชจ๋‘ 0์œผ๋กœ ์˜ˆ์ธกํ•˜๋ฉด ์ •ํ™•๋„๊ฐ€ 90%๊ฐ€ ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค. ์ด๋Š” ์ž˜๋ชป๋œ ํŒ๋‹จ์ด๋ฏ€๋กœ ์ •ํ™•ํ•œ ํŒ๋‹จ์„ ์œ„ํ•ด์„œ๋Š” ๋‹ค๋ฅธ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

์˜ค์ฐจ ํ–‰๋ ฌ(confusion matrix)

์˜ค์ฐจ ํ–‰๋ ฌ

์˜ค์ฐจ ํ–‰๋ ฌ์€ ๋ชจ๋ธ์ด ์˜ˆ์ธก์„ ํ•˜๋ฉด์„œ ์–ผ๋งˆ๋‚˜ ํ—ท๊ฐˆ๋ฆฌ๊ณ  ์žˆ๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์ง€ํ‘œ์ด๋‹ค. ์ฃผ๋กœ ์ด์ง„ ๋ถ„๋ฅ˜์—์„œ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋ฉฐ ์ด์ง„ ๋ถ„๋ฅ˜์— ๋Œ€ํ•œ ์˜ค์ฐจ ํ–‰๋ ฌ์€ ์œ„์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. True Positive๋Š” ๊ธ์ •์œผ๋กœ ์˜ˆ์ธก์„ ํ–ˆ๋Š”๋ฐ ์‹ค์ œ๋กœ ๊ธ์ •์ธ ๊ฒฝ์šฐ๋ฅผ, False Positive๋Š” ๊ธ์ •์œผ๋กœ ์˜ˆ์ธกํ–ˆ๋Š”๋ฐ ์‹ค์ œ๋กœ ๋ถ€์ •์ธ ๊ฒฝ์šฐ๋ฅผ, False Negative๋Š” ๋ถ€์ •์œผ๋กœ ์˜ˆ์ธกํ–ˆ๋Š”๋ฐ ์‹ค์ œ๋กœ ๊ธ์ •์ธ ๊ฒฝ์šฐ๋ฅผ, True Negative๋Š” ๋ถ€์ •์œผ๋กœ ์˜ˆ์ธกํ–ˆ๋Š”๋ฐ ์‹ค์ œ๋กœ ๋ถ€์ •์ธ ๊ฒฝ์šฐ๋ฅผ ๋งํ•œ๋‹ค. ์œ„์˜ ๊ฐ’์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์–ด๋–ค ์˜ค๋ฅ˜๋ฅผ ๋ฐœ์ƒ์‹œ์ผฐ๋Š”์ง€๋ฅผ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ฐธ๊ณ ๋กœ ์ •ํ™•๋„๋Š” (TN + TP) / (TN + FP + FN + TP)๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

์ •๋ฐ€๋„(precision), ์žฌํ˜„์œจ(recall)

์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์€ ๊ธ์ • ๋ฐ์ดํ„ฐ ์˜ˆ์ธก ์„ฑ๋Šฅ์— ์ดˆ์ ์„ ๋งž์ถ˜ ํ‰๊ฐ€์ง€ํ‘œ์ด๋‹ค. ์ •๋ฐ€๋„๋ž€ ์˜ˆ์ธก์„ ๊ธ์ •์œผ๋กœ ํ•œ ๋ฐ์ดํ„ฐ ์ค‘ ์‹ค์ œ๋กœ ๊ธ์ •์ธ ๋น„์œจ์„ ๋งํ•˜๋ฉฐ, ์žฌํ˜„์œจ์€ ์‹ค์ œ๋กœ ๊ธ์ •์ธ ๋ฐ์ดํ„ฐ ์ค‘ ๊ธ์ •์œผ๋กœ ์˜ˆ์ธกํ•œ ๋น„์œจ์„ ๋งํ•œ๋‹ค. ์˜ค์ฐจ ํ–‰๋ ฌ์„ ๊ธฐ์ค€์œผ๋กœ ์ •๋ฐ€๋„๋Š” TP / (FP + TP)์œผ๋กœ, ์žฌํ˜„์œจ์€ TP / (FN + TP)์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์€ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๊ด€๊ณ„๋ฅผ ๊ฐ–๋Š”๋‹ค. ์ •๋ฐ€๋„๋Š” FP๋ฅผ, ์žฌํ˜„์œจ์€ FN์„ ๋‚ฎ์ถค์œผ๋กœ์จ ๊ธ์ • ์˜ˆ์ธก์˜ ์„ฑ๋Šฅ์„ ๋†’์ธ๋‹ค. ์ด ๊ฐ™์€ ํŠน์„ฑ ๋•Œ๋ฌธ์— ์ •๋ฐ€๋„๊ฐ€ ๋†’์•„์ง€๋ฉด ์žฌํ˜„์œจ์€ ๋‚ฎ์•„์ง€๊ณ  ์žฌํ˜„์œจ์ด ๋†’์•„์ง€๋ฉด ์ •๋ฐ€๋„๋Š” ๋‚ฎ์•„์ง„๋‹ค. ๊ฐ€์žฅ ์ข‹์€ ๊ฒฝ์šฐ๋Š” ๋‘ ์ง€ํ‘œ ๋‹ค ์ ์ ˆํžˆ ๋†’์€ ๊ฒฝ์šฐ์ด๋‹ค.

F1-Score

์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ ํ•œ ์ชฝ์— ์น˜์šฐ์น˜์ง€ ์•Š๊ณ  ๋‘˜ ๋‹ค ๊ท ํ˜•์„ ์ด๋ฃจ๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด F1-Score์ด๋‹ค. F1-Score๋Š” ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์˜ ์กฐํ™”ํ‰๊ท ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

$$ F1 = \frac{2}{\frac{1}{recall} + \frac{1}{precision}} = 2 * \frac{precision * recall}{precision + recall} $$

ROC-AUC

ROC AUC

ROC๋Š” FPR(False Positive Rate)๊ฐ€ ๋ณ€ํ•  ๋•Œ TPR(True Positive Rate)๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ณก์„ ์„ ๋งํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ FPR์ด๋ž€ FP / (FP + TN)์ด๊ณ , TPR์€ TP / (FN + TP)์œผ๋กœ ์žฌํ˜„์œจ์„ ๋งํ•œ๋‹ค. ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ FPR์„ ์›€์ง์ผ๊นŒ? ๋ฐ”๋กœ ๋ถ„๋ฅ˜ ๊ฒฐ์ • ์ž„๊ณ„๊ฐ’์„ ๋ณ€๊ฒฝํ•จ์œผ๋กœ์จ ์›€์ง์ผ ์ˆ˜ ์žˆ๋‹ค. FPR์ด 0์ด ๋˜๋ ค๋ฉด ์ž„๊ณ„๊ฐ’์„ 1๋กœ ์„ค์ •ํ•˜๋ฉด ๋œ๋‹ค. ๊ทธ๋Ÿผ ๊ธ์ •์˜ ๊ธฐ์ค€์ด ๋†’์œผ๋‹ˆ ๋ชจ๋‘ ๋ถ€์ •์œผ๋กœ ์˜ˆ์ธก๋  ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋Œ€๋กœ 1์ด ๋˜๋ ค๋ฉด ์ž„๊ณ„๊ฐ’์„ 0์œผ๋กœ ์„ค์ •ํ•˜์—ฌ ๋ชจ๋‘ ๊ธ์ •์œผ๋กœ ์˜ˆ์ธก์‹œํ‚ค๋ฉด ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ์ž„๊ณ„๊ฐ’์„ ์›€์ง์ด๋ฉด์„œ ๋‚˜์˜ค๋Š” FPR๊ณผ TPR์„ ๊ฐ๊ฐ x์™€ y ์ขŒํ‘œ๋กœ ๋‘๊ณ  ๊ทธ๋ฆฐ ๊ณก์„ ์ด ROC์ด๋‹ค.

AUC๋Š” ROC ๊ณก์„ ์˜ ๋„“์ด๋ฅผ ๋งํ•œ๋‹ค. AUC๊ฐ€ ๋†’์„์ˆ˜๋ก ์ฆ‰, AUC๊ฐ€ ์™ผ์ชฝ ์œ„๋กœ ํœ˜์–ด์งˆ์ˆ˜๋ก ์ข‹์€ ์„ฑ๋Šฅ์ด ๋‚˜์˜จ๋‹ค๊ณ  ํŒ๋‹จํ•œ๋‹ค. ์ฆ‰, TPR์ด ๋†’๊ณ  FPR์ด ๋‚ฎ์„์ˆ˜๋ก ์˜ˆ์ธก ์˜ค๋ฅ˜๋Š” ๋‚ฎ์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ์ž˜ ๋‚˜์˜จ๋‹ค ๋ณผ ์ˆ˜ ์žˆ๋‹ค.


๋งˆ์ง€๋ง‰์œผ๋กœ ํšŒ๊ท€ ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ์‚ดํŽด๋ณด์ž.

MAE(Mean Absolute Error)๋Š” ์˜ˆ์ธก๊ฐ’๊ณผ ์ •๋‹ต๊ฐ’ ์‚ฌ์ด์˜ ์ฐจ์ด์˜ ์ ˆ๋Œ€๊ฐ’์˜ ํ‰๊ท ์„ ๋งํ•œ๋‹ค.

$$ MAE = \frac{1}{N} \sum^N_{i=1} |y_i - \acute{y_i}| $$

MSE(Mean Squared Error)๋Š” ์˜ˆ์ธก๊ฐ’๊ณผ ์ •๋‹ต๊ฐ’ ์‚ฌ์ด์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ์˜ ํ‰๊ท ์„ ๋งํ•˜๋ฉฐ, MAE์™€ ๋‹ฌ๋ฆฌ ์ œ๊ณฑ์„ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด์ƒ์น˜์— ๋ฏผ๊ฐํ•˜๋‹ค.

$$ MSE = \frac{1}{N} \sum^N_{i=1} (y_i - \acute{y_i})^2 $$

RMSE(Root Mean Squared Error)๋Š” MSE์— ๋ฃจํŠธ๋ฅผ ์”Œ์šด ๊ฐ’์„ ๋งํ•œ๋‹ค.

$$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{N} \sum^N_{i=1} (y_i - \acute{y_i})^2} $$

RMSLE(Root Mean Squared Logarithmic Error)๋Š” RMSE์™€ ๋น„์Šทํ•˜๋‚˜ ์˜ˆ์ธก๊ฐ’๊ณผ ์ •๋‹ต๊ฐ’์— ๊ฐ๊ฐ ๋กœ๊ทธ๋ฅผ ์”Œ์›Œ ๊ณ„์‚ฐ์„ ํ•œ๋‹ค.

$$ RMSLE = \sqrt{\frac{1}{N} \sum^N_{i=1} (\log(y_i+1) - \log(\acute{y_i}+1))^2} $$

R Squared๋Š” ๋ถ„์‚ฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋ฅผ ๋งํ•œ๋‹ค. ์ •๋‹ต๊ฐ’์˜ ๋ถ„์‚ฐ ๋Œ€๋น„ ์˜ˆ์ธก๊ฐ’์˜ ๋ถ„์‚ฐ ๋น„์œจ์„ ์ง€ํ‘œ๋กœ ํ•˜๋ฉฐ, 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ์ •ํ™•๋„๊ฐ€ ๋†’๋‹ค.

References


#2

์ •๊ทœํ™”๋ฅผ ์™œ ํ•ด์•ผํ• ๊นŒ์š”? ์ •๊ทœํ™”์˜ ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ด ์žˆ๋‚˜์š”?

์ •๊ทœํ™”๋Š” ๊ฐœ๋ณ„ ํ”ผ์ฒ˜์˜ ํฌ๊ธฐ๋ฅผ ๋ชจ๋‘ ๋˜‘๊ฐ™์€ ๋‹จ์œ„๋กœ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ์ •๊ทœํ™”๋ฅผ ํ•˜๋Š” ์ด์œ ๋Š” ํ”ผ์ฒ˜์˜ ์Šค์ผ€์ผ์ด ์‹ฌํ•˜๊ฒŒ ์ฐจ์ด๊ฐ€ ๋‚˜๋Š” ๊ฒฝ์šฐ ๊ฐ’์ด ํฐ ํ”ผ์ฒ˜๊ฐ€ ๋” ์ค‘์š”ํ•˜๊ฒŒ ์—ฌ๊ฒจ์งˆ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด ํ”ผ์ฒ˜ ๋ชจ๋‘ ๋™์ผํ•œ ์Šค์ผ€์ผ๋กœ ๋ฐ˜์˜๋˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด ์ •๊ทœํ™”์ด๋‹ค.

์ •๊ทœํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ๋Œ€ํ‘œ์ ์œผ๋กœ ๋‘ ๊ฐ€์ง€๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์€ ์ตœ์†Œ-์ตœ๋Œ€ ์ •๊ทœํ™”(min-max normalization)์œผ๋กœ ๊ฐ ํ”ผ์ฒ˜์˜ ์ตœ์†Œ๊ฐ’์„ 0, ์ตœ๋Œ€๊ฐ’์„ 1๋กœ ๋‘๊ณ  ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ฐ’์„ $x$๋กœ, ์ตœ์†Œ๊ฐ’์„ $min$, ์ตœ๋Œ€๊ฐ’์„ $max$๋กœ ๋‘˜ ๋•Œ, ์ •๊ทœํ™”๋œ ๊ฐ’์€ $\frac{x - min}{max - min}$์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์œผ๋กœ Z-์ ์ˆ˜ ์ •๊ทœํ™”(z-score normalization)์ด ์žˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ ํ”ผ์ฒ˜์˜ ํ‘œ์ค€ํŽธ์ฐจ์™€ ํ‰๊ท ์œผ๋กœ ๊ฐ’์„ ์ •๊ทœํ™”์‹œํ‚จ๋‹ค. ์ •๊ทœํ™”๋œ ๊ฐ’์€ $\frac{x - mean}{std}$๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

References


#3

Local Minima์™€ Global Minimum์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

Maxima์™€ Minima

๋น„์šฉ ํ•จ์ˆ˜(cost function)์—์„œ์˜ Global Minimum์€ ์—๋Ÿฌ๊ฐ€ ์ตœ์†Œํ™”๋˜๋Š” ์ฆ‰, ์šฐ๋ฆฌ๊ฐ€ ์ฐพ๊ณ ์ž ํ•˜๋Š” ์ง€์ ์„ ๋งํ•˜๋ฉฐ, Local Minima๋Š” ์—๋Ÿฌ๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋Š” ํ›„๋ณด๊ฐ€ ๋˜๋Š” ์ง€์  ์ค‘ Global Minimum์„ ๋บ€ ์ง€์ ์„ ๋งํ•œ๋‹ค. Local Minima๋Š” ์ž์นซ ์—๋Ÿฌ๊ฐ€ ์ตœ์†Œํ™”๋˜๋Š” ์ง€์ ์„ ์ฐพ์•˜๋‹ค๊ณ  ์ฐฉ๊ฐํ•  ์ˆ˜ ์žˆ๊ธฐ์— ํ•จ์ •์— ๋น„์œ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Momentum๊ณผ ๊ฐ™์€ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ํ•™์Šต๋ฅ (learning rate)๋ฅผ ์ž˜ ์กฐ์ ˆํ•˜์—ฌ Local Minima์—์„œ ๋ฒ—์–ด๋‚  ์ˆ˜ ์žˆ๋‹ค.

References


#4

์ฐจ์›์˜ ์ €์ฃผ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

์ฐจ์›์˜ ์ €์ฃผ

์ฐจ์›์˜ ์ €์ฃผ๋ž€ ๋ฐ์ดํ„ฐ ์ฐจ์›์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ํ•ด๋‹น ๊ณต๊ฐ„์˜ ํฌ๊ธฐ๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋ฉ€์–ด์ง€๊ณ  ํฌ์†Œํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–๊ฒŒ ๋˜๋Š” ํ˜„์ƒ์„ ๋งํ•œ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ฐจ์›์„ ์ฆ๊ฐ€์‹œํ‚จ๋งŒํผ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜ PCA, LDA, LLE, MDS์™€ ๊ฐ™์€ ์ฐจ์› ์ถ•์†Œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ฐจ์›์„ ์ค„์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

References


#5

dimension reduction ๊ธฐ๋ฒ•์œผ๋กœ ๋ณดํ†ต ์–ด๋–ค ๊ฒƒ๋“ค์ด ์žˆ๋‚˜์š”?

์ฐจ์› ์ถ•์†Œ๋Š” ํ”ผ์ฒ˜ ์„ ํƒ(feature selection)๊ณผ ํ”ผ์ฒ˜ ์ถ”์ถœ(feature extraction)์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ์šฐ์„  ํ”ผ์ฒ˜ ์„ ํƒ์€ ํŠน์ • ํ”ผ์ฒ˜์— ์ข…์†์„ฑ์ด ๊ฐ•ํ•œ ๋ถˆํ•„์š”ํ•œ ํ”ผ์ฒ˜๋Š” ์ œ๊ฑฐํ•˜๊ณ  ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์ฃผ์š” ํ”ผ์ฒ˜๋งŒ ์„ ํƒํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋ฐ˜๋ฉด ํ”ผ์ฒ˜ ์ถ”์ถœ์€ ๊ธฐ์กด ํ”ผ์ฒ˜๋ฅผ ์ €์ฐจ์›์˜ ํ”ผ์ฒ˜๋กœ ์••์ถ•ํ•˜์—ฌ, ํ”ผ์ฒ˜๋ฅผ ํ•จ์ถ•์ ์œผ๋กœ ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ €์ฐจ์›์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ํ”ผ์ฒ˜ ์ถ”์ถœ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ PCA, SVD, NMF, LDA ๋“ฑ์ด ์žˆ๋‹ค.

References


#6

PCA๋Š” ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ด๋ฉด์„œ, ๋ฐ์ดํ„ฐ ์••์ถ• ๊ธฐ๋ฒ•์ด๊ธฐ๋„ ํ•˜๊ณ , ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๊ธฐ๋ฒ•์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์™œ ๊ทธ๋Ÿฐ์ง€ ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ๋‚˜์š”?

PCA(Principle Component Analysis)๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ ๊ณ ์œ  ๋ฒกํ„ฐ์— ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜• ๋ณ€ํ™˜ํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ฐจ์›์€ ๊ณง ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํ”ผ์ฒ˜๋ฅผ ๋œปํ•˜๋ฏ€๋กœ ๋ฐ์ดํ„ฐ ์••์ถ• ๊ธฐ๋ฒ•์œผ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๋‹ค.

๋˜ํ•œ PCA๋Š” ๊ณ ์œ ๊ฐ’์ด ๊ฐ€์žฅ ํฐ, ์ฆ‰ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์ด ๊ฐ€์žฅ ํฐ ์ˆœ์œผ๋กœ ์ฃผ์„ฑ๋ถ„ ๋ฒกํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š”๋ฐ, ๊ฐ€์žฅ ๋‚˜์ค‘์— ๋ฝ‘ํžŒ ๋ฒกํ„ฐ๋ณด๋‹ค ๊ฐ€์žฅ ๋จผ์ € ๋ฝ‘ํžŒ ๋ฒกํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ธฐ๋ฒ•์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฐ๋‹ค.

References


#7

LSA, LDA, SVD ๋“ฑ์˜ ์•ฝ์ž๋“ค์ด ์–ด๋–ค ๋œป์ด๊ณ  ์„œ๋กœ ์–ด๋–ค ๊ด€๊ณ„๋ฅผ ๊ฐ€์ง€๋Š”์ง€ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‚˜์š”?

PCA๋Š” Principle Component Analysis์˜ ์•ฝ์ž๋กœ ๋ฐ์ดํ„ฐ์˜ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ ๊ณ ์œ  ๋ฒกํ„ฐ์— ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜• ๋ณ€ํ™˜ํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. SVD๋Š” Singular Value Decomposition์˜ ์•ฝ์ž๋กœ PCA์™€ ์œ ์‚ฌํ•œ ํ–‰๋ ฌ ๋ถ„ํ•ด ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋‚˜ ์ •๋ฐฉ ํ–‰๋ ฌ(square matrix)๋ฅผ ๋ถ„ํ•ดํ•˜๋Š” PCA์™€ ๋‹ฌ๋ฆฌ ํ–‰๊ณผ ์—ด์˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅธ ํ–‰๋ ฌ์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

LSA๋Š” Latent Semantic Analysis์˜ ์•ฝ์ž๋กœ ์ž ์žฌ ์˜๋ฏธ ๋ถ„์„์„ ๋งํ•˜๋ฉฐ, ์ฃผ๋กœ ํ† ํ”ฝ ๋ชจ๋ธ๋ง์— ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. LSA๋Š” DTM(Document-Term Matrix)์ด๋‚˜ TF-IDF(Term Frequency-Inverse Document Frequency) ํ–‰๋ ฌ์— Truncated SVD๋ฅผ ์ ์šฉํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œ์‹œํ‚ค๊ณ , ๋‹จ์–ด๋“ค์˜ ์ž ์žฌ์ ์ธ ์˜๋ฏธ๋ฅผ ์ด๋Œ์–ด๋‚ธ๋‹ค. Truncated SVD๋Š” SVD์™€ ๋˜‘๊ฐ™์œผ๋‚˜ ์ƒ์œ„ n๊ฐœ์˜ ํŠน์ด๊ฐ’๋งŒ ์‚ฌ์šฉํ•˜๋Š” ์ถ•์†Œ ๋ฐฉ๋ฒ•์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์„ ์“ธ ๊ฒฝ์šฐ ์› ํ–‰๋ ฌ๋กœ ๋ณต์›ํ•  ์ˆ˜ ์—†๋‹ค.

LDA๋Š” Latent Dirichlet Allocation ํ˜น์€ Linear Discriminant Analysis์˜ ์•ฝ์ž์ด๋‹ค. ์ „์ž๋Š” ํ† ํ”ฝ๋ชจ๋ธ๋ง์— ์‚ฌ์šฉ๋˜๋Š” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ LSA์™€๋Š” ๋‹ฌ๋ฆฌ ๋‹จ์–ด๊ฐ€ ํŠน์ • ํ† ํ”ฝ์— ์กด์žฌํ•  ํ™•๋ฅ ๊ณผ ๋ฌธ์„œ์— ํŠน์ • ํ† ํ”ฝ์ด ์กด์žฌํ•  ํ™•๋ฅ ์„ ๊ฒฐํ•ฉํ™•๋ฅ ๋กœ ์ถ”์ •ํ•˜์—ฌ ํ† ํ”ฝ์„ ์ถ”์ •ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๋งํ•œ๋‹ค. ํ›„์ž๋Š” ์ฐจ์›์ถ•์†Œ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์‰ฝ๋„๋ก ํด๋ž˜์Šค ๊ฐ„ ๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™”ํ•˜๊ณ  ํด๋ž˜์Šค ๋‚ด๋ถ€์˜ ๋ถ„์‚ฐ์€ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์„ ๋งํ•œ๋‹ค.

Latent Dirichlet Allocation์™€ ๊ด€๋ จ๋œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ #9 ํ…์ŠคํŠธ ๋”๋ฏธ์—์„œ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ด ๋‚˜๊ฐ€์‹œ๊ฒ ๋‚˜์š”?์„ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”!

References


#8

Markov Chain์„ ๊ณ ๋“ฑํ•™์ƒ์—๊ฒŒ ์„ค๋ช…ํ•˜๋ ค๋ฉด ์–ด๋–ค ๋ฐฉ์‹์ด ์ œ์ผ ์ข‹์„๊นŒ์š”?

๋งˆ์ฝ”ํ”„ ์ฒด์ธ(Markov Chain)

๋งˆ์ฝ”ํ”„ ์ฒด์ธ์ด๋ž€ ๋งˆ์ฝ”ํ”„ ์„ฑ์งˆ์„ ์ง€๋‹Œ ์ด์‚ฐ ํ™•๋ฅ  ๊ณผ์ •(Discrete-time Stochastic Pross)์„ ๋งํ•œ๋‹ค.

๋งˆ์ฝ”ํ”„ ์„ฑ์งˆ(Markov Property)

$n+1$ํšŒ์˜ ์ƒํƒœ(state)๋Š” ์˜ค์ง $n$ํšŒ์—์„œ์˜ ์ƒํƒœ, ํ˜น์€ ๊ทธ ์ด์ „ ์ผ์ • ๊ธฐ๊ฐ„์˜ ์ƒํƒœ์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด ๋™์ „ ๋˜์ง€๊ธฐ๋Š” ๋…๋ฆฝ ์‹œํ–‰์ด๊ธฐ ๋•Œ๋ฌธ์— $n$๋ฒˆ์งธ์˜ ์ƒํƒœ๊ฐ€ ์•ž์ด๋˜์ง€ ๋’ค์ด๋˜์ง€ ๊ฐ„์— $n+1$๋ฒˆ์งธ ์ƒํƒœ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋Š”๋‹ค. ํ•˜์ง€๋งŒ 1์ฐจ ๋งˆ์ฝ”ํ”„ ์ฒด์ธ์€ $n$๋ฒˆ์งธ ์ƒํƒœ๊ฐ€ $n+1$๋ฒˆ์งธ ์ƒํƒœ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. (์‹œ๊ฐ„ $t$์—์„œ์˜ ๊ด€์ธก์€ ๋‹จ์ง€ ์ตœ๊ทผ $r$๊ฐœ์˜ ๊ด€์ธก์—๋งŒ ์˜์กดํ•œ๋‹ค๋Š” ๊ฐ€์ •์„ ํ•˜๊ณ  ๊ทธ ๊ฐ€์ •ํ•˜์—์„œ ์„ฑ๋ฆฝํ•œ๋‹ค.)

๋งˆ์ฝ”ํ”„ ์ฒด์ธ

์ •๋ฆฌํ•˜๋ฉด ๋งˆ์ฝ”ํ”„ ์ฒด์ธ์€ ํ™•๋ฅ ๋ณ€์ˆ˜(random variable)๊ฐ€ ์–ด๋–ค ์ƒํƒœ(state)์— ๋„๋‹ฌํ•  ํ™•๋ฅ ์ด ์˜ค์ง ๋ฐ”๋กœ ์ด์ „ ์‹œ์ ์˜ ์ƒํƒœ(state)์— ๋‹ฌ๋ ค ์žˆ๋Š” ๊ฒฝ์šฐ๋ฅผ ๊ฐ€๋ฆฌํ‚จ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์˜ค๋Š˜์˜ ๋‚ ์”จ๊ฐ€ ์–ด์ œ์˜ ๋‚ ์”จ์—๋งŒ ์˜์กดํ•˜๋ฉด 1์ฐจ ๋งˆ์ฝ”ํ”„ ์ฒด์ธ, ์ดํ‹€ ์ „๊นŒ์ง€์˜ ๋‚ ์”จ์—๋งŒ ์˜์กดํ•˜๋ฉด 2์ฐจ ๋งˆ์ฝ”ํ”„ ์ฒด์ธ์ด๋‹ค.

๋งˆ์ฝ”ํ”„ ๋ชจ๋ธ(Markov Model)

๋งˆ์ฝ”ํ”„ ๋ชจ๋ธ์€ ์œ„์˜ ๊ฐ€์ •ํ•˜์— ํ™•๋ฅ ์  ๋ชจ๋ธ์„ ๋งŒ๋“  ๊ฒƒ์œผ๋กœ์จ ๊ฐ€์žฅ ๋จผ์ € ๊ฐ ์ƒํƒœ๋ฅผ ์ •์˜ํ•˜๊ฒŒ ๋œ๋‹ค. ์ƒํƒœ(state)๋Š” $V = v_1, ... , v_m$๋กœ ์ •์˜ํ•˜๊ณ , m๊ฐœ์˜ ์ƒํƒœ๊ฐ€ ์กด์žฌํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ ๋‹ค์Œ์€ ์ƒํƒœ ์ „์ด ํ™•๋ฅ (State transition Probability)์„ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์ด๋ž€ ๊ฐ ์ƒํƒœ์—์„œ ๊ฐ ์ƒํƒœ๋กœ ์ด๋™ํ•  ํ™•๋ฅ ์„ ๋งํ•œ๋‹ค. ์ƒํƒœ ์ „์ด ํ™•๋ฅ  $a_{ij}$๋Š” ์ƒํƒœ $v_i$์—์„œ ์ƒํƒœ $v_j$๋กœ ์ด๋™ํ•  ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค. ์•„๋ž˜์˜ ์‹์€ ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์„ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ๊ณผ ๊ทธ ์•„๋ž˜๋Š” ํ™•๋ฅ ์˜ ๊ธฐ๋ณธ ์ •์˜์— ์˜ํ•œ ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์˜ ์กฐ๊ฑด์ด๋‹ค.

์ƒํƒœ ์ „์ด ํ™•๋ฅ 

๊ทธ๋ฆฌ๊ณ  ์ƒํƒœ์™€ ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์„ ์ •๋ฆฌํ•˜์—ฌ ์ƒํƒœ ์ „์ด๋„(state transition diagram)์œผ๋กœ๋„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ƒํƒœ ์ „์ด๋„

References


#9

ํ…์ŠคํŠธ ๋”๋ฏธ์—์„œ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•ด ๋‚˜๊ฐ€์‹œ๊ฒ ๋‚˜์š”?

์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น(Latent Dirichlet Allocation, LDA)

์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น(LDA)์ด๋ž€ ๋ฌธ์„œ์˜ ์ง‘ํ•ฉ์—์„œ ํ† ํ”ฝ์„ ์ฐพ์•„๋‚ด๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ๋œปํ•˜๋Š” ํ† ํ”ฝ ๋ชจ๋ธ๋ง์˜ ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋งํ•œ๋‹ค. LDA๋Š” "๋ฌธ์„œ๋“ค์€ ํ† ํ”ฝ๋“ค์˜ ํ˜ผํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด์ ธ ์žˆ์œผ๋ฉฐ, ํ† ํ”ฝ๋“ค์€ ํ™•๋ฅ  ๋ถ„ํฌ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋‹จ์–ด๋“ค์„ ์ƒ์„ฑํ•œ๋‹ค"๊ณ  ๊ฐ€์ •ํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด LDA๋Š” ํ† ํ”ฝ์„ ๋ฌธ์„œ๊ฐ€ ์ƒ์„ฑ๋˜๋˜ ๊ณผ์ •์„ ์—ญ์ถ”์ ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ˆ์‹œ ๋ฌธ์žฅ 3๊ฐœ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.

๋ฌธ์„œ1 : ์ €๋Š” ์‚ฌ๊ณผ๋ž‘ ๋ฐ”๋‚˜๋‚˜๋ฅผ ๋จน์–ด์š”
๋ฌธ์„œ2 : ์šฐ๋ฆฌ๋Š” ๊ท€์—ฌ์šด ๊ฐ•์•„์ง€๊ฐ€ ์ข‹์•„์š”
๋ฌธ์„œ3 : ์ €์˜ ๊นœ์ฐํ•˜๊ณ  ๊ท€์—ฌ์šด ๊ฐ•์•„์ง€๊ฐ€ ๋ฐ”๋‚˜๋‚˜๋ฅผ ๋จน์–ด์š”

LDA๋ฅผ ํ†ตํ•ด ๊ฐ ๋ฌธ์„œ์˜ ํ† ํ”ฝ ๋ถ„ํฌ์™€ ๊ฐ ํ† ํ”ฝ ๋‚ด์˜ ๋‹จ์–ด ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๊ฐ ๋ฌธ์„œ์˜ ํ† ํ”ฝ ๋ถ„ํฌ
    • ๋ฌธ์„œ1 : ํ† ํ”ฝ A 100%
    • ๋ฌธ์„œ2 : ํ† ํ”ฝ B 100%
    • ๋ฌธ์„œ3 : ํ† ํ”ฝ B 60%, ํ† ํ”ฝ A 40%
  • ๊ฐ ํ† ํ”ฝ์˜ ๋‹จ์–ด ๋ถ„ํฌ
    • ํ† ํ”ฝA : ์‚ฌ๊ณผ 20%, ๋ฐ”๋‚˜๋‚˜ 40%, ๋จน์–ด์š” 40%, ๊ท€์—ฌ์šด 0%, ๊ฐ•์•„์ง€ 0%, ๊นœ์ฐํ•˜๊ณ  0%, ์ข‹์•„์š” 0%
    • ํ† ํ”ฝB : ์‚ฌ๊ณผ 0%, ๋ฐ”๋‚˜๋‚˜ 0%, ๋จน์–ด์š” 0%, ๊ท€์—ฌ์šด 33%, ๊ฐ•์•„์ง€ 33%, ๊นœ์ฐํ•˜๊ณ  16%, ์ข‹์•„์š” 16%

LDA๋Š” ํ† ํ”ฝ์˜ ์ œ๋ชฉ์„ ์ •ํ•ด์ฃผ์ง€ ์•Š์ง€๋งŒ, ์ด ์‹œ์ ์—์„œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์‚ฌ์šฉ์ž๋Š” ์œ„ ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ๋‘ ํ† ํ”ฝ์ด ๊ฐ๊ฐ ๊ณผ์ผ์— ๋Œ€ํ•œ ํ† ํ”ฝ๊ณผ ๊ฐ•์•„์ง€์— ๋Œ€ํ•œ ํ† ํ”ฝ์ด๋ผ๊ณ  ํŒ๋‹จํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.

References


#10

SVM์€ ์™œ ๋ฐ˜๋Œ€๋กœ ์ฐจ์›์„ ํ™•์žฅ์‹œํ‚ค๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ• ๊นŒ์š”? SVM์€ ์™œ ์ข‹์„๊นŒ์š”?

SVM(Support Vector Machine)์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์‚ฌ์ƒ๋œ ๊ณต๊ฐ„์—์„œ ๊ฒฝ๊ณ„๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ๊ณต๊ฐ„์ƒ์— ์กด์žฌํ•˜๋Š” ์—ฌ๋Ÿฌ ๊ฒฝ๊ณ„ ์ค‘ ๊ฐ€์žฅ ํฐ ํญ์„ ๊ฐ€์ง„ ๊ฒฝ๊ณ„๋ฅผ ์ฐพ๋Š”๋‹ค.

SVM

  • $B_1$: ๊ฒฐ์ • ๊ฒฝ๊ณ„
  • $b_{11}$: plus-plane
  • $b_{12}$: minus-plane

SVM์˜ ์žฅ๋‹จ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์žฅ์  ๋‹จ์ 
๋ถ„๋ฅ˜์™€ ํšŒ๊ท€์— ๋ชจ๋‘ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์™€ ๋งค๊ฐœ๋ณ€์ˆ˜ ์„ค์ •์— ๋”ฐ๋ผ ์ •ํ™•๋„๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.
์‹ ๊ฒฝ๋ง ๊ธฐ๋ฒ•์— ๋น„ํ•ด ๊ณผ์ ํ•ฉ ์ •๋„๊ฐ€ ๋‚ฎ๋‹ค. ์˜ˆ์ธก์ด ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š”์ง€์— ๋Œ€ํ•œ ์ดํ•ด์™€ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ•ด์„์ด ์–ด๋ ต๋‹ค.
์˜ˆ์ธก์˜ ์ •ํ™•๋„๊ฐ€ ๋†’๋‹ค. ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ชจ๋ธ ๊ตฌ์ถ• ์‹œ ์†๋„๊ฐ€ ๋Š๋ฆฌ๋ฉฐ,๋ฉ”๋ชจ๋ฆฌ ํ• ๋‹น๋Ÿ‰์ด ํฌ๋‹ค.
์ €์ฐจ์›๊ณผ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ๋ชจ๋‘ ์ž˜ ์ž‘๋™ํ•œ๋‹ค.

๋งˆ์ง„(Margin)

๋งˆ์ง„(Margin)์€ plus-plane๊ณผ minus-plane ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ์ตœ์ ์˜ ๊ฒฐ์ • ๊ฒฝ๊ณ„๋Š” ๋งˆ์ง„์„ ์ตœ๋Œ€ํ™”ํ•œ๋‹ค.

SVM์€ ์„ ํ˜• ๋ถ„๋ฅ˜๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋น„์„ ํ˜• ๋ถ„๋ฅ˜์—๋„ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ๋น„์„ ํ˜• ๋ถ„๋ฅ˜์—์„œ๋Š” ์ž…๋ ฅ์ž๋ฃŒ๋ฅผ ๋‹ค์ฐจ์› ๊ณต๊ฐ„์ƒ์œผ๋กœ ๋งตํ•‘ํ•  ๋•Œ ์ปค๋„ ํŠธ๋ฆญ(kernel trick)์„ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค. ์›๊ณต๊ฐ„(Input Space)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•๋ถ„๋ฅ˜๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ณ ์ฐจ์› ๊ณต๊ฐ„(Feature Space)์œผ๋กœ ๋งคํ•‘ํ•œ ๋’ค ๋‘ ๋ฒ”์ฃผ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ดˆํ‰๋ฉด์„ ์ฐพ๋Š”๋‹ค. (Kernel-SVM)

์ปค๋„ ํŠธ๋ฆญ(Kernel Trick)

์ปค๋„ ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ ์ฐจ์› ๊ณต๊ฐ„(low dimensional space)์„ ๊ณ ์ฐจ์› ๊ณต๊ฐ„(high dimensional space)์œผ๋กœ ๋งคํ•‘ํ•ด์ฃผ๋Š” ์ž‘์—…์„ ์ปค๋„ํŠธ๋ฆญ์ด๋ผ ํ•œ๋‹ค.

์ปค๋„ ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ปค๋„ ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜

References


#11

๋‹ค๋ฅธ ์ข‹์€ ๋จธ์‹  ๋Ÿฌ๋‹ ๋Œ€๋น„, ์˜ค๋ž˜๋œ ๊ธฐ๋ฒ•์ธ ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ(naive bayes)์˜ ์žฅ์ ์„ ์˜นํ˜ธํ•ด๋ณด์„ธ์š”.

๋ฐ์ดํ„ฐ์—์„œ ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ๋…๋ฆฝ์„ ๊ฐ€์ •ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ •๋ณด์™€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜๊ณ , ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes Theorem)๋ฅผ ์ด์šฉํ•˜์—ฌ ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ํด๋ž˜์Šค์— ์†ํ•˜๋Š”์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ์˜ ์žฅ๋‹จ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์žฅ์  ๋‹จ์ 
๋‹จ์ˆœํ•˜๊ณ  ๋น ๋ฅด๋ฉฐ ๋งค์šฐ ํšจ๊ณผ์ ์ด๋‹ค ๋ชจ๋“  ์†์„ฑ์€ ๋™๋“ฑํ•˜๊ฒŒ ์ค‘์š”ํ•˜๊ณ  ๋…๋ฆฝ์ ์ด๋ผ๋Š” ์•Œ๋ ค์ง„ ๊ฒฐํ•จ ๊ฐ€์ •์— ์˜์กดํ•œ๋‹ค
๋…ธ์ด์ฆˆ์™€ ๊ฒฐ์ธก ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์–ด๋„ ์ž˜ ์ˆ˜ํ–‰ํ•œ๋‹ค ์ˆ˜์น˜ ์†์„ฑ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ด์ƒ์ ์ด์ง€ ์•Š๋‹ค
ํ›ˆ๋ จ์— ๋Œ€ํ•œ ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ์˜ˆ์ œ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ ๋งค์šฐ ๋งŽ์€ ์˜ˆ์ œ๋„ ์ž˜ ์ˆ˜ํ–‰ํ•œ๋‹ค ์ถ”์ •๋œ ํ™•๋ฅ ์€ ์˜ˆ์ธก๋œ ๋ฒ”์ฃผ๋ณด๋‹ค ๋œ ์‹ ๋ขฐ์ ์ด๋‹ค
์˜ˆ์ธก์— ๋Œ€ํ•œ ์ถ”์ •๋œ ํ™•๋ฅ ์„ ์–ป๊ธฐ ์‰ฝ๋‹ค

References


#12

ํšŒ๊ท€ / ๋ถ„๋ฅ˜์‹œ ์•Œ๋งž์€ metric์€ ๋ฌด์—‡์ผ๊นŒ?

#1 ๋‹ต๋ณ€์„ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”. ํ•ด๋‹น ๋‹ต๋ณ€์—์„œ ์„œ์ˆ ํ•˜์ง€ ์•Š์€ ์ง€ํ‘œ๋งŒ ์ถ”๊ฐ€๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

ํšŒ๊ท€

$$ R^2 = \frac{\sum (\hat{y}_l - \bar{y})}{\sum (y_i - \bar{y})^2} $$

๊ฒฐ์ •๊ณ„์ˆ˜(Coefficient of determination)๋Š” (ํšŒ๊ท€์„ ์— ์˜ํ•ด ์„ค๋ช…๋˜๋Š” ๋ณ€๋™)/(์ „์ฒด ๋ณ€๋™)์„ ๋งํ•˜๋ฉฐ, ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ๊ฒฐ์ •๊ณ„์ˆ˜๊ฐ€ 1์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค. ํšŒ๊ท€๋ชจํ˜•์ด ๋†’์€ ๊ฒฐ์ •๊ณ„์ˆ˜๋ฅผ ๊ฐ–๋Š”๋‹ค๋ฉด ์‹ค์ œ๋กœ ๋ชจํ˜•์ด ์„ค๋ช…๋ ฅ์ด ๋†’์€ ๊ฒƒ์ธ์ง€ ๋‹จ์ˆœํžˆ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒƒ์ธ์ง€ ์•Œ๊ธฐ ์–ด๋ ค์›Œ ๊ฒฐ์ •๊ณ„์ˆ˜๋ฅผ ์‹ ๋ขฐํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

$$ adj R^2 = 1 - \frac{n - 1}{(n - p - 1)(1 - R^2)} $$

์ˆ˜์ •๋œ ๊ฒฐ์ •๊ณ„์ˆ˜๋Š” ๊ฒฐ์ •๊ณ„์ˆ˜์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ‘œ๋ณธ์˜ ํฌ๊ธฐ(n)์™€ ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ์ˆ˜(p)๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ˆ˜์ •๋œ ๊ฒฐ์ •๊ณ„์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

๋ถ„๋ฅ˜

$$ - (y - \log (p))) + (1 - y) \log (1-p) $$

Log Loss ํ˜น์€ Binary Crossentropy๋Š” ์ด์ง„ ๋ถ„๋ฅ˜์—์„œ์˜ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

$$ LogarithmicLoss = - \frac{1}{N} \sum^N_{i=1} \sum^M_{j=1} y_{ij} * \log (p_{ij}) $$

Categorical Crossentropy๋Š” ๋ถ„๋ฅ˜ํ•ด์•ผํ•  ํด๋ž˜์Šค๊ฐ€ 3๊ฐœ ์ด์ƒ์ธ ๋ฉ€ํ‹ฐ ํด๋ž˜์Šค ๋ถ„๋ฅ˜์—์„œ์˜ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

References


#13

Association Rule์˜ Support, Confidence, Lift์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

์—ฐ๊ด€๊ทœ์น™๋ถ„์„(Association Analysis)์€ ํ”ํžˆ ์žฅ๋ฐ”๊ตฌ๋‹ˆ ๋ถ„์„(Market Basket Analysis) ๋˜๋Š” ์„œ์—ด๋ถ„์„(Sequence Analysis)์ด๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ๊ธฐ์—…์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ์ƒํ’ˆ์˜ ๊ตฌ๋งค, ์„œ๋น„์Šค ๋“ฑ ์ผ๋ จ์˜ ๊ฑฐ๋ž˜ ๋˜๋Š” ์‚ฌ๊ฑด๋“ค ๊ฐ„์˜ ๊ทœ์น™์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•ด ์ ์šฉํ•˜๋ฉฐ, ์—ฐ๊ด€์„ฑ ๋ถ„์„์˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ๋Š” Support, Confidence, Lift๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Support(์ง€์ง€๋„)

์ „์ฒด ๊ฑฐ๋ž˜ ์ค‘ ํ•ญ๋ชฉ A์™€ ํ•ญ๋ชฉ B๋ฅผ ๋™์‹œ์— ํฌํ•จํ•˜๋Š” ๊ฑฐ๋ž˜์˜ ๋น„์œจ๋กœ ์ •์˜ํ•œ๋‹ค.

$$ ์ง€์ง€๋„ = P(A \cap B) = \frac{A์™€ B๊ฐ€ ๋™์‹œ์— ํฌํ•จ๋œ ๊ฑฐ๋ž˜์ˆ˜}{์ „์ฒด ๊ฑฐ๋ž˜์ˆ˜} = \frac{A \cap B}{์ „์ฒด} $$

Confidence(์‹ ๋ขฐ๋„)

ํ•ญ๋ชฉ A๋ฅผ ํฌํ•จํ•œ ๊ฑฐ๋ž˜ ์ค‘์—์„œ ํ•ญ๋ชฉ A์™€ ํ•ญ๋ชฉ B๊ฐ€ ๊ฐ™์ด ํฌํ•จ๋  ํ™•๋ฅ ์ด๋‹ค. ์—ฐ๊ด€์„ฑ์˜ ์ •๋„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

$$ ์‹ ๋ขฐ๋„ = \frac{P(A \cap B)}{P(A)} = \frac{A์™€ B๊ฐ€ ๋™์‹œ์— ํฌํ•จ๋œ ๊ฑฐ๋ž˜์ˆ˜}{A๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฑฐ๋ž˜์ˆ˜} = \frac{์ง€์ง€๋„}{P(A)} $$

Lift(ํ–ฅ์ƒ๋„)

A๊ฐ€ ๊ตฌ๋งค๋˜์ง€ ์•Š์•˜์„ ๋•Œ ํ’ˆ๋ชฉ B์˜ ๊ตฌ๋งคํ™•๋ฅ ์— ๋น„ํ•ด A๊ฐ€ ๊ตฌ๋งค๋์„ ๋•Œ ํ’ˆ๋ชฉ B์˜ ๊ตฌ๋งคํ™•๋ฅ ์˜ ์ฆ๊ฐ€ ๋น„์ด๋‹ค. ์—ฐ๊ด€๊ทœ์น™ Aโ†’B๋Š” ํ’ˆ๋ชฉ A์™€ ํ’ˆ๋ชฉ B์˜ ๊ตฌ๋งค๊ฐ€ ์„œ๋กœ ๊ด€๋ จ์ด ์—†๋Š” ๊ฒฝ์šฐ์— ํ–ฅ์ƒ๋„๊ฐ€ 1์ด ๋œ๋‹ค.

$$ ํ–ฅ์ƒ๋„ = \frac{P(B | A)}{P(B)} = \frac{P(A \cap B)}{P(A)P(B)} = \frac{A์™€ B๊ฐ€ ๋™์‹œ์— ํฌํ•จ๋œ ๊ฑฐ๋ž˜์ˆ˜}{A๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฑฐ๋ž˜์ˆ˜ \times B๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฑฐ๋ž˜์ˆ˜} = \frac{์‹ ๋ขฐ๋„}{P(B)} $$


์—๋ฅผ ๋“ค์–ด ์–ด๋–ค ์Šˆํผ๋งˆ์ผ“์—์„œ 5๋ช…์˜ ๊ณ ๊ฐ์— ์˜ํ•ด ๋ฐœ์ƒ๋œ 5($N = 5$)๊ฑด์˜ ๊ฑฐ๋ž˜๋ฅผ ๊ฐ€์ง€๊ณ , ์—ฐ๊ด€๊ทœ์น™ X:{๊ณ„๋ž€, ๋งฅ์ฃผ} โ†’ Y:{๊ธฐ์ €๊ท€}์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด์ž.

Customer
ID
Transaction
ID
Items
1131 no.1 ๊ณ„๋ž€, ์šฐ์œ 
2094 no.2 ๊ณ„๋ž€, ๊ธฐ์ €๊ท€, ๋งฅ์ฃผ, ์‚ฌ๊ณผ
4122 no.3 ์šฐ์œ , ๊ธฐ์ €๊ท€, ๋งฅ์ฃผ, ์ฝœ๋ผ
4811 no.4 ๊ณ„๋ž€, ์šฐ์œ , ๋งฅ์ฃผ, ๊ธฐ์ €๊ท€
8091 no.5 ๊ณ„๋ž€, ์šฐ์œ , ๋งฅ์ฃผ, ์ฝœ๋ผ

$$ P(Y) = \frac{n(Y)}{N} = \frac{n \{ no.2, no.3, no.4 \} }{N} = \frac{3}{5} = 0.6 $$

  • ์ง€์ง€๋„(Support) = $s(Xโ†’Y) = \frac{n(X\cup Y)}{N} = \frac{n \{ no.2, no.4 \} }{N} = \frac{2}{5} = 0.4$
  • ์‹ ๋ขฐ๋„(Confidence) = $c(Xโ†’Y) = \frac{n(X\cup Y)}{n(X)} = \frac{n \{ no.2, no.4 \} }{n \{ no.2, no.4, no.5 \} } = \frac{2}{3} = 0.6667$
  • ํ–ฅ์ƒ๋„(Lift) = $Lift(Xโ†’Y) = \frac{c(Xโ†’Y)}{s(Y)} = \frac{0.6667}{0.6} = 1.1111$

References


#14

์ตœ์ ํ™” ๊ธฐ๋ฒ•์ค‘ Newtonโ€™s Method์™€ Gradient Descent ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ๊ณ  ์žˆ๋‚˜์š”?

Newton's Method

ํ•จ์ˆ˜ $f$์˜ 2์ฐจ ํ…Œ์ผ๋Ÿฌ ๊ทผ์‚ฌ(quadratic approximation)์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

$$ f(y)\approx f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2f(x)(y-x), \\ f_{approx}(y)=f(x)+\nabla f(x)^T(y-x)+\frac{1}{2}(y-x)^T\nabla^2f(x)(y-x) $$

์—ฌ๊ธฐ์„œ $y$๋Š” ๋‹ค์Œ ์Šคํ…์˜ $x$ ๊ฐ’์ธ $x^+$์ด๋‹ค. ๋˜ํ•œ quadratic approximation์„ $f_{approx}$๋กœ ์ •ํ•œ๋‹ค.

์ด $f_{approx}$ ์ฆ‰, quadratic approximation์„ ์ตœ์†Œ๋กœ ๋งŒ๋“œ๋Š” ์ž…๋ ฅ $y$๋ฅผ ์ฐพ์œผ๋ ค ํ•œ๋‹ค. ์ด๋•Œ $f_{approx}$๋Š” convex์ด๋ฏ€๋กœ ์œ„ ์‹์˜ gradient๋ฅผ 0์œผ๋กœ ๋งŒ๋“œ๋Š” ์ž…๋ ฅ $y$๊ฐ€ $f_{approx}$๋ฅผ ์ตœ์†Œ๋กœ ๋งŒ๋“ค ๊ฒƒ์ด๋‹ค. ์ด ๊ฒฐ๊ณผ๊ฐ€ Newtonโ€™s method์—์„œ์˜ step update ์‹์ด ๋œ๋‹ค. ์•„๋ž˜ ์‹์˜ ๋ฏธ๋ถ„์€ $y$์— ๋Œ€ํ•œ ๋ฏธ๋ถ„ ์ž„์„ ๊ธฐ์–ตํ•˜์ž.

$$ \nabla f_{approx}(y)=\nabla f(x)+\frac{1}{2}\left((\nabla^2f(x))^T(y-x)+(y-x)^T\nabla^2f(x)\right) \\ =\nabla f(x)+\nabla^2f(x)(y-x)\qquad\qquad\qquad \\ = 0,\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad;, \\ \Leftrightarrow y=x-(\nabla^2f(x))^{-1}\nabla f(x)\qquad\qquad; $$

Gradient Descent

Gradient descent์—์„œ๋Š” ํ•จ์ˆ˜ $f$์˜ 2์ฐจ ํ…Œ์ผ๋Ÿฌ ๊ทผ์‚ฌํ•ญ์„ ์‚ฌ์šฉํ•˜๊ณ , 2์ฐจ ํ•ญ์˜ ๊ฒฝ์šฐ ์‹ค์ œ 2์ฐจ ๋ฏธ๋ถ„ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹Œ, ์ •๋ฐฉํ–‰๋ ฌ(identity matrix)๊ณผ ์ด๋ฅผ $t$๋กœ ๋‚˜๋ˆˆ ๊ฐ’์œผ๋กœ ๊ฐ€์ •ํ•œ๋‹ค.

$$ f(y)\approx f(x)+\nabla f(x)^T(y-x)+\frac{1}{2t}\parallel y-x\parallel^2_2, \\ f_{approx}(y)=f(x)+\nabla f(x)^T(y-x)+\frac{1}{2t}\parallel y-x\parallel^2_2 $$

Newtonโ€™s method์™€ ๋™์ผํ•˜๊ฒŒ ์œ„ ๊ทผ์‚ฌ์‹์˜ gradient๊ฐ€ 0์ธ $y$ ๊ฐ’, ์ฆ‰ $x^+$๋ฅผ ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

$$ \nabla f(y)=\nabla f(x)+\frac{1}{t}(y-x), \\ =0,\qquad\qquad; \\ \Leftrightarrow y=x-t\nabla f(x) $$

Newton's method์™€ Gradient descent์˜ step์— ๋”ฐ๋ฅธ ์ˆ˜๋ ด ๋ฐฉํ–ฅ ๋น„๊ต

  • ํŒŒ๋ž‘: Newton's method
  • ๊ฒ€์ •: Gradient descent

Gradient descent๋Š” 2์ฐจ ๋ฏธ๋ถ„ํ•ญ์„ ์ •๋ฐฉํ–‰๋ ฌ์— ์ƒ์ˆ˜๊ฐ€ ๊ณฑํ•ด์ง„ ๊ฐ’์œผ๋กœ ๊ฐ€์ •ํ•˜๊ณ  gradient๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋“ฑ๊ณ ์„ (contour)์˜ ์ ‘์„  ๋ฐฉํ–ฅ์— ์ˆ˜์งํ•˜๊ฒŒ(perpendicular) ์ˆ˜๋ ดํ•จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๊ณ , Newtonโ€™s method์— ๋น„ํ•ด ๋Š๋ฆฐ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋ณด์ธ๋‹ค.

References


#15

๋จธ์‹ ๋Ÿฌ๋‹(machine)์  ์ ‘๊ทผ๋ฐฉ๋ฒ•๊ณผ ํ†ต๊ณ„(statistics)์  ์ ‘๊ทผ๋ฐฉ๋ฒ•์˜ ๋‘˜๊ฐ„์— ์ฐจ์ด์— ๋Œ€ํ•œ ๊ฒฌํ•ด๊ฐ€ ์žˆ๋‚˜์š”?

๋จธ์‹ ๋Ÿฌ๋‹์  ์ ‘๊ทผ๋ฐฉ๋ฒ•๊ณผ ํ†ต๊ณ„์  ์ ‘๊ทผ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด๋Š” ๋‘ ๋ฐฉ๋ฒ•์˜ ์ฃผ ๋ชฉ์ ์ด ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹์  ์ ‘๊ทผ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์„ฑ๊ณต๋ฅ ์„ ๋†’์ด๋Š”๊ฒŒ ๋ชฉ์ ์ด๋‹ค.
๋”ฐ๋ผ์„œ ๋ชจ๋ธ์˜ ์‹ ๋ขฐ๋„๋‚˜ ์ •๊ตํ•œ ๊ฐ€์ •๋ณด๋‹ค๋Š” ๋‹ค์–‘ํ•œ ํ”ผ์ณ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ (์˜ค๋ฒ„ํ”ผํŒ…์„ ๊ฐ์•ˆํ•˜๋”๋ผ๋„) ๋†’์€ ์˜ˆ์ธก๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๊ณ ์ž ํ•œ๋‹ค.

ํ†ต๊ณ„์  ์ ‘๊ทผ๋ฐฉ๋ฒ•์€ ๋ถ„ํฌ์™€ ๊ฐ€์ •์„ ํ†ตํ•ด ์‹ ๋ขฐ ๊ฐ€๋Šฅํ•˜๊ณ  ์ •๊ตํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š”๊ฒŒ ๋ชฉ์ ์ด๋‹ค.

๋”ฐ๋ผ์„œ ๋ชจํ˜•์„ ๋ณต์žกํ•˜์ง€ ์•Š๊ณ  ๋‹จ์ˆœํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ์–ด๋–ค ํ”ผ์ณ๊ฐ€ ์–ด๋–ค ์›์ธ์„ ์ฃผ๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

References


#16

์ธ๊ณต์‹ ๊ฒฝ๋ง(deep learning์ด์ „์˜ ์ „ํ†ต์ ์ธ)์ด ๊ฐ€์ง€๋Š” ์ผ๋ฐ˜์ ์ธ ๋ฌธ์ œ์ ์€ ๋ฌด์—‡์ผ๊นŒ์š”?

๋”ฅ๋Ÿฌ๋‹ ์ด์ „์˜ ์ธ๊ณต์‹ ๊ฒฝ๋ง์€ ์„ ํ˜•์ ์œผ๋กœ๋งŒ ํšŒ๊ท€, ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ ˆ์ด์–ด๋ฅผ ๊นŠ๊ฒŒ ์Œ“์ง€ ๋ชปํ–ˆ๊ณ , ๋•Œ๋ฌธ์— XOR ๋ฌธ์ œ ๊ฐ™์€ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ’€์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ์ ์ด ์žˆ์—ˆ๋‹ค.

XOR ๋ฌธ์ œ

ํ•˜์ง€๋งŒ ์‹œ๊ทธ๋ชจ์ด๋“œ์™€ ๊ฐ™์€ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์„ ํ˜• ๋ชจ๋ธ์— ์ถ”๊ฐ€ํ•˜์—ฌ XOR ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ํŽธ๋ฏธ๋ถ„ ์ฒด์ธ๋ฃฐ์„ ์‚ฌ์šฉํ•œ ์˜ค์ฐจ์—ญ์ „ํŒŒ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด์„œ ๋ ˆ์ด์–ด๋ฅผ ๊นŠ๊ฒŒ ์Œ“์€ ๋”ฅ๋Ÿฌ๋‹ ์ธ๊ณต์‹ ๊ฒฝ๋ง์ด ๋ฐœ์ „ํ•˜์˜€๋‹ค.

References


#17

์ง€๊ธˆ ๋‚˜์˜ค๊ณ  ์žˆ๋Š” deep learning ๊ณ„์—ด์˜ ํ˜์‹ ์˜ ๊ทผ๊ฐ„์€ ๋ฌด์—‡์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜์‹œ๋‚˜์š”?

ImageNet ๊ณผ ๊ฐ™์€ ๊ฑฐ๋Œ€ํ•˜๊ณ  ๋†’์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ์…‹์ด ๋ชจ๋‘์—๊ฒŒ ๊ณต๊ฐœ๋˜๋ฉด์„œ ๋”ฅ๋Ÿฌ๋‹์˜ ํ˜์‹ ์ ์ธ ๋ฐœ์ „์ด ์‹œ์ž‘๋  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ํ˜„์žฌ๋Š” ๋” ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ์ ํ•ฉํ•œ ์ข‹์€ GLUE ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋“ค๋„ ๊ณต๊ฐœ๋˜์–ด ๋”์šฑ ๋”ฅ๋Ÿฌ๋‹์˜ ๋ฐœ์ „์— ์ด๋ฐ”์ง€ํ•˜๊ณ  ์žˆ๋‹ค.

ํ˜„์žฌ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋“ค์€ ๋ชจ๋‘ ํฐ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋“ค์ธ๋ฐ ํ•˜๋“œ์›จ์–ด์˜ ๋ฐœ์ „์ด ์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€๋‹ค.

๋˜ํ•œ end-to-end ๋ชจ๋ธ์ด ๋‚˜ํƒ€๋‚˜๋ฉด์„œ ๋ฐ์ดํ„ฐ ๋ ˆ์ด๋ธ”๋ง, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ฐพ๊ธฐ, ์ตœ์  ๋ชจ๋ธ ์ฐพ๊ธฐ ๋“ฑ ๋ชจ๋“  ์ž‘์—…์„ ๊ธฐ๊ณ„์—๊ฒŒ ๋งก๊ธฐ๋ฉด์„œ ๋”ฅ๋Ÿฌ๋‹์ด ํฌ๊ฒŒ ๋ฐœ์ „ํ•˜์˜€๋‹ค.

References


#18

ROC ์ปค๋ธŒ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์‹ค ์ˆ˜ ์žˆ์œผ์‹ ๊ฐ€์š”?

ROC ์ปค๋ธŒ๋Š” ์ด์ง„๋ถ„๋ฅ˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ์ด๋‹ค.

๋ชจ๋ธ์ด ์ฐธ์ด๋ผ๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๊ฒฝ์šฐ๋Š” FPR (False Positive Rate, ์‹ค์ œ ๊ฐ’์ด ๊ฑฐ์ง“์ผ ๋•Œ) ๊ณผ TPR (True Positive Rate, ์‹ค์ œ ๊ฐ’์ด ์ฐธ์ผ ๋•Œ) ๋‘ ๊ฒฝ์šฐ๋กœ ๋‚˜๋‰œ๋‹ค.
FPR ๊ณผ TPR ์„ ๊ทธ๋ž˜ํ”„์—์„œ x ์ถ•, y ์ถ•์œผ๋กœ ๋™์‹œ์— ํ‘œํ˜„ํ•œ ROC ์ปค๋ธŒ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์˜ณ์€ ๊ฐ’์„ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

ROC ์ปค๋ธŒ

ROC ์ปค๋ธŒ๊ฐ€ ์ขŒ์ƒ๋‹จ๊ณผ ๊ฐ€๊นŒ์šด ๊ฒฝ์šฐ ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ์ด FPR ์€ ๋‚ฎ๊ฒŒ, TPR ์€ ๋†’๊ฒŒ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

References


#19

์—ฌ๋Ÿฌ๋ถ„์ด ์„œ๋ฒ„๋ฅผ 100๋Œ€ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์ธ๊ณต์‹ ๊ฒฝ๋ง๋ณด๋‹ค Random Forest๋ฅผ ์จ์•ผํ•˜๋Š” ์ด์œ ๋Š” ๋ญ˜๊นŒ์š”?

๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ๋Š” ์—ฌ๋Ÿฌ ๊ฒฐ์ • ํŠธ๋ฆฌ๋ฅผ ์•™์ƒ๋ธ”ํ•˜์—ฌ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์—์„œ๋Š” ๊ฐ ์„œ๋ฒ„๋ฅผ ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๋Š” ๋‹จ์ผ ๊ฒฐ์ • ํŠธ๋ฆฌ (Decision tree) ๋กœ ๋ณ‘๋ ฌ์ ์ด๊ฒŒ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฐ˜๋ฉด, ์ธ๊ณต์‹ ๊ฒฝ๋ง์€ ํ•˜๋‚˜์˜ ์„œ๋ฒ„ ์ž์ฒด๊ฐ€ ๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ๋ชจ๋‘ ์ดํ•ดํ•˜๋Š” end-to-end ๊ตฌ์กฐ๋กœ ์ง๋ ฌ์ ์ด๊ฒŒ ๊ตฌ์„ฑ๋œ๋‹ค.

๋”ฐ๋ผ์„œ ์„œ๋ฒ„๊ฐ€ 100๋Œ€ ์žˆ์„ ๋•Œ๋Š”, ์ด๋ฅผ ๋ณ‘๋ ฌ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

References


#20

K-means์˜ ๋Œ€ํ‘œ์  ์˜๋ฏธ๋ก ์  ๋‹จ์ ์€ ๋ฌด์—‡์ธ๊ฐ€์š”? (๊ณ„์‚ฐ๋Ÿ‰ ๋งŽ๋‹ค๋Š”๊ฒƒ ๋ง๊ณ )

K-means ๋Š” ํŠน์„ฑ์ด ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ™์€ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์–ด์ฃผ๋Š” ํด๋Ÿฌ์Šคํ„ฐ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, k ๊ฐœ์˜ ๊ตฐ์ง‘ ๊ฐœ์ˆ˜๋ฅผ ์ •ํ•˜๊ณ  ๊ตฐ์ง‘์˜ ์ค‘์‹ฌ์ ์„ ์˜ˆ์ธกํ•˜์—ฌ ๊ฐ ๋ฐ์ดํ„ฐ์™€ ๊ฑฐ๋ฆฌ๋ฅผ ๋น„๊ตํ•œ ํ›„ ๊ตฐ์ง‘์„ ๊ฒฐ์ •ํ•œ๋‹ค.

K-means ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋‹จ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • K ๋ฅผ ๋ช‡ ๊ฐœ๋กœ ์„ค์ •ํ•˜๋ƒ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง„๋‹ค.
  • K ๊ฐœ ๊ตฐ์ง‘์˜ ์ค‘์‹ฌ์ ์„ ์˜ˆ์ธกํ•˜์—ฌ์•ผ ํ•˜๋Š”๋ฐ, ์–ด๋””๋ฅผ ์ค‘์‹ฌ์ ์œผ๋กœ ๋‘๋ƒ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง„๋‹ค.
  • ๋ฐ์ดํ„ฐ๊ฐ€ ์ž˜ ๋ชจ์—ฌ์žˆ๋Š” ๊ฒฝ์šฐ์— ํšจ๊ณผ์ ์ด์ง€, ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ ํšจ๊ณผ์ ์ด์ง€ ์•Š๋‹ค.

References


#21

L1, L2 ์ •๊ทœํ™”์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด์ฃผ์„ธ์š”.

์ •๊ทœํ™”(์ผ๋ฐ˜ํ™”)์˜ ๋ชฉ์ ์€ ๋ชจ๋ธ์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์˜ค๋ฒ„ํ”ผํŒ…๋˜์ง€ ์•Š๊ณ  ์ฒ˜์Œ ๋ณด๋Š” ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์—๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.

๋ชจ๋ธ์˜ ํ•™์Šต์€ loss ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค.

์ด ๋•Œ, loss ํ•จ์ˆ˜์— L1, L2 ์ •๊ทœํ™” ํ•ญ (norm) ์„ ๋”ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ loss ๋„ ์ค„์ด๋ฉด์„œ ์ •๊ทœํ™” ํ•ญ (๋ชจ๋ธ์˜ ํ”ผ์ณ๊ฐ’๊ณผ ๊ด€๋ จ) ๋„ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋œ๋‹ค.

๋ชจ๋ธ์˜ ํ”ผ์ณ๊ฐ’์ด ์ค„์–ด๋“ฆ์— ๋”ฐ๋ผ ํŠน์ • ํ”ผ์ณ๊ฐ€ ๋„ˆ๋ฌด ํฐ ๊ฐ’์„ ๊ฐ–์ง€ ์•Š๊ฒŒ ๋˜๋ฉด์„œ ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

L1 ์ •๊ทœํ™” (๋ผ์˜ ํšŒ๊ท€)

L1 ์ •๊ทœํ™”๋Š” ํŠน์ • ํ”ผ์ณ์˜ ๊ฐ’์ด ๋งค์šฐ ๋‚ฎ์€ ๊ฒฝ์šฐ (์•„์›ƒ๋ผ์ด์–ด) 0์— ์ˆ˜๋ ด๋˜๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. ํŠน์ • ํ”ผ์ณ๊ฐ€ 0์ด ๋˜์–ด ์‚ฌ๋ผ์ง€๋Š” ๊ฒƒ์€ feature selection ๊ณผ ๋™์ผํ•˜๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

$$ Cost = \sum^N_{i=0} (y_i - \sum^M_{j=0} x_{ij}W_j)^2 + \lambda \sum^M_{j=0} |W_j| $$

L2 ์ •๊ทœํ™” (๋ฆฟ์ง€ ํšŒ๊ท€)

L2 ์ •๊ทœํ™”๋Š” ํŠน์ • ์›จ์ดํŠธ์˜ ๊ฐ’์ด ๋งค์šฐ ๋‚ฎ์•„๋„ 0์— ์ˆ˜๋ ด๋˜์ง€๋Š” ์•Š๊ณ  ๊ฐ€๊นŒ์›Œ์ง€๋Š” ํŠน์ง•์ด ์žˆ๋‹ค. ์ด๋Š” L1 ์ •๊ทœํ™”์— ๋น„ํ•ด ๊ฐ•ํ•˜์ง€ ์•Š๊ฒŒ ์ •๊ทœํ™”๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ํ•ญ์ƒ ์„ ํ˜• ๋ชจ๋ธ์— ์ผ๋ฐ˜ํ™” ํšจ๊ณผ๋ฅผ ์ค„ ์ˆ˜ ์žˆ๋‹ค.

$$ Cost = \sum^N_{i=0} (y_i - \sum^M_{j=0} x_{ij}W_j)^2 + \lambda \sum^M_{j=0} W_j^2 $$

loss ์‹์— ๋žŒ๋‹ค ๋ชจ๋ธ์˜ ์›จ์ดํŠธ์— ๋Œ€ํ•œ L1 or L2 norm ์„ ๋”ํ•ด์คŒ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

loss ๋Š” ๋ฐ์ดํ„ฐ ๊ฐ’๊ณผ ์ถ”์ • ๊ฐ’์˜ ์ฐจ์ด๋กœ ๋ชจ๋ธ์€ loss ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜๋Š”๋ฐ, L1 or L2 ์ •๊ทœํ™”๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด loss ๊ฐ€ ์›จ์ดํŠธ์˜ ํฌ๊ธฐ๋งŒํผ ์ปค์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ๊ฐ’์— ์˜ˆ์ธก ๊ฐ’์ด fit ํ•ด์ง€์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

Norm

Norm์€ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์œผ๋กœ L1 Norm์€ ๋ฒกํ„ฐ์˜ ์ ˆ๋Œ“๊ฐ’ ํฌ๊ธฐ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , L2 Norm์€ ์ง์„  ๊ฑฐ๋ฆฌ (์ œ๊ณฑ์˜ ๋ฃจํŠธ) ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Norm

์œ„ ๊ทธ๋ฆผ์—์„œ ์ดˆ๋ก์„ ์€ L2 norm ์„ ์˜๋ฏธํ•˜๊ณ , ๋‚˜๋จธ์ง€ ์„ ์€ L1 norm ์„ ์˜๋ฏธํ•œ๋‹ค.

  • L1 loss

$$ L1LossFunction = \sum^n_{i=1} |y_{true} - y_{predicted}| $$

  • L2 loss

$$ L2LossFunction = \sum^n_{i=1} (y_{true} - y_{predicted})^2 $$

References


#22

Cross Validation์€ ๋ฌด์—‡์ด๊ณ  ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ•˜๋‚˜์š”?

cross validation(๊ต์ฐจ๊ฒ€์ฆ)์ด๋ž€ train(ํ•™์Šต) ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด, ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ validation(๊ฒ€์ฆ) ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋™์ž‘ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์—ฌ๊ธฐ์„œ ์ฃผ์˜ํ•  ์ ์€ train ๋ฐ์ดํ„ฐ์…‹๊ณผ validation ๋ฐ์ดํ„ฐ์…‹์—๋Š” test ๋ฐ์ดํ„ฐ์…‹์ด ํฌํ•จ๋˜๋ฉด ์•ˆ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ต์ฐจ๊ฒ€์ฆ์„ ํ†ตํ•ด ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์žฅ๋‹จ์ ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

  • ์ ์€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ validation ์‹ ๋ขฐ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.
  • ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์„ ํ›ˆ๋ จ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋ฐ์ดํ„ฐ ํŽธ์ค‘์„ ๋ง‰์„ ์ˆ˜ ์žˆ๋‹ค. (k-fold ๊ฒฝ์šฐ)
  • ๊ฒ€์ฆ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ๋” ์ผ๋ฐ˜ํ™”๋œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.
  • ๋ชจ๋ธ ํ•™์Šต์— ์˜ค๋žœ ์‹œ๊ฐ„์ด ์†Œ์š”๋œ๋‹ค.

๊ต์ฐจ๊ฒ€์ฆ ๊ธฐ๋ฒ•์˜ ์ข…๋ฅ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค. (validation ๋ฐ์ดํ„ฐ์…‹์„ ์–ด๋–ป๊ฒŒ ์ง€์ •ํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.)

  • ํ™€๋“œ ์•„์›ƒ ๊ต์ฐจ๊ฒ€์ฆ(Holdout Cross Validation)
  • K-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ(K-fold Cross Validation)
  • ๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ(Stratified K-Fold Cross Validation)

ํ™€๋“œ ์•„์›ƒ ๊ต์ฐจ๊ฒ€์ฆ

ํ™€๋“œ์•„์›ƒ ๊ต์ฐจ๊ฒ€์ฆ๋ฐฉ๋ฒ•์€ ์ผ์ •ํ•œ ๋น„์œจ์˜ validation ๋ฐ์ดํ„ฐ์…‹ ํ•˜๋‚˜๋ฅผ ์ง€์ •ํ•˜์—ฌ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํ™€๋“œ์•„์›ƒ ๊ต์ฐจ๊ฒ€์ฆ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ๋‘๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ์กด์žฌํ•œ๋‹ค.

  1. validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ง€์ •๋œ ๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต์…‹์œผ๋กœ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๋ฌธ์ œ
  2. validation ๋ฐ์ดํ„ฐ์…‹์— ํŽธํ–ฅ๋˜๋„๋ก ๋ชจ๋ธ์„ ์กฐ์ •ํ•˜๊ฒŒ ๋œ๋‹ค๋Š” ๋ฌธ์ œ

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ์ด ๋“ฑ์žฅํ–ˆ๋‹ค.

k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ

k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์€ train ๋ฐ์ดํ„ฐ๋ฅผ k๊ฐœ์˜ fold๋กœ ๋‚˜๋ˆ„์–ด, ๊ทธ ์ค‘ ํ•˜๋‚˜์˜ fold๋ฅผ validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ผ์•„ ๊ฒ€์ฆํ•˜๋Š” ๋ฐฉ๋ฒ•์„ k๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ, ๊ทธ ํ‰๊ท ์„ ๊ฒฐ๊ณผ๋กœ์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์„ธ๋ถ€์ ์ธ ๋™์ž‘๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. train ๋ฐ์ดํ„ฐ์…‹์„ k๊ฐœ์˜ fold๋กœ ๋‚˜๋ˆ„๊ณ , ๊ทธ ์ค‘ ํ•˜๋‚˜๋ฅผ validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ง€์ •ํ•œ๋‹ค.
  2. validation ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์™ธํ•œ ๋‚˜๋จธ์ง€ ํด๋“œ๋“ค์„ train ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ๋‹ค.
  3. ํ•™์Šตํ•œ ๋ชจ๋ธ์„ 1๋ฒˆ์—์„œ ์ง€์ •ํ•ด๋‘” validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ , ๊ทธ ๊ฒ€์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ €์žฅํ•ด๋‘”๋‹ค.
  4. ๋ชจ๋ธ์„ ์ดˆ๊ธฐํ™”ํ•œ ํ›„, ๊ธฐ์กด validation ๋ฐ์ดํ„ฐ์…‹์ด ์•„๋‹Œ ๋‹ค๋ฅธ fold๋ฅผ validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์ง€์ •ํ•˜๊ณ , 2๋ฒˆ ๊ณผ์ •๋ถ€ํ„ฐ ๋‹ค์‹œ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  5. ๋ชจ๋“  fold๋“ค์ด ํ•œ๋ฒˆ์”ฉ validation ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์šฉ๋œ ํ›„์—๋Š”, ์ €์žฅํ•ด๋‘” ๊ฒ€์ฆ๊ฒฐ๊ณผ์˜ ํ‰๊ท ์„ ๋‚ด์–ด, ๊ทธ๊ฒƒ์„ ์ตœ์ข… validation ๊ฒฐ๊ณผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์€ ๋žœ๋คํ•˜๊ฒŒ validation ๋ฐ์ดํ„ฐ์…‹์„ ์ง€์ •ํ•˜๊ฒŒ ๋˜๋ฏ€๋กœ, ํŽธํ–ฅ๋œ ๋ฐ์ดํ„ฐ๋กœ ์ด๋ค„์ง„ ํด๋“œ๊ฐ€ ์ƒ์„ฑ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ ๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์ด ๋“ฑ์žฅํ–ˆ๋‹ค.

๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ

๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์€ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์—์„œ fold๋ฅผ ๋‚˜๋ˆŒ๋•Œ, ๋žœ๋คํ•˜๊ฒŒ fold๋ฅผ ์ง€์ •ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ, ๊ฐ ํด๋ž˜์Šค๋ณ„ ๋น„์œจ์„ ๊ณ ๋ คํ•˜์—ฌ fold๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

๊ณ„์ธต๋ณ„ k-๊ฒน ๊ต์ฐจ๊ฒ€์ฆ

๐Ÿ’ก ์™œ test ๋ฐ์ดํ„ฐ์…‹ ๋งŒ์œผ๋กœ ๊ฒ€์ฆํ•˜๋ฉด ์•ˆ๋ ๊นŒ?
๋ชจ๋“  train ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•˜๊ณ , test ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ฒ€์ฆํ•œ ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•œ๋‹ค๊ณ  ํ•˜์ž. ๊ฐœ๋ฐœ์ž๋Š” test ๋ฐ์ดํ„ฐ์…‹ ์ ์ˆ˜๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด, test ๋ฐ์ดํ„ฐ์…‹์— ํŽธํ–ฅ๋˜๋„๋ก ๋ชจ๋ธ์„ ํŠœ๋‹ํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ค‘์š”ํ•œ ๊ฒƒ์€ test ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ ๋ฟ๋งŒ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜์ ์ธ ์ •ํ™•๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์ด๋‹ค. ์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™€๋„ ์ผ์ •ํ•˜๊ฒŒ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋ชจ๋ธ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, validation ๋ฐ์ดํ„ฐ์…‹๊ณผ test ๋ฐ์ดํ„ฐ์…‹์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ฒ€์ฆํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด, ๋ชจ๋ธ์„ ์ผ๋ฐ˜ํ™”์‹œ์ผœ์•ผ ํ•œ๋‹ค.

References


#23

XGBoost์„ ์•„์‹œ๋‚˜์š”? ์™œ ์ด ๋ชจ๋ธ์ด ์บ๊ธ€์—์„œ ์œ ๋ช…ํ• ๊นŒ์š”?

XGBoost(eXtreme Gradient Boosting) ์ด๋ž€, ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜์˜ ์•™์ƒ๋ธ” ํ•™์Šต์—์„œ ๊ฐ€์žฅ ๊ฐ๊ด‘๋ฐ›๊ณ  ์žˆ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ํ•˜๋‚˜์ด๋‹ค. Kaggle ๊ฒฝ์—ฐ๋Œ€ํšŒ์—์„œ ์ƒ์œ„๋ฅผ ์ฐจ์ง€ํ•œ ๋งŽ์€ ๊ณผํ•™์ž๋“ค์ด XGBoost๋ฅผ ์ด์šฉํ•˜๋ฉด์„œ ๋„๋ฆฌ ์•Œ๋ ค์กŒ๋‹ค. GBM์— ๊ธฐ๋ฐ˜ํ•˜๊ณ  ์žˆ์ง€๋งŒ, GBM์˜ ๋‹จ์ ์ธ ๋Š๋ฆฐ ์ˆ˜ํ–‰์‹œ๊ฐ„ ๋ฐ ๊ณผ์ ํ•ฉ ๊ทœ์ œ(Regularization) ๋ถ€์žฌ ๋“ฑ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์„œ ๊ฐ๊ด‘๋ฐ›๊ณ  ์žˆ๋‹ค.

XGBoost์˜ ์žฅ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ๋ถ„๋ฅ˜์™€ ํšŒ๊ท€์˜์—ญ์—์„œ ๋›ฐ์–ด๋‚œ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค.
  • XGBoost๋Š” ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, GBM ๋Œ€๋น„ ๋น ๋ฅธ ์ˆ˜ํ–‰์‹œ๊ฐ„์„ ๋ณด์ธ๋‹ค.
  • Regularization, Early Stopping ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • Tree Pruning(๊ฐ€์ง€์น˜๊ธฐ) ์ œ๊ณตํ•œ๋‹ค. ๋ฏธ๋ฆฌ ์ •ํ•ด๋‘” max_depth๊นŒ์ง€๋งŒ splitํ•˜๊ณ  pruning์„ ํ•˜๊ณ , ๊ฑฐ๊พธ๋กœ ์˜ฌ๋ผ๊ฐ€๋ฉด์„œ positive gain์ด ์—†๋Š” ๋…ธ๋“œ๋ฅผ ์‚ญ์ œํ•œ๋‹ค.
  • ์ž์ฒด์ ์œผ๋กœ ๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•ด์ค€๋‹ค.
  • ๋งค iteration๋งˆ๋‹ค ๊ต์ฐจ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

GBM(Gradient Boosting Algorithm) ์ด๋ž€ ํšŒ๊ท€๋ถ„์„ ๋˜๋Š” ๋ถ„๋ฅ˜ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์˜ˆ์ธก๋ชจํ˜•์ด๋ฉฐ ์˜ˆ์ธก๋ชจํ˜•์˜ ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•๋ก  ์ค‘ ๋ถ€์ŠคํŒ… ๊ณ„์—ด์— ์†ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. LightGBM, CatBoost, XGBoost๋Š” ๋ชจ๋‘ GBM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งŒ๋“ค์–ด์กŒ๋‹ค. (์ž์„ธํ•œ ๋‚ด์šฉ์€ Gradient Boosting Algorithm์˜ ์ง๊ด€์ ์ธ ์ดํ•ด - DeepPlay ์ฐธ๊ณ )

๐Ÿ’ก boosting ์ด๋ผ๋Š” ํ…Œํฌ๋‹‰ ์ž์ฒด๊ฐ€ sequential ํ•œ๋ฐ ์–ด๋–ป๊ฒŒ ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๋ฅผ ํ• ๊นŒ?
์„ธ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์ด ์ œ๊ธฐ๋œ๋‹ค. ๋‚˜๋‰œ ๋ถ„๊ธฐ๋งˆ๋‹ค ๊ฐ๊ฐ ๋ณ‘๋ ฌ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜, ๋ถ„๊ธฐ๊ฐ€ ๋‚˜๋‰˜๋Š” ์ง€์  ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ ํ•˜๊ฑฐ๋‚˜, ์ฒ˜์Œ๋ถ€ํ„ฐ feature๋ณ„ ์ •๋ ฌ์„ ํ†ตํ•ด ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค. (์ž์„ธํ•œ ๋‚ด์šฉ์€ XGBoost์˜ ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ• ๊นŒ? - GoLab ์ฐธ๊ณ )

References


#24

์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•์—” ์–ด๋–ค ๊ฒƒ๋“ค์ด ์žˆ๋‚˜์š”?

์•™์ƒ๋ธ” ๊ธฐ๋ฒ•

์•™์ƒ๋ธ”(Ensemble) ์€ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋ชจ๋ธ์„ ์กฐํ•ฉํ•ด์„œ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฝ‘์•„ ๋‚ด๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. "์ •ํ™•๋„๊ฐ€ ๋†’์€ ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ํ•˜๋‚˜ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค, ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์€ ์•ฝํ•œ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ๊ฐœ ์กฐํ•ฉ ํ•˜๋Š” ๋ฐฉ์‹์˜ ์ •ํ™•๋„๊ฐ€ ๋†’๋‹ค"๋Š” ๊ฐœ๋…์—์„œ ๋น„๋กฏํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค. Bagging, Boosting, Stacking ๋“ฑ์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.

๋ฐฐ๊น…(Bagging, Bootstrap Aggregation) ์ด๋ž€ ์ƒ˜ํ”Œ์„ ์—ฌ๋Ÿฌ๋ฒˆ ๋ฝ‘์•„(Bootstrap = ๋ณต์› ๋žœ๋ค ์ƒ˜ํ”Œ๋ง) ๊ฐ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ๊ฒฐ๊ณผ๋ฌผ์„ ์ง‘๊ณ„(Aggregation)ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์นดํ…Œ๊ณ ๋ฆฌ ๋ฐ์ดํ„ฐ๋Š” ํˆฌํ‘œ ๋ฐฉ์‹(Votinig)์œผ๋กœ ๊ฒฐ๊ณผ๋ฅผ ์ง‘๊ณ„ํ•˜๋ฉฐ, ์—ฐ์†ํ˜• ๋ฐ์ดํ„ฐ๋Š” ํ‰๊ท ์œผ๋กœ ์ง‘๊ณ„ํ•œ๋‹ค. Bagging์„ ์‚ฌ์šฉํ•œ ๋Œ€ํ‘œ์ ์ธ ๊ธฐ๋ฒ•์—๋Š” Random Forest ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋”๋ผ๋„ ์ถฉ๋ถ„ํ•œ ํ•™์Šตํšจ๊ณผ๋ฅผ ์ฃผ์–ด ๋†’์€ bias์˜ underfitting ๋ฌธ์ œ๋‚˜, ๋†’์€ variance๋กœ ์ธํ•œ overfitting ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”๋ฐ ๋„์›€์„ ์ค€๋‹ค.

๋ถ€์ŠคํŒ…(Boosting) ์ด๋ž€ ์ด์ „ ๋ชจ๋ธ์˜ ์˜ค๋‹ต์— ๊ฐ€์ค‘์น˜๋ฅผ ๋†’๊ฒŒ ๋ถ€์—ฌํ•˜์—ฌ ๋‹ค์Œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์˜ค๋‹ต์„ ์ •๋‹ต์œผ๋กœ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ์˜ค๋‹ต์— ๋” ์ง‘์ค‘ํ•˜์—ฌ ํ•™์Šต์‹œํ‚ค๊ธฐ ๋–„๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฐฐ๊น…์— ๋น„ํ•ด ์ •ํ™•๋„๊ฐ€ ๋†’๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ‹€๋ ธ๋˜ ๋ถ€๋ถ„์— ๋Œ€ํ•ด ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฏ€๋กœ ์˜ค๋ฒ„ํ”ผํŒ…์˜ ๋ฌธ์ œ๊ฐ€ ์žˆ์œผ๋ฉฐ, outlier์— ์ทจ์•ฝํ•˜๊ณ , ์†๋„๊ฐ€ ๋Š๋ฆฌ๋‹ค๋Š” ๋‹จ์ ๋„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. GBM(Gradient Boosting) ๋ฐฉ๋ฒ•์ด ๋Œ€ํ‘œ์ ์ด๊ณ , XGBoost, AdaBoost, GradientBoost ๋“ฑ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์กด์žฌํ•œ๋‹ค.

์Šคํƒœํ‚น(Stacking) ์ด๋ž€ ์—ฌ๋Ÿฌ ๊ฐœ๋ณ„ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ๊ฐ’์„ ๋‹ค์‹œ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์šฉํ•ด์„œ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ ๊ธฐ๋ณธ์ ์ธ ์Šคํƒœํ‚น ๋ฐฉ๋ฒ•์€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์‹œ ํ•™์Šตํ•˜๋ฏ€๋กœ ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ์ ์ด ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์Šคํƒœํ‚น์— Cross Validation ๋ฐฉ์‹์„ ๋„์ž…ํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์ชผ๊ฐœ๊ณ  ์ด๋“ค ์ค‘ ์ผ๋ถ€๋งŒ์„ ๊ฐ€์ง€๊ณ  ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ๊ฐœ ๋งŒ๋“ค์–ด, ๊ทธ ๊ฒฐ๊ณผ๋“ค์„ ๋ฉ”ํƒ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹(meta train dataset) ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์‹œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋งŽ์€ ๊ฐœ๋ณ„ ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

๐Ÿ’ก ๋ฐฐ๊น… vs ๋ถ€์ŠคํŒ…
๋ฐฐ๊น…์€ ๋žœ๋ค ๋ณต์›์ถ”์ถœ(๋ถ€ํŠธ์ŠคํŠธ๋žฉ)์„ ์—ฌ๋Ÿฌ๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ ๋ชจ๋ธ์„ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์—ฌ๋Ÿฌ๊ฐœ ํ•™์Šต์„ ์‹œํ‚จ ๋‹ค์Œ, ํ‰๊ท ์„ ๋‚ด๋Š” ๋ฐฉ์‹์ด๋‹ค. ๋ฐ˜๋ฉด, ๋ถ€์ŠคํŒ…์€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋˜, ์˜ค๋‹ต์— ๋” ํฐ ๊ฐ€์ค‘์น˜๋ฅผ ๋‘์–ด ๋‹ค์Œ ํšŒ์ฐจ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ์ˆœ์ฐจ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค.

References


#25

feature vector๋ž€ ๋ฌด์—‡์ผ๊นŒ์š”?

ํŠน์ง•(feature) ์ด๋ž€, ์ƒ˜ํ”Œ(๋ฐ์ดํ„ฐ)์„ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ์ธก์ •๊ฐ€๋Šฅํ•œ ์†์„ฑ์ด๋‹ค. ํŠน์ง•์„ ํ†ตํ•ด ํŠน์ • ์ƒ˜ํ”Œ์„ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
ํŠน์ง•๋ฒกํ„ฐ(feature vector) ๋ž€ ํ”ผ์ณ(feature)๋“ค์˜ ์ง‘ํ•ฉ์ด๋‹ค. ๊ตณ์ด ๋ฒกํ„ฐ๋กœ ํ‘œ์‹œํ•˜๋Š” ์ด์œ ๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ๋‹ค๋ฃจ๊ธฐ ํŽธํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
๋ฐ์ดํ„ฐ๋ณ„๋กœ ์–ด๋–ค ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€ ์ฐพ์•„๋‚ด๊ณ , ๊ทธ๊ฒƒ์„ ํ† ๋Œ€๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž‘์—…์„ ํŠน์ง•์ถ”์ถœ(feature extraction) ์ด๋ผ๊ณ  ํ•œ๋‹ค.
ํŠน์ง• ๊ณต๊ฐ„(feature space) ์ด๋ž€ ๊ด€์ธก๊ฐ’๋“ค์ด ์žˆ๋Š” ๊ณต๊ฐ„์„ ์˜๋ฏธํ•œ๋‹ค. ์ด ํŠน์ง• ๊ณต๊ฐ„์€ ์—ฌ๋Ÿฌ ์ฐจ์›์œผ๋กœ ๊ตฌ์„ฑ๋  ์ˆ˜ ์žˆ๋‹ค. ์–ด๋–ค ๋ฐ์ดํ„ฐ๋ฅผ ํŠน์ง•๊ณต๊ฐ„์˜ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒฝ์šฐ, ์—ฌ๋Ÿฌ ํŠน์ง• ๋ณ€์ˆ˜๊ฐ€ ํŠน์ง•๋ฒกํ„ฐ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด, ํŠน์ง• ๋ณ€์ˆ˜๊ฐ€ ํ•˜๋‚˜์ธ ๋ฐ์ดํ„ฐ๋Š” 1์ฐจ์› ํŠน์ง• ๊ณต๊ฐ„์— ๋‚˜ํƒ€๋‚˜๊ณ , ํŠน์ง• ๋ณ€์ˆ˜๊ฐ€ N๊ฐœ๋ผ๋ฉด N์ฐจ์›์˜ ํŠน์ง• ๊ณต๊ฐ„์— ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

d-์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ํŠน์ง• ๋ฒกํ„ฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œ์‹œ๋œ๋‹ค.

$$ x = (x_1, x_2, ..., x_d)^T $$

๐Ÿ’ก ๋ถ„์•ผ์— ๋”ฐ๋ฅธ ํ”ผ์ฒ˜๋ฒกํ„ฐ์˜ ์˜๋ฏธ

  • ์ปดํ“จํ„ฐ๋น„์ „(์ด๋ฏธ์ง€)์—์„œ์˜ ํŠน์ง•์€ edge, corner ๋“ฑ์„ ์˜๋ฏธํ•œ๋‹ค. ํ”ฝ์…€ ๊ฐ’์ด ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ™”ํ•˜๋Š” ๊ณณ, ๋ฐ๊ธฐ์˜ ๋ณ€ํ™”, ์ƒ‰์ƒ์˜ ๋ณ€ํ™”, ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ๋ฐฉํ–ฅ ๋“ฑ์˜ ๋งค์นญ ์ •๋ณด๋“ฑ์„ ํŠน์ง•์œผ๋กœ ์‚ผ๋Š”๋‹ค. SIFT, SURF ๋“ฑ์˜ ๋ฐฉ๋ฒ•์ด ์กด์žฌํ•œ๋‹ค.
  • ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(ํ…์ŠคํŠธ) ์—์„œ์˜ ํŠน์ง•์€ ๋‹จ์–ด, ํ˜•ํƒœ์†Œ, ์„œ๋ธŒ์›Œ๋“œ, ํ† ํฐ ๋“ฑ์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, BOW(Bag-of-Words)๋Š” ๋ฌธ์„œ์—์„œ ๋‹จ์–ด์˜ ๋ฐœ์ƒ์„ ์„ค๋ช…ํ•˜๋Š” ํ…์ŠคํŠธ์˜ ๋ฒกํ„ฐ ํ‘œํ˜„์ด๋‹ค. ๋งŒ์•ฝ 8๊ฐœ์˜ ๋‹จ์–ด๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฌธ์žฅ์„ BoW๋กœ ๋งŒ๋“ค๋ฉด, 8์ฐจ์›(dimension)์˜ vector๋กœ์„œ ํ•˜๋‚˜์˜ ๋‹จ์–ด๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์ •ํ˜•๋ฐ์ดํ„ฐ์—์„œ์˜ ํŠน์ง•์€ ๊ฐ attribute(์—ด)๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ํ‚ค, ๋‚˜์ด, ๊ตญ์  ๋“ฑ์ด ํŠน์ง•์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

References


#26

์ข‹์€ ๋ชจ๋ธ์˜ ์ •์˜๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

ํ•œ ์ค„๋กœ ์š”์•ฝํ•˜์ž๋ฉด, ์ข‹์€ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ์ž˜ ํ•™์Šตํ•œ ๋ชจ๋ธ๋กœ์„œ, ํ•œ๋ฒˆ๋„ ๋ณธ์  ์—†๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์˜ณ์€ ํŒ๋‹จ์„ ๋‚ด๋ฆฌ๋Š” ๋ชจ๋ธ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ์ด์œ ๋Š” ๊ธฐ๊ณ„๊ฐ€ ์‚ฌ๋žŒ ๋Œ€์‹  ์–ด๋– ํ•œ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๊ธฐ ์œ„ํ•จ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ์€ ๊ฒฐ์ •์„ ๋Œ€์‹ ํ•˜๋Š” ๊ธฐ๊ณ„, ๊ฒฐ์ •๊ธฐ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ด€์ ์—์„œ, ์ข‹์€ ๊ฒฐ์ •(์˜ณ์€ ๊ฒฐ์ •)์„ ๋‚ด๋ฆฌ๋Š” ๋ชจ๋ธ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋‹ค. ์ฃผ์–ด์ง„ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ๋œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์™€ ์กฐ๊ธˆ๋งŒ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ์ œ๋Œ€๋กœ ๋ถ„๋ฅ˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ์ƒํ™ฉ์ด ๋ฐœ์ƒ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™”๊ฐ€ ์ด๋ฃจ์–ด์ ธ, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋„ ์ ์ •ํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ๋“ค์–ด, ์˜ˆ์ธก์ด ๋ชฉ์ ์ด๋ผ๋ฉด, ์‹ค์ œ ์ •๋‹ต๊ณผ ์˜ˆ์ธก ๊ฐ’์˜ ์ฐจ์ด(loss, cost, error)๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์ข‹์€ ๋ชจ๋ธ์ด๋‹ค. ๋˜ํ•œ ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ๊ฐ€๋Šฅ์„ฑ(likelihood)์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ชจ๋ธ์ด ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

References


#27

50๊ฐœ์˜ ์ž‘์€ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๋Š” ํฐ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๋ณด๋‹ค ๊ดœ์ฐฎ์„๊นŒ์š”? ์™œ ๊ทธ๋ ‡๊ฒŒ ์ƒ๊ฐํ•˜๋‚˜์š”?

50๊ฐœ์˜ ์ž‘์€ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๋Š” ์•™์ƒ๋ธ”์—์„œ Bagging ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ Bagging์˜ ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์ธ Random Forest ๋ฐฉ๋ฒ•์ด ์™œ ์ข‹์€์ง€ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์™œ 50๊ฐœ์˜ ์ž‘์€ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๊ฐ€ ๋” ๋‚˜์€์ง€ ์„ค๋ช…ํ•˜๊ณ ์ž ํ•œ๋‹ค.

ํฐ ํŠธ๋ฆฌ๋Š” ์ž‘์€ ํŽธํ–ฅ(bias)์™€ ํฐ ๋ถ„์‚ฐ(variance)๋ฅผ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์—, ๋งค์šฐ ๊นŠ์ด ์„ฑ์žฅํ•œ ํŠธ๋ฆฌ๋Š” ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ณผ์ ํ•ฉ(overfitting)ํ•˜๊ฒŒ ๋œ๋‹ค. Random Forest ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋ฉด, ํŠธ๋ฆฌ๋“ค์˜ ํŽธํ–ฅ์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ, ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹/์—ฌ๋Ÿฌ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด ํ•™์Šตํ•˜๊ธฐ ๋–„๋ฌธ์— ๋ถ„์‚ฐ์„ ๊ฐ์†Œ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ํ•œ ๊ฐœ์˜ ๊ฒฐ์ •ํŠธ๋ฆฌ์˜ ๊ฒฝ์šฐ, train ๋ฐ์ดํ„ฐ์— ์žˆ๋Š” ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•ด ๋งค์šฐ ๋ฏผ๊ฐํ•˜์ง€๋งŒ, ์—ฌ๋Ÿฌ ํŠธ๋ฆฌ๋“ค์„ ๋งŒ๋“ค๋ฉด์„œ ํ‰๊ท ์„ ๋‚ด๋ฉด, ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•ด ๊ฐ•์ธํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ•˜๋‚˜์˜ ๊นŠ์€/ํฐ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๋ณด๋‹ค 50๊ฐœ์˜ ์ž‘์€ ์˜์‚ฌ๊ฒฐ์ • ๋‚˜๋ฌด๊ฐ€ ๋” ์ข‹์€ ๋ชจ๋ธ์„ ์™„์„ฑ์‹œํ‚จ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

Bagging(Bootstrap Aggregating)

Bagging์€ Bootstrap(๋ฐ˜๋ณต, ๋ณต์›์ถ”์ถœ)ํ•˜๊ณ , ์ด๋ฅผ Aggregation(์ง‘๊ณ„)ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์›๋ž˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ ์—ฌ๋Ÿฌ๊ฐœ์˜ ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹ N๊ฐœ๋ฅผ ์ƒ˜ํ”Œ๋งํ•ด์„œ ๋งŒ๋“ ๋‹ค์Œ, ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ž‘์€ ๋ชจ๋ธ N๊ฐœ๋กœ ํ•™์Šต์„ ์‹œํ‚จ๋‹ค. ๊ทธ ๋‹ค์Œ ํ•™์Šต๋œ N๊ฐœ์˜ ๋ชจ๋ธ์„ ๋ชจ๋‘ ํ•˜๋‚˜๋กœ ํ•ฉ์ณ์„œ ์ตœ์ข…์ ์ธ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์˜๋ฏธํ•œ๋‹ค. ๊ฒฐ๊ตญ, ๋ณ‘๋ ฌ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆ„์–ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ๋™์‹œ์— ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

Random Forest

Random Forest๋Š” ์—ฌ๋Ÿฌ ์˜์‚ฌ ๊ฒฐ์ • ๋‚˜๋ฌด๋ฅผ ์ƒ์„ฑํ•œ ํ›„์— ๋‹ค์ˆ˜๊ฒฐ(hard voting) ๋˜๋Š” ํ‰๊ท (soft voting)์— ๋”ฐ๋ผ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ฆ‰ ์˜์‚ฌ ๊ฒฐ์ • ๋‚˜๋ฌด์™€ bagging์„ ํ˜ผํ•ฉํ•œ ํ˜•ํƒœ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. Random Forest์˜ ํŠน์ง•์€ bootstrap์„ ์ด์šฉํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜์—ฌ ์ผ๋ถ€๋งŒ ํ•œ๋ฒˆ์˜ ํ•™์Šต์— ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ๋ง ๋ฐ ๋ณ€์ˆ˜ ์„ ํƒ์„ ํ†ตํ•ด ์˜์‚ฌ ๊ฒฐ์ • ๋‚˜๋ฌด์˜ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก์˜ ๋ณ€๋™์„ฑ์ด ์ค„์–ด๋“ค๊ณ , ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ์–ด ๊ฒฐ์ธก์น˜์— ๋Œ€ํ•ด ๊ฐ•๊ฑดํ•˜๋‹ค๋Š” ์žฅ์ ์„ ๊ฐ€์ง„๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ์˜์‚ฌ๊ฒฐ์ •๋‚˜๋ฌด์— ๋น„ํ•ด ์†๋„๊ฐ€ ํฌ๊ฒŒ ๋–จ์–ด์ง€๊ณ , ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ํ•ด์„์ด ์–ด๋ ต๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.

References


#28

์ŠคํŒธ ํ•„ํ„ฐ์— Logistic Regression์„ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ผ๊นŒ์š”?

์ŠคํŒธ ํ•„ํ„ฐ๋Š” ๋ฉ”์ผ์ด ์ŠคํŒธ ๋ฉ”์ผ์ธ์ง€ ์•„๋‹Œ์ง€์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜์—ฌ, ๋ฉ”์ผ์„ ๋ถ„๋ฅ˜(Classification) ํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค. ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ํšŒ๊ท€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ฒ”์ฃผ์— ์†ํ•  ํ™•๋ฅ ์„ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์˜ˆ์ธกํ•˜๊ณ  ๊ทธ ํ™•๋ฅ ์— ๋”ฐ๋ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋” ๋†’์€ ๋ฒ”์ฃผ์— ์†ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„๋ฅ˜(Classification)ํ•ด์ฃผ๋Š” ์ง€๋„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ํŠนํžˆ ์ž…๋ ฅ๊ฐ’์ด ์•„๋ฌด๋ฆฌ ํฌ๊ฑฐ๋‚˜ ์ž‘์•„๋„ 0์—์„œ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋งตํ•‘์‹œํ‚จ๋‹ค๋Š” ์ ์—์„œ ๋ถ„๋ฅ˜๋ฌธ์ œ์— ์ ํ•ฉํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๊ฐ€ ์ŠคํŒธํ•„ํ„ฐ์— ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค.

๋ถ„๋ฅ˜๋ฌธ์ œ์—์„œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๊ฐ€ ์ ์ ˆํ•œ ์ด์œ 

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜(sigmoid function) ๋ฅผ ํ†ตํ•ด ์„ ํ˜•ํ•จ์ˆ˜๋ฅผ 0๊ณผ 1 ์‚ฌ์ด์˜ ํ•จ์ˆ˜๋กœ ๋ฐ”๊พผ ๊ฒƒ์ด๋ฉฐ, S์ž ํ˜•ํƒœ๋ฅผ ๋ณด์ธ๋‹ค. ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์ •์˜๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

$$ S(x) = \frac{1}{1 + e^{-x}} = \frac{e^x}{e^x+1} $$

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์˜ ๊ฐ€์„คํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

$$ H(X) = \frac{1}{1 + e^{-(Wx+b)}} = sigmoid(Wx+b) = \sigma (Wx+b) $$

x๊ฐ’์ด ์•„๋ฌด๋ฆฌ +, -๋กœ ์ž‘์•„์ง€๊ฑฐ๋‚˜ ์ปค์ ธ๋„ ํ•ญ์ƒ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•œ๋‹ค. ํ™•๋ฅ ์€ 0์—์„œ 1์‚ฌ์ด์˜ ๋ฒ”์œ„ ๋‚ด์— ๋“ค์–ด์™€์•ผํ•˜๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ํ˜•ํƒœ๊ฐ€ ์ ํ•ฉํ•˜๋‹ค.

์ด๋ ‡๊ฒŒ H(x)์˜ ๊ฐ’์ด 0๊ณผ 1์‚ฌ์ด๋กœ ๋‚˜์˜ค๋ฉด, ์œ„์˜ Hypothesis ํ•จ์ˆ˜๋กœ regression์„ ํ•œ ๊ฒฐ๊ณผ๊ฐ’์ด threshold(ex.0.5) ์ด์ƒ์ธ ๊ฒฝ์šฐ์—” 1๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ , threshold ๋ณด๋‹ค ์ž‘์œผ๋ฉด 0์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋ฉด ๋˜๊ธฐ ๋–„๋ฌธ์ด๋‹ค.

๋ถ„๋ฅ˜๋ฌธ์ œ์—์„œ ์„ ํ˜•ํšŒ๊ท€๊ฐ€ ์ ํ•ฉํ•˜์ง€ ์•Š์€ ์ด์œ 

๊ทธ๋ฆผ1๊ณผ ๊ฐ™์ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค, ์ ์ ˆํ•œ ์ง€์ ์„ ๊ธฐ์ค€์œผ๋กœ ๋‘ ๊ทธ๋ฃน์œผ๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด๋•Œ ๊ทธ๋ฆผ2์˜ new ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒˆ๋กœ ๋“ค์–ด์™”๋‹ค๊ณ  ํ•ด๋ณด์ž. ๊ทธ๋ž˜ํ”„๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ new์˜ ์˜ํ–ฅ์„ ๋ฐ›์•„, ์•„๋ž˜๋กœ ๊ธฐ์šธ์–ด์ง„ ํ˜•ํƒœ๋กœ ์—…๋ฐ์ดํŠธ๋˜์–ด, ๊ทธ๋ฆผ3์˜ ๋ถ‰์€์ƒ‰ ๊ทธ๋ž˜ํ”„ ํ˜•ํƒœ๊ฐ€ ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด, ์›๋ž˜๋Š” 1๋กœ ์ž˜ ๋ถ„๋ฅ˜๋˜๋˜ ๊ฒƒ๋“ค์˜ ์˜ˆ์ธก๊ฐ’์ด ๊ธฐ์กด threshold ์•„๋ž˜๋กœ ๋‚ด๋ ค๊ฐ€๊ฒŒ๋˜์–ด, 0์œผ๋กœ ๋ถ„๋ฅ˜๋˜์–ด๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

์„ ํ˜•ํšŒ๊ท€ ํ•จ์ˆ˜๋Š” ์–ด๋–ค ์ž…๋ ฅ๊ฐ’์ด ๋“ค์–ด์˜ค๋Š๋ƒ์— ๋”ฐ๋ผ 0๊ณผ 1 ์‚ฌ์ด์˜ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๊ธฐ๋„ ํ•œ๋‹ค.

๋˜ํ•œ, H(x) = 100x๋ผ๋Š” ๊ฐ€์„คํ•จ์ˆ˜(Hypothesis function)์ด ์žˆ๋‹ค๊ณ  ํ•˜์ž. x๊ฐ€ 0.01 ์ด์ƒ์ธ ๊ฒฝ์šฐ๋Š” ๋ชจ๋‘ 1๋กœ x๊ฐ€ 0 ์ดํ•˜์ธ ๊ฒฝ์šฐ๋Š” ๋ชจ๋‘ 0์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด์ฒ˜๋Ÿผ x๊ฐ’์— ๋„ˆ๋ฌด ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋Š” ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค. ์—ฐ์‚ฐ์ƒ์œผ๋กœ๋Š” ๋งค์šฐ ์ž‘์€ ๊ฐ’๋งŒ ๋ฐ”๋€Œ์–ด๋„ ์•„์˜ˆ ๋ถ„๋ฅ˜์ž์ฒด๊ฐ€ ๋ฐ”๋€Œ์–ด๋ฒ„๋ฆฐ๋‹ค.

๋” ๋‚˜์•„๊ฐ€, ์„ ํ˜•๋ชจ๋ธ์€ ํ™•๋ฅ ์ด ์•„๋‹Œ, ์ ๋“ค์˜ ๋ณด๊ฐ„(interpolate)๋งŒ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋ฏ€๋กœ ํ™•๋ฅ ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์—†๋‹ค. ์˜ˆ์ธก๊ฐ’์ด ํ™•๋ฅ ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ํ•œ ํด๋ž˜์Šค์™€ ๋‹ค๋ฅธ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” ์˜๋ฏธ ์žˆ๋Š” ์ž„๊ณ„๊ฐ’์ด ์—†๋‹ค. ๋˜ํ•œ ๋‹ค์ค‘ ํด๋ž˜์Šค๋ฅผ ๊ฐ€์ง€๋Š” ๋ถ„๋ฅ˜๋ฌธ์ œ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์—†๋‹ค๋Š” ๋ฌธ์ œ์ ๋„ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ๋“ค ๋•Œ๋ฌธ์—, ๋ถ„๋ฅ˜๋ฌธ์ œ์—์„œ ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์€ ์ ํ•ฉํ•˜์ง€ ๋ชปํ•˜๋‹ค.

References


#29

OLS(ordinary least square) Regression์˜ ๊ณต์‹์€ ๋ฌด์—‡์ธ๊ฐ€์š”?

์ตœ์†Œ์ž์Šน๋ฒ•(OLS, Ordinary Least Squares) ์ด๋ž€, ์‚ฐ์ ๋„๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆด๋•Œ, ์ด ๋ฐ์ดํ„ฐ๋“ค์˜ ๊ฒฝํ–ฅ์„ ์•Œ๊ธฐ ์œ„ํ•œ ์ตœ์ ์˜ ์ถ”์„ธ์„ ์„ ๊ทธ๋ฆฌ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค. OLS๋Š” ๊ทผ์‚ฌ์ ์œผ๋กœ ๊ตฌํ•˜๋ ค๋Š” ํ•ด์™€ ์‹ค์ œ ํ•ด์˜ ์˜ค์ฐจ์˜ ์ œ๊ณฑ์˜ ํ•ฉ์ด ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ํ•ด๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

OLS Regression์€ ํšŒ๊ท€๋ฅผ ํ†ตํ•ด์„œ ๋ฐฉ์ •์‹์˜ ์ƒ์ˆ˜ ๊ฐ’๋“ค์„ ์ถ”์ •ํ•˜๋Š” ๋ฐ์— ์‚ฌ์šฉ๋œ๋‹ค. n๊ฐœ์˜ ์ž…๋ ฅ๊ฐ’๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ์ถœ๋ ฅ๊ฐ’ $(x_i, y_i)(1\leq i\leq n)$์ด ์žˆ๊ณ , ์ด ๊ณ„์˜ ๋ฐฉ์ •์‹์ด ๋ณ€์ˆ˜ $x$์™€ $\beta=(\beta_0, \beta_1, \cdots , \beta_k )$์ธ ์ƒ์ˆ˜ $\beta$์— ๋Œ€ํ•œ ์‹ $f(x, \beta)$์œผ๋กœ ์ฃผ์–ด์งˆ ๋•Œ, $\sum_i(y_i - f(x_i, \beta))^{2}$ ์˜ ๊ฐ’์„ ์ตœ์†Œ๋กœ ๋งŒ๋“œ๋Š” $\beta$๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ๋ฌธ์ œ์˜ ๋ชฉํ‘œ์ด๋‹ค.

์ถ”์ •ํ•˜๊ณ ์ž ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ฮฒ์— ๋Œ€ํ•œ ํ‘œํ˜„์‹์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

$$ {\hat {\beta}}=(\mathbf {X}^{\rm {T}}\mathbf {X})^{-1}\mathbf {X}^{\rm {T}}\mathbf {y} = {\big (} ~ {\textstyle \sum }\mathbf x_i \mathbf x_i^{\rm {T}},{\big )}^{-1}{\big (} ~ {\textstyle \sum }\mathbf x_i y_i ~ {\big)} $$

์˜ˆ๋ฅผ๋“ค์–ด, 7๊ฐœ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝํ–ฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ถ”์„ธ์„ ์„ ๊ทธ๋ฆผ2์™€ ๊ฐ™์ด ๊ทธ๋ ธ๋‹ค๊ณ  ํ•˜์ž. ์ด๋•Œ ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ y๊ฐ’(์‹ค์ œ๊ฐ’)๊ณผ ์ถ”์„ธ์„ ์˜ y๊ฐ’(์˜ˆ์ธก๊ฐ’)์˜ ์ฐจ๋ฅผ ์ž”์ฐจ(Residual) ๋ผ๊ณ  ํ•œ๋‹ค. (์•„๋ž˜ ๊ทธ๋ž˜ํ”„์—์„œ ์ž”์ฐจ๋Š” ์ ์„ ์œผ๋กœ ํ‘œ์‹œ) ์ตœ์†Œ์ž์Šน๋ฒ•์€ ์ด ์ž”์ฐจ์˜ ์ œ๊ณฑ์˜ ํ•ฉ(RSS, Residual Sum of Squares)์„ ์ตœ์†Œ๋กœ ํ•˜๋Š” (๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ๋ฅผ ๊ตฌํ•˜๋Š”) ๋ฐฉ๋ฒ•์ด๋‹ค. ์ž”์ฐจ ์ œ๊ณฑ์˜ ํ•ฉ์€ ๊ทธ๋ฆผ3์˜ TOTAL AREA์— ํ•ด๋‹นํ•˜๋Š” ๋„“์ด์™€ ๊ฐ™๋‹ค.

์ž”์ฐจ ์ œ๊ณฑ์˜ ํ•ฉ์„ ๊ตฌํ•˜๋Š” ์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

ํŒŒ๋ž€์ƒ‰ ์ถ”์„ธ์„ ๋ณด๋‹ค ๋ณด๋ผ์ƒ‰ ์ถ”์„ธ์„ ์˜ ์ž”์ฐจ์ œ๊ณฑ์˜ ํ•ฉ์ด ๋” ์ž‘๋‹ค. ๋”ฐ๋ผ์„œ ํŒŒ๋ž€์ƒ‰ ์ถ”์„ธ์„ ๋ณด๋‹ค ๋ณด๋ผ์ƒ‰ ์ถ”์„ธ์„ ์ด ์œ„ 7๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ํ‘œํ˜„ํ•ด์ฃผ๋Š” ์ถ”์„ธ์„ ์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ž”์ฐจ ์ œ๊ณฑ์˜ ํ•ฉ์„ ์ตœ์†Œ๋กœ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ตœ์†Œ์ž์Šน๋ฒ•์ด๋ฉฐ, ์ตœ์†Œ์ž์Šน๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์„ ํ˜• ํšŒ๊ท€์„ ์„ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ’ก OLS vs. MSE

  • OLS(Ordinary Least Square): ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ ์„ ํšก ์ตœ์†Œ ์ œ๊ณฑ๋ฒ•, ๋ชจ๋ธ์„ ๋งŒ๋“ค๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.
  • MSE(Mean Square Error): ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€ ์ง€ํ‘œ, ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•  ๋•Œ ์‚ฌ์šฉํ•œ๋‹ค.

References