Potato
์•ˆ๋…•ํ•˜์„ธ์š”, ๊ฐ์žก๋‹ˆ๋‹ค?๐Ÿฅ” ^___^ ๐Ÿ˜บ github ๋ฐ”๋กœ๊ฐ€๊ธฐ ๐Ÿ‘‰๐Ÿป

AI study/์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (NLP)

[NLP] ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ๋ฒ• / NLP์—์„œ์˜ ์ง€๋„ํ•™์Šต

๊ฐ์ž ๐Ÿฅ” 2021. 7. 16. 07:46
๋ฐ˜์‘ํ˜•

-- ๋ณธ ํฌ์ŠคํŒ…์€ ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (ํ•œ๋น›๋ฏธ๋””์–ด) ์ฑ…์„ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑ๋œ ๊ธ€์ž…๋‹ˆ๋‹ค.

 

1. ์ง€๋„ํ•™์Šต

์ง€๋„ํ•™์Šต์ด๋ž€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ฃผ์ž…๋˜๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์— ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ๊ฐ’)์ด ํฌํ•จ๋˜์–ด ์žˆ๋Š” ๋ฐฉ์‹์„ ๋งํ•œ๋‹ค. 

1.1 NLP์—์„œ์˜ ์ง€๋„ ํ•™์Šต

๋ฌธ์„œ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ์„ ์˜ˆ์‹œ๋กœ ๋“ ๋‹ค๋ฉด, ํ›ˆ๋ จ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์€ ๋ฌธ์„œ๊ฐ€ ๋  ๊ฒƒ์ด๊ณ , ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ)์€ ๋ฒ”์ฃผํ˜• ๋ ˆ์ด๋ธ”์ด ๋  ๊ฒƒ์ด๋‹ค. ๊ธฐ๊ณ„๋ฒˆ์—ญ์„ ์˜ˆ์‹œ๋กœ ๋“ ๋‹ค๋ฉด ํ›ˆ๋ จ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์€ ํ•œ ์–ธ์–ด์˜ ๋ฌธ์žฅ, ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ)์€ ๋‹ค๋ฅธ ์–ธ์–ด์˜ ๋ฌธ์žฅ์ด ๋  ๊ฒƒ์ด๋‹ค.

1.2 ์ง€๋„ํ•™์Šต์˜ ํ”„๋ ˆ์ž„ ์›Œํฌ

์ง€๋„ํ•™์Šต์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ทธ๋ ค๋ณธ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ชจ๋ธ์„ ๊ทœ์ •ํ• ๋•Œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์†์‹คํ•จ์ˆ˜๋Š” ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ตฌํ•ด์ง„ ์˜ˆ์ธก๋œ ๊ฐ’์ด ์‹ค์ œ ํƒ€๊ฒŸ๊ณผ ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€, ๋จผ์ง€๋ฅผ ๋น„๊ตํ•˜๋Š” ํ•จ์ˆ˜์ธ๋ฐ, ์ด๋ฅผ 'loss(์†์‹ค)'์ด๋ผ๊ณ  ํ•œ๋‹ค. ์ด loss๊ฐ’์„ ์ตœ์†Œ๋กœ ํ•˜๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•ด์•ผ๋งŒ ํ•œ๋‹ค.

2. ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹

2.1 ์ธ์ฝ”๋”ฉ

๋”ฅ๋Ÿฌ๋‹/๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” data๋ฅผ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•ด์•ผ ํ•œ๋‹ค. NLP์—์„œ๋Š” ์œ„์— ๋ณด์ด๋Š” ํ”„๋ ˆ์ž„ ์›Œํฌ์— ์ž…๋ ฅ๊ฐ’์ด ๋˜๋Š” data(์ƒ˜ํ”Œ+ํƒ€๊ฒŸ)์— ํ…์ŠคํŠธ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ž…๋ ฅ๋  ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ 'ํƒ€๊ฒŸ'๊ณผ '์ƒ˜ํ”Œ'์ด ๋  ์ˆ˜๋งŽ์€ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ •ํ˜•ํ™”๋œ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€๊ฒฝํ•ด์ฃผ์–ด์•ผ ํ•œ๋‹ค. '์ •๋ณด์˜ ํ˜•์‹์„ ๋ณ€ํ™˜ํ•˜๋Š” ์ฒ˜๋ฆฌ ๋ฐฉ์‹'์„ ์ธ์ฝ”๋”ฉ์ด๋ผ๊ณ  ํ•˜๊ณ  ์šฐ๋ฆฌ๋Š” ์ด ๊ณผ์ •์„ ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

2.2 ์›ํ•ซ์ธ์ฝ”๋”ฉ (one-hot encoding)

์›ํ•ซ ์ธ์ฝ”๋”ฉ์ด๋ž€, ํ…์ŠคํŠธ๋ฅผ 0 ๋˜๋Š” 1๋กœ ํ‘œํ˜„ํ•˜๋Š” ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์ด๋‹ค. ๋‹จ์–ด์˜ ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๋ฅผ ๋ฒกํ„ฐ์˜ ์ฐจ์›์œผ๋กœ ํ•˜๊ณ , ํ‘œํ˜„ํ•˜๊ณ  ์‹ถ์€ ๋‹จ์–ด์˜ ์ธ๋ฑ์Šค์— 1์„, ๋‚˜๋จธ์ง€ ๋‹จ์–ด์˜ ์ธ๋ฑ์Šค๋ฅผ 0์œผ๋กœ ์ง€์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜ ์˜ˆ์‹œ๋กœ ์„ค๋ช…ํ•ด ๋ณด๋ฉด,

I like apple.
I like banana.

์ด๋ ‡๊ฒŒ ๋‘ ๋ฌธ์žฅ์„ ํ† ํฐ*์œผ๋กœ ๋‚˜๋ˆ„๊ณ  ํ‘œํ˜„ํ•ด๋ณด๋ฉด, 

{i, like, apple, banana}

์ด๋ ‡๊ฒŒ ํฌ๊ธฐ๊ฐ€ 4์ธ ์–ดํœ˜ ์‚ฌ์ „์ด ์ƒ์„ฑ๋œ๋‹ค. 
์ด๋ ‡๊ฒŒ ์–ดํœ˜ ์‚ฌ์ „์œผ๋กœ ํ‘œํ˜„๋๋‹ค๋ฉด, ์ด ์–ดํœ˜ ์‚ฌ์ „์„ '4์ฐจ์› ๋ฒกํ„ฐ'๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. 

๊ฐ ๋‹จ์–ด๊ฐ€ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, "I like apple" ๋ฌธ์žฅ์„ ์›ํ•ซ์ธ์ฝ”๋”ฉ ํ•˜๊ฒŒ ๋˜๋ฉด, 3x4 ํ˜•ํƒœ์˜ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„๋  ๊ฒƒ์ด๋‹ค.

# I like apple ์›ํ•ซ์ธ์ฝ”๋”ฉ
[[1, 0, 0, 0],
[0, 1, 0, 0],
[0, 0, 1, 0]]

ํ•˜์ง€๋งŒ ์–ดํœ˜์‚ฌ์ „์„ ์‚ดํŽด๋ณด๋ฉด, like๋Š” ๋ฌด์กฐ๊ฑด ๋™์ผ ๋‹จ์–ด๋ผ๊ณ  ์ƒ๊ฐ๋˜์–ด ์–ดํœ˜์‚ฌ์ „์— 'ํ•˜๋‚˜'๋งŒ ๋“ค์–ด๊ฐ€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ like๋Š” ์ข‹์•„ํ•œ๋‹ค ์˜ ์˜๋ฏธ์™€, ~์™€ ๊ฐ™์€ ๋“ฑ ํ•œ ๋‹จ์–ด์— ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋œป์„ ๊ฐ€์ง„ ๋‹ค์˜์–ด ์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ์›ํ•ซ์ธ์ฝ”๋”ฉ์€ ๋‹ค์˜์–ด์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ๋ถˆ๋ถ„๋ช…ํ•˜๊ณ , like๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์žฅ์˜ ๋ฌธ๋งฅ์„ ํŒŒ์•… ํ•  ์ˆ˜ ์—†๋‹ค๋Š” ๋‹จ์ ์ด ๋ถ„๋ช…ํžˆ ์กด์žฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๊ณ , ํ•ด๋‹น ๋‹จ์–ด์˜ ๋œป์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์€ ์š”์ฆ˜ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค, ์ด๋Š” ์ถ”ํ›„ ์ถ”๊ฐ€๋กœ ๊ณต๋ถ€ํ•˜๋ฉด์„œ ๋‹ค๋ค„๋ณด๊ธฐ๋กœ ํ•˜์ž.

 

2.3 TF ํ‘œํ˜„

TF ํ‘œํ˜„์€ Term Frequency์˜ ์ค„์ž„๋ง๋กœ ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ(๋ฌธ์žฅor๋ง๋ญ‰์น˜)์— ๋“ฑ์žฅํ•˜๋Š” ํšŸ์ˆ˜๋ฅผ ํ™œ์šฉํ•œ ํ‘œํ˜„ ๋ฐฉ์‹์ด๋‹ค. 

from sklearn.feature_extraction.text import CountVectorizer
import seaborn as sns

corpus = ['I like apple',
         'I like banana']
one_hot_vectorizer = CountVectorizer(binary = True)
one_hot = one_hot_vectorizer.fit_transform(corpus).toarray()
vocab = one_hot_vectorizer.get_feature_names()
sns.heatmap(one_hot, annot = True,
           cbar = False, xticklabels = vocab,
           yticklabels = ['Sentence1', 'Sentence2'])

์ฒซ๋ฒˆ์งธ ๋ฌธ์žฅ์—์„œ๋Š” banana๊ฐ€ ๋“ฑ์žฅํ•˜์ง€ ์•Š์•„์„œ 0์ด ์ถœ๋ ฅ๋๊ณ , ๋‘๋ฒˆ์จฐ๋Š” apple์ด 0์ด๋‹ค.

2.4 TF-IDF 

TF๋Š” Term Frequency ์˜ ์ค„์ž„๋ง์ด๊ณ , IDF๋Š” Inverse Document Frequency ์˜ ์ค„์ž„๋ง์ด๋‹ค. ๋ง๊ทธ๋Œ€๋กœ idf๋Š” '์—ญ๋ฌธ์„œ ๋นˆ๋„'๋ฅผ ์˜๋ฏธํ•œ๋‹ค. 

TF๋Š” ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํšŸ์ˆ˜์— ๋น„๋ก€ํ•˜๊ฒŒ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๊ฒŒ ๋˜์–ด์žˆ๋‹ค. ํ•˜์ง€๋งŒ, ํ•œ ๋ฌธ์žฅ์ด ์•„๋‹ˆ๋ผ, '๋ฌธ์„œ ์ „์ฒด'๋ฅผ ๋ณธ๋‹ค๋ฉด, ์•„์ฃผ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๋ง ๋ณด๋‹ค๋Š”, ์ ๊ฒŒ ๋“ฑ์žฅํ•˜์ง€๋งŒ, ์•„์ฃผ ํ•ต์‹ฌ์ ์ธ ์˜๋ฏธ๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์ด ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ง๊ทธ๋Œ€๋กœ IDF๋Š” ํ”ํ•œ ํ† ํฐ์˜ ์ ์ˆ˜๋ฅผ ๋‚ฎ๊ฒŒ, ๋“œ๋ฌผ๊ฒŒ ๋“ฑ์žฅํ•˜๋Š” ํ† ํฐ์˜ ์ ์ˆ˜๋Š” ๋†’๊ฒŒ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ์‹์„ ๋งํ•œ๋‹ค.

ํ† ํฐ w์˜ IDF๋Š” ์•„๋ž˜ ๊ณต์‹์œผ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. (log๋ฅผ ์ทจํ•ด์ค€ ์ด์œ ๋Š”, ๋นˆ๋„์ˆ˜๊ฐ€ ์ปค์ง€๋ฉด ์ˆ˜๊ฐ€ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์ปค์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์Šค์ผ€์ผ ์กฐ์ •์„ ์ด์œ ๋กœ log๋ฅผ ์ทจํ•ด์ฃผ์—ˆ๋‹ค๊ณ  ๊ฐ„๋‹จํ•˜๊ฒŒ ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.)

TF-IDF๋Š” TF(w)์™€ IDF(w)๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.
์ด ๊ณต์‹์œผ๋กœ๋ถ€ํ„ฐ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋ชจ๋“  ๋ฌธ์„œ์—์„œ ๋น ์ง์—†์ด ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋Š” (N = nw) ๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์— IDF(w)๊ฐ€ 0์ด ๋œ๋‹ค. ๋”ฐ๋ผ์„œ TF-IDF ์ ์ˆ˜๋„ 0์ด ๋˜๊ฒŒ ๋œ๋‹ค. ๋ฐ˜๋ฉด์— ๋‹จ์–ด๊ฐ€ ๋“œ๋ฌผ๊ฒŒ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด์ผ ๊ฒฝ์šฐ, ํŠนํžˆ w๋ฅผ ํฌํ•จํ•˜๋Š” ๋ฌธ์„œ๊ฐ€ ๋”ฑ ํ•œ ๊ฐœ์ผ ๊ฒฝ์šฐ๋Š” IDF ์ตœ๋Œ“๊ฐ’์€ logN์ด ๋  ๊ฒƒ์ด๋‹ค.

์•„๋ž˜๋Š” sklearn์„ ํ™œ์šฉํ•˜์—ฌ TF-IDF๋ฅผ ๋งŒ๋“ค์–ด๋ณธ ์ฝ”๋“œ ์˜ˆ์‹œ์ด๋‹ค. (ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด์ฒ˜๋ฆฌ p.26)

from sklearn.feature_extraction.text import TfidfVectorizer
import seaborn as sns

tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(corpus).toarray()
sns.heatmap(tfidf, annot= True, cbar = False,
           xticklabels = vocab, yticklabels = ['sentence1', 'sentence2'])

--> like๋Š” sentence1, sentence2 ๋‘๊ฐœ์—์„œ ๋ชจ๋‘ ๋“ฑ์žฅํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— tfidf๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ๊ฒŒ ๋‚˜์™”๊ณ , ์œ ๋‹ˆํฌํ•œ ๋‹จ์–ด์ธ apple๊ณผ banana๋Š” tfidf๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋†’๊ฒŒ ์ถœ๋ ฅ๋˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

์•ž์˜ ์ฝ”๋“œ๋ฅผ ๋ณด์•˜๋“ฏ์ด, sklearn์—์„œ๋Š” tfidf๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฉ”์„œ๋“œ๊ฐ€ ๋”ฐ๋กœ ์กด์žฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ํŽธํ•˜๊ฒŒ ์ธ์ฝ”๋”ฉ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. sklearn์—์„œ ์ˆ˜ํ–‰๋˜๋Š” IDF์˜ ๊ณ„์‚ฐ ๊ณผ์ •์„ ์‚ดํŽด๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

๋ถ„๋ชจ์™€ ๋ถ„์ž์— 1์„ ๋”ํ•ด ๋ถ„๋ชจ๊ฐ€ 0์ด ๋˜๋Š” ์ƒํ™ฉ์„ ๋ฐฉ์ง€ํ•œ๋‹ค. ๋˜ํ•œ ๋งˆ์ง€๋ง‰์— 1์„ ๋”ํ•ด์„œ ๋ชจ๋“  ๋ฌธ์„œ์— ํฌํ•จ๋œ ๋‹จ์–ด๊ฐ€ ์žˆ์„ ๋•Œ IDF๊ฐ€ 0์ด ๋˜์ง€ ์•Š๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์‹์ด๋‹ค. 

sklearn์—์„œ ๊ณ„์‚ฐํ•˜๋Š” IDF๋ฅผ ํŒŒ์ด์ฌ์œผ๋กœ ๊ตฌํ˜„ํ•ด๋ณด๋Š” ๋ฐฉ๋ฒ•์€ ์•„๋ž˜ ์œ„ํ‚ค๋…์Šค ๋ฌธ์„œ์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์ฐธ๊ณ ) https://wikidocs.net/31698

 

์œ„ํ‚ค๋…์Šค

์˜จ๋ผ์ธ ์ฑ…์„ ์ œ์ž‘ ๊ณต์œ ํ•˜๋Š” ํ”Œ๋žซํผ ์„œ๋น„์Šค

wikidocs.net

2.5 ํƒ€๊ฒŸ์ธ์ฝ”๋”ฉ (Target Encoding)

๋ผ๋ฒจ์ธ์ฝ”๋”ฉ, ์›ํ•ซ์ธ์ฝ”๋”ฉ๊ณผ ๊ฐ™์ด ๊ฐ ๊ฐ’์— ์ˆซ์ž(์ธ๋ฑ์Šค)๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ์‹์˜ ์ธ์ฝ”๋”ฉ ๋ฐฉ๋ฒ•์˜ ๋‹จ์ ์€, ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ์ธ์‹ํ• ๋•Œ ๋ฒ”์ฃผํ˜•์˜ ์˜๋ฏธ๋ฅผ ๋‹ด์€ ์ˆซ์ž(์ธ๋ฑ์Šค)๊ฐ€ ์•„๋‹ˆ๋ผ, ํ•ด๋‹น ์ˆ˜์˜ ํฌ๊ธฐ, ํ•ด๋‹น ์ˆ˜์˜ ์ˆœ์„œ ๋“ฑ์„ ๊ณ ๋ คํ•˜๊ฒŒ ๋  ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋œ๋‹ค๋ฉด ๋ผ๋ฒจ์ธ์ฝ”๋”ฉ, ์›ํ•ซ์ธ์ฝ”๋”ฉ์˜ ๋ชฉ์  ์ž์ฒด๋ฅผ ์žƒ์–ด๋ฒ„๋ฆฌ๊ฒŒ ๋œ๋‹ค. ๋˜ํ•œ ๋ ˆ์ด๋ธ” ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง€๋ฉด ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ๊ธฐ๋„ ํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ๋“ฑ์žฅํ•œ๊ฒŒ TF ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹๊ณผ ํƒ€๊ฒŸ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์ด๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ NLP ๋ฌธ์ œ์—์„œ๋Š” ๋ฒ”์ฃผํ˜• ๋ ˆ์ด๋ธ”์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋ชจ๋ธ์€ ๊ณ ์ •๋œ ํ•œ ์„ธํŠธ์˜ ๋ ˆ์ด๋ธ” ์ค‘ ํ•˜๋‚˜๋ฅผ ์˜ˆ์ธกํ•ด์•ผ ํ•œ๋‹ค.  ์ผ๋ถ€ NLP๋ฌธ์ œ๋Š” ์–ด๋–ค ์ˆ˜ํ•„์— ์ˆซ์ž ๋“ฑ๊ธ‰์„ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ํ•ด๋‹น ๋ฌธ์„œ๋ฅผ ์ฝ์„ ์—ฐ๋ น๋Œ€๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ๋ฆฌ๋ทฐ์˜ ํ‰์ ์„ ์˜ˆ์ธกํ•ด์•ผํ•˜๋Š” ๋“ฑ ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ์—์„œ ์ˆ˜์น˜๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿด๋•Œ๋Š” ์ˆ˜์น˜ ํƒ€๊ฒŸ์„ ์ธ์ฝ”๋”ฉํ•˜๋Š” 'ํƒ€๊ฒŸ์ธ์ฝ”๋”ฉ'์ด ์ ํ•ฉํ•œ ๋ฐฉ๋ฒ•์ผ ๊ฒƒ์ด๋‹ค.

๊ฐ„๋‹จํ•˜๊ฒŒ ํƒ€๊ฒŸ์„ '0-18'', '19-25', '25-30'๊ณผ ๊ฐ™์€ ๋ฒ”์ฃผํ˜• ๊ตฌ๊ฐ„์œผ๋กœ ๋ฐ”๊พธ๊ณ , ์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ํ˜น์€, ๊ฐ’์˜ ํ‰๊ท ๊ฐ’์œผ๋กœ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ค„ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ๋‹ค. 

ํƒ€๊ฒŸ์ธ์ฝ”๋”ฉ์˜ ์˜ˆ์‹œ๋Š” ์•„๋ž˜ ์ฐธ๊ณ ๊ธ€์—์„œ ์ž์„ธํ•œ ์˜ˆ์‹œ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ฐธ๊ณ ) https://eda-ai-lab.tistory.com/569

 

๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์˜ ์ธ์ฝ”๋”ฉ ๋ฐฉ๋ฒ•

์ •ํ˜• ๋ฐ์ดํ„ฐ์—์„œ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋˜๊ฒŒ ๊นŒ๋‹ค๋กญ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ œ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋“ค์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜๊ณ  ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ณ ์žˆ๋Š”์ง€์— ๋Œ€ํ•ด ์ž‘์„ฑํ•ด๋ณด๋„๋ก ํ•˜

eda-ai-lab.tistory.com

 

๋ฐ˜์‘ํ˜•