Potato
์•ˆ๋…•ํ•˜์„ธ์š”, ๊ฐ์žก๋‹ˆ๋‹ค?๐Ÿฅ” ^___^ ๐Ÿ˜บ github ๋ฐ”๋กœ๊ฐ€๊ธฐ ๐Ÿ‘‰๐Ÿป
๋ฐ˜์‘ํ˜•

AI study/์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (NLP) 14

[NLP] ํ’ˆ์‚ฌํƒœ๊น… (pos-tagging) / ๋ถ€๋ถ„๊ตฌ๋ฌธ๋ถ„์„(chunking) / ๊ฐœ์ฒด๋ช… ์ธ์‹(NER)

-- ๋ณธ ํฌ์ŠคํŒ…์€ ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (ํ•œ๋น›๋ฏธ๋””์–ด) ์ฑ…๊ณผ ์œ„ํ‚ค๋…์Šค๋ฅผ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑ๋œ ๊ธ€์ž…๋‹ˆ๋‹ค. 1. NLP์˜ ๋ถ„๋ฅ˜ ๋ฌธ์ œ ๋ฌธ์„œ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…์ด NLP ๋ถ„์•ผ์˜ ์ดˆ๊ธฐ ์‘์šฉ๋ถ„์•ผ ์ค‘ ํ•˜๋‚˜์ด๋‹ค. TF-IDF๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋ฌธ์„œ๋‚˜ ๋ฌธ์žฅ๊ฐ™์€ ๊ธด ํ…์ŠคํŠธ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์œ ์šฉํ•˜๋‹ค. Topic ๋ ˆ์ด๋ธ” ํ• ๋‹น, ๋ฆฌ๋ทฐ์˜ ๊ฐ์„ฑ ์˜ˆ์ธก, ์ŠคํŒธ ๋ฉ”์ผ ํ•„ํ„ฐ๋ง, ์–ธ์–ด ์‹๋ณ„, ์ด๋ฉ”์ผ ๋ถ„๋ฅ˜ ์ž‘์—…์€ ์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ๋ฌธ์„œ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์ž„ 2. ๋‹จ์–ด ๋ถ„๋ฅ˜ํ•˜๊ธฐ โ–ถ ํ’ˆ์‚ฌํƒœ๊น… (POS-tagging) ํ’ˆ์‚ฌํƒœ๊น…์€ ํ˜•ํƒœ์†Œ๋ฅผ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜ ํ˜•ํƒœ์†Œ์— ํ’ˆ์‚ฌ๋ฅผ ๋ถ™์ด๋Š” ์ž‘์—… ํ’ˆ์‚ฌ์˜ ๊ตฌ๋ถ„์€ ์‚ฌ๋žŒ๋งˆ๋‹ค, ์–ธ์–ด๋งˆ๋‹ค, ํ•™์ž๋งˆ์ž, ์•Œ๊ณ ๋ฆฌ์ฆ˜๋งˆ๋‹ค ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. 1. spaCy๋ฅผ ํ™œ์šฉํ•œ ํ’ˆ์‚ฌํƒœ๊น… import spacy nlp = spacy.load('en') do..

[NLP] ํ‘œ์ œ์–ด์ถ”์ถœ(lemmatization)๊ณผ ์–ด๊ฐ„์ถ”์ถœ(stemming)

-- ๋ณธ ํฌ์ŠคํŒ…์€ ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (ํ•œ๋น›๋ฏธ๋””์–ด) ์ฑ…๊ณผ ์œ„ํ‚ค๋…์Šค๋ฅผ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑ๋œ ๊ธ€์ž…๋‹ˆ๋‹ค. -- ์ฐธ๊ณ ๋ฌธ์„œ๋Š” ๋งํฌ๋กœ ์ฒจ๋ถ€ํ•ด ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. โ–ถ ํ‘œ์ œ์–ด์™€ ์–ด๊ฐ„ ํ‘œ์ œ์–ด = ๋‹จ์–ด์˜ ๊ธฐ๋ณธํ˜• ๋™์‚ฌ 'fly'์˜ ๋ณ€ํ˜•๋œ ํ˜•ํƒœ → flow, flew, flies, flown, flowing... ์–ด๋ฏธ๊ฐ€ ๋ณ€ํ•˜๋ฉด์„œ ์—ฌ๋Ÿฌ ๋‹จ์–ด๋กœ ๋ณ€ํ˜• ์ด ๋ชจ๋“  ๋‹จ์–ด์˜ ํ‘œ์ œ์–ด๋Š” fly ํ•˜๋‚˜ 1. ํ‘œ์ œ์–ด ์ถ”์ถœ (Lemmatization) ํ‘œ์ œ์–ด ์ถ”์ถœ์€ ๋‹จ์–ด๋“ค์ด ๋‹ค๋ฅธ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋”๋ผ๋„, ๊ทธ ๋ฟŒ๋ฆฌ ๋‹จ์–ด๋ฅผ ์ฐพ์•„๊ฐ€์„œ ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด am, are, is ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋‹จ์–ด ์ด์ง€๋งŒ, be ๋™์‚ฌ ํ•˜๋‚˜๋กœ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค. ํ‘œ์ œ์–ด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฐ€์žฅ ์„ฌ์„ธํ•œ ๋ฐฉ๋ฒ•์€ ํ˜•ํƒœํ•™์  ํŒŒ์‹ฑ์„ ๋จผ์ € ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰ 'ํ˜•ํƒœ..

[NLP] ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๊ธฐ์ดˆ / ๋ง๋ญ‰์น˜, ํ† ํฐํ™”, n-gram

- ๋ณธ ํฌ์ŠคํŒ…์€ ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (ํ•œ๋น›๋ฏธ๋””์–ด) ์ฑ…์„ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑ๋œ ๊ธ€์ž…๋‹ˆ๋‹ค. 1. ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์„ฑ ๋ง๋ญ‰์น˜ (corpus, ์ฝ”ํผ์Šค) = ์ผ๋ฐ˜์ ์ธ ์›์‹œํ…์ŠคํŠธ์™€ ์ด ํ…์ŠคํŠธ์— ์—ฐ๊ด€๋ค ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ๊ฒƒ ์›์‹œํ…์ŠคํŠธ = ๋ฌธ์ž(๋ฐ”์ดํŠธ)์‹œํ€€์Šค ์ด์ง€๋งŒ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฌธ์ž๋ฅผ ํ† ํฐ์ด๋ผ๋Š” ์—ฐ์†๋œ ๋‹จ์œ„๋กœ ๋ฌถ์—ฌ ์žˆ์Œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ™์–ด์žˆ๋Š” ํ…์ŠคํŠธ = ์ƒ˜ํ”Œ(Sample) or ๋ฐ์ดํ„ฐํฌ์ธํŠธ ๋ผ๊ณ  ๋ถ€๋ฆ„ ๋ง๋ญ‰์น˜ = ์ƒ˜ํ”Œ๋“ค์˜ ๋ชจ์Œ = ๋ฐ์ดํ„ฐ์…‹ 2. ํ† ํฐํ™” ์ฃผ์–ด์ง„ ๋ง๋ญ‰์น˜(์ฝ”ํผ์Šค)๋ฅผ ํ† ํฐ์œผ๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ •์„ ํ† ํฐํ™” ๋ผ๊ณ  ํ•จ "Maria frapis la verda sorcistino" ํ•ด๋‹น ํ„ฐํ‚ค์–ด ๋ฌธ์ž์—๋Š” 6๊ฐœ์˜ ํ† ํฐ์ด ์กด์žฌ (๊ณต๋ฐฑ๋ฌธ์ž์™€ ๊ตฌ๋‘์ ) ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ํ„ฐํ‚ค์–ด๋Š” ํ•œ๊ตญ์–ด์™€ ๊ฐ™์ด '๊ต์ฐฉ์–ด'๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ๊ต์ฐฉ์–ด๋ž€, ์‹ค์งˆ์ ..

[NLP] ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ๋ฒ• / NLP์—์„œ์˜ ์ง€๋„ํ•™์Šต

-- ๋ณธ ํฌ์ŠคํŒ…์€ ํŒŒ์ดํ† ์น˜๋กœ ๋ฐฐ์šฐ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (ํ•œ๋น›๋ฏธ๋””์–ด) ์ฑ…์„ ์ฐธ๊ณ ํ•ด์„œ ์ž‘์„ฑ๋œ ๊ธ€์ž…๋‹ˆ๋‹ค. 1. ์ง€๋„ํ•™์Šต ์ง€๋„ํ•™์Šต์ด๋ž€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ฃผ์ž…๋˜๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์— ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ๊ฐ’)์ด ํฌํ•จ๋˜์–ด ์žˆ๋Š” ๋ฐฉ์‹์„ ๋งํ•œ๋‹ค. 1.1 NLP์—์„œ์˜ ์ง€๋„ ํ•™์Šต ๋ฌธ์„œ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ์„ ์˜ˆ์‹œ๋กœ ๋“ ๋‹ค๋ฉด, ํ›ˆ๋ จ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์€ ๋ฌธ์„œ๊ฐ€ ๋  ๊ฒƒ์ด๊ณ , ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ)์€ ๋ฒ”์ฃผํ˜• ๋ ˆ์ด๋ธ”์ด ๋  ๊ฒƒ์ด๋‹ค. ๊ธฐ๊ณ„๋ฒˆ์—ญ์„ ์˜ˆ์‹œ๋กœ ๋“ ๋‹ค๋ฉด ํ›ˆ๋ จ๋ฐ์ดํ„ฐ(์ƒ˜ํ”Œ)์€ ํ•œ ์–ธ์–ด์˜ ๋ฌธ์žฅ, ๋ ˆ์ด๋ธ”(ํƒ€๊ฒŸ)์€ ๋‹ค๋ฅธ ์–ธ์–ด์˜ ๋ฌธ์žฅ์ด ๋  ๊ฒƒ์ด๋‹ค. 1.2 ์ง€๋„ํ•™์Šต์˜ ํ”„๋ ˆ์ž„ ์›Œํฌ ์ง€๋„ํ•™์Šต์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ทธ๋ ค๋ณธ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ชจ๋ธ์„ ๊ทœ์ •ํ• ๋•Œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์†์‹คํ•จ์ˆ˜๋Š” ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ตฌํ•ด์ง„ ์˜ˆ์ธก๋œ ๊ฐ’์ด ์‹ค์ œ ํƒ€๊ฒŸ๊ณผ ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€, ๋จผ์ง€๋ฅผ ๋น„๊ตํ•˜๋Š” ํ•จ์ˆ˜์ธ๋ฐ, ์ด๋ฅผ 'los..

๋ฐ˜์‘ํ˜•