-- ๋ณธ ํฌ์คํ
์ ํ์ดํ ์น๋ก ๋ฐฐ์ฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ (ํ๋น๋ฏธ๋์ด) ์ฑ
์ ์ฐธ๊ณ ํด์ ์์ฑ๋ ๊ธ์
๋๋ค.
-- ์์ค์ฝ๋๋ ์ฌ๊ธฐ
1. ์ดํ ์ (Attention)
1.1 ์ดํ ์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ
- ์์ ์ธ๊ธํ seq2seq ๋ชจ๋ธ์ '์ ์ฒด ์
๋ ฅ ๋ฌธ์ฅ'์ ํ๋์ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉํ๊ธฐ์, ์งง์ ๋ฌธ์ฅ์๋ง ์ ํฉํ๊ณ ๊ธด ๋ฌธ์ฅ์์๋ ์ ์ฒด ์
๋ ฅ ์ ๋ณด๋ฅผ ์ ๋๋ก ๊ฐ์งํ์ง ๋ชปํ๋ค๋ ๋ฌธ์ ์ ๋ฐ์
์ฆ, ํ๋์ ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฒกํฐ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ด๋ค๋ณด๋ ์ ๋ณด ์์ค์ด ๋ฐ์ํ๋ค. - RNN์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ์ธ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (Vanishing Gradient)๊ฐ ์กด์ฌํ๋ค.
โถ ์ด๋ฐ RNN์ ๊ธฐ๋ฐํ sequence๋ชจ๋ธ์ ๋ฌธ์ ๋ค์ ๊ธฐ๊ณ ๋ฒ์ญ ๋ถ์ผ์์ ์ ๋ ฅ ๋ฌธ์ฅ์ด ๊ธธ๋ฉด ํ์ง์ด ๋จ์ด์ง๋ ์น๋ช ์ ์ธ ๋จ์ ์ผ๋ก ์์ฉ
โถ ๋ฐ๋ผ์ ์ด๋ฅผ ์ํ ๋์์ผ๋ก ์ ๋ ฅ ์ํ์ค๊ฐ ๊ธธ์ด์ง๋ฉด ์ถ๋ ฅ ์ํ์ค์ ์ ํ๋๊ฐ ๋จ์ด์ง๋ ํ์์ ๋ณด์ ํด์ฃผ๊ธฐ ์ํ ๊ธฐ๋ฒ์ธ ์ดํ ์ ์ด ๋ฑ์ฅํ์.
1.2 ์ดํ ์
์ฌ๋์ผ๋ก ์๋ฅผ ๋ค์ด ์ค๋ช ํ์๋ฉด,
- ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋์ ์ธ์ฝ๋, ๋์ฝ๋ ๋ฐฉ์ ์ฒ๋ผ ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ์ถ์ถํ ๋ค, ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ฒ์ญํ์ง ์๋๋ค
- ํ๊ธ์ ์์๋ ์์ด๋ก chair์์ ์๊ณ , ํ๊ธ์ ~์๋ ์์ด์ of์์ ์๊ณ ๋ฒ์ญ์ ํ๋ค. (์ฆ, ๋จธ๋ฆฟ์์ ์ ์ฅ๋ ๊ฒ์ ๋ ์ค๋ฅด๋ ๋ฐฉ์์ผ๋ก ๋ฒ์ญ์ ์งํ)
- ์ฑ ์ ์ฝ์ ๋ ๋ชจ๋ ๋ฌธ์ฅ์ ์ฒ์๊ณผ ๋์ผ๋ก ๋ฐ๋ผ๋ณด๊ณ ๊ธฐ์ตํ๋ ๊ฒ์ด ์๋๋ผ, ํ ๋จ์ด์ฉ ์ฝ์ผ๋ฉด์ ์ฃผ๋ณ ๋จ์ด์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๊ณ ์ฝ์ด๋๊ฐ๋ค.
โถ ์ฆ, ์ฌ๋๋ค์ ์ถ๋ ฅ์ ์์ฑํ ๋ ๊ด๋ จ๋ ์ ๋ ฅ ๋ถ๋ถ์ ์ด์ ์ ๋์ด ๋ฒ์ญ์ ํ๊ฒ๋๋๋ฐ, ์ด๋ฅผ '์ดํ ์ '์ด๋ผ๊ณ ํ๋ค. ์ฑ ์ ์ฝ์ผ๋ฉด์๋ ๋ชจ๋ ๋จ์ด์ ์ดํ ์ ์ ๋ถ์ฌํ๋ฉฐ ์ฝ๊ฒ๋๋ค.
1.3 ์ดํ ์ ๋ฉ์ปค๋์ฆ (Attention Mechanism)
- ์ ์ฒด ์ ๋ ฅ์ ์ต์ข ์์ฝ์ด ์๋๋ผ, ์ ๋ ฅ์ ์ฌ๋ฌ ๋ถ๋ถ์ ์ดํ ์ ์ ๋ถ์ฌํ๋ ์ํ์ค ์์ฑ ๋ชจ๋ธ
- ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ฉ์ปค๋์ฆ
- ๋์ฝ๋์์ ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋งค time step ๋ง๋ค ์ธ์ฝ๋์์์ ์ ์ฒด ์
๋ ฅ ๋ฌธ์ฅ์ ๋ค์ ํ ๋ฒ ์ฐธ๊ณ ํจ
- ์ ์ฒด ์ ๋ ฅ ๋ฌธ์ฅ ์ ๋ถ ๋ค ๋์ผํ ๋น์จ๋ก ์ฐธ๊ณ ํ๋ ๊ฒ์ด ์๋๋ผ, ํด๋น ์์ ์์ ์์ธกํด์ผํ ๋จ์ด์ ์ฐ๊ด์ด ์๋ ์ ๋ ฅ ๋จ์ด ๋ถ๋ถ์ ์ข ๋ ์ง์ค(attention)ํด์ ๋ณธ๋ค๋ ์์ด๋์ด
1.4 dot-product Attetion์ ๋์๋ฐฉ์
๋ค์ํ ์ข ๋ฅ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ์กด์ฌํ์ง๋ง, ์ด์ฒธ์ ์ ์ดํด๋ฅผ ์ํด ๋ท ํ๋ก๋ํธ ์ดํ ์ (dot_product_attention) ์ ํ์ฉํ์ฌ ์ดํ ์ ์ ๋์๋ฐฉ์์ ์ดํดํด ๋ณด์. (๋ค์ํ ์ข ๋ฅ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฌ๊ธฐ๋ฅผ ํด๋ฆญํ๋ฉด ํ์ธ ํ ์ ์๋ค.)
- ๋์ฝ๋์ ์ฒซ๋ฒ์งธ, ๋๋ฒ์งธ ๋จ์ด๋ ์ด๋ฏธ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์์ธก์ด ์๋ฃ๋๋ค๊ณ ๊ฐ์ ํ๊ณ , ์ธ๋ฒ์งธ ๋จ์ด์ธ Suis๋ฅผ ์์ธกํ๊ธฐ ์ํ ๊ณผ์ ์ ์ค๋ช ํ๊ณ ์๋ค.
- ๋์ฝ๋์ ์ธ๋ฒ์งธ ๋จ์ด๋ฅผ ์์ธกํ๊ธฐ ์ํด LSTM ์ ์์ ์ธ์ฝ๋์ ๋ชจ๋ ์ ๋ ฅ๋จ์ด๋ฅผ ๋ค์ ์ฐธ๊ณ ํ๊ณ ์ ํ๋ค. ๊ทธ๋์ ์ธ๋ฒ์งธ LSTM ์ ์์ ๋ค๊ฐ์ ๋ป์ด๋๊ฐ๋ ํ์ดํ๋ฅผ ๋ณผ ์์๋ค.
- ์ฐ์ โ ๋ถ๋ถ์ ๋ณด์. ์ด ๋ถ๋ถ์์ ์ดํ ์ ์ค์ฝ์ด๋ฅผ ๊ตฌํ๊ฒ ๋๋ค. (์์ธํ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ์ฌ๊ธฐ)
- ์ดํ โ ๋ถ๋ถ์ ๋ณด๋ฉด, ์ํํธ ๋ฉ์ค ํจ์๋ฅผ ํตํด ์ดํ ์ ๋ถํฌ๋ฅผ ๊ตฌํ๋ค. ์ํํธ๋งฅ์ค ํจ์๋ฅผ ํตํด ๋์จ ๊ฒฐ๊ณผ๊ฐ์ I, am, a, student ๋จ์ด ๊ฐ๊ฐ์ด ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ธกํ ๋ ์ผ๋ง๋ ๋์์ด ๋๋์ง ์ ๋๋ฅผ ์์นํํด์ ํํํ ๊ฐ์ด๋ค. ์ด๋ฅผ ๋นจ๊ฐ์ ์ง์ฌ๊ฐํ์ ํฌ๊ธฐ๋ก ์์น์ ํฌ๊ธฐ๋ก ํฌํํด ๋์๋ค.
- ๋ค์์ผ๋ก โฒ ๋ถ๋ถ์ ๋ณด์. ์ด ๋ถ๋ถ์์๋ ๊ฐ ์ดํ ์ ์ ๊ฐ์ค์น์ ์๋ ์ํ๋ฅผ ๊ฐ์คํฉํ์ฌ ์ดํ ์ ๊ฐ (attention value)๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค. ์ฆ, ์์ ์ํํธ๋งฅ์ค ํจ์๋ก ๊ตฌํ ์์นํ๋ ๊ฐ์ ํ๋์ ์ ๋ณด๋ก ๋ด์์ ๋์ฝ๋๋ก ์ ์กํ๋ ๊ณผ์ ์ด๋ค.
- ๋ง์ง๋ง ๊ณผ์ ์์ ๋์ถ๋ ์ดํ ์ ๊ฐ(attention value)์ ๋์ฝ๋์ t์์ ์ ์๋์ํ๋ฅผ ์ฐ๊ฒฐํ ํ, ์์ธก์ ์ํํ๊ฒ ๋๋ค.
1.5 ์ดํ ์ ์ด ํ์ํ ์ด์
- ํด๋น ๊ทธ๋ํ๋ ์ดํ ์ ์ ์ฌ์ฉํ ๋ (RNNsearch-50, RNNsearch-30)๊ณผ ๊ทธ๋ ์ง ์์ ๋(RNNenc-50, RNNenc-30) ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ์ BLEU ์ ์ ๋ณํ๋ฅผ ๋ณด์ฌ์ค๋ค.
- ๋ค์ ๋ถ์ด ์๋ 30๊ณผ 50์ ๊ฐ๊ฐ ์ต๋ ๋จ์ด ๊ธธ์ด๊ฐ 30, 50 ๋ฌธ์ฅ์ด๋ผ๋ ๋ป
- ์ดํ ์ ์ด ์๋ ๊ธฐ๊ณ๋ฒ์ญ์์คํ ์ ๋ฌธ์ฅ ๊ธธ์ด๊ฐ ๊ธธ์๋ก ์ฑ๋ฅ์ด ๊ฐ์ํ๋ค.
- ์ด์ฒธ์ ์ ์ฌ์ฉํ๋ฉด ๊ธด ๋ฌธ์ฅ์ ๋ฒ์ญ ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, ๊ธฐ๊ณ๋ฒ์ญ์ ์ฑ๋ฅ์ ํ๋ จ๋ ๋ฌธ์ฅ์ ๊ธธ์ด์ ๋น๋กํ๊ฒ ๋๋ค.
1.6 ์ดํ ์ ํจ์
- ์ฟผ๋ฆฌ(Query) : t ์์ ์ ๋์ฝ๋ ์ ์์์ ์๋ ์ํ
- ํค(Key) : ํน์ ์์ ์ ์ธ์ฝ๋ ์ ์ ์๋ ์ํ
- ๊ฐ(Value) : ์ดํ ์ ์ ์ฌ์ฉํ ๋์ ์ธ์ฝ๋๋ ์ต์ข ์๋ ์ํ ๋ฟ๋ง ์๋๋ผ ์ค๊ฐ ํ์ ์คํ ์ ์๋์ํ๋ ๊ณ ๋ คํ๋๋ฐ, ์ธ์ฝ๋์ ์ด๋ฐ ์๋์ํ๋ฅผ ๊ฐ์ด๋ผ๊ณ ๋ถ๋ฆ
- ํด๋น ์ฌ์ง์ t=0์ผ ๋์ ์ดํ ์ ๊ณผ์ ์ ๋ณด์ฌ์ค
- ์ดํ ์ ์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ค๋ ๊ฐ์ดใ ก ๊ฐ์์ ์ฐจ์์ด ๊ฐ์ ๋ฒกํฐ ํ๋๋ก ํํ๋๋๋ฐ, ์ด๋ฅผ '์ดํ ์ ๋ฒกํฐ or ์ดํ ์ ๊ฐ์ค์น or ์ ๋ ฌ' ์ด๋ผ๊ณ ๋ถ๋ฆ.
- ์ดํ ์ ๊ฐ์ค์น๋ ์ธ์ฝ๋ ์ํ (๊ฐ)๊ณผ ์ฐ๊ฒฐ๋์ด ๋ฌธ๋งฅ๋ฒกํฐ๋ฅผ ์์ฑ
- ์ ์ฒด ๋ฌธ์ฅ์ ์ธ์ฝ๋ฉ ๋์ ์ ํด๋น ๋ฌธ๋งฅ๋ฒกํฐ๊ฐ ๋์ฝ๋์ ์ ๋ ฅ์ด ๋จ
- ๋ค์ ํ์
์คํ
์ ์ดํ
์
๋ฒกํฐ๋ ํธํ์ฑํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ฐ์ดํธ ๋๋ค.
- ํธํ์ฑ ํจ์๋ ์ฌ์ฉํ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค.
โถ ์ดํ ์ ์ ๊ตฌํํ๋ ๋ฐฉ๋ฒ (์ถํ ์์ธํ ์ค๋ช ํ์)
- Content-aware attention (์ฝํ ์ธ ์ธ์ ์ดํ ์ )
- location-aware attention (์์น ์ธ์ ์ดํ
์
)
- ์ฟผ๋ฆฌ๋ฒกํฐ์ ํค๋ง ์ฌ์ฉ
- soft attention (์ํํธ ์ดํ
์
)
- ์ดํ ์ ๊ฐ์ค์น๊ฐ 0๊ณผ 1 ์ฌ์ด์ ์ค์
- global attention (์ ์ญ ์ดํ
์
)
- ์ ๋ ฅ์ ๋ชจ๋ ํ์ ์คํ ์ ๋ํด ์ธ์ฝ๋ ์ํ๋ฅผ ์ฌ์ฉํ๋ ๋ฉ์ปค๋์ฆ
- local attention (์ง์ญ ์ดํ
์
)
- ํ์ฌ ํ์ ์คํ ์ฃผ์์ ์๋ ์ ๋ ฅ์๋ง ์์กดํ๋ ๋ฉ์ปค๋์ฆ
- supervised attention (์ง๋ ์ดํ
์
)
- ๋ช ์์ ์ผ๋ก ์ ๋ ฌ ์ ๋ณด๋ฅผ ํ๋ จ ๋ฐ์ดํฐ๋ก ์ ๊ณตํ๋ ๋ฉ์ปค๋์ฆ
- ๋์์ ํ๋ จ๋๋ ๋ณ๋์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํด์ ์ดํ ์ ํจ์๋ฅผ ํ์ต์ํด
- multiheaded attention (๋ฉํฐํค๋ ์ดํ
์
)
- ํธ๋์คํฌ๋จธ ๋คํธ์ํฌ๋ฅผ ์ํ ๋ฉ์ปค๋์ฆ
- ์ฌ๋ฌ ์ดํ ์ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํด์ ์ ๋ ฅ์ ๋ค์ํ ์์ญ์ ์ถ์
- self attention (์
ํ ์ดํ
์
)
- ์ ๋ ฅ์ ์ด๋ค ์์ญ์ ์ํฅ์ ๋ฏธ์น๋์ง ํ์ตํ๋ ๋ฉ์ปค๋์ฆ
- multimodal attention (๋ฉํฐ๋ชจ๋ฌ ์ดํ
์
)
- ์ด๋ฏธ์ง์ ์์ฑ์ฒ๋ผ ์ ๋ ฅ์ ํํ๊ฐ ๋ค์ํ ๋ ์ฌ์ฉํ๋ ๋ฉ์ปค๋์ฆ
โถ ์ฐธ๊ณ ์๋ฃ
- ํ์ดํ ์น๋ก ๋ฐฐ์ฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ
- ๋ฅ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ