ROUGE score
ROUGE
Recall-Oriented Understudy for Gisting Evaluation
ํ ์คํธ ์์ฝ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ ์งํ. ํ ์คํธ ์๋ ์์ฝ, ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ ์์ฐ์ด ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์งํ์ด๋ฉฐ, ๋ชจ๋ธ์ด ์์ฑํ ์์ฝ๋ณธ ํน์ ๋ฒ์ญ๋ณธ์ ์ฌ๋์ด ๋ฏธ๋ฆฌ ๋ง๋ค์ด ๋์ ์ฐธ์กฐ๋ณธ๊ณผ ๋์กฐํด ์ฑ๋ฅ ์ ์๋ฅผ ๊ณ์ฐ
if
- ์์คํ ์์ฝ(๋ชจ๋ธ ์์ฑ ์์ฝ) : the cat was found under the bed
- ์ฐธ์กฐ์์ฝ(Gold standard, ๋๊ฒ ์ฌ๋์ด ์ง์ ๋ง๋ ์์ฝ) : the cat was under the bed
๋ชจ๋ธ์ด ์์ฑํ ์์คํ
์์ฝ๊ณผ ์ฌ๋์ด ๋ง๋ค์ด ๋์ ์ฐธ์กฐ ์์ฝ ๊ฐ ๊ฒน์น๋ ๋จ์ด ์ด 6๊ฐ
ํ์ง๋ง ์ด 6์ด๋ผ๋ ์ซ์๋ ์ฑ๋ฅ ์งํ(Metric)๋ก ๋ฐ๋ก ์ฌ์ฉํ๊ธฐ์ ์ ํฉํ์ง ์์ ์
→ ์ ๋์ ์งํ๋ก ์ฌ์ฉํ ์ ์๋ ๊ฐ์ ์ป๊ธฐ ์ํด Recall๊ณผ Precision์ ๊ณ์ฐํด์ผ ํจ
ROUGE์์์ Precision๊ณผ Recall์ ์๋ฏธ
1) Recall
์ฐธ์กฐ ์์ฝ๋ณธ์ ๊ตฌ์ฑํ๋ ๋จ์ด ์ค ๋ช ๊ฐ์ ๋จ์ด๊ฐ ์์คํ ์์ฝ๋ณธ์ ๋จ์ด๋ค๊ณผ ๊ฒน์น๋์ง ๋ณด๋ ์ ์
unigram์ ํ๋์ ๋จ์ด๋ก ์ฌ์ฉํ๋ค๊ณ ํ๋ฉด
$$
\frac{number\ of \ overlapped\ words}{Total\ words\ in\ reference\ summary}
$$
์์ ์ดํด๋ณธ ์์ ์์์ Recall ์ ์๋
$$
Recall=\frac{6}{6}=1.0
$$
→ ์ฐธ์กฐ ์์ฝ๋ณธ ๋ด ๋ชจ๋ unigram์ด ๋ชจ๋ธ์ด ์์ฑํ ์์คํ
์์ฝ๋ณธ์ ๋ฑ์ฅํ๋ค๋ ๊ฒ์ ์๋ฏธ
๋ชจ๋ธ์ด ์์ ์ด ์๊ณ ์๋ ๋ชจ๋ ๋จ์ด๋ฅผ ์์ฑํด ์์ฝ๋ณธ์ ๋ง๋ค๊ฒ ๋๋ฉด, ์ด๋ป๊ฒ๋ ์ฐธ์กฐ ์์ฝ๋ณธ์ ๊ตฌ์ฑํ๋ ๋จ์ด๋ค์ ์์ฝ๋ณธ์ ํฌํจํ ์ ์๊ฒ ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ฌด์กฐ๊ฑด ์ข์ ์ ์๋ผ๊ณ ํ ์ ์์
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Precision์ ๊ณ์ฐํ ํ์๊ฐ ์์
2) Precision
๋ชจ๋ธ์ด ์์ฑํ ์์คํ ์์ฝ๋ณธ ์ค ์ฐธ์กฐ ์์ฝ๋ณธ๊ณผ ๊ฒน์น๋ ๋จ์ด๋ค์ด ์ผ๋ง๋ ๋ง์ด ์กด์ฌํ๋์ง
$$
\frac{Number\ of\ overlapped\ words}{Total\ words\ in\ system\ summary}
$$
์ ์์ ์ ๋ํด ๊ณ์ฐํ๋ฉด
$$
Precision=\frac{6}{7}=0.86
$$
๋ณด๋ค ์ ํํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด์๋ Precision๊ณผ Recall์ ๋ชจ๋ ๊ณ์ฐํ ํ, F-Measure๋ฅผ ์ธก์ ํ๋ ๊ฒ์ด ๋ฐ๋์ง
$$
H=\frac{2ab}{a+b}
$$
ROUNE-N : ROUGE-1 ๊ณผ ROUGE-2
1) ROUGE-1
์์คํ ์์ฝ๋ณธ๊ณผ ์ฐธ์กฐ ์์ฝ๋ณธ ๊ฐ ๊ฒน์น๋ unigram์ ์๋ฅผ ๋ณด๋ ์งํ
2) ROUGE-2
์์คํ ์์ฝ๋ณธ๊ณผ ์ฐธ์กฐ ์์ฝ๋ณธ ๊ฐ ๊ฒน์น๋ biogram์ ์๋ฅผ ๋ณด๋ ์งํ
- ์์คํ ์์ฝ : the cat was found under the bed
- ์ฐธ์กฐ ์์ฝ : the cat was under the bed
- ์์คํ
์์ฝ(biograms)
the cat, cat was, was found, found under, under the, the bed - ์ฐธ์กฐ ์์ฝ(biograms)
the cat, cat was, was under, under the, the bed
$$
ROUGE2_{recall}=\frac{4}{5}=0.8
$$
$$
ROUGE2_{precision}=\frac{4}{6}=0.67
$$
๊ธฐํ ROUGE ์งํ๋ค
1) ROUGE-L
LCS ๊ธฐ๋ฒ์ ์ด์ฉํด ์ต์ฅ ๊ธธ์ด๋ก ๋งค์นญ๋๋ ๋ฌธ์์ด์ ์ธก์ . LCS์ ์ฅ์ ์ ROUGE-2์ ๊ฐ์ด ๋จ์ด๋ค์ ์ฐ์์ ๋งค์นญ์ ์๊ตฌํ์ง ์๊ณ , ์ด๋ป๊ฒ๋ ๋ฌธ์์ด ๋ด์์ ๋ฐ์ํ๋ ๋งค์นญ์ ์ธก์ ํ๊ธฐ ๋๋ฌธ์ ๋ณด๋ค ์ ์ฐํ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅ
- Reference : police killed the gunman
- System-1 : police kill the gunman
- System-2 : the gunman kill police
- ROUGE-N : System-1 = System-2 ( ‘police’, ‘ the gunman’)
- ROUGE-L
- System-1 = 3/4 (’police the gunman’)
- System-2 = 2/4 (’the gunman’)
2) ROUGE-S
ํน์ Window size๊ฐ ์ฃผ์ด์ก์ ๋, Window size ๋ด์ ์์นํ๋ ๋จ์ด์๋ค์ ๋ฌถ์ด ํด๋น ๋จ์ด์๋ค์ด ์ผ๋ง๋ ์ค๋ณต๋๊ฒ ๋ํ๋๋ ์ง๋ฅผ ์ธก์ Skip-gram Co-ocurrence๊ธฐ๋ฒ์ด๋ผ ๋ถ๋ฅด๊ธฐ๋ ํจ
skip-gram ๋ฐฉ์๊ณผ ๊ฐ์ด, ์ต๋ 2์นธ(bigram) ๋ด์ ์์นํ๋ ๋จ์ด ์์ recall์ ๊ณ์ฐํฉ๋๋ค. skip-gram์ ํน์ฑ์ ์ด์ด์ง์ง ์์๋ ๋๋ฏ๋ก ์๋์ ์ผ๋ก ๊ฑฐ๋ฆฌ์ ์ํฅ์ ๋ ๋ฐ์ต๋๋ค.
- ์ ๋ต๋ฌธ์ฅ : "๋ฅํ์ง์ ํฌ์ฌ ํจ์คํธ ๋ณผ์ ๋น ๋ฅด์ง ์์ง๋ง ๋งค์ฐ ์ ๊ตํ๋ค."
- ์์ฑ๋ฌธ์ฅ : "๋ฅํ์ง์ ํฌ์ฌ ํจ์คํธ ๋ณผ์ ๋๋ฆฌ์ง๋ง ๋งค์ฐ ์ ํํ๋ค."
$$
N_{์ ๋ต๋ฌธ์ฅ}=7 \ N_{((๋ฅํ์ง,ํจ์คํธ),(๋ฅํ์ง,๋ณผ),(ํจ์คํธ,๋ณผ),(๋ณผ,๋งค์ฐ))}=4 \ ROUGE-S=\frac{4}{7}
$$
3) ROUGE-W
Weighted Longest Common Subsequence
ROUGE-W๋ ROUGE-L์ ๋ฐฉ๋ฒ์ ๋ํ์ฌ ์ฐ์์ ์ธ ๋งค์นญ(consecutive matches)์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๋ฐฉ๋ฒ
$$
X=[\underline{A}\ \underline{B}\ \underline{C}\ \underline{D}\ E\ F\ G] \ Y_1=[\underline{A}\ \underline{B}\ \underline{C}\ \underline{D}\ H\ I\ K] \ Y_2=[\underline{A}\ H\ \underline{B}\ K\ \underline{C}\ I\ \underline{D}]
$$
ROUGE-L์ ๊ด์ ์์๋ Y_1๊ณผ Y_2์ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ง๋ง,
ROUGE-W์ ๊ด์ ์์๋ consecutive matches๋ก ์ด๋ฃจ์ด์ง ์์์ธ Y_1์ด ๋ ์ฐ์ํ ๊ฒฐ๊ณผ
4) ROUGE-SU
Extension of ROUGE-S
ROUGE-S๋ ๋์์ ์ถํํ๋ word pair๊ฐ ํ๋๋ ๊ฒน์น์ง ์์ ์ 0์ด ๋จ
ํ์ง๋ง ์๋ ์์์ ๊ฒฝ์ฐ ์ด์์ ๋ฐ๊ฟจ์ ๋ฟ, ๊ฐ์ ์๋ฏธ์ ๋ฌธ์ฅ์์๋ ROUGE-S๊ฐ 0์ด ๋์ด๋ฒ๋ฆผ
- ์ ๋ต๋ฌธ์ฅ : ๋ฅํ์ง์ด ๊ณต์ ๋์ก๋ค.
- ์์ฑ๋ฌธ์ฅ : ๋์ก๋ค ๊ณต์ ๋ฅํ์ง์ด
ROUGE-SU๋ Unigram์ ํจ๊ป ๊ณ์ฐํ์ฌ ์ด๋ฅผ ๋ณด์ ํด ์ค๋๋ค.
- ์ ๋ต๋ฌธ์ฅ : ((๋ฅํ์ง,๊ณต), (๋ฅํ์ง,๋์ก๋ค), (๊ณต,๋์ก๋ค), ๋ฅํ์ง, ๊ณต, ๋์ก๋ค)
- ์์ฑ๋ฌธ์ฅ : ((๋์ก๋ค,๊ณต), (๋์ก๋ค,๋ฅํ์ง), (๊ณต,๋ฅํ์ง), ๋ฅํ์ง, ๊ณต, ๋์ก๋ค)
๋๊ธ