
Bevezetés a ROUGE-ba és az összefoglalók értékelésének módja
A ROUGE a visszahívás-orientált alaptanulmányt jelenti a Gisting Evaluation számára. Lényegében metrikákból áll a szövegek automatikus összefoglalásának, valamint a gépi fordítások értékelésének.
Úgy működik, hogy összehasonlítja az automatikusan elkészített összefoglalót vagy fordítást a referencia-összefoglalók halmazával (általában ember által készített). Tegyük fel, hogy a következő rendszer- és referencia-összefoglalók vannak:
A rendszer összefoglalása (mit gyártott a gép):
the cat was found under the bed
Összefoglaló összefoglaló (arany standard - általában ember által):
the cat was under the bed
Ha csak az egyes szavakat vesszük figyelembe, akkor a rendszer-összefoglaló és a referencia-összefoglaló között az átfedő szavak száma 6. Ez azonban nem sokat mond metrikának. A jó kvantitatív érték elérése érdekében az átfedés segítségével kiszámíthatjuk a pontosságot és felidézhetjük .
Egyszerűen fogalmazva, a visszahívás (a ROUGE összefüggésében) arra utal, hogy a referenciaösszegzés mekkora része vana rendszer-összefoglaló helyreáll vagy rögzítés alatt áll. Ha csak az egyes szavakat vesszük figyelembe, akkor ezek kiszámíthatók:

Ebben a példában a visszahívás így lenne:

Ez azt jelenti, hogy a referencia-összefoglaló összes szavát lefoglalta a rendszer-összefoglaló , ami valóban erre a példára is érvényes. Voálá!
Ez nagyon jól néz ki a szövegösszefoglaló rendszer számára. De nem mondja el a történet másik oldalát. A gép által létrehozott összefoglaló (rendszerösszefoglaló) rendkívül hosszú lehet, az összes szót megragadja a referencia-összefoglalóban. De a rendszer-összefoglalóban sok szó haszontalan lehet, így az összefoglaló szükségtelenül bőbeszédűvé válik.
Itt játszik szerepet a pontosság. A pontosság szempontjából lényegében azt mérik, hogy a rendszer-összefoglalónak mekkora része volt releváns vagy szükséges ? A pontosságot a következőképpen mérik:

Ebben a példában a Pontosság így lenne:

Ez egyszerűen azt jelenti, hogy a rendszer-összefoglalóban szereplő 7 szóból 6 valóban releváns vagy szükséges volt. Ha a következő példával rendelkezünk, szemben a fenti példával -
2. rendszerösszefoglaló:
the tiny little cat was found under the big funny bed
A Precision mostantól:

Na, ez nem tűnik olyan jónak, igaz? Ugyanis az összefoglalóban elég sok felesleges szó van. A precíziós szempont akkor válik igazán döntővé, amikor tömör jellegű összefoglalókat próbál létrehozni. Ezért mindig a legjobb a pontosságot és a visszahívást egyaránt kiszámítani , majd jelenteni az F-mérést .
Ha az összefoglalóit valamilyen módon tömörségre kényszerítik bizonyos korlátozások révén, akkor fontolóra veheti csak a visszahívás használatát, mivel a pontosság ebben a forgatókönyvben kevésbé aggasztó.
A ROUGE-N, a ROUGE-S és a ROUGE-L a rendszer-összefoglalók és a referencia-összefoglalók közötti összehasonlításban álló szövegek részletességének tekinthető.
- ROUGE-N - intézkedések unigram , Bigram , trigramés magasabb rendű n-grammos átfedés
- ROUGE-L - az LCS használatával méri a leghosszabb egyezést . Az LCS használatának előnye, hogy nem egymás utáni egyezéseket igényel, hanem sorozatos egyezéseket, amelyek tükrözik a mondat szintű szórendet. Mivel automatikusan tartalmazza a sorozatban a leghosszabb közös n-grammot, nincs szüksége előre meghatározott n-grammos hosszúságra.
- ROUGE-S - A mondat bármely párja sorrendben van, lehetővé téve az önkényes hézagokat. Ezt nevezhetjük skip-gram egyeztetésnek is. Például a skip-bigram méri az olyan szavak átfedését, amelyek között legfeljebb két rés lehet a szavak között. Például a „macska a kalapban” kifejezésnél a skip-bigrams „macska be, macska a, macska kalap, a kalapba, a kalap”.
Például a ROUGE-1 az unigrammák átfedésére utal a rendszerösszefoglaló és a referenciaösszefoglaló között. A ROUGE-2 a bigramok átfedésére utal a rendszer és a referencia-összefoglalók között.
Vegyük a példát felülről. Tegyük fel, hogy ki akarjuk számolni a ROUGE-2 pontosságát és felidézni a pontszámokat.
A rendszer összefoglalása:
the cat was found under the bed
Referencia összefoglaló:
the cat was under the bed
A rendszer összefoglaló változatai:
the cat, cat was, was found, found under, under the, the bed
Referencia-összefoglaló változatok:
the cat, cat was, was under, under the, the bed
A fenti bigramok alapján a ROUGE-2 visszahívása a következő:

Lényegében a rendszerösszefoglaló 5 bigramból 4 bigramot hozott vissza a referenciaösszegzésből, ami nagyon jó! Most a ROUGE-2 pontossága a következő:

A pontosság itt azt mondja, hogy az összes rendszerösszefoglaló bigram közül 67% -os átfedés van a referenciaösszefoglalóval. Ez sem rossz. Vegye figyelembe, hogy amint az összesítések (mind a rendszer, mind a referencia összefoglalók) egyre hosszabbak lesznek, kevesebb lesz az átfedéses bigram. Ez különösen igaz az absztrakciós összefoglalás esetében, ahol nem közvetlenül használod újra a mondatokat az összefoglaláshoz.
Az oka annak, hogy a ROUGE-1-et a ROUGE-2-nél vagy azzal együtt használnák (vagy más finomabb részletességű ROUGE-mérőszámok), az, hogy megmutatja az összefoglalók vagy a fordítás folyékonyságát is. Az az intuíció, hogy ha jobban követi a referencia-összefoglaló szórendjét, akkor az összefoglalója valójában gördülékenyebb.
Ezekről az értékelési mutatókról részletesebb információkat Lin tanulmányában talál. Melyik mértéket kell használni, az adott feladattól függ, amelyet értékelni próbál. Ha meglehetősen bonyolult rendszer- és referenciaösszefoglalókkal foglalkozik extrakciós összefoglaláson, akkor érdemes lehet a ROUGE-1 és a ROUGE-L használatát. Nagyon tömör összefoglalókhoz a ROUGE-1 önmagában is elegendő lehet, különösen, ha a szóeltávolítást és a szó eltávolítását is alkalmazza.
Olvasandó papírok
- ROUGE: Csomag az összefoglalók automatikus értékeléséhez