Kinek a minősítésében kell megbíznia? IMDB, Rothadt paradicsom, Metacritic vagy Fandango?

Adattudós vizsgálja

Nézzen filmet? Nos, nagyon sok tényezőt kell figyelembe venni, például a rendezőt, a színészeket és a film költségvetését. Legtöbben döntését egy áttekintésből, egy rövid előzetesből vagy a film minősítésének ellenőrzéséből adják.

Van néhány jó ok, amely miatt el szeretné kerülni a vélemények olvasását vagy a trailer megtekintését, bár ezek sokkal több információt hoznak, mint egy értékelés.

Először is érdemes elkerülni a spoilereket, legyenek azok bármilyen kicsiek is. Tudomásul veszem, hogy!

Másodszor, az lehet, hogy befolyásolhatatlan élményre vágyik a film nézésével kapcsolatban. Ez általában csak az áttekintésekre vonatkozik, amelyeket keretekkel szórnak meg, például „ez egy film a világegyetem bonyolultságáról” vagy „ez a film valóban nem a szerelemről szól”. Miután ezek a képkockák kódolva vannak a rövid távú memóriájában, nagyon nehéz megakadályozni, hogy beavatkozjanak a saját filmélményébe.

Egy másik jó ok az, hogy ha fáradt vagy sietős, akkor nem érdemes elolvasni egy recenziót, nemhogy egy 2 perces trailert nézni.

Tehát a numerikus filmértékelés jó megoldásnak tűnik jó néhány helyzetben, jó néhány ember számára.

A cikk célja egyetlen weboldal ajánlása a pontos filmértékelés gyors megszerzéséhez, és robusztus, adatközpontú érvelést kínál felette.

A „legjobb” kritériumai

Egy ilyen ajánlás megfogalmazása nagyon hasonlít arra, hogy „ez a legjobb hely a film besorolásának megkeresésére”, amely egy értékelő megállapítás, amely néhány kritériumon nyugszik, amely meghatározza, hogy mi a jobb, mi a rosszabb vagy a legrosszabb, és mi a legjobb , ebben az esetben. Ajánlásomhoz egyetlen kritériumot fogok használni: normális eloszlást.

A filmminősítés keresésének legjobb helye, ha megnézzük, hogy kinek a besorolása olyan mintában oszlik el, amely a legjobban hasonlít a normál eloszláshoz, vagy amely megegyezik azzal, mint egy normál eloszlás mintája: ez egy adott intervallumban megadott értékkészlet , a legtöbben a közepén vannak, és néhány másik az adott időközönként. Általában így néz ki egy normális (más néven Gauss-féle) eloszlás:

Mi az oka ennek a kritériumnak? Nos, több száz filmből álló saját tapasztalatom alapján elmondhatom, hogy láttam:

  • néhány kiemelkedő, amit többször is megnéztem
  • egy pár, amely valóban rettentő volt, és sajnálni kezdte a figyeléssel töltött időt
  • és egy csomó átlagos, amelyek többségére már a cselekményre sem emlékszem.

Úgy gondolom, hogy a legtöbb embernek - akár kritikusoknak, cinephileknek, akár csak rendszeresen nézőknek - hasonló tapasztalata volt.

Ha a filmek értékelése valóban kifejezi a film minőségét, akkor mindkettőnél ugyanazt a mintát kell látnunk.

Tekintettel arra, hogy a legtöbben a filmek nagy részét átlagos minőségűnek ítéljük meg, ugyanazt a mintát kell látnunk, amikor elemezzük a filmek értékelését. Hasonló logika érvényes a rossz és a jó filmekre is.

Ha még nem győzte meg, hogy a mintáknak ilyen megfelelésnek kell lennie, gondoljon az egyes filmek értékelésének megoszlására. Amint sokan értékelik a filmet, nem ugrás a hitbe azt feltételezni, hogy leggyakrabban sokan lesznek hasonló preferenciákkal. Általában egyetértenek abban, hogy a film rossz, átlagos vagy jó (ezeket a kvalitatív értékeket később számszerűsítem). Emellett lesz néhány másik, aki a filmet a másik két minőségi érték egyikével értékeli.

Ha egy adott film összes értékelésének eloszlását vizualizálnánk, akkor nagy valószínűséggel azt látnánk, hogy egyetlen terület alakul ki az egyik olyan területen, amely alacsony, átlagos vagy magas minősítésnek felel meg.

Feltéve, hogy a legtöbb filmet átlagosnak tekintik, az átlagos terület körüli klaszter a legnagyobb valószínűséggel fordul elő, és a másik két klaszter kisebb (de még mindig jelentős) valószínűséggel rendelkezik. (Ne feledje, hogy ezek a valószínűségek elvileg számszerűsíthetők, de ehhez sok adatra lenne szükség, és ez a cikk könyvvé válhat.)

A legkevésbé valószínű az egységes eloszlás, amelyben nincsenek klaszterek, és az emberek preferenciái szinte egyenlően oszlanak meg a három minőségi érték között.

Tekintettel ezekre a valószínűségekre, a filmek elég nagy mintájának értékeléseinek megoszlásának olyannak kell lennie, hogy az átlagos területen tompa halmaz legyen, csökkenő magasságú (frekvenciájú) oszlopokkal határolva, amelyek hasonlítanak a normál eloszláshoz.

Ha mindezt nehezen érted, fontold meg ezt az ábrát:

IMDB, Rothadt paradicsom, Fandango vagy Metacritic?

Most, hogy van egy kritérium, amellyel dolgoznunk kell, merüljünk el az adatokban.

Nagyon sok olyan webhely létezik, amelyek saját filmértékeléssel állnak elő. Csak négyet választottam, főleg a népszerűségük alapján, hogy elfogadható számú szavazattal kaphassam meg a filmek értékelését. A boldog nyertesek az IMDB, a Fandango, a Rotten Tomatoes és a Metacritic.

Az utolsó két, már elsősorban csak azok ikonikus értékelése típusú - azaz a Tomatometer és metascore -főleg azért, mert ezek jobban láthatók a felhasználók számára az egyes webhelyeken (vagyis gyorsabb megtalálni őket). Ezeket a másik két weboldal is megosztja (a metascore az IMDB-n, a tomatométer pedig a Fandango-on van megosztva). Ezen ikonikus értékelések mellett mindkét webhelynek kevésbé jellemző minősítési típusa van, ahol csak a felhasználók járulhatnak hozzá.

Összegyűjtöttem a 2016-ban és 2017-ben a legtöbb szavazatot kapott és legnépszerűbb film értékelését. A megtisztított adatkészlet 214 film minősítését tartalmazza, és letölthető erről a Github repo-ról.

Még nem gyűjtöttem a 2016 előtt megjelent filmek értékelését, egyszerűen azért, mert nem sokkal Walt Hickey elemzése után - amire a cikk későbbi részében hivatkozni fogok - enyhe változás történt a Fandango értékelési rendszerében.

Tisztában vagyok vele, hogy egy kis mintával végzett munka kockázatos, de ezt legalább kompenzálja az, hogy elkészítjük a minősítések eloszlásának legfrissebb pillanatképét.

Az eloszlások ábrázolása és értelmezése előtt számszerűsítsem a korábban használt kvalitatív értékeket: 0-10 skálán a rossz film valahol 0 és 3 között van, egy átlagos 3 és 7 között, egy pedig 7 és 10 között. .

Kérjük, vegye figyelembe a minőség és a mennyiség közötti különbséget. Annak érdekében, hogy észrevehető maradjon a következőkben, az értékeléseket (mennyiséget) alacsonynak, átlagosnak vagy magasnak fogom nevezni. A film minőségét, mint korábban, rossz, átlagos vagy jó minőségben fejezzük ki. Ha attól tart, hogy az „átlagos” kifejezés megegyezik, ne tegye, mert én ügyelek a kétértelműség elkerülésére.

Most nézzük meg az eloszlásokat:

Egyszerű pillantásra észrevehető, hogy a metascore hisztogramja (így hívják ezt a fajta gráfot) leginkább hasonlít a normális eloszláshoz. Az átlagos területen szabálytalan magasságú rudakból álló vastag fürt található, amelynek teteje sem tompa, sem éles.

Számuk azonban nagyobb és magasabb, mint a másik két terület rúdja, amelyek magassága a végletek felé csökken, többé-kevésbé fokozatosan. Mindezek egyértelműen jelzik, hogy a metascore-ok többségének átlagos értéke van, nagyjából ez az, amit keresünk.

Az IMDB esetében az eloszlás zöme az átlagos területen is található, de nyilvánvalóan ferde a legmagasabb átlagértékek felé. A magas besorolású terület hasonlít ahhoz, amit a hisztogram ezen részén normális eloszlás esetén várhatóan látni lehet . A feltűnő tulajdonság azonban az, hogy az alacsony filmértékelést képviselő terület teljesen üres, ami nagy kérdőjelet vet fel.

Kezdetben a kis mintára hárítottam a gondot, arra gondoltam, hogy egy nagyobb nagyobb igazságot szolgáltat az IMDB-nek. Szerencsére sikerült megtalálni egy kész adatkészletet a Kaggle-n, amely 4917 különböző film IMDB besorolását tartalmazza. Nagy meglepetésemre a terjesztés így nézett ki:

Az elosztás alakja majdnem ugyanúgy néz ki, mint a 214 filmmel rendelkező minta esetében, kivéve az alacsony besorolású területet, amely ebben az esetben gyengén lakott 46 filmmel (a 4917-ből). Az értékek túlnyomó része továbbra is az átlagos területen van, ami miatt érdemes tovább mérlegelni az IMDB besorolást egy ajánláshoz, bár egyértelműen nehéz vetekedni a metaszkorral ezzel a torzítással.

Egyébként az a nagyszerű ebben az eredményben, hogy erős érvként felhasználható annak a tézisnek az alátámasztására, miszerint a 214 filmminta meglehetősen reprezentatív az egész populáció számára. Más szavakkal, most nagyobb a bizalom, hogy ennek az elemzésnek az eredményei megegyeznek - vagy legalábbis hasonlóak - az elért eredményekkel, ha mind a négy weboldal összes filmminősítését elemeznék.

Ezzel a megnövekedett bizalommal térjünk át a Fandango besorolásának megoszlásának vizsgálatára, amely látszólag nem sokat változott Hickey elemzése óta. A ferdítés még mindig láthatóan a film besorolási spektrumának magasabb része felé mutat, ahol a legtöbb értékelés található. Az átlagos besorolás alsó felének területe teljesen üres, csakúgy, mint az alacsony besorolású terület. Könnyen megállapítható, hogy az eloszlás meglehetősen távol áll a kritériumomtól. Következésképpen nem vizsgálom tovább egy esetleges ajánlásként.

(Ígérem, hogy a felfelé görgetés gyötrelme hamarosan véget ér. Sokkal könnyebb összehasonlítani az eloszlásokat, ha egymás mellé helyezik őket, nem pedig a cikkben szétszórva.)

Végül a tomatométer eloszlása ​​váratlanul egyenletes, és még laposabbnak tűnik egy másik binning stratégia alatt (a binning stratégiát a sávok teljes száma és azok tartománya határozza meg; ezzel a két paraméterrel játszhat, amikor hisztogramot készít) .

Ezt az eloszlást nem könnyű értelmezni a kontextusban, mert a tomatométer nem klasszikus besorolás, hanem inkább a kritikusok százalékos arányát képviseli, akik pozitívan értékelték a filmet. Ez alkalmatlanná teszi a rossz-átlagos-jó minőségi keretre, mert a filmek vagy jók, vagy rosszak. Mindenesetre azt hiszem, ennek továbbra is ugyanannak a normál eloszlásnak kell leforrnia, a legtöbb filmben mérsékelt különbség van a pozitív és a negatív kritikák száma között (sok értékelést 30–70% pozitív kritikát adva), és kevés olyan film, amelynek lényegesen nagyobb a különbsége, ilyen vagy olyan módon.

Figyelembe véve az utolsó szempontot és az eloszlás alakját, a tomatométer nem felel meg a kritériumomnak. Ez lehet az, hogy egy nagyobb mintán is csinálni több igazságosságot, de még így is, ha én is ajánlom, azt csináld tartalékokat, mert a homályos pozitív vagy negatív minősítési rendszer.

Az elemzés ezen a pontján azt mondhatnám, hogy az eloszlásokat tekintve az én ajánlásom a metascore.

Úgy tűnik azonban, hogy az IMDB eloszlását is érdemes megfontolni, különösen, ha kicsit módosítja a minősítési intervallumokat a három minőségi kategória (intervallumok, amelyeket magam meghatároztam, többé-kevésbé önkényesen). Ebből a szempontból egyértelműen nem elegendő a metascore ajánlása többnyire vizuális vizsgálattal.

Tehát megpróbálok kvantitatív módszerrel elhatárolni e kettőt .

Az ötlet az, hogy a Fandango változót negatív referenciaként használjuk, majd meghatározzuk, hogy az IMDB besorolásból és a metascore-ból melyik változó áll a legkevésbé összefüggésben vele (ezeket a változókat azért hívom, mert különböző értékeket vehetnek fel - például a metascore) változó, mert a filmtől függően különböző értékeket vesz fel).

Egyszerűen kiszámolok néhány korrelációs együtthatót, és a legkisebb értékű változó lesz az én ajánlásom (akkor elmagyarázom, hogyan működnek ezek a korrelációs együtthatók). De előtte hadd röviden igazoljam a Fandango változó negatív referenciaként való választását.

A Fandango felhasználói túlságosan szeretik a filmeket

Ennek a választásnak az egyik oka az, hogy a Fandango filmértékelésének megoszlása ​​a legtávolabb esik a normálétól, mivel ez nyilvánvalóan ferde a filmminősítési spektrum felső része felé.

A másik ok a Wand Hickey elemzéséből fakadó gyanúfelhő a Fandango körül. 2015. októberében a hasonló megoszlás miatt is zavarba jött, és felfedezte, hogy a Fandango honlapján a számértékeket mindig a következő legmagasabb félcsillagra kerekítették, nem pedig a legközelebbi értékre (például egy film 4,1 átlagos értékelése 4,5 csillagra kerekítettek (4,0 helyett).

A Fandango csapata kijavította az elfogult minősítési rendszert, és elmondta Hickey-nek, hogy a minősítési logika inkább „szoftverhiba” volt a weboldalukon, ami mobil alkalmazásuk elfogulatlan rendszerére mutatott. (Erről bővebben Hickey cikkében.) A kiigazítás néhány statisztikai paramétert jobbra változtatott, de nem annyira, hogy meggyőzzön arról, hogy ne dolgozzam a Fandango változóval negatív referenciaként.

Így néz ki a változás:

Nagyítsunk most a Fandangóra:

A metascore és az IMDB besorolása között melyik áll a legkevésbé összefüggésben a Fandango minősítéssel?

A legkevesebb összefüggés a Fandango minősítéssel a metascore. A Pearson r értéke 0,38 a Fandango vonatkozásában, míg az IMDB besorolása 0,63.

Most hadd magyarázzam el mindezt.

Mivel két változó változik, és különböző értékeket vesz fel, akkor korrelálnak, ha mindkét változásnak megfelel egy minta. A korreláció mérése egyszerűen azt jelenti, hogy meg kell mérni, milyen mértékben van ilyen minta.

Ennek az intézkedésnek az egyik módja a Pearson r számítása. Ha az érték +1,0, az azt jelenti, hogy tökéletes pozitív korreláció van, és ha -1,0, akkor azt jelenti, hogy tökéletes negatív korreláció van.

A változók korrelációjának mértéke csökken mind a negatív, mind a pozitív oldalról, amikor a Pearson r értéke megközelíti a 0 értéket.

Vizualizáljuk jobban:

A fenti absztrakció kontextusba helyezése, ha összehasonlítjuk, hogy két minősítési típus értékei hogyan változnak - mondjuk a Fandango és az IMDB értékei -, meg tudjuk határozni, hogy a két változásnak megfelelő minta milyen mértékben van.

Tekintettel az imént említett korrelációs együtthatókra, a Fandango és az IMDB között nagyobb a minta, mint a Fandango és a metascore esetében. Mindkét együttható pozitív, és mint ilyen, a korrelációt pozitívnak mondják, ami azt jelenti, hogy ahogy Fandango minősítései emelkednek, az IMDB minősítései is inkább emelkednek, mint a metascores.

Másképp fogalmazva, a Fandango bármely filmminősítésénél valószínűbb, hogy a metascore különbözni fog tőle, mint az IMDB besorolása.

Az ítélet: használja a Metacritic metascore-ját

Összességében azt javaslom, hogy ellenőrizze a metascore-t, ha filmnézést keres. Így működik és hátrányai.

Dióhéjban a metascore a híres kritikusok sok kritikájának súlyozott átlaga. A Metacritic csapata elolvassa az értékeléseket, és mindegyikhez 0–100 pontot rendel, amelyet aztán súlyt kap, főleg a felülvizsgálat minősége és forrása alapján. A minősítési rendszerükről itt talál további információt.

Most csak a metascore néhány hátrányára szeretnék rámutatni:

  • A súlyozási együtthatók bizalmasak, így nem fogja látni, hogy az egyes felülvizsgálatok milyen mértékben számoltak a metascore-ban.
  • Nagyjából el fogja találni a metacore-okat a kevésbé ismert filmek számára, amelyek 1999, a Metacritic létrehozásának éve előtt jelentek meg.
  • Néhány legújabb film, amelynek fő nyelve nem angol, még a Metacritic-en sem szerepel. Például a Két lottószelvény (2016) és a Keleti üzlet (2016) román filmek nem szerepelnek a Metacritic-ben, míg az IMDB-n vannak, minősítéssel.

Még néhány szó

Összefoglalva, ebben a cikkben egyetlen ajánlást tettem arra, hogy hol keressem a film besorolását. Két érv alapján javasoltam a metascore-t: eloszlása ​​hasonlít leginkább egy normálishoz, és a legkevésbé korrelál a Fandango minősítéssel.

A cikk összes kvantitatív és vizuális eleme reprodukálható a Pythonban, amint az itt látható.

Köszönöm, hogy elolvasta! És boldog filmnézés!