Csivava vagy muffin? A legjobb számítógépes látási API keresése

Ez a népszerű internetes mém demonstrálja a chihuahuák és a muffinok között megosztott riasztó hasonlóságot. Ezeket a képeket gyakran megosztják a Mesterséges Intelligencia (AI) iparban (én is).

De az egyik kérdés, amire még senkit sem láttam válaszolni, az az , hogy mennyire jó a modern mesterséges intelligencia egy olyan kép bizonytalanságának eltávolításában, amely hasonlíthat egy csivavához vagy egy muffinhoz? Szórakoztatása és oktatása érdekében ma megvizsgálom ezt a kérdést.

A bináris osztályozás azóta lehetséges, hogy az perceptron algoritmust 1957-ben feltalálták. Ha úgy gondolja, hogy az AI-t most felpörgetik, a New York Times 1958-ban jelentette, hogy a találmány egy olyan számítógép kezdete volt, amely „képes járni, beszélni, látni, írjon, reprodukálja magát és tudatában legyen létezésének. " Míg a perceptron gépeket, mint a Mark 1, képfelismerésre tervezték, a valóságban csak lineárisan elválasztható mintákat képesek megkülönböztetni. Ez megakadályozza őket abban, hogy megtanulják a legtöbb vizuális médiában található összetett mintákat.

Nem csoda, hogy a világ kiábrándult, és AI-tél következett. Azóta a többrétegű észlelés (az 1980-as években népszerű) és a konvolúciós ideghálózatok (Yann LeCun úttörője 1998-ban) jelentősen felülmúlta az egyrétegű észlelést a képfelismerési feladatokban.

Az ImageNet-hez hasonló nagyméretű címkézett adatsorokkal és az erőteljes GPU-számítással az olyan fejlettebb neurális hálózati architektúrák, mint az AlexNet, a VGG, az Inception és a ResNet csúcsteljesítményt értek el a számítógépes látás terén.

Számítógépes látás és képfelismerés API-k

Ha gépi tanulási mérnök vagy, könnyen kísérletezhetsz és finomhangolhatsz ezekkel a modellekkel előre kiképzett modellek és súlyok használatával, akár a Keras / Tensorflow, akár a PyTorch programban. Ha ön nem kényelmesen módosítja a neurális hálózatokat, akkor szerencséje van. Gyakorlatilag az összes vezető technológiai óriás és ígéretes startup azt állítja, hogy „demokratizálja az AI-t” azáltal, hogy egyszerűen használható számítógépes látásmódú API-kat kínál.

Melyik a legjobb? A kérdés megválaszolásához világosan meg kell határoznia üzleti céljait, termékhasználati eseteit, tesztadatkészleteit és a siker mutatóit, mielőtt összehasonlíthatja a megoldásokat egymással.

Komoly vizsgálat helyett legalább magas szinten megérezhetjük az egyes platformok eltérő viselkedését, ha teszteljük őket a chihuahua és a muffin megkülönböztetésének játékproblémájával.

A teszt lebonyolítása

Ehhez a kanonikus mémet 16 tesztképre osztottam. Ezután Gaurav Oberoi mérnök által írt nyílt forráskódot használok a különböző API-k eredményeinek konszolidálására. Minden képet áttol a fent felsorolt ​​hat API-n, amelyek jó megbízhatóságú címkéket adnak előrejelzésként. Kivételt képez a Microsoft, amely címkéket és feliratokat egyaránt visszaad, valamint a Cloudsight, amely az ember-AI hibrid technológiát használja, és csak egyetlen feliratot ad vissza. Éppen ezért a Cloudsight kísértetiesen pontos feliratokat adhat vissza az összetett képekhez, de a feldolgozása 10–20-szor hosszabb ideig tart.

Az alábbiakban bemutatunk egy példát a kimenetre. A mind a 16 chihuahua kontra muffin kép megtekintéséhez kattintson ide.

Mennyire sikerült az API-k? A Microsofton kívül, amely összekeverte ezt a muffint egy kitömött állatként, minden más API felismerte, hogy a kép élelmiszer. De nem született megállapodás arról, hogy az étel kenyér, sütemény, sütemény vagy muffin volt-e. A Google volt az egyetlen API, amely sikeresen azonosította a muffint, mint a legvalószínűbb címkét.

Nézzünk meg egy chihuahua példát.

Az API-k ismét elég jól teljesítettek. Mindannyian rájöttek, hogy a kép egy kutya, bár néhányuk hiányolta a pontos fajtát.

Voltak azonban határozott kudarcok. A Microsoft három különálló alkalommal tért vissza egy nyilvánvalóan rossz feliratot, amelyben a muffint plüssállatnak vagy mackónak nevezték.

A Google volt a legfrissebb muffinazonosító, amely a „muffint” adta a legmagasabb megbízhatósági címkének a tesztkészlet 7 muffin képéből 6-hoz. A többi API-k nem a muffint adták vissza első muffin képként, hanem kevésbé releváns címkéket, például „kenyér”, „süti” vagy „cupcake”.

A sikersorozat ellenére azonban a Google kudarcot vallott ezen a muffin képen, jóslatokként visszaadva a „pofa” és a „kutyafajta csoport” kifejezést.

Még a világ legfejlettebb gépi tanulási platformjait is megbotlik az ügyes csivava és muffin kihívás. Az emberi kisgyermek kiváló tanulással jár, amikor kiderül, mi az étel és mi a Fido.

Tehát melyik számítógépes látás API a legjobb?

Annak érdekében, hogy megtudja a választ erre a megfoghatatlan rejtélyre, át kell mennie a TOPBOTS-hoz, hogy teljes mértékben elolvassa az eredeti cikket!