Holnap felkel a nap?

Laplace, Bayes és a gépi tanulás ma

Lehet, hogy nem az a kérdés, hogy sokat aggódna. Végül is úgy tűnik, minden nap kudarc nélkül történik.

De mekkora annak a valószínűsége, hogy holnap felkel a nap?

Akár hiszi, akár nem, ezt a kérdést a matematika egyik legnagyobb nagyja, Pierre-Simon Laplace vette figyelembe 1814. évi úttörő munkájában Essai philosophique sur les probabilités”.

Alapvetően Laplace-nek a kérdéssel való kezelésének célja egy általánosabb koncepció bemutatása volt. Nem volt komoly kísérlet megbecsülni, hogy a nap valóban felkel-e.

Esszéjében Laplace leír egy keretet a valószínűségi érvelés számára, amelyet ma Bayesian-ként ismerünk el.

A Bayes-i megközelítés kulcstartót jelent sok modern gépi tanulási algoritmusban. De az e módszerek alkalmazásához szükséges számítási erő csak a 20. század második fele óta áll rendelkezésre.

(Eddig úgy tűnik, hogy a jelenlegi korszerű mesterséges intelligencia hallgat a holnapi napkelte kérdésében.)

Laplace elképzelései ma is relevánsak, annak ellenére, hogy több mint két évszázaddal ezelőtt fejlesztették őket. Ez a cikk áttekinti ezeket az ötleteket, és bemutatja, hogyan használják őket a modern alkalmazásokban, amelyeket Laplace kortársai talán elképzelnek.

Pierre-Simon Laplace

1749-ben Beaumont-en-Auge kis normandiai községében született Pierre-Simon Laplace-t eredetileg teológusnak nevezték ki.

A Caeni Egyetemen folytatott tanulmányai során azonban ragyogó hajlandóságot fedezett fel a matematika iránt. Párizsba költözött, ahol lenyűgözte Jean le Rond d'Alembert nagyszerű matematikust és fizikust.

24 éves korában Laplace-t a rangos Académie des Sciences-be választották.

Laplace elképesztően termékeny tudós és matematikus volt. Számos közreműködése közül kiemelkedik a valószínűséggel, a bolygó mozgásával és a matematikai fizikával kapcsolatos munkája. Olyan alakokat számított munkatársainak, tanácsadóinak és hallgatóinak, mint Antoine Lavoisier, Jean d'Alembert, Siméon Poisson, sőt Napoleon Bonaparte is.

Laplace „Essai philosophique sur les probabilités”1795-ben tartott előadásán alapult. Általános áttekintést nyújtott a két évvel korábban, 1812-ben megjelent „Théorie analytique des probabilités” című munkájában.

Az „esszai filozófiában” Laplace a valószínűség tíz alapelvét közli. Az első néhány az alapvető definíciókat, valamint a független és függő eseményekkel kapcsolatos valószínűségek kiszámítását tárgyalja.

A nyolcadik, kilenc és tíz alapelv a valószínűség alkalmazására vonatkozik arra, amit ma költség-haszon elemzésként leírhatunk.

A hatodik Thomas Bayes 1763-as névadó tételének fontos általánosítása.

Megállapítja, hogy egy adott esemény esetében az egyes lehetséges okok valószínűségét úgy találják meg, hogy megszorozzuk az ok korábbi valószínűségét egy törttel.

Ez a töredék az adott okból fakadó esemény valószínűsége, osztva az esemény bekövetkezésének valószínűségével bármely okkal.

Ennek a tételnek a gépi tanuláson belüli befolyását nem lehet túlbecsülni.

Megjelenése óta a hetedik elv vált ki a legtöbb vitát. A tényleges megfogalmazás azonban elég ártalmatlan.

Inkább Laplace választja, hogy szemléltető példával tárgyalja a másnapi nap felkelésének valószínűségét, amely viszont gúnyolódást és kifogást emelt az elkövetkező két évszázad során.

Az utódlás szabályát ma is használják különféle álcák alatt, és néha Laplace eredetileg leírt formájában.

Valójában az öröklési szabály fontos korai lépést jelent a Bayes-gondolkodás olyan rendszerekben történő alkalmazásában, amelyekre vonatkozóan nagyon korlátozott adatokkal rendelkezünk, és alig vagy egyáltalán nincsenek előzetes ismereteink. Ez a kiindulópont, amellyel gyakran találkoznak a modern gépi tanulási problémák.

Laplace utódlási szabálya

A valószínűség hetedik elve, amelyet Laplace „Essai filozófiájában” adottlényegében egyértelmű.

Megállapítja, hogy egy adott esemény bekövetkezésének valószínűségét úgy találják meg, hogy összesítik annak minden lehetséges okának a valószínűségét, szorozva az adott ok valószínűségével, amely a kérdéses eseményhez vezet.

Ezután Laplace felvázol egy példát, amely golyókat rajzol az urnákból. Eddig jó. Még semmi vitás.

Ezután azonban leírja, hogyan kell tovább becsülni egy esemény bekövetkezésének valószínűségét olyan helyzetekben, amikor korlátozott (vagy éppen nincs) előzetes tudomásunk arról, hogy mi lehet ez a valószínűség.

„On trouve ainsi qu'un événement étant arrivé de suite un nombre quelconque de fois, la probabilité qu'il arrivera encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le même nombre augmenté de deux unités.”

Ami angolul fordít: "Tehát egy olyan eseményre találunk, amely eddig akárhányszor bekövetkezett, annak valószínűsége, hogy a következő alkalommal újra bekövetkezik, megegyezik ezzel az eggyel növelt számmal, osztva ugyanezzel a kettővel növelt számmal" .

Vagy matematikai jelöléssel:

Azaz, adott s sikerei ki n vizsgálatok, a siker valószínűsége a következő tárgyalás körülbelül (s + 1) / (n + 2).

Pontosabban Laplace nem tartja vissza magát:

„… Például, remonter la plus ancienne époque de l'histoire à cinq mille ans, ou à 1.826.213 jours, et le soleil s'étant levé contamment dans cet intervalle, à chaque révolution de vingtquatre heures, il ya 1.826.214 à parier contre un qu'il se lèvera encore demain ”

Ami ezt fordítja: „… például, ha a nap minden nap felkelt az elmúlt 5000 évben - vagy 1 826 213 nap -, annak valószínűsége, hogy holnap felkel, 1 826 214/1 826 215”.

99,9% -nál ez egészen biztos fogadás. És csak egyre biztosabbá válik minden nap, amikor a nap tovább kel.

Mégis, Laplace elismeri, hogy annak, aki megérti a nap kelésének mechanizmusát, és nem lát okot annak működésének megszüntetésére, még ez a valószínűség is indokolatlanul alacsony.

Kiderült, hogy ez a minősítés talán ugyanolyan fontos, mint maga a tényleges szabály. Végül is utal arra a tényre, hogy a rendszerről való előzetes ismereteink kódolva vannak azokban a feltételezésekben, amelyeket akkor teszünk, amikor valószínűségeket rendelünk minden lehetséges kimeneteléhez.

Ez a mai gépi tanulásban igaz, különösen, ha korlátozott vagy hiányos edzési adatokból próbálunk tanulni.

De mi az alapja Laplace öröklési szabályának, és hogyan él tovább a mai legnépszerűbb gépi tanulási algoritmusokban?

Semmi sem lehetetlen?

Ahhoz, hogy jobban megértsük Laplace szabályának jelentőségét, meg kell fontolnunk, mit jelent az, ha nagyon kevés előzetes ismerettel rendelkezünk egy rendszerről.

Tegyük fel, hogy van Laplace egyik urnája, amelyről tudják, hogy legalább egy piros golyó van benne. Nem tudsz mást az urna „rendszer” tartalmáról. Talán sokféle színt tartalmaz, talán csak azt az egy piros labdát tartalmazza.

Húzzon ki egy golyót az urnából. Tudja, hogy annak a valószínűsége, hogy piros lesz, nagyobb, mint nulla, vagy kisebb vagy egyenlő.

De mivel nem tudod, hogy az urna tartalmaz-e más színt, nem mondhatod el bizonyosan a pirosra rajzolás valószínűségétegyenlő egy. Egyszerűen nem zárhat ki semmilyen más lehetőséget.

Szóval, hogyan becsüli meg annak a valószínűségét, hogy piros golyót húznak ki az urnából?

Nos, Laplace öröklési szabálya szerint az urna gömbrajzolását Bernoulli-próbaként modellezheti, két lehetséges eredménnyel: „piros” és „nem-piros”.

Mielőtt bármit is levontunk volna az urnából, már két lehetséges eredmény létezését engedélyeztük. Ezzel gyakorlatilag „álszámláltuk” az urna két képzeletbeli húzását, egyszerre figyelve az egyes eredményeket.

Ez minden kimenetelnek („piros” és „nem piros”) 1/2 valószínűséggel rendelkezik.

Amint az urnából származó felhívások száma növekszik, ezeknek az álszámlálásoknak a hatása egyre kevésbé fontos. Ha az első kihúzott labda piros, akkor a következő piros valószínűségét (1 + 1) / (1 + 2) = 2/3 értékre módosítja.

Ha a következő labda piros, akkor a valószínűség 3/4-re frissül. Ha folyamatosan pirosat rajzol, a valószínűség egyre közelebb kerül az 1-hez.

A mai nyelvben a valószínűség egy mintateret érint. Ez egy adott „kísérlet” (az egyik eredményt kiválasztó folyamat) összes lehetséges eredményének matematikai halmaza.

A valószínűséget hivatalos axiomatikus alapokra helyezte Andrey Kolmogorov az 1930-as években. Kolmogorov axiómái megkönnyítik annak bizonyítását, hogy a mintaterületnek legalább egy elemet tartalmaznia kell.

Kolmogorov a valószínűséget olyan mérőszámként is meghatározza, amely a mintaterület minden elemére null és egy közötti valós értéket ad vissza.

Természetesen a valószínűség hasznos módszert kínál a valós rendszerek modellezésére, különösen akkor, ha teljes ismereteket feltételez a mintaterület tartalmáról.

De amikor nem értjük a jelenlegi rendszert, nem ismerjük a mintateret - ezen kívül legalább egy elemet tartalmaznia kell. Ez sok gépi tanulási környezetben általános kiindulópont. Menet közben meg kell tanulnunk a mintaterület tartalmát.

Ezért meg kell engednünk, hogy a mintaterület tartalmazzon legalább egy extra, catch-all elemet - vagy ha úgy tetszik, az „ismeretlen ismeretlen” elemet. Laplace utódlási szabálya azt mondja nekünk, hogy az „ismeretlen ismeretlennek” 1 / n + 2 valószínűséget rendeljünk , miután az ismert eseményeket n ismételten megfigyeltük.

Bár sok esetben kényelmes figyelmen kívül hagyni az ismeretlen ismeretlenek lehetőségét, ismeretelméleti alapok vannak arra, hogy mindig lehetővé tegyék az ilyen eshetőségek fennállását.

Az egyik ilyen érvet a néhai Dennis Lindley alkotta Cromwell-szabály néven ismerik. A 17. századi Oliver Cromwellt idézve:

"Könyörgöm, Krisztus szívében gondolja lehetségesnek, hogy tévedhet"

Ez a meglehetősen drámai kijelentés arra kér bennünket, hogy engedjük meg a távoli lehetőséget a váratlan események bekövetkezésére. A bayesi valószínűség nyelvén ez azt jelenti, hogy megköveteljük, hogy mindig tekintjünk egy nem nulla előtti fontosságot.

Mert ha előzetes valószínűségét nullára állítjuk, soha semmiféle bizonyíték nem fogja meggyőzni az ellenkezőjéről. Végül is az ellenkező legerősebb bizonyítékai is nullával való szorzás utólagos valószínűségét eredményezik.

Kifogások és Laplace védelme

Nem lehet meglepetés, ha megtudjuk, hogy Laplace napkelte példája sok kritikát váltott ki kortársaitól.

Az emberek kifogásolták Laplace feltételezéseinek vélt egyszerűségét - még a naivitását is. Abszurdnak tűnt az a gondolat, hogy 1/1 826 215 valószínűséggel a nap nem kel fel másnap.

Csábító azt hinni, hogy nagyszámú próbálkozás esetén nem nulla valószínűségi eseménynek kell megtörténnie. És ezért, ha annyi egymást követő napfelkeltét figyelünk meg egyetlen hiba nélkül, az biztosan azt jelenti, hogy Laplace becslése túlbecsül?

Például arra számíthat, hogy egymillió próba után egy-egy millió eseményt figyelt meg - a definíció szerint szinte garantált! Mennyi a valószínűsége az ellenkezőnek?

Nos, nem csodálkozna, ha kétszer dobna egy tisztességes érmét leszálló fej nélkül. Az sem okozna aggodalmat, ha egy kockát hatszor dobna, és soha nem látná a hatos számot. Ezek 1/2, illetve 1/6 valószínűségű események, de ez egyáltalán nem garantálja azok előfordulását az első két és hat vizsgálatban.

A 17. században Bernoullinak tulajdonított eredmény a határt 1 / n valószínűségként és a kísérletek számaként határozza meg.nagyon nagyra nőnek:

Bár n kísérlet után átlagosan legalább egy esemény előfordulását 1 / n valószínűséggel észlelte, akkor is nagyobb, mint 1/3-os esély, hogy nem.

Hasonlóképpen, ha a nap felkelésének sikertelensége valójában 1/1, 826, 215, akkor talán nem kellene annyira meglepődnünk, hogy ilyen eseményt még soha nem rögzítettek a történelemben.

És vitathatatlanul Laplace képesítése túl nagylelkű.

Igaz, hogy egy olyan személy számára, aki azt állítja, hogy megérti a nap minden nap felkelő mechanizmusát, annak valószínûségének, hogy ezt elmulasztja, sokkal közelebb kell lennie a nullához.

Az ilyen mechanizmus megértésének feltételezése azonban megköveteli, hogy előzetes ismeretekkel rendelkezzünk a rendszerről, azon túl, amelyet megfigyeltünk. Ennek oka, hogy egy ilyen mechanizmust implicit módon állandónak feltételeznek - más szóval, minden időkre igazak.

Ez a feltételezés bizonyos értelemben lehetővé teszi számunkra, hogy korlátlan számú megfigyelést "varázsoljunk" - azokon felül, amelyeket valóban megfigyeltünk. Ez egy feltételezés, amelyet nem más, mint Isaac Newton követel, a híres „Philosophiae Naturalis Principia Mathematica” harmadik könyvének elején.

Newton négy „A filozófia érvelésének szabályait” vázolja fel. A negyedik szabály azt állítja, hogy a korábbi megfigyelésekből származó javaslatokat „majdnem igaznak” tekinthetjük, amíg a jövőbeni észrevételek nem mondják ellent.

Ez a feltételezés döntő jelentőségű volt a tudományos forradalom számára, annak ellenére, hogy fogrúgás volt olyan filozófusok számára, mint David Hume, aki híresen érvelt az indukció problémája mellett.

Ez az ismeretelméleti kompromisszum teszi lehetővé számunkra a hasznos tudomány megismerését és a technológia feltalálását. Valahol a vonal mentén, ahogy azt látjuk, hogy a becsült valószínűsége annak, hogy a nap nem kel fel, egyre közelebb csökken a nullához, hagyjuk magunkat „lefelé kerekíteni”, és egy teljes értékű tudományos igazságot állítunk.

De mindez feltehetően meghaladja annak a pontnak a körét, amelyet Laplace eredetileg meg akart tenni.

Valóban nem szerencsés a napfelkeltés példája Az utódlás szabálya akkor jön be igazán, ha teljesen ismeretlen „black-box” rendszerekre alkalmazzák, amelyekre nulla (vagy nagyon kevés) megfigyelésünk van.

Az öröklési szabály ugyanis korai példát kínál a nem informatív prioritásra.

Hogyan lehet minél kevesebbet feltételezni

A bayesi valószínűség a modern gépi tanulás kulcsfontosságú fogalma. Az olyan algoritmusok, mint a Naive Bayes osztályozás, az elvárás maximalizálása, a variációs következtetés és a Markov lánc Monte Carlo, a manapság legnépszerűbbek közé tartoznak.

A bayesi valószínűség általában a valószínűség értelmezésére utal, ahol az új bizonyítékok tükrében frissíti a (gyakran szubjektív) hitét.

Két kulcsfogalom az előzetes és a hátsó valószínűség.

A posztori valószínűségek azok, amelyeknek tulajdonítunk hitünk frissítése után, új bizonyítékokkal szemben.

Korábbi valószínűségek (vagy „priorsok”) azok, amelyeket igaznak tartunk, mielőtt új bizonyítékokat látnánk.

Az adatkutatókat érdekli, hogyan rendelhetünk előzetes valószínűségeket az eseményekhez előzetes ismeretek hiányában. Ez a gépi tanulás és a prediktív elemzés számos problémájának tipikus kiindulópontja.

A papok informatívak lehetnek, abban az értelemben, hogy "véleményekkel" érkeznek a különböző események valószínűségéről. Ezek a „vélemények” lehetnek erősek vagy gyengék, és általában korábbi megfigyeléseken vagy más módon ésszerű feltételezéseken alapulnak. Ezek felbecsülhetetlenek azokban a helyzetekben, amikor gépi tanulási modellünket szeretnénk gyorsan betanítani.

A papok azonban lehetnek informatívak is. Ez azt jelenti, hogy a lehető legkevesebbet feltételeznek egy esemény valószínűségéről. Ezek hasznosak olyan helyzetekben, amikor azt akarjuk, hogy gépi tanulási modellünk üres állapotból tanuljon.

Tehát fel kell tennünk a kérdést: hogyan mérik, mennyire „informatív” egy korábbi valószínűség-eloszlás?

Az információelmélet választ ad. Ez a matematika olyan ága, amely az információk mérésének és közlésének módját érinti.

Az információ a bizonyosság vagy annak hiánya szempontjából is elképzelhető.

Végül is mindennapi értelemben minél több információval rendelkezel valamilyen eseményről, annál biztosabb vagy annak eseményéről. A kevesebb információ egyenlő a kevesebb bizonyossággal. Ez azt jelenti, hogy az információelmélet és a valószínűségelmélet elválaszthatatlanul összekapcsolódnak.

Az információs entrópia az információelmélet alapvető fogalma. Az adott valószínűség-eloszlásban rejlő bizonytalanság mérésére szolgál. A nagy entrópiájú valószínűség-eloszlás az, amelynek kimenetele bizonytalanabb.

Talán intuitív módon meg tudja indokolni, hogy az egységes valószínűség-eloszlásnak - amely eloszlásnak minden esemény egyformán valószínű - a lehető legnagyobb entrópiája van. Például, ha tisztességes és elfogult érmét forgat, melyik eredményben lenne a legkevésbé biztos?

Az információs entrópia hivatalos formában biztosítja ennek számszerűsítését, és ha ismer valamilyen számítást, itt ellenőrizheti a bizonyítékot.

Tehát az egységes elosztás nagyon valós értelemben a lehető legkevésbé informatív elosztás. És emiatt nyilvánvaló döntést hoz egy neminformatív prioritás mellett.

Talán észrevette, hogy Laplace öröklési szabálya hogyan eredményezi az egységes prior használatát? Egy siker és egy kudarc hozzáadásával, még mielőtt bármilyen eredményt észrevettünk volna, egységes valószínűségeloszlást használunk, hogy képviseljük a rendszerrel kapcsolatos „korábbi” hitünket.

Aztán ahogy egyre több eredményt figyelünk meg, a bizonyítékok súlya egyre inkább felülkerekedik a prioron.

Esettanulmány: Naiv Bayes-osztályozás

Manapság Laplace öröklési szabályát az additív simításra és az álszámlálásra általánosítják.

Ezek olyan technikák, amelyek lehetővé teszik számunkra, hogy nem nulla valószínűségeket alkalmazzunk olyan eseményekre, amelyeket nem figyelnek meg az edzésadatok. Ez elengedhetetlen része annak, hogy a gépi tanulási algoritmusok hogyan tudnak általánosítani, ha korábban nem látott bemenetekkel szembesülnek.

Vegyük például a Naive Bayes osztályozást.

Ez egy egyszerű, mégis hatékony algoritmus, amely képes osztályozni a szöveges és más, megfelelően tokenizált adatokat, Bayes-tétel felhasználásával.

Az algoritmus egy előre besorolt ​​adat korpuszra van kiképezve, amelyben minden dokumentum szavakból vagy „jellemzőkből” áll. Az algoritmus azzal kezdődik, hogy megbecsüljük az egyes jellemzők valószínűségét, adott osztályra.

Bayes-tétel (és néhány nagyon naiv feltételezés a funkciófüggetlenségről) felhasználásával az algoritmus ezután közelítheti az egyes osztályok relatív valószínűségeit, figyelembe véve a korábban nem látott dokumentumban megfigyelt jellemzőket.

A Naiv Bayes-osztályozás egyik fontos lépése annak becslése, hogy egy adott osztályon belül egy jellemző mennyire figyelhető meg. Ezt úgy lehet elvégezni, hogy kiszámoljuk, hogy a gyakoriság milyen gyakorisággal figyelhető meg az adott osztály rekordjaiban az edzésadatokban.

Például előfordulhat, hogy a „Python” szó az összes „programozásnak” minősített dokumentum 12% -ában szerepel, szemben az „indulónak” minősített összes dokumentum 1% -ával. A „tanulás” szó a programozási dokumentumok 10% -ában és az összes induló dokumentum 20% -ában szerepelhet.

Vegyük a „Learn Python” mondatot.

Ezeknek a frekvenciáknak a felhasználásával azt találjuk, hogy a mondat „programozás” besorolásának valószínűsége egyenlő 0,12 × 0,10 = 0,012, és annak valószínűsége, hogy „indítás” kategóriába sorolható, 0,01 × 0,20 = 0,002.

Ezért a „programozás” a valószínűbb e két osztály közül.

De ez a frekvencia-alapú megközelítés gondokba ütközik, amikor olyan tulajdonságot veszünk figyelembe, amely soha nem fordul elő egy adott osztályban. Ez azt jelentené, hogy frekvenciája nulla.

A naiv Bayes-osztályozás megköveteli, hogy szorozzuk a valószínűségeket, de bármit nullával megszorozva természetesen mindig nulla lesz.

Tehát mi történik, ha egy korábban nem látott dokumentum tartalmaz egy, az osztályban soha nem megfigyelt szót a képzési adatokban? Ezt az osztályt lehetetlennek fogják tekinteni - függetlenül attól, hogy a dokumentumban minden más szó milyen gyakran fordul elő ebben az osztályban.

Additív simítás

Az additív simításnak nevezett megközelítés megoldást kínál. Ahelyett, hogy nulla frekvenciát engedélyeznénk, egy kis állandót adunk a számlálóhoz. Ez megakadályozza, hogy a láthatatlan osztály / tulajdonság kombinációk kisiklassák az osztályozót.

Ha ez az állandó egyenlő, az additív simítás megegyezik Laplace öröklési szabályának alkalmazásával.

A Naive Bayes osztályozás mellett az additív simítást más valószínűségi gépi tanulási összefüggésekben is alkalmazzák. Ilyenek például a nyelvi modellezés, az ideghálózatok és a rejtett Markov-modellek problémái.

Matematikai szempontból az additív simítás azt jelenti, hogy a béta eloszlást konjugátumként alkalmazzuk, mielőtt a binomiális és geometriai eloszlásokra vonatkozó Bayesi következtetést elvégeznénk.

A béta eloszlás a [0,1] intervallumon definiált valószínűségi eloszlások családja. Két alakparaméterre van szükség, az αés β. Laplace utódlási szabálya megfelel az α beállításának= 1 és β = 1.

Amint fentebb tárgyaltuk, a béta (1,1) eloszlás az, amelyre az információ-entrópia maximalizált. Vannak azonban alternatív prioritások azokra az esetekre, amikor az egy siker és egy kudarc feltételezése nem érvényes.

Például Haldane priorját béta (0,0) eloszlásként definiálják. Ez olyan esetekre vonatkozik, amikor még abban sem vagyunk biztosak, hogy megengedhetjük-e a bináris kimenetet. Haldane előzményei végtelen mennyiségű „súlyt” helyeznek nullára és egyre.

Jeffrey priorja, a béta (0,5, 0,5) eloszlás egy másik nem informatív prior. Segítő tulajdonsága, hogy változatlan marad a reparaméterezés alatt. Levezetése meghaladja a cikk kereteit, de ha érdekli, nézze meg ezt a szálat.

Az ötletek öröksége

Személy szerint érdekesnek találom, hogy a valószínűség és a statisztika legkorábbi elképzelései hogyan élték túl az évekig tartó vitákat, és még mindig széles körben használják a modern gépi tanulást.

Rendkívüli felismerni, hogy a több mint két évszázaddal ezelőtt kialakult ötletek hatása napjainkban is érezhető. A gépi tanulás és az adattudomány valódi mainstream lendületet kapott az elmúlt évtizedben. De az alapokat, amelyekre épülnek, jóval azelőtt hozták létre, hogy az első számítógépek még közel lettek volna a megvalósításhoz.

Nem véletlen, hogy az ilyen gondolatok a tudásfilozófiával határosak. Ez különösen akkor válik aktuálissá, amikor a gépek egyre intelligensebbek lesznek. Melyik ponton terelődhet át a hangsúly tudatfilozófiánkra?

Végül mit hozna Laplace és kortársai a gépi tanulásból ma? Csábító azt sugallni, hogy meglepnék őket az elért haladás.

De ez valószínűleg rossz szolgálat lenne az előrelátásukra. Végül is René Descartes francia filozófus a 17. században írt egy mechanisztikus filozófiáról. Egy hipotetikus gép leírása:

„Je désire que vous considériez… toutes les fonctions que j'ai attribuées à cette machine, comme… la réception de la lumière, des fia, des odeurs, des goûts… l'empreinte de ces idées dans la mémoire… et enfin les mouvements extérieurs… qu'ils imitent le plus parfaitement lehetséges ceux d'un vrai homme… considériez que ces fonctions ... de la seule disposition de ses organes, ni plus ni moins que font les mouvements d'une horloge ... de celle de ses contrepoids et de ses roues ”

Ami ezt fordítja: „Kívánom, hogy vegye fontolóra minden olyan funkciót, amelyet ennek a gépnek tulajdonítottam, mint például: a fény, a hang, az illat és az íz fogadása ... ezeknek az ötleteknek a lenyomata a memóriában ... utánozzuk a lehető legtökéletesebben egy igazi emberét ... Vegyük figyelembe, hogy ezek a funkciók csak a szervek ellenőrzése alatt állnak, nem kevesebb vagy kevesebb, mint az óra mozgásai ellensúlyai ​​és kerekei felé

A fenti szakasz hipotetikus gépet ír le, amely képes reagálni az ingerekre, és úgy viselkedik, mint egy „igazi ember”. Descartes „Traité de l'homme” című, 1664-es munkájában jelent meg.- teljes 150 évvel Laplace „Essai philosophique sur les probabilités” előtt.

A 18. században és a 19. század elején hihetetlenül kifinomult automatákat építettek olyan feltalálók, mint Pierre Jaquet-Droz és Henri Maillardet. Ezeket az óramű androidokat „be lehet programozni” a zene írására, rajzolására és lejátszására.

Tehát kétségtelen, hogy Laplace és kortársai elképzelhetik az intelligens gép fogalmát. És biztosan nem kerülte volna el figyelmüket, hogy a valószínűség terén elért haladás miként alkalmazható a gépi intelligenciára.

Az „essai filozófia” elején Laplace egy hipotetikus szuperintelligenciáról ír, visszamenőlegesen „Laplace démonának” elnevezve:

„Egyetlen intelligencia, töltsd le azonnali donnét, a konnaîtrait toutes les erők dont la nature est animée-et, és a helyzetet az adott des êtres qui la összetevőtől, az elle était assez vaste-tól a soumettre ces données à l'analyse… rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux ”

Ami ezt fordítja: „Egy intelligencia, amely egy adott pillanatban ismeri mindazokat az erőket, amelyek révén a természet animálódik, és az őt alkotó lények helyzetét, és ha elég nagy lenne ahhoz, hogy ezeket az adatokat elemzés alá vonja… semmi sem lenne bizonytalan legyen előtte, és a jövő, mint a múlt, jelen lenne a szemében ”.

Meg lehet-e valósítani Laplace démonját Descartes intelligens gépeinek egyikeként? A modern érzékenység elsöprően nemet sugall.

Laplace kisebb léptékű elképzelése azonban hamarosan valósággá válhat, nem kis részben a valószínűség terén végzett saját úttörő munkájának köszönhetően.

Közben a nap (valószínűleg) tovább fog kelni.