Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Recherche

19 février 2017 7 19 /02 /février /2017 22:18
Multi-armed bandit problem

Multi-armed bandit problem

Qu’est-ce que le “The multi-armed bandit problem”? Prenons une analogie pour faire simple:

Dans un casino vous avez 2 machines. Avec une des machines, sur 15 activations, vous gagnez 9 fois et perdez 6 fois. Avec la seconde, vous jouez 2 fois, une fois vous gagnez et une fois vous perdez. Quelle machine choisir?  La première qui vous donne à priori 60 % de chance de gagner ou la seconde qui, avec finalement seulement deux essais vous permet d’estimer une probabilité de 50 %? Avant de prendre une décision, ne faudrait-il pas se demander combien de temps on envisage de rester dans le Casino, ou dit autrement quel est votre intervalle temporel dans votre prise de décision et comment vous situez-vous dans le cadre de ce choix? Ce type de problématique, bien loin d’être une question zébulonique, se présente pratiquement dans tous les secteurs de notre vie y compris sentimentale et en particulier dans les moments que l’on pourrait qualifier de cruciaux, ces moments où les directions choisies commandent votre devenir et sont susceptibles de déclencher des black Swan, là où il faut prendre la “bonne” option, sorte d’aiguillages qui commandent notre destin que cela soit à titre particulier ou collectif! On pourrait parler de singularités décisionnelles et pour prendre des exemples collectifs concrets historiques et contemporains, le déclenchement de la première guerre mondiale, voie terrible que le train de l’humanité a pris en ce début du XX siècle et dont les soubresauts agitent encore notre réalité collective, la question de la dissuasion nucléaire dont la fonction d’onde ne s’est fort heureusement pas résolue pour la pérennité de notre espèce mais aussi et de façon tout à fait prospective la question du contact, où ici, la décision ne nous appartient pas forcément!

D’où cette question de l’intervalle temporel qui nous est laissé pour prendre “la bonne décision”, sachant que cette dernière a de forte chance de se comporter comme une projection de la réalité qui a une forte probabilité d’être irréversible. D’où aussi peut-être cette  injonction contradictoire, énoncée par cet acteur magnifique à qui je rends hommage, Robin Williams, dans le cercle des poètes disparus:

Quel est la temporalité du contact? Une question de réciprocité dans le cadre du multi-armed bandit problem ou optimal stopping?
Quel est la temporalité du contact? Une question de réciprocité dans le cadre du multi-armed bandit problem ou optimal stopping?
Quel est la temporalité du contact? Une question de réciprocité dans le cadre du multi-armed bandit problem ou optimal stopping?Quel est la temporalité du contact? Une question de réciprocité dans le cadre du multi-armed bandit problem ou optimal stopping?Quel est la temporalité du contact? Une question de réciprocité dans le cadre du multi-armed bandit problem ou optimal stopping?

Pour reprendre l’analogie initiale de ce billet, il faut soit profiter de l’instant présent et alors choisir la machine offrant à priori la meilleure probabilité. Où, si nous avons du temps devant nous, peut-être devons-nous faire fonctionner les machines à nouveau car si c’est en fait mieux, nous avons le reste de la vie pour en profiter et sinon nous aurons tout le temps de faire autre chose.

 

Notre stratégie peut donc changer en fonction de l’intervalle de temps dont nous disposons pour prendre une décision et d’une certaine façon nous aider à repenser “la rationalité”. Si en plus nous disposons d’agents numériques apportant leurs aides dans ces choix cornéliens, ne trace-t-on pas une nouvelle façon de nous projeter dans le futur avec peut-être un travers dont il faudra se méfier et qui concerne le paramétrage de ces outils afin de ne pas troquer notre éthique humaine embryonnaire en une rationalité numérique sans âme fabriquée à partir de règles orientées? Toujours est-il que l’on retrouve dans ces fameux courriers exotiques, quelques mentions de ces systèmes numériques qui guideraient une civilisation et ses êtres conscients dans ses évolutions les plus intimes, toujours ces coïncidences troublantes qui sont anachroniques…

 

Enfin, cet intervalle décisionnel est peut-être lié aux réciprocités conjuguées selon les parties impliquées, où la temporalité doit alors se considérer dans un cadre multi-joueurs pour reprendre l’analogie, une sorte de partie d’échec multidimensionnelle. Je divague peut-être…

Pour revenir à notre temporalité:

Partager cet article

Repost 0

commentaires

Articles Récents

Liens