Eric BUREL (avec Iragaël Joly) : Tester la performance de différentes spécifications des Random Utility Models

De Ensiwiki
Aller à : navigation, rechercher
Cornues.png
Titre du projet Tester la performance de différentes spécifications des Random Utility Models Approche par simulations
Cadre IRL

Labo GAEL

Encadrants Iragael.Joly@grenoble-inp.fr

Intoduction

Un objectif de la microéconomie est de modéliser et d'analyser les comportements des individus et des entreprises. L'environnement est un ensemble de valeurs représentant la réalité, potentiellement accessibles à l'agent. En fonction de ces valeurs, et de ses propres caractéristiques, l'agent prendra des décisions. Nous nous restreindrons ici à l'étude des individus.

Un modèle à choix discrets est donc la description des réactions d'un individu face à un ensemble d'alternatives fini.

Les domaines d'application sont variés : microéconomie, recherche marketing, sociologie, psychologie, mais aussi parfois surprenants. Par exemple, les modèles à choix discrets sont présents en biologie pour l'étude de l'évolution des plantes. Lorsqu'une nouvelle branche naît, elle pourra soit donner un fruit, soit d'autre branche, selon la "décision" de la plante.


Les RUM

Les modèles à utilité aléatoire, ou Random Utility Models (RUM) sont fondés sur l'hypothèse que l'agent est rationnel. Concrètement, celle-ci est assez simple. Elle stipule que les individus ont des préférences qu'ils peuvent ordonner selon une utilité a priori, et qu'ils se décident toujours pour l'alternative de plus forte utilité.

On obtient ainsi la formule suivante pour la prise de décision :

y = \arg\max(j \in \{choix\}, U_j)

Ce processus est parfaitement déterministe, deux situations identiques donneront deux décisions identiques pour une personne donnée. Alors pourquoi "Random" ? Le caractère aléatoire de l'utilité provient de l'incapacité du chercheur a définir et mesurer toutes les variables d’intérêt qui ont un effet sur la décision.

Ainsi, l'utilité d'une décision j se décompose en deux termes, l'utilité représentative, notée V et le terme aléatoire, \epsilon.

U = V + \epsilon

L'enjeu pour le chercheur est de trouver une formule pour V et de fixer une loi de probabilité pour \epsilon. En réalité, il existe un nombre réduit de modèles pour le choix de la loi d'epsilon, la difficulté réside à trouver une "bonne" utilité représentative.

Je me suis concentré sur le plus ancien est le plus utilisé ces 40 dernières années, le Multinomial Logit Model. D'autre part, je me suis aussi restreint à des fonctions d'utilité linéaires :

 V = \beta^TX

avec \beta un vecteur représentant le comportement de l'individu, et X un vecteur représentant les propriété de l'alternative considérée et les caractéristiques de l'individu lui-même. C'est pourquoi on parlera d'estimations de coefficients comportementaux, car l'objectif du chercheur est d'estimer le vecteur \beta.

Travail réalisé

Mon objectif a été de proposer un algorithme de simulation d'une prise de décision. L'idée est d'avoir un contrôle complet sur les propriétés des individus, pour pouvoir comparer les estimations obtenues avec des outils dédiés à l'étude des choix de transports comme mlogit ou biogeme, et les valeurs fixées à l'avance.

Il devient par exemple possible de tester l'impact de la définition d'un questionnaire, utilisé lors d'enquêtes pour obtenir des données, sur les résultats. Il s'agit d'un aspect important, car proposer des situations de choix fictives (on parle de préférences déclarées) est un des seuls moyens à disposition des chercheurs pour obtenir des données de choix.

J'ai réalisé ce travail en collaboration avec Anne-Cécile Lebrun, élève en deuxième année à Génie Industriel et effectuant un travail similaire à l'IRL avec Iragaël Joly. Ainsi, j'ai pu appuyer mon travail sur de véritables considérations économiques et une compréhension correcte du domaine d'application.


Algorithme proposé pour l'étude des performances de l'estimation

Problème économique

  • Définition des comportements possibles pour un individu
  • Définition des caractéristiques possibles d'un individu
  • Définition des alternatives présentées
  • Définition des valeurs possibles des attributs

Choix du modèle

  • Choix de la loi de l'erreur

Choix du questionnaire

  • Import ou génération d'un design de questionnaire
  • Division en situations de choix

Simulation

  • Génération d'un ensemble d'individus
  • Calcul de l'utilité représentative simulée
  • Ajout de l'erreur pour obtenir l'utilité simulée
  • Calcul des choix obtenus

Estimation

  • Lancement de mlogit sur les données
  • Stockage des estimations obtenues

Interprétation

  • Tracé de courbes obtenues et des valeurs attendues fixées

Expérience et résultats obtenus

Pour notre simulation, nous avons choisi un problème concret, qui pourrait éventuellement être reproduit à Grenoble. La définition est aussi guidée par des considérations économiques et sociologiques dépassant le cadre de mon travail.

Pour se rendre à l'Ensimag, un étudiant à le choix entre un vélo loué, le tramway ou sa propre voiture.

Le chercheur s'intéresse aux variables suivantes, par ordre d'impact sur l'utilité :

  • le temps de trajet
  • le prix du trajet
  • la distance entre l'arrêt/le parking et la destination
  • la couleur du véhicule (qui sert de témoin)

Les fourchettes de valeurs de ces attributs sont celles que l'on peut trouver à Grenoble.

Voici les courbes des estimations obtenues après simulation :

Prix.png Wtp temps.png Wtp proximite.png Wtp couleur.png

On note que l'on ne trace pas directement les valeurs des coefficients, au sens mathématique, on entend ici par valeur une notion monétaire. En effet, les coefficients sont des grandeurs sans échelle et n'ont pas d'intérêt intrinsèque. A la place, nous avons tracé le rapport entre chaque coefficient et le coefficient du prix (sauf bien sûr pour le prix lui-même).

Ce rapport mesure le consentement à payer d'un individu pour l'attribut au numérateur. Par exemple pour le temps, si le rapport vaut 2, l'agent est prêt à payer 1 euro pour gagner 2 minutes de trajet, et proportionnellement, 10 euros pour 20 minutes. On parle alors de la "valeur du temps". Il nous permet aussi de nous débarrasser des considérations d'échelles, car toute constante multiplicative disparaît.

Nous constatons que nos estimations convergent vers les valeurs attendues lorsque l'échantillon d'individus étudié augmente en taille. Cependant, pour moins de 100 individus, des variations existent, pouvant potentiellement donner des valeurs très sur-estimées ou sous-estimées pour les consentements à payer. On note qu'en économie appliquée, les échantillons ne dépasseront que rarement ce seuil de 100 individus.

Ainsi, nous avons démontré que la taille de l'échantillon peut influer sur les résultats de l'économiste.

Conclusion

Nos résultats prouvent que l'outil informatique et la simulation peuvent être adaptés à l'étude de problèmes économétriques. Cet IRL se veut comme une base de travail, ses ouvertures possibles sont nombreuses. L'expérience proposée, par sa conception minimaliste mais robuste, pourra aisément servir de point de départ aux chercheurs intéressés par l'étude de performance des modèles à choix discrets.

Principales références

Kenneth Train. Discrete Choice Methods With Simulation. Cambridge University Press, 2003.

Warren F. Kuhfeld. Marketing Research Methods in SAS. SAS Institute Inc., Cary, NC, USA, 2010.

Yves Croissant. Estimation of multinomial logit models in r : The mlogit packages lien

John M. Rose, Michiel C.J Bliemer, David A. Hensher, and Andrew T. Collins. Designing efficient stated choice experiments in the presence of reference alternatives. Transportation Research, 2007.

Documents

Le rapport final : Fichier:Burel irl 2015 rapport.pdf

Le code R de l'expérience et des fonctions utilisées : Fichier:Irl burel 2015 code.tar.gz