1 La forêt aléatoire

La forêt aléatoire (random forests) est une méthode ensembliste puissante et largement utilisée pour les tâches de classification et de régression. Elle combine la simplicité des arbres de décision et l’échantillonnage des observations et des variables avec la puissance de l’agrégation pour améliorer les performances prédictives et réduire le risque de surajustement (overfitting).

1.1 Principe de la forêt aléatoire

La forêt aléatoire est une extension du bagging, présenté dans la section précédente. Elle introduit un niveau supplémentaire d’aléa dans la construction des arbres, puisqu’à chaque nouvelle noeud, la règle de décision est choisie en considérant uniquement un sous-ensemble de variables sélectionné aléatoirement. Cette randomisation supplémentaire réduit la corrélation entre les arbres, ce qui permet de diminuer la variance des prédiction du modèle agrégé.

Les forêts aléatoires reposent donc sur quatre éléments essentiels:

Les arbres de régression et de classification: Les modèles élémentaires sont des arbres de décision profonds.
L’échantillonnage bootstrap: Chaque arbre est construit à partir d’un échantillon aléatoire du jeu de données d’entraînement tiré avec remise (ou parfois sans remise).
La sélection aléatoire de variables : Lors de la construction d’un arbre, à chaque nœud de celui-ci, un sous-ensemble aléatoire de variables est sélectionné. La meilleure règle de décision est ensuite choisie uniquement parmi ces caractéristiques.
L’agrégation des prédictions : Comme pour le bagging, les prédictions de tous les arbres sont combinées. On procède généralement à la moyenne (ou à la médiane) des prédictions dans le cas de la régression, et au vote majoritaire (ou à la moyenne des probabilités prédites pour chaque classe) dans le cas de la classification.

1.2 Comment construit-on une forêt aléatoire?

L’entraînement d’une forêt aléatoire est très similaire à celui du bagging et se résume comme suit (voir figure 1):

Le nombre d’arbres à construire est défini a priori.
Pour chaque arbre, on effectue les étapes suivantes:
- Générer un échantillon bootstrap de taille fixe à partir des données d’entraînement.
- Construire récursivement un arbre de décision à partir de cet échantillon:
  - À chaque nœud de l’arbre, un sous-ensemble de features est sélectionné aléatoirement.
  - Déterminer le couple (variable, valeur) qui définit la règle de décision divisant la population du nœud en deux sous-groupes les plus homogènes possibles.
  - Créer les deux nœuds-enfants à partir de cette règle de décision.
  - Arrêter la croissance de l’arbre selon des critères d’arrêt fixés a priori.

Pour construire la prédiction de la forêt aléatoire une fois celle-ci entraînée, on agrège les arbres selon une méthode qui dépend du problème modélisé:

Régression: la prédiction finale est la moyenne des prédictions de tous les arbres.
Classification: chaque arbre vote pour une classe, et la classe majoritaire est retenue.

Les principaux hyper-paramètres des forêts aléatoires (détaillés dans la section le guide d’usage des forêts aléatoire) sont les suivants: le nombre d’arbres, la méthode et le taux d’échantillonnage, le nombre (ou la proportion) de variables considérées à chaque nœud, le critère de division des nœuds (ou mesure d’hétérogénéité), et les critères d’arrêt (notamment la profondeur de l’arbre, le nombre minimal d’observations dans une feuille terminale, et le nombre minimal d’observations qu’un nœud doit comprendre pour être divisé en deux).

Figure 1: Entraînement d’une forêt aléatoire

1.3 Pourquoi les forêts aléatoires sont-elles performantes?

Les propriétés théoriques des forêts aléatoires permettent de comprendre pourquoi (et dans quelles situations) elles sont particulièrement robustes et performantes.

1.3.1 Réduction de la variance par agrégation

L’agrégation de plusieurs arbres permet de réduire la variance globale du modèle, ce qui améliore la stabilité des prédictions. Lorsque les estimateurs sont (faiblement) biaisés mais caractérisés par une variance élevée, l’agrégation permet d’obtenir un estimateur avec un biais similaire mais une variance réduite. La démonstration est identique à celle présentée dans la section précédente.

1.3.2 Convergence et limite théorique au surajustement

Bien qu’elles s’avèrent très performantes en pratique, il n’est pas prouvé à ce stade que les forêts aléatoires convergent vers une solution optimale lorsque la taille de l’échantillon tend vers l’infini (Louppe (2014)). Plusieurs travaux théoriques ont toutefois fourni des preuves de convergence pour des versions simplifiées de l’algorithme (par exemple, Biau (2012)).

Par ailleurs, une propriété importante des forêts aléatoires démontrée par Breiman (2001) est que leur erreur de généralisation, c’est-à-dire l’écart entre les prédictions du modèle et les résultats attendus sur des données jamais vues (donc hors de l’échantillon d’entraînement), diminue à mesure que le nombre d’arbres augmente et converge vers une valeur constante. Autrement dit, la forêt aléatoire ne souffre pas d’un surajustement croissant avec le nombre d’arbres (contrairement aux algorithmes de gradient boosting). La conséquence pratique de ce résultat est qu’inclure un (trop) grand nombre d’arbres dans le modèle n’en dégrade pas la qualité, ce qui contribue à la rendre particulièrement robuste. En revanche, une forêt aléatoire peut souffrir de surajustement si ses autres hyperparamètres sont mal choisis (des arbres trop profonds par exemple).

1.3.3 Facteurs influençant l’erreur de généralisation

L’erreur de généralisation des forêts aléatoires est influencée par deux facteurs principaux :

La puissance prédictrice des arbres individuels : Les arbres doivent être suffisamment prédictifs pour contribuer positivement à l’ensemble, et idéalement sans biais.
La corrélation entre les arbres : Moins les arbres sont corrélés, plus la variance de l’ensemble est réduite, car leurs erreurs tendront à se compenser. Inversement, des arbres fortement corrélés auront tendance à faire des erreurs similaires, donc agréger un grand nombre d’arbres n’apportera pas grand chose.

On peut mettre en évidence ces deux facteurs dans le cas d’une forêt aléatoire utilisée pour une tâche de régression (où l’objectif est de minimiser l’erreur quadratique moyenne). Dans ce cas, la variance de la prédiction du modèle peut être décomposée de la façon suivante:

\[ \text{Var}(\hat{f}(x)) = \rho(x) \sigma(x)^2 + \frac{1 - \rho(x)}{M} \sigma(x)^2 \]

où \(\rho(x)\) est le coefficient de corrélation moyen entre les arbres individuels, \(\sigma(x)^2\) est la variance d’un arbre individuel, \(M\) est le nombre d’arbres dans la forêt. Cette décomposition fait apparaître l’influence de la corrélation entre les arbres sur les performance de la forêt aléatoire:

Si \(\rho(x)\) est proche de 1 (forte corrélation entre les arbres) : la première composante \(\rho \sigma^2\) domine et la réduction de variance est moindre lorsque le nombre d’arbres augmente.
Si \(\rho(x)\) est proche de 0 (faible corrélation entre les arbres) : la seconde composante \(\frac{1 - \rho}{M} \sigma^2\) et la variance est davantage réduite avec l’augmentation du nombre d’arbres \(M\).

L’enjeu de l’entraînement des forêts aléatoires est donc de minimiser la corrélation entre les arbres tout en maximisant leur capacité à prédire correctement, ce qui permet de réduire la variance globale sans augmenter excessivement le biais. La sélection aléatoires des caractéristiques (features) à chaque nœud joue un rôle majeur dans cet arbitrage entre puissance prédictive des arbres pris isolément et corrélation entre arbres.

1.4 Evaluation des performances par l’erreur Out-of-Bag (OOB)

La forêt aléatoire présente une particularité intéressante et très utile en pratique: il est possible d’évaluer les performances d’une forêt aléatoire directement à partir des données d’entraînement, grâce à l’estimation de l’erreur Out-of-Bag (OOB). Cette caractéristique repose sur le fait que chaque arbre est construit à partir d’un échantillon bootstrap, c’est-à-dire un échantillon tiré avec remise. Cela implique qu’une part des observations ne sont pas utilisées pour entraîner un arbre donné. Ces observations laissées de côté forment un échantillon dit out-of-bag, que l’on peut utiliser pour évaluer la performance de chaque arbre. On peut donc construire pour chaque observation du jeu d’entraînement une prédiction qui agrège uniquement les prédictions des arbres pour lesquels cette observation est out-of-bag; cette prédiction n’est pas affectée par le surajustement (puisque cette observation n’a jamais été utilisée pour entraîner ces arbres). De cette façon, il est possible d’évaluer correctement la performance de la forêt aléatoire en comparant ces prédictions avec la variable-cible à l’aide d’une métrique bien choisie.

La procédure d’estimation de l’erreur OOB se déroule comme ceci:

Entraînement de la forêt aléatoire: la forêt aléatoire est entraînée sur les données d’entraînement selon la procédure détaillée ci-dessus.
Calcul des prédictions out-of-bag : Pour chaque observation \((x_i, y_i)\) des données d’entraînement, on calcule la prédiction de tous les arbres pour lesquels elle fait partie de l’échantillon out-of-bag. La prédiction out-of-bag finale est obtenue en agrégeant ces prédictions selon la procédure standard détaillée ci-dessus (moyenne pour la régression, vote majoritaire pour la classification).
Calcul de l’erreur OOB : L’erreur OOB est ensuite calculée en comparant les prédictions avec la variable-cible \(y\) sur toutes les observations, à l’aide d’une métrique (précision, rappel, AUC, erreur quadratique moyenne, score de Brier…).

L’utilisation de l’erreur OOB présente de multiples avantages:

Approximation de l’erreur de généralisation: L’erreur OOB est en général considérée comme une bonne approximation de l’erreur de généralisation, comparable à celle obtenue par une validation croisée.
Pas besoin de jeu de test séparé : L’un des principaux avantages de l’erreur OOB est qu’elle ne nécessite pas de réserver une partie des données pour la mesure de la performance. Cela est particulièrement utile lorsque la taille du jeu de données est limitée, car toutes les données peuvent être utilisées pour l’entraînement tout en ayant une estimation fiable de la performance. Ceci dit, il est malgré tout recommandé de conserver un ensemble de test si la taille des données le permet, car il arrive que l’erreur OOB surestime la performance du modèle.
Gain de temps : Contrairement à la validation croisée qui requiert de réentraîner plusieurs fois le modèle pour un jeu donné d’hyperparamètres, l’erreur OOB ne nécessite qu’un seul entraînement du modèle. Cela induit un gain de temps appréciable lors de l’optimisation des hyperparamètres.
Pertinence pour certains cas d’usage : les prédictions out-of-bag peuvent être particulièrement utiles lorsqu’on veut utiliser le modèle _sur les données qui ont servi à l’entraîner. Bien qu’elle soit inhabituelle, cette situation se rencontre dans les travaux de la statistique publique, par exemple si l’on veut entraîner une forêt aléatoire pour prédire la probabilité de réponse dans une enquête, puis utiliser ce modèle dans le cadre d’une repondération selon la méthode des groupes de réponse homogène.

1.5 Interprétation et importance des variables

Les forêts aléatoires sont des modèles d’apprentissage performants, mais leur complexité interne les rend difficiles à interpréter, ce qui leur vaut souvent le qualificatif de “boîtes noires”. Comprendre l’influence des variables explicatives sur les prédictions est crucial pour interpréter les résultats.

L’objectif des méthodes d’interprétabilité (ou d’importance des variables) est d’identifier les variables les plus influentes sur la variable cible, de comprendre les mécanismes prédictifs sous-jacents, et potentiellement d’extraire des règles de décision simples et transparentes. Plusieurs méthodes d’importance des variables existent, mais il est important de comprendre leurs forces et faiblesses.

1.5.1 Mesures d’importance classiques (et leurs biais)

Il existe de multiples mesures d’importance des variables. Deux d’entre elles sont fréquemment utilisées:

Réduction moyenne de l’impureté (Mean Decrease in Impurity - MDI) : Cette méthode quantifie l’importance d’une variable par la somme des réductions d’impureté qu’elle induit dans tous les arbres de la forêt. Plus spécifiquement, pour chaque variable, on s’intéresse à la moyenne des réductions d’impureté qu’elle a engendrées dans tous les nœuds de tous les arbres où elle est impliquée. Les variables présentant la réduction moyenne d’impureté la plus élevée sont considérées comme les prédicteurs les plus importants.

La MDI présente des biais importants. Elle est notamment sensible aux variables catégorielles avec de nombreuses modalités, qui peuvent apparaître artificiellement importantes (même si leur influence réelle est faible), ainsi qu’aux variables avec une échelle de valeurs plus étendues, qui obtiennent des scores plus élevés, indépendamment de leur importance réelle. Elle est également fortement biaisée en présence de variables explicatives corrélées, ce qui conduit à surestimer l’importance de variables redondantes. Les interactions entre variables ne sont pas non plus prises en compte de manière adéquate.

Importance par permutation (Mean Decrease Accuracy - MDA) : Cette méthode évalue l’importance d’une variable en mesurant la diminution de précision du modèle après permutation aléatoire de ses valeurs. Plus spécifiquement, pour chaque variable, les performances du modèle sont comparées avant et après la permutation de ses valeurs. La différence moyenne de performance correspond à la MDA. L’idée est que si l’on permute aléatoirement les valeurs d’une variable (cassant ainsi sa relation avec la cible), une variable importante entraînera une hausse significative de l’erreur de généralisation.

Comme la MDI, la MDA présente des biais lorsque les variables sont corrélées. En particulier, la MDA peut surévaluer l’importance de variables qui sont corrélées à d’autres variables importantes, même si elles n’ont pas d’influence directe sur la cible (Bénard, Da Veiga, and Scornet (2022)).

Plusieurs stratégies peuvent aider à réduire les biais d’interprétation :

Prétraitement des variables: Standardisation des variables, regroupement des modalités rares des variables catégorielles, réduction de la cardinalité des variables catégorielles.
Analyse des corrélations: Identification et gestion des variables fortement corrélées, qui peuvent fausser les mesures d’importance.
Choix de méthodes robustes: Privilégier les méthodes moins sensibles aux biais, comme les CIF ou la Sobol-MDA, et, le cas échéant, SHAFF pour les valeurs de Shapley. Ces méthodes sont présentées dans la sectio suivante.

1.5.2 Méthodes d’importance avancées

Pour pallier les limites des méthodes traditionnelles, des approches plus sophistiquées ont été développées.

Valeurs de Shapley: Les valeurs de Shapley permettent de quantifier la contribution de chaque variable explicative à la variance expliquée de la variable cible, en tenant compte des interactions entre les variables. Elles attribuent à chaque variable une contribution marginale moyenne à la performance du modèle, en considérant toutes les combinaisons possibles de sous-ensembles de variables. Cependant, l’estimation des valeurs de Shapley est computationnellement coûteuse (complexité exponentielle avec le nombre de variables). Des méthodes approximatives existent, mais peuvent introduire des biais. L’algorithme SHAFF (Bénard et al. (2022)) propose une solution rapide et précise à ce problème, en tirant parti des propriétés des forêts aléatoires.
Conditional Inference Forests (CIF): Les CIF (Strobl et al. (2007)), implémentées dans le package party de R (cforest), corrigent certains biais de la MDI en utilisant des tests statistiques conditionnels pour sélectionner les variables et les seuils de coupure dans les arbres. Elles sont particulièrement robustes face aux variables hétérogènes et aux corrélations entre variables. Couplées à un échantillonnage sans remise, les CIF fournissent des mesures d’importance plus fiables.
Sobol-MDA: La Sobol-MDA combine l’idée de la MDA avec une approche basée sur les indices de Sobol, permettant de gérer efficacement les variables dépendantes. Au lieu de permuter les valeurs, elle projette la partition des arbres sur le sous-espace excluant la variable dont on souhaite mesurer l’importance, simulant ainsi son absence. Elle est plus efficace en calcul que les méthodes MDA classiques tout en fournissant une mesure d’importance cohérente, convergeant vers l’indice de Sobol total (la mesure appropriée pour identifier les covariables les plus influentes, même avec des dépendances) (Bénard, Da Veiga, and Scornet (2022)).

References

Bénard, Clément, Gérard Biau, Sébastien Da Veiga, and Erwan Scornet. 2022. “SHAFF: Fast and Consistent SHApley eFfect Estimates via Random Forests.” In International Conference on Artificial Intelligence and Statistics, 5563–82. PMLR.

Bénard, Clément, Sébastien Da Veiga, and Erwan Scornet. 2022. “Mean Decrease Accuracy for Random Forests: Inconsistency, and a Practical Solution via the Sobol-MDA.” Biometrika 109 (4): 881–900. https://doi.org/10.1093/biomet/asac017.

Biau, Gérard. 2012. “Analysis of a Random Forests Model.” The Journal of Machine Learning Research 13 (1): 1063–95.

Breiman, Leo. 2001. “Random Forests.” Machine Learning 45: 5–32.

Louppe, Gilles. 2014. “Understanding Random Forests: From Theory to Practice.” arXiv Preprint arXiv:1407.7502.

Strobl, Carolin, Anne-Laure Boulesteix, Achim Zeileis, and Torsten Hothorn. 2007. “Bias in Random Forest Variable Importance Measures: Illustrations, Sources and a Solution.” BMC Bioinformatics 8: 1–21.