Électronique | Texte intégral gratuit | Sur l’application des méthodes de stabilité aux données de séries chronologiques

, Électronique | Texte intégral gratuit | Sur l’application des méthodes de stabilité aux données de séries chronologiques
On sait que l’un des inconvénients du Lasso est le manque de contrôle sur la sélection de variables fausses ou non pertinentes (voir [13] pour une discussion sur ce sujet). Une option pour contrôler la proportion de fausses découvertes est de considérer la la stabilité de la sélection sous échantillonnage. Dans le cadre de cette approche, il a été proposé dans [14] qu’au lieu d’appliquer Lasso à l’ensemble de données de taille nLasso est appliqué à plusieurs reprises à des sous-ensembles de taille

n
/
2

, et une variable choisie fréquemment lors de l’exécution des expériences est jugée pertinente. Pour simplifier, nous supposons que n est même. Plus important encore, une variable n’est incluse dans le modèle que si la probabilité empirique d’être sélectionnée dans les expériences est supérieure à un seuil fixe, qui est choisi par le praticien. La difficulté majeure est que les expériences doivent être exécutées pour tous

n

n
/
2

sous-ensembles de taille

n
/
2

. Une autre variante pour la sélection de variables basée sur la stabilité a été introduite dans [15]. Une différence importante entre la méthode de [15]appelée Complementary Pairs Stability Selection (CPSS), et celle de [14] est que CPSS ne considère pas dans chaque expérience un sous-ensemble de taille

n
/
2

mais une paire de sous-ensembles de taille

n
/
2

dont l’intersection est l’ensemble vide. Il n’est pas nécessaire d’exécuter des expériences pour toutes les paires avec ces propriétés ; il suffit d’exécuter le sous-échantillonnage B fois, où B est un paramètre de réglage. La sélection Lasso est appliquée à chaque sous-ensemble de la paire et les statistiques concernant le nombre de fois qu’une variable particulière est sélectionnée sont calculées en tenant compte des résultats de sélection obtenus pour chaque sous-ensemble, dans chaque expérience. La décision d’inclure une variable dans le modèle est basée sur la comparaison de la statistique calculée avec un seuil. Plus intéressant, au lieu d’une limite sur la proportion de fausses découvertes, le CPSS affirme les limites dans les termes suivants : (i) « le nombre attendu de variables choisies par le CPSS qui ont une faible probabilité de sélection dans le cadre de la procédure de sélection de base » et (ii) « le nombre attendu de variables à probabilité de sélection élevée qui sont exclues par le CPSS ». Dans le cas qui nous intéresse, la procédure de sélection de base est Lasso, mais il est évident que les méthodes de stabilité de [14,15] peut également s’appliquer à d’autres procédures de sélection. Dans la continuité de la série de statistiques de Scopus que nous avons présentées ci-dessus, nous mentionnons que la référence [15] est cité 171 fois sur Scopus, mais il n’y a aucune citation dans les revues/actes de conférence/chapitres de livre qui contiennent dans leurs titres le terme « traitement du signal ». Une explication possible pourrait être que le CPSS ainsi que la méthode de stabilité de [14] ont été conçus pour des données indépendantes et identiquement distribuées. Il semble que le seul travail dans lequel CPSS a été modifié pour convenir aux séries chronologiques est [16]. Le point clé de la modification du CPSS proposée dans [16] consiste à échantillonner à partir de blocs de données ‘presque’ indépendants.

Selon [17], la stabilité est utilisée depuis longtemps dans l’inférence statistique ; il a été appliqué non seulement dans les cas où la perturbation des données était produite par sous-échantillonnage, mais il a également été utilisé en conjonction avec d’autres schémas de perturbation comme le jackknife ou le bootstrap. Par exemple, dans la littérature sur le traitement du signal, la stabilité s’est avérée déterminante pour trouver le nombre de groupes lors de la mise en cluster des données (voir, par exemple [18]). Une analyse complète des méthodes de clustering basées sur la stabilité qui ont été proposées au cours des dernières décennies peut être trouvée dans [19]. Plus récemment, la stabilité a été utilisée pour l’identification d’équations différentielles à partir de données spatio-temporelles bruitées [20]. Les résultats d’études de simulation approfondies qui évaluent les capacités des méthodes de stabilité pour les données biomédicales de grande dimension ont été rapportés dans [21,22]. Le but de l’étude menée en [21] était de comparer les capacités de quatre procédures de sélection de base à identifier correctement les vrais prédicteurs dans des données artificielles lorsque le critère de stabilité est appliqué. Les résultats ont montré que Lasso peut conduire à des résultats modestes lorsqu’il existe une corrélation entre les variables significatives. Il convient de mentionner que l’étude n’a pas utilisé les méthodes de stabilité de [15,16].

Ce propos répond à vos investigations vous adorerez aussi ces publications :

Nouveaux Principes d’économie politique/Livre I/Chapitre 7.,Référence litéraire de cet ouvrage. Disponible à l’achat sur les plateformes Amazon, Fnac, Cultura ….