Séminaire "Statistique, Probabilités et Applications"

Année 2007-2008

Institut de Mathématiques de Bourgogne










Vendredi 5 octobre 2007 : Caroline Truntzer (Plateforme Proteomique, INSERM-CHU Dijon)
"Analyse de données issues de spectrométrie de masse appliquée à la protéomique clinique ".

Résumé : La spectrométrie de masse est une technologie dite à haut débit, utilisée en clinique pour la recherche de biomarqueurs protéiques spécifiques d’une maladie ou de son évolution par exemple.
Une brève introduction permettra de décrire les objectifs et les contraintes de la protéomique clinique, ainsi que les méthodes d’obtention des données générées par spectrométrie de masse.
Ces données permettent, sous la forme de spectres, de décrire un ou des sous-ensembles de protéines propres à un patient à un temps donné. Avant d’être analysés, ces spectres sont pré-traités pour en extraire l’information. Les méthodes de pré-traitement et d’analyse, adaptées aux particularités de ces données, seront présentées.
Nous aborderons enfin les perspectives en vue d’une optimisation de l’analyse de ces données.


Vendredi 26 octobre 2007 : Fabrice Rossi (INRIA, projet AXIS),
"Machines à vecteurs de support et données fonctionnelles."

Résumé Une machine à vecteurs de support (MVS) est un outil de discrimination basé sur la maximisation de la marge d'un séparateur affine : les données à classer sont envoyées dans un espace de Hilbert à noyau reproduisant (RKHS) dans lequel on choisit un séparateur affine en minimisant un compromis entre les erreurs de classement du séparateur et la norme du vecteur normal qui le définit.
On étudie ici des noyaux adaptés aux données fonctionnelles et la consistance des MVS obtenues ainsi. On s'intéresse à deux classes de noyaux. La première consiste en la combinaison d'un noyau adapté à des données classiques avec une projection des données fonctionnelles sur une base tronquée. La deuxième s'applique aux données fonctionnelles régulières et discrétisées. Le passage par un noyau de type L-spline permet alors de travailler sur les dérivées de fonctions observées. Dans les deux cas, on montre un résultat de consistance.



Vendredi 2 Novembre 2007 : James Ledoux (INSA Rennes).
"Approximation Poisson de flux d'événements dirigés par un processus de Markov."

Résumé: Dans un premier temps, nous introduirons une classe de modèles d'occurrence d'événements largement utilisée en fiabilité, en évaluation des performances  des systèmes informatiques, ... Puis, nous justifions une approximation Poisson du processus de comptage de ces événements lorsque ces derniers surviennent de plus en plus rarement. Nous donnons une vitesse pour la convergence en variation.  Dans le cas où les événements possèdent une marque et sous certaines conditions, cela fournit une approximation de type poisson composé par exemple du processus d'accumulation des marques. Ces résultats font intervenir des techniques de filtrage et de
perturbation du processus de Markov directeur.


Vendredi 9 Novembre 2007 :  Nadine Guillotin (Univ. Lyon 1)
"Analyse probabiliste d'algorithmes distribués et de structures de données
dynamiques".

Résumé: Depuis les années 1970, les propriétés statistiques des algorithmes distribués et des structures de données ont été étudiées soit par des techniques de combinatoire, de diffusion ou de grandes déviations. Les modélisations proposées supposent toujours une évolution homogène dans le temps des opérations de base. Nous proposons un nouveau modèle où une certaine dépendance au temps est permise.


Vendredi 16 Novembre 2007 : Celestin Kokonendji (Univ. Pau) reporté au 30 novembre
"Estimateur à noyau discret pour des fonctionnelles dicrètes".

Résumé : Les estimateurs non paramètriques les plus couramment utilisés pour estimer des fonctionnelles telles une régression, une densité de probabilité, un taux de hasard, etc. sont sans conteste ceux basés sur la méthode du noyau. La majorité des travaux consacrés à cette technique de lissage est consacrée aux données continues. Ainsi, le nombre de travaux traitant des estimateurs à noyau pour données discrètes reste relativement limité.
Dans cet exposé, nous introduisons un nouvel estimateur à noyau discret pour une densité de probabilité discrète. Cet estimateur est le semblable de certain estimateur à noyau continu et asymétrique (assez récent dans la littérature). Nous étudierons les propriétes ponctuelles et globales à l'aide de la version discrète du Théorème de Taylor. Nous examinerons l'importance du choix des noyaux discrets parmi les standards, ainsi que les différentes techniques de sélection du paramètre de lissage. Après des illustrations sur des données de dénombrement, nous évoqueront le cas de la famille des noyaux discrets triangulaires et de la version discrète de l'estimateur de Nadaraya-Watson pour la régression. Enfin, nous discuterons entre autre d'une application à l'estimation semi-paramètrique des distributions de Poisson pondérées.




Vendredi 14 Décembre 2007 : Frédéric Chazal (INRIA Futurs, Saclay)
"Propriétés géométriques et propriétés de stabilité d'une famille de mesures associées à des compacts.

Résumé : La caractérisation de structures géométriques dans des masses de données représentées par des nuages de points (souvent en grandes dimensions) est un enjeu important en analyse de données. Lorsqu’on étudie des données en grande dimension, il est souvent supposé qu’elles sont échantillonnées au voisinage  d’une « forme » de petite dimension. Il est alors important, pour l’analyse des données, de disposer de méthodes permettant d’inférer les propriétés topologiques et géométriques d’une telle forme. Les méthodes actuelles supposent essentiellement que les formes recherchées sont des variétés lisses et ne permettent généralement pas d’inférer des propriétés locales des formes. Elles se révèlent également inopérantes lorsqu’il s’agit de traiter de grosses masses de données. En pratique, il apparait souvent que les données échantillonnent des formes plus complexes que des sous-variétés. Il est alors important de pouvoir caractériser des  propriétés géométriques locales (singularités, arêtes vives, strates,…) de ces formes. Dans cet exposé, nous introduirons une famille de mesures de probabilité associée à chaque compact de $\R^n$ qui porte des informations géométriques sur le compact. Nous montrerons un résultat de stabilité de ces mesures qui permet d’obtenir un algorithme de calcul robuste de ces mesures pour des nuages de points. Nous montrerons aussi quelques conséquences de ce résultat concernant les mesures de courbures dans la cadre de la théorie de la mesure géométrique.


Vendredi 18 janvier 2008 : Jean-Marc Lasgouttes
(INRIA Rocquencourt)
"Prédiction de trafic et modèle d'Ising."


Résumé : On s'intéresse à la reconstruction et la prédiction de trafic routier à partir de véhicules traceurs. Le cadre est un celui d'un modèle d'Ising sur un graphe espace-temps dont les sites sont les liens du réseau de base, pris à des instants discrets et connectés entre eux en fonction des corrélations obtenues au niveau des carrefours. Des informations concernant l'intensité du trafic sont collectées par des véhicules traceurs circulant de façon aléatoire sur le réseau routier. On obtient ainsi des données moyennes et des corrélations entre liens proches à dates consécutives. À partir de ces données, il est possible d'identifier les paramètres du modèle d'Ising pour que son approximation de Bethe possède les mêmes corrélations de paires. La partie « reconstruction de trafic » consiste, à partir des données temps réel et des données historiques, en une application de l'algorithme Belief Propagation (BP) de Pearl, qui fournit une approximation des marginales conditionnelles sur les paires de liens par une procédure de passage de messages. Dans ce cadre, on étudie quelques propriétés de BP, notamment en terme de stabilité locale des points fixes et d'effet de la renormalisation des messages.


Vendredi 15 Février 2008 : Nicolas Pouyanne (Univ. Versailles)
"Arbres de recherche et processus de P\'olya."

Résumé: Les arbres m-aires de recherche sont une structure de l'algorithmique de tri des ensembles de données.
Ils font l'objet d'une "transition de phase" qui s'explique en les considérant comme un certain type de processus aléatoires d'urnes avec remises. On établira ces modèles d'urnes et on en décrira une approche algébrique qui permet d'en étudier le comportement asymptotique.

Vendredi 29 Février 2008 : Jean-Baptiste Caillau (IMB, Univ. Bourgogne)
"Métriques de Clairaut-Liouville singulières en contrôle optimal."

Résumé: On considère des métriques riemanniennes avec singularité sur la 2-sphère de révolution. L'étude de ce type de singularité est motivée par des applications du contrôle optimal à la mécanique spatiale ainsi qu'a la mécanique quantique, en lien avec la projection de distributions sous-riemanniennes (régulières) en dimension supérieure. Un déploiement des métriques sous la forme d'une homotopie depuis la métrique canonique sur S^2 est défini qui permet d'analyser le cas singulier comme un cas limite de cas riemanniens usuels. Une bifurcation du lieu conjugué pour les conditions intiales à la singularité est observée.

Vendredi 7 Mars 2008 : Guillaume Chauvet (ENSAI/INSEE Rennes)
"Bootstrap pour un plan de sondage à entropie maximale."

Résumé: Le Bootstrap est un outil largement utilisé dans le cas d'une analyse statistique en population infinie. Nous montrons dans ce travail que le principe de substitution qui est à la base du Bootstrap admet un équivalent naturel en population finie, le principe d'estimation de Horvitz-Thompson, et que la méthode proposée à l'origine par Gross (1980) se généralise naturellement au cas d'un plan de sondage à entropie maximale. 
Par rapport à la technique générale qu'est la linéarisation, le gain que nous attendons d'une méthode de type Bootstrap est avant tout d'ordre pratique. Les méthodes de rééchantillonnage permettent d'accoler au fichier d'enquête des variables de poids, permettant d'obtenir une estimation de la fonction de répartition pour une gamme trés large de statistiques, en s'affranchissant de la connaissance du plan de sondage initial. 
Le tirage à entropie maximale recouvre les cas particuliers importants du sondage aléatoire simple, du tirage réjectif et du tirage équilibré. Nous montrons que la méthode se généralise également au cas du tirage stratifié et du tirage multidegrés. La méthode proposée est évaluée à l'aide de quelques simulations.



Vendredi  14 mars 2008 : Diego Legros (UB, Econometrie)

Abstract : Human capital is one of the main inputs in economic growth. It generates endogenous growth thanks to a continuous process of knowledge and externalities accumulation (Aghion and Howitt, 1998). In that context, this paper explores the relationship between innovation and vocational training. Our methodological approach allows to contribute to the literature in three manners. First, we propose different indicators of vocational training. Second, we build a count data panel with a long time data series. This deals with the issue of non-random selection and potentially with measurement error from short panels. Finally, we explicitly allow for endogeneity and fixed effects using GMM techniques. Estimations are made on a panel data set relative to French industrial firms over the period 1986-1992. Our results show that whatever the indicators, vocational training has a positive impact on the technological innovation.



Vendredi 21 mars 2008 : Pascal Sarda (IMT, Toulouse 3)

Titre: "Test d'\'equivalence de deux courbes ROC."

Résumé : Le problème de linguistique ayant motivé notre étude a trait à l'extraction de collocations dans un texte pour lequel des courbes ROC (Receiver Operating Characteristic) sont utilisées afin de mesurer la qualité de différentes méthodes d'extraction (classificateurs). Nous nous intéressons plus particulièrement au problème du test de l'équivalence de deux courbes ROC. Nous proposons une transformation des courbes ROC qui conduit à la définition d'une statistique de test s'écrivant comme une distance entre deux processus quantiles empiriques. Nous obtenons la distribution asymptotique de cette statistique et proposons une procédure de calcul de la valeur critique. Nous montrons que les p-valeurs peuvent être utilisées comme distance entre les courbes ROC permettant une classification des différentes méthodes d'extraction.


Vendredi 28 mars 2008 : Jérémie Bourdon (IRIN, Nantes) 13h00-14h00

Titre: "Propriétés moyennes dans des graphes probabilisés: recherche de motifs et réseaux de gènes."

Résumé : Nous présentons ici un modèle général permettant d'intégrer une notion de poids dans des graphes munis de probabilités. Plus précisément, étant donné un graphe, on associe à chaque arête une probabilité (d' être empruntée à l'instant t) et un coût de péage. Ce graphe permet d'étudier l'évolution de quantités au cours du temps (ou plus précisément lorsque l'on suit une trajectoire dans le graphe). Ces quantités sont alors vues comme des accumulations de petites contributions dues à chaque arête. Nous répondons à certaines questions du type, quelle est l'évolution typique de la quantité pour de grandes trajectoires "typiques" dans le graphe. Les résultats obtenus sont liés aux objets caractéristiques (valeurs propres et vecteurs propres) d'une combinaison entre la matrice de probabilité du graphe et les poids des arêtes. Nous appliquons ensuite ces résultats à deux problèmes distincts : (1) la recherche de motifs (lorsque le motif est une expression réguli&egravere); (2) l'étude de l'évolution des concentrations de protéines. Ce travaux sont en collaboration avec Brigitte Vallée pour (1), Damien Eveillard et Théo Merle pour (2).


Vendredi 28 mars 2008 : Feng ZHOU, (Eastern China Normal University) 14h00-15h00

Titre: "Concentration phenomena for some nonlinear elliptic equations."

Résumé : In recent year, many research has been involved to understand the "concentration phenomena" for some non linear PDE. The theory concerns on the profile of solutions and the locations of their concentration sets as well as their stability and instability properties.


Vendredi 4 avril 2008 : Cristian Preda (CERIM, Faculté de Médecine-Université de Lille 2)

Titre : "Statistiques de scan bidimensionnelles."

Résumé : Dans beaucoup de domaines les décideurs accordent beaucoup d'importance aux situations décrites par une accumulation (cluster) 'anormale' d'événements. En effet, cela peut être le résultat d'un ensemble de facteurs de risque qui doivent par la suite être contrôlés. En santé publique, les services d'épidémiologie cherchent les facteurs pouvant expliquer des clusters de cancers ou d'anomalies de naissance. Les biologistes cherchent des clusters de palindromes dans les séquences de l'ADN pour trouver des indices de l'origine de la réplication de certains virus. Dans le contrôle de qualité on s'interroge sur les clusters d'éléments défectueux. La décision est prise selon la grandeur de la probabilité d'observer un tel cluster, sous des hypothèses nulles qui sont celles d'une situation (évolution) "normale". Les statistiques de scan (scan statistics) sont utilisées pour analyser les clusters (groupes) locaux d'événements. Plus précisément, elles sont des variables aléatoires utilisées comme statistiques de test pour v&ecute;rifier l'hypothèse d'indépendance et l'appartenance à une même distribution d'un ensemble d'observations contre une alternative privilégiant l'existence des clusters. Le problème central dans le domaine des statistiques de scan est l'estimation de la distribution d'une statistique de scan, pour laquelle des formules exactes n'existent pas même dans les cas le plus simples. Nous présentons les principaux résultats pour les statistiques de scan uni et bidimensionnelles (discrètes et continues) ainsi qu'une nouvelle méthode d'approximation basée sur le comportement du maximum partiel d'une suite stationnaire des variables 1-dépendantes et qui présente l'avantage de fournir des intervalles de confiance.


Vendredi 25 avril 2008 : Aurelien Latouche

Titre: "Un modèle de regression pour la probabilité conditionnelle d'un évènement
concurrent"

Résumé : En présence d'événements concurrents, nous présentons un modèle de regression pour la probabilité conditionnelle pour un événement de type k (Pepe 1993, Statistics in Medicine). Cette probabilité représente le probabilité d'avoir experimenté l'événement de type k avant l'instant t sachant que l'on a experimenté aucun autres événements en compétition. Le modèle considéré est un modèle à odds proportionnel avec des effets dépendants du temps. L'estimation repose sur le modele "temporal process regression" (Fine, Yan et Kosorok, Biometrika 2004). Nous présentons également le paquet R permettant l'estimation et la
representation graphique des  probabilités conditionnelles.