Vendredi 5 octobre 2007 : Caroline Truntzer (Plateforme Proteomique, INSERM-CHU Dijon)
"Analyse de données issues de spectrométrie de masse appliquée à la protéomique clinique ".
Résumé : La
spectrométrie de masse est une technologie dite à haut
débit, utilisée en clinique pour la recherche de
biomarqueurs protéiques spécifiques d’une maladie
ou de son évolution par exemple.
Une brève introduction permettra de décrire les objectifs
et les contraintes de la protéomique clinique, ainsi que les
méthodes d’obtention des données
générées par spectrométrie de masse.
Ces données permettent, sous la forme de spectres, de
décrire un ou des sous-ensembles de protéines propres
à un patient à un temps donné. Avant
d’être analysés, ces spectres sont
pré-traités pour en extraire l’information. Les
méthodes de pré-traitement et d’analyse,
adaptées aux particularités de ces données, seront
présentées.
Nous aborderons enfin les perspectives en vue d’une optimisation de l’analyse de ces données.
Vendredi 26 octobre 2007 : Fabrice Rossi (INRIA, projet AXIS),
"Machines à vecteurs de support et données fonctionnelles."
Résumé : Une
machine à vecteurs de support (MVS) est un outil de
discrimination basé sur la maximisation de la marge d'un
séparateur affine : les données à classer sont
envoyées dans un espace de Hilbert à noyau reproduisant
(RKHS) dans lequel on choisit un séparateur affine en minimisant
un compromis entre les erreurs de classement du séparateur et la
norme du vecteur normal qui le définit.
On étudie ici des noyaux adaptés aux données
fonctionnelles et la consistance des MVS obtenues ainsi. On
s'intéresse à deux classes de noyaux. La première
consiste en la combinaison d'un noyau adapté à des
données classiques avec une projection des données
fonctionnelles sur une base tronquée. La deuxième
s'applique aux données fonctionnelles régulières
et discrétisées. Le passage par un noyau de type L-spline
permet alors de travailler sur les dérivées de fonctions
observées. Dans les deux cas, on montre un résultat de
consistance.
Vendredi 2 Novembre 2007 : James Ledoux (INSA Rennes).
"Approximation Poisson de flux d'événements dirigés par un processus de Markov."
Résumé:
Dans un premier temps, nous introduirons une classe de modèles
d'occurrence d'événements largement utilisée en
fiabilité, en évaluation des performances des
systèmes informatiques, ... Puis, nous justifions une
approximation Poisson du processus de comptage de ces
événements lorsque ces derniers surviennent de plus en
plus rarement. Nous donnons une vitesse pour la convergence en
variation. Dans le cas où les événements
possèdent une marque et sous certaines conditions, cela fournit
une approximation de type poisson composé par exemple du
processus d'accumulation des marques. Ces résultats font
intervenir des techniques de filtrage et de
perturbation du processus de Markov directeur.
Vendredi 9 Novembre 2007 : Nadine Guillotin (Univ. Lyon 1
)
"Analyse probabiliste d'algorithmes distribués et de structures de données
dynamiques".
Résumé: Depuis
les années 1970, les propriétés statistiques des
algorithmes distribués et des structures de données ont
été étudiées soit par des techniques de
combinatoire, de diffusion ou de grandes déviations. Les
modélisations proposées supposent toujours une
évolution homogène dans le temps des opérations de
base. Nous proposons un nouveau modèle où une certaine
dépendance au temps est permise.
Vendredi 16 Novembre 2007 : Celestin Kokonendji (Univ. Pau)
reporté au 30 novembre
"Estimateur à noyau discret pour des fonctionnelles dicrètes".
Résumé : Les
estimateurs non paramètriques les plus couramment
utilisés pour estimer des fonctionnelles telles une
régression, une densité de probabilité, un taux de
hasard, etc. sont sans conteste ceux basés sur la méthode
du noyau. La majorité des travaux consacrés à
cette technique de lissage est consacrée aux données
continues. Ainsi, le nombre de travaux traitant des estimateurs
à noyau pour données discrètes reste relativement
limité.
Dans cet exposé, nous introduisons un nouvel estimateur à
noyau discret pour une densité de probabilité
discrète. Cet estimateur est le semblable de certain estimateur
à noyau continu et asymétrique (assez récent dans
la littérature). Nous étudierons les propriétes
ponctuelles et globales à l'aide de la version discrète
du Théorème de Taylor. Nous examinerons l'importance du
choix des noyaux discrets parmi les standards, ainsi que les
différentes techniques de sélection du paramètre
de lissage. Après des illustrations sur des données de
dénombrement, nous évoqueront le cas de la famille des
noyaux discrets triangulaires et de la version discrète de
l'estimateur de Nadaraya-Watson pour la régression. Enfin, nous
discuterons entre autre d'une application à l'estimation
semi-paramètrique des distributions de Poisson
pondérées.
Vendredi 14 Décembre 2007 : Frédéric Chazal (INRIA Futurs, Saclay)
"Propriétés géométriques et
propriétés de stabilité d'une famille de mesures
associées à des compacts.
Résumé :
La caractérisation de structures géométriques dans
des masses de données représentées par des nuages
de points (souvent en grandes dimensions) est un enjeu important en
analyse de données. Lorsqu’on étudie des
données en grande dimension, il est souvent supposé
qu’elles sont échantillonnées au voisinage
d’une « forme » de petite dimension. Il est alors
important, pour l’analyse des données, de disposer de
méthodes permettant d’inférer les
propriétés topologiques et géométriques
d’une telle forme. Les méthodes actuelles supposent
essentiellement que les formes recherchées sont des
variétés lisses et ne permettent
généralement pas d’inférer des
propriétés locales des formes. Elles se
révèlent également inopérantes
lorsqu’il s’agit de traiter de grosses masses de
données. En pratique, il apparait souvent que les données
échantillonnent des formes plus complexes que des
sous-variétés. Il est alors important de pouvoir
caractériser des propriétés
géométriques locales (singularités, arêtes
vives, strates,…) de ces formes. Dans cet exposé, nous
introduirons une famille de mesures de probabilité
associée à chaque compact de $\R^n$ qui porte des
informations géométriques sur le compact. Nous montrerons
un résultat de stabilité de ces mesures qui permet
d’obtenir un algorithme de calcul robuste de ces mesures pour des
nuages de points. Nous montrerons aussi quelques conséquences de
ce résultat concernant les mesures de courbures dans la cadre de
la théorie de la mesure géométrique.
Vendredi 18 janvier 2008 : Jean-Marc Lasgouttes (INRIA Rocquencourt)
"Prédiction de trafic et modèle d'Ising."
Résumé : On s'intéresse à la reconstruction et la prédiction de trafic routier à partir de véhicules traceurs. Le cadre est un celui d'un modèle d'Ising sur un graphe espace-temps dont les sites sont les liens du réseau de base, pris à des instants discrets et connectés entre eux en fonction des corrélations obtenues au niveau des carrefours. Des informations concernant l'intensité du trafic sont collectées par des véhicules traceurs circulant de façon aléatoire sur le réseau routier. On obtient ainsi des données moyennes et des corrélations entre liens proches à dates consécutives. À partir de ces données, il est possible d'identifier les paramètres du modèle d'Ising pour que son approximation de Bethe possède les mêmes corrélations de paires. La partie « reconstruction de trafic » consiste, à partir des données temps réel et des données historiques, en une application de l'algorithme Belief Propagation (BP) de Pearl, qui fournit une approximation des marginales conditionnelles sur les paires de liens par une procédure de passage de messages. Dans ce cadre, on étudie quelques propriétés de BP, notamment en terme de stabilité locale des points fixes et d'effet de la renormalisation des messages.
Vendredi 15 Février 2008 : Nicolas Pouyanne (Univ. Versailles)
"Arbres de recherche et processus de P\'olya."
Résumé: Les arbres m-aires de recherche sont une structure de l'algorithmique de tri des ensembles de données.
Ils font l'objet d'une "transition de phase" qui s'explique en les
considérant comme un certain type de processus aléatoires
d'urnes avec remises. On établira ces modèles d'urnes et
on en décrira une approche algébrique qui permet d'en
étudier le comportement asymptotique.
Vendredi 29 Février 2008 : Jean-Baptiste Caillau (IMB, Univ. Bourgogne)
"Métriques de Clairaut-Liouville singulières en contrôle optimal."
Résumé: On
considère des métriques riemanniennes avec
singularité sur la 2-sphère de révolution.
L'étude de ce type de singularité est motivée par
des applications du contrôle optimal à la mécanique
spatiale ainsi qu'a la mécanique quantique, en lien avec la
projection de distributions sous-riemanniennes
(régulières) en dimension supérieure. Un
déploiement des métriques sous la forme d'une homotopie
depuis la métrique canonique sur S^2 est défini qui
permet d'analyser le cas singulier comme un cas limite de cas
riemanniens usuels. Une bifurcation du lieu conjugué pour les
conditions intiales à la singularité est observée.
Vendredi 7 Mars 2008 : Guillaume Chauvet (ENSAI/INSEE Rennes)
"Bootstrap pour un plan de sondage à entropie maximale."
Résumé: Le
Bootstrap est un outil largement utilisé dans le cas d'une
analyse statistique en population infinie. Nous montrons dans ce
travail que le principe de substitution qui est à la base du
Bootstrap admet un équivalent naturel en population finie, le
principe d'estimation de Horvitz-Thompson, et que la méthode
proposée à l'origine par Gross (1980) se
généralise naturellement au cas d'un plan de sondage
à entropie maximale.
Par rapport à la technique générale qu'est la
linéarisation, le gain que nous attendons d'une méthode
de type Bootstrap est avant tout d'ordre pratique. Les méthodes
de rééchantillonnage permettent d'accoler au fichier
d'enquête des variables de poids, permettant d'obtenir une
estimation de la fonction de répartition pour une gamme
trés large de statistiques, en s'affranchissant de la
connaissance du plan de sondage initial.
Le tirage à entropie maximale recouvre les cas particuliers
importants du sondage aléatoire simple, du tirage
réjectif et du tirage équilibré. Nous montrons que
la méthode se généralise également au cas
du tirage stratifié et du tirage multidegrés. La
méthode proposée est évaluée à
l'aide de quelques simulations.
Vendredi 14 mars 2008 : Diego Legros (UB, Econometrie)
Abstract : Human capital is one of the main inputs in economic
growth. It generates endogenous growth thanks to a continuous process
of knowledge and externalities accumulation (Aghion and Howitt, 1998).
In that context, this paper explores the relationship between
innovation and vocational training. Our methodological approach allows
to contribute to the literature in three manners. First, we propose
different indicators of vocational training. Second, we build a count
data panel with a long time data series. This deals with the issue of
non-random selection and potentially with measurement error from short
panels. Finally, we explicitly allow for endogeneity and fixed effects
using GMM techniques. Estimations are made on a panel data set relative
to French industrial firms over the period 1986-1992. Our results show
that whatever the indicators, vocational training has a positive impact
on the technological innovation.
Vendredi 21 mars 2008 : Pascal Sarda (IMT, Toulouse 3)
Titre: "Test d'\'equivalence de deux courbes ROC."
Résumé :
Le
problème de linguistique ayant motivé
notre étude a trait à l'extraction de collocations
dans un texte pour lequel des courbes ROC (Receiver Operating
Characteristic) sont utilisées afin de mesurer la qualité
de différentes méthodes d'extraction (classificateurs).
Nous nous intéressons plus particulièrement au
problème du test de l'équivalence de deux courbes ROC.
Nous proposons une transformation des courbes ROC qui conduit à
la définition d'une statistique de test s'écrivant comme
une distance entre deux processus quantiles empiriques. Nous obtenons
la distribution asymptotique de cette statistique et proposons une
procédure de calcul de la valeur critique. Nous montrons que
les p-valeurs peuvent être utilisées comme distance
entre les courbes ROC permettant une classification des
différentes méthodes d'extraction.
Vendredi 28 mars 2008 : Jérémie Bourdon (IRIN, Nantes) 13h00-14h00
Titre: "Propriétés
moyennes dans des graphes probabilisés: recherche de motifs et
réseaux de gènes."
Résumé :
Nous présentons ici un modèle général
permettant d'intégrer une notion de poids dans des graphes munis
de probabilités. Plus précisément, étant
donné un graphe, on associe à chaque arête une
probabilité (d' être empruntée à l'instant
t) et un coût de péage. Ce graphe permet d'étudier
l'évolution de quantités au cours du temps (ou plus
précisément lorsque l'on suit une trajectoire dans le
graphe). Ces quantités sont alors vues comme des accumulations
de petites contributions dues à chaque arête. Nous
répondons à certaines questions du type, quelle est
l'évolution typique de la quantité pour de grandes
trajectoires "typiques" dans le graphe. Les résultats obtenus
sont liés aux objets caractéristiques (valeurs propres et
vecteurs propres) d'une combinaison entre la matrice de
probabilité du graphe et les poids des arêtes.
Nous appliquons ensuite ces résultats à deux
problèmes distincts : (1) la recherche de motifs (lorsque le
motif est une expression régulière); (2)
l'étude de l'évolution des concentrations de
protéines.
Ce travaux sont en collaboration avec Brigitte Vallée pour (1),
Damien Eveillard et Théo Merle pour (2).
Vendredi 28 mars 2008 : Feng ZHOU, (Eastern China Normal University) 14h00-15h00
Titre: "Concentration phenomena for some nonlinear elliptic equations."
Résumé :
In recent year, many research has been involved to
understand the "concentration phenomena" for some non linear PDE. The theory
concerns on the profile of solutions and the locations of their concentration
sets as well as their stability and instability properties.
Vendredi 4 avril 2008 : Cristian Preda (CERIM, Faculté de Médecine-Université de Lille 2)
Titre : "Statistiques de scan bidimensionnelles."
Résumé :
Dans beaucoup de domaines les décideurs accordent beaucoup
d'importance aux situations décrites par une accumulation
(cluster) 'anormale' d'événements. En effet, cela peut être
le résultat d'un ensemble de facteurs de risque qui doivent par la
suite être contrôlés. En santé publique, les services
d'épidémiologie cherchent les facteurs pouvant expliquer des
clusters de cancers ou d'anomalies de naissance. Les biologistes
cherchent des clusters de palindromes dans les séquences de l'ADN
pour trouver des indices de l'origine de la réplication de
certains virus. Dans le contrôle de qualité on s'interroge sur les
clusters d'éléments défectueux.
La décision est prise selon la grandeur de la probabilité
d'observer un tel cluster, sous des hypothèses nulles qui sont
celles d'une situation (évolution) "normale".
Les statistiques de scan (scan statistics) sont utilisées
pour analyser les clusters (groupes) locaux d'événements. Plus
précisément, elles sont des variables aléatoires utilisées comme
statistiques de test pour v&ecute;rifier l'hypothèse d'indépendance et
l'appartenance à une même distribution d'un ensemble
d'observations contre une alternative privilégiant l'existence des
clusters.
Le problème central dans le domaine des statistiques de scan est
l'estimation de la distribution d'une statistique de scan, pour laquelle
des formules exactes n'existent pas même dans les cas le plus simples.
Nous présentons les principaux résultats pour les statistiques de scan uni
et bidimensionnelles (discrètes et continues) ainsi qu'une nouvelle
méthode d'approximation basée sur le comportement du maximum partiel d'une
suite stationnaire des variables 1-dépendantes et qui présente l'avantage
de fournir des intervalles de confiance.
Vendredi 25 avril 2008 : Aurelien Latouche
Titre: "Un modèle de regression pour la probabilité conditionnelle d'un évènement
concurrent"
Résumé : En
présence d'événements concurrents, nous
présentons un modèle de regression pour la
probabilité conditionnelle pour un événement de
type k (Pepe 1993, Statistics in Medicine). Cette probabilité
représente le probabilité d'avoir experimenté
l'événement de type k avant l'instant t sachant que l'on
a experimenté aucun autres événements en
compétition. Le modèle considéré est un
modèle à odds proportionnel avec des effets
dépendants du temps. L'estimation repose sur le modele "temporal
process regression" (Fine, Yan et Kosorok, Biometrika 2004). Nous
présentons également le paquet R permettant l'estimation
et la
representation graphique des probabilités conditionnelles.