Conférenciers invités

Résumés

  • François Beck
    • Titre : Entre invisible et indicible : Comment aborder des sujets sensibles telles que les usages de drogues ou la santé mentale dans les enquêtes en population générale ?
    • Résumé (PDF)
  • David Bessis
    • Titre : TBA
  • Paul Blanche
    • Titre : Évaluation des capacités pronostiques de modèles joints pour données longitudinales et de survie : inférence et application au pronostic de la démence
    • Résumé : La modélisation conjointe de marqueurs longitudinaux et de données de survie gagne actuellement en popularité. Motivé par l’intérêt croissant pour la médecine personnalisée, elle commence notamment à être utilisée pour calculer des prédictions de risques individuels dites dynamiques. Ces prédictions sont dites dynamiques car elles sont actualisées au fur et à mesure que l’information sur le profil de santé d’un sujet évolue au cours de son suivie. Dans ce travail, nous nous intéressons aux méthodes statistiques pour quantifier et comparer les capacités pronostiques de ce type de prédictions. L’aire sous la courbe ROC et le Brier score sont proposés pour quantifier les capacités pronostiques. Une approche non paramétrique de pondération par l’inverse de la probabilité de censure est proposée. Elle permet de s’adapter simplement à la présence de données censurées et d’éventuels risques concurrents, ce qui est important puisque leur présence est fréquente en recherche médicale. Quelques résultats asymptotiques sont présentés et des tests et des méthodes de calcul d’intervalles de confiance ponctuels et simultanés en sont dérivés.
  • Nicole El Karoui
    • Titre : Détection robuste d’instants de rupture dans l’intensité d’un processus de Poisson
    • Résumé : Nous considérons le problème de détection optimale d’un instant de changem ment non-observable dans le taux d’un processus de Poisson non homogène, dans un cadre non bayésien. Nous cherchons une règle d’arrêt qui minimise le critère robuste de Lorden. Ce dernier est formulé en terme de nombre d’événements avant détection, à la fois en terme de délai que du point de vue de contraintes concernant les fausses alarmes. Dans le cas d’un processus de Wiener, un tel problème a été résolu en utilisant la stratégie dite « custom » par de nombreux auteurs (Moustakides (2004), ou Shyraiev (1963,..2009)). Dans notre situation, nous montrons l’optimalité de la règle d’arrêt cusum en utilisant du calcul des variations finies, et des propriétés élémentaires de martingales afin de caractériser la performance des fonctions de la règle de détection cusum en termes de fonctions d’échelle. Elles apparaissent comme des solutions d’équations différentielles retardées que nous résolvons de manière élémentaire. Le cas de la détection d’une baisse d’intensité est aisé à étudier, du fait que les fonctions de performance sont continues. Dans le cas d’une augmentation, les propriétés de martingale requièrent d’utiliser un temps local discontinu. Néanmoins, à partir d’une identité reliant les fonctions d’échelle, l’optimalité de la règle cusum reste satisfaite. Des applications numériques sont proposées.
  • Arthur Gretton
    • Titre : Kernel nonparametric tests of homogeneity, independence, and multi-variable interaction
    • Résumé : We consider three nonparametric hypothesis testing problems: (1) Given samples from distributions p and q, a homogeneity test determines whether to accept or reject p=q; (2) Given a joint distribution p_xy over random variables x and y, an independence test investigates whether p_xy = p_x p_y, (3) Given a joint distribution over several variables, we may test for whether there exist a factorization (e.g., P_xyz = P_xyP_z, or for the case of total independence, P_xyz=P_xP_yP_z). The final test (3) is of particular interest in fitting directed graphical models, as it may be used in detecting cases where two independent causes individually have weak influence on a third dependent variable, but their combined effect has a strong influence, even when these variables have high dimension. We present nonparametric tests for the three cases described, based on distances between embeddings of probability measures to reproducing kernel Hilbert spaces (RKHS), which constitute the test statistics (eg for independence, the distance is between the embedding of the joint, and that of the product of the marginals). The tests benefit from decades of machine research on kernels for various domains, and thus apply to distributions on high dimensional vectors, images, strings, graphs, groups, and semigroups, among others. The energy distance and distance covariance statistics are particular instances of these RKHS statistics.
  • Fred J. Hickernell
    • Titre : Guaranteed Fixed-Width Confidence Intervals for Monte Carlo and Quasi-Monte Carlo Simulation
    • Résumé : Monte Carlo and quasi-Monte Carlo simulation is widely used for estimating the means of random variables and approximating multidimensional integrals. Applications arise in financial risk management, computer generated images, statistical physics, and other areas. Users would like to know how many samples are required to ensure that the estimate is within a given error tolerance of the true quantity with a high degree of certainty. Unfortunately, most methods for constructing fixed-width confidence intervals rely on asymptotic results or heuristics. Quasi-Monte Carlo methods, which are based on low discrepancy sequences, may be much more accurate than IID Monte Carlo, but the existing theoretical error bounds for quasi-Monte Carlo methods do not lend themselves to practical computation. This talk describes recently derived data-based error bounds for (quasi-) Monte Carlo methods, which have rigorous guarantees of success. The key to constructing these error bounds is to identify suitable cones of random variables or integrands. In turn, these data-based error bounds may then be used to construct guaranteed fixed-width confidence intervals. These algorithms described have been implemented in freely available software.
  • Peter Hoff
    • Titre : Bayes and empirical Bayes methods for tensor data
    • Résumé : Many modern multivariate datasets are naturally represented as arrays or tensors. For example, multivariate and/or longitudinal network data may be represented as a multiway data array. In this talk I will discuss some tools for modeling such data, such as the array normal distribution, reduced-rank tensor models and Stein estimation. Regarding the array normal distribution, we will consider applications such as ANOVA and factor analysis, and discuss priors that provide optimal equivariant inference. For mean estimation, we will discuss methods for dimension-specific eigenvalue shrinkage, and extensions of these methods to accommodate ordinal array-valued data.
  • Sophie Lambert-Lacroix
    • Titre : Modèles mixtes fonctionnels
    • Résumé : Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension. Le cadre naturel pour modéliser ce type de données est alors celui des modèles mixtes fonctionnels. Nous nous intéressons aux questions d’estimation et de réduction de dimension au sein des modèles mixtes fonctionnels et nous présentons deux approches. La première approche se place dans un objectif d’estimation dans un contexte non-paramétrique. Dans ce cadre, l’estimateur de l’effet fixe fonctionnel basé sur les techniques de seuillage par ondelettes possède de bonnes propriétés de convergence. Une deuxième approche concerne une procédure basée sur les techniques de sélection de variables par maximum de vraisemblance pénalisée. Ces approches sont illustrées via une étude de simulation et sur données réelles.
  • Valérie Monbet
    • Titre : Modèles auto-régressifs à chaîne de Markov cachée pour des séries temporelles multivariées de température de l’air
    • Résumé : Le climat a un impact direct sur la production agricole, la production d’énergies renouvelables, l’évolution des paysages (érosion, submersion, …), certains écosystèmes sensibles, la qualité de l’air, etc. Une approche classique pour étudier l’impact du climat sur des systèmes consiste à développer des générateurs aléatoires de conditions météorologiques qui permettent de simuler rapidement un grand nombre de situations météorologiques. Les séquences simulées sont typiquement utilisées en entrée de modèles économiques ou écologiques. Dans cet exposé, nous proposons des modèles auto-régressifs à changement de régime markovien permettant de simuler conjointement des séries temporelles de température de l’air en plusieurs sites répartis en France. Dans ces modèles, plusieurs modèles autorégressifs multivariés sont utilisés pour décrire l’évolution spatio-temporelle de la température et les transitions entre les différents régimes sont controlées par une chaine de Markov cachée qui représente des types de temps. Nous discuterons aussi des extensions dans lesquelles la chaine de Markov est non homogène. Nous verrons que ces modèles sont interprétables et permettent de reproduire la dynamique spatio-temporelle observée dans les données.
  • Andrea Montanari
    • Titre : Computational barriers to statistical inference
    • Résumé: Classical statistics aims at developing optimal procedures for estimating probabilistic models from data. The fundamental limit to this procedures is of information-theoretic nature. Simply, the data do not contain sufficient information to estimate the unknown object. Modern applications have brought into the limelight a certain number of statistical problems whereby the fundamental bottleneck is not statistical, but computational. I will discuss two such problems arising from graph (or matrix) estimation and an interesting line of attack.
  • Gregory Nuel
    • Titre : Prédiction individuelle du risque de cancer en fonction des antécédents familiaux
    • Résumé : On évoque ici la problématique (clinique) de l’évaluation du risque individuel en fonction des antécédents familiaux (pédigrés). On commence par introduire le modèle BOADICEA (actuellement utilisé à l’Institut Curie) qui mélange la génétique humaine, les réseaux bayésiens et l’analyse de survie. Nous insistons ensuite sur le défi que représente l’estimation des paramètres de ce modèle, notamment en raison de l’épineux problème du biais de sélection des familles se présentant dans les services de génétique du cancer. Nous évoquons ensuite l’interprétation de ce modèle et des différentes sorties qu’il propose avant de discuter des perspectives de ce travail.
  • Mélanie Prague
    • Titre : Utilisation des modèles dynamiques pour l’optimisation des traitements des patients infectés par le VIH
    • Résumé : De nos jours, la plupart des patients infectés par le VIH ont une charge virale qui peut être rendue indétectable par des combinaisons antirétrovirales hautement actives (cART); cependant, il existe des effets secondaires de ces traitements qui doivent être pris à vie. L’utilisation des modèles mécanistes dynamiques basés sur des équations différentielles ordinaires (ODE) a considérablement amélioré les connaissances de la dynamique HIV-système immunitaire et permet désormais d’envisager une personnalisation du traitement. L’objectif de ces travaux de thèse est d’améliorer les techniques statistiques d’estimation de paramètres dans les modèles mécanistes dynamiques afin de proposer des stratégies de surveillance et d’optimisation des traitements chez les patients infectés par le VIH. Dans une première partie, nous présentons les problématiques d’inférence dans les modèles ODE avec effets mixtes sur les paramètres. Nous introduisons un algorithme d’estimation bayésienne basé sur une maximisation de la vraisemblance pénalisée puis un programme associé NIMROD. Nous montrons la puissance des approches mécanistes dynamiques concernant l’évaluation des effets traitements par rapport aux méthodes descriptives basées sur des modèles de regression d’analyse des trajectoires des biomarqueurs. Dans une deuxième partie, nous définissons le modèle à cellules cibles: un système ODE à 4 compartiments décrivant la dynamique du VIH, des CD4 quiescents, activés et activés-infectés. Nous l’ajustons sur des données cliniques et nous montrons qu’il possède de bonnes capacités prédictives. Nous proposons une preuve de concept de la possibilité de contrôler individuellement la dose de traitement. Cette stratégie adaptative tire parti des critères de stabilité des modèles ODE et réajuste la dose du patient en fonction de sa réaction à la dose précédente par une procédure bayésienne. Pour finir, nous introduisons les différents facteurs, en particulier génétiques et pharmacologiques, à prendre en compte pour envisager l’individualisation des changements de cART. Ce travail passe par la quantification in vivo d’effets de cART en utilisant des indicateurs d’activité antivirale établis in vitro.
  • Fabrizio Ruggeri
    • Titre : On Bayesian estimation of thermal diffusivity in materials
    • Résumé : Two approaches are presented to estimate the thermal conductivity or diffusivity of a homogeneous material from the temperature evolution acquired in few internal points. Temperature evolution is described by the classical one-dimensional heat equation, in which the thermal conductivity (or diffusivity) is one of the coefficients. In the first approach noisy measurements lead to a partial differential equation with stochastic coefficients and, after discretisation in time and space, to a stochastic differential equation. Euler approximation at sampled points leads to a likelihood function, used in the Bayesian estimation of the thermal conductivity under different prior densities. An approach for generating latent observations over time in points where the temperature is not acquired is also included. Finally, the methodology is experimentally validated, considering a heated piece of polymethyl methacrylate (PMMA) with temperature measurements available in few points of the material and acquired at high frequency. In the second approach a Bayesian setting is developed to infer unknown parameters that appear into initial-boundary value problems for parabolic partial differential equations. The realistic assumption that the boundary data are noisy is introduced, for a given prescribed initial condition. We show how to derive the global likelihood function for the forward problem, given some measurements of the solution field subject to Gaussian noise. Given Gaussian priors for the time-dependent Dirichlet boundary values, we marginalize out analytically the global likelihood using the linearity of the discretized solution. This approach is fully implemented in the case of the heat equation where the thermal diffusivity is the unknown parameter. We assume that the thermal diffusivity parameter can be modeled a priori through a lognormal random variable or by means of a space-dependent stationary lognormal random field. Synthetic data are used to carry out the inference. We exploit the concentration of the posterior distribution of the thermal diffusivity, using the Laplace approximation and therefore avoiding costly MCMC computations. Expected information gains and predictive posterior densities for observable quantities are numerically estimated for different experimental setups.
  • Gerhard Tutz
    • Titre : Regularized regression for discrete structure
    • Résumé : Regularization methods are an effective tool to identify relevant structures in regression models. They are useful in particular when modelling categorical data, because even for a moderate number of predictors and response categories many parameters are needed to specify the link between predictors and responses. The focus is on regularization by penalty terms, which are tailored to the discrete data problem. First categorical predictors in univariate generalized linear models are considered. Several penalty based methods that enforce variable selection and clustering of categories are presented and investigated. It is distinguished between ordered predictors where clustering refers to the fusion of adjacent categories and nominal predictors for which arbitrary categories can be fused. The methods allow to identify which categories do actually differ with respect to the dependent variable. In multicategorical response models appropriate penalization that allows to select predictors instead of single effects uses grouping structures that collect all the parameters linked to one explanatory variable. Selection of covariates is shown to work well in a general model which includes global predictors as well as predictors that are specific to the response categories. In repeated measurement studies with several measurements taken on a specific unit one often tries to account for the heterogeneity of units by using random effects models. Fixed effect models with an appropriate penalization of the subject-effects are presented as an alternative that avoids some of the problems of random effects models. They allow to model the heterogeneity of the population and identify clusters of unit that share the same effect. As an alternative to penalization tree-based estimators are considered to obtain clusters of categories in high dimensional problems. In the last part mixture models that aim at the modelling of uncertainty of the response and the response styles are investigated. An adjacent categories model is proposed that simultaneously models the content related effects and the heterogeneity in response styles. By accounting for response styles it provides a simple remedy for the bias that occurs if the response style is ignored. The model allows to include explanatory variables that have a content-related effect as well as an effect on the response style.
  • Sara Van de Geer
    • Titre : Norm-regularized empirical risk minimization
  • Nicolas Verzelen
    • Titre : Détection de communautés dans des réseaux aléatoires
    • Résumé : L’analyse des réseaux est aujourd’hui un domaine ayant donné lieu à une abondante littérature aux croisements de la combinatoire, de l’algorithmique, de la physique des systêmes complexes et plus récemment des statistiques. La détection de communautés vise à découvrir des groupe de noeuds fortement liés entre eux et faiblement liés aux autres. Dans cet exposé, on discutera de modèles de réseaux aléatoires permettant de rentre compte de l’hétérogénéité rencontrée dans les réseaux réels. Ce cadre probabiliste permet de formaliser statistiquement le problème de détection de communautés. On obtiendra ainsi une caractérisation fine des difficultés statistiques inhérentes au problème de détection en faisant apparaître un compromis précision statistique contre complexité algorithmique.
  • Qiwei Yao
    • Titre : Segmenting multiple time series by contemporaneous linear transformation : PCA for time series
    • Résumé : We seek for a contemporaneous linear transformation for a $p$-variate time series such that the transformed series is segmented into several lower-dimensional subseries, and those subseries are uncorrelated with each other both contemporaneously and serially. The method may be viewed as an extension of principal component analysis (PCA) for multiple time series. Technically it also boils down to an eigenanalysis for a positive definite matrix. When $p$ is large, an additional step is required to perform a permutation in terms of either maximum cross-correlations or FDR based on multiple tests. The asymptotic theory is established for both fixed $p$ and diverging $p$ when the sample size $n$ tends to infinity. Numerical experiments with both simulated and real datasets indicate that the proposed method is an effective initial step in analysing multiple time series data, which leads to substantial dimension-reduction in modelling and forecasting high-dimensional linear dynamical structures. The method can also be adapted to segment multiple volatility processes.