Q. Pan and D. E. Schaubel (2008
)
George Washington University and University of Michigan
Key words and phrases: Hazard regression; observational study; selection bias; survival analysis; weighted Cox model.
AMS subject classification: Primary 62N01 ; Secondary 62D05.
Abstract
In non-randomized biomedical studies using the proportional hazards model, the data often constitute an unrepresentative sample of the underlying target population, which results in biased regression coefficients. The bias can be avoided by weighting included subjects by the inverse of their respective selection probabilities, as proposed by Horvitz & Thompson (1952) and extended to the proportional hazards setting for use in surveys by Binder (1992) and Lin (2000). In practice, the weights are often estimated and must be treated as such in order for the resulting inference to be accurate. The authors propose a two-stage weighted proportional hazards model in which, at the first stage, weights are estimated through a logistic regression model fitted to a representative sample from the target population. At the second stage, a weighted Cox model is fitted to the biased sample. The authors propose estimators for the regression parameter and cumulative baseline hazard. They derive the asymptotic properties of the parameter estimators, accounting for the difference in the variance introduced by the randomness of the weights. They evaluate the accuracy of the asymptotic approximations in finite samples through simulation. They illustrate their approach in an analysis of renal transplant patients using data obtained from the Scientific Registry of Transplant Recipients.
Résumé
Dans les applications du modèle des risques proportionnels aux données d'études biomédicales non randomisées, il est fréquent que l'échantillon ne soit pas représentatif de la population cible sous-jacente, ce qui induit un biais dans les coefficients de régression. Ce biais peut être éliminé en pondérant les sujets observés par l'inverse de leur probabilité de sélection respective, tel que proposé par Horvitz & Thompson (1952) et étendu au modèle des risques proportionnels pour des données d'enquête par Binder (1992) et Lin (2000). En pratique, les poids sont souvent estimés, ce dont l'inférence doit tenir compte pour éviter d'être faussée. Les auteurs proposent un modèle des risques proportionnels pondéré en deux temps dans lequel les poids sont d'abord estimés au moyen d'une régression logistique sur un échantillon représentatif de la population cible. Un modèle de Cox pondéré est ensuite ajusté à l'échantillon biaisé. Les auteurs proposent des estimations des paramètres de régression et du risque de base cumulé. Ils déterminent les propriétés asymptotiques de ces estimations en tenant compte du changement de variance causé par le caractère aléatoire des poids. Ils font appel à des simulations pour évaluer la précision à taille finie des approximations asymptotiques. Ils illustrent leur propos au moyen de données du Registre scientifique des greffes d'organe portant sur des patients ayant subi une transplantation du rein.
The Canadian Journal of Statistics, Vol. 36, No 1, pp. 111-127