Jeu de donnees simulees de 1000 sujets, avec les colonnes suivantes:
sexe Variable categorielle (facteur), 2 niveaux: “F” et “M”. Environ 500 chacun.
age Numerique.
age.gr Groupe d'age - variable categorielle, 4 niveaux.
IMC Indice de masse corporelle (numerique).
fumeur Variable categorielle, 2 niveaux (“Oui” / “Non”).
cigs.par.jour Nombre de cigarettes fumees par jour (numerique).
malade Variable categorielle, 2 niveaux (“Oui” / “Non”).
maladie Champs texte.
ponderation Poids echantillonal (numerique).
data(tabagisme)
Un data frame de 1000 rangees et 9 colonnes
Note sur la simulation des donnees: la probabilite pour un sujet de tomber dans la categorie “malade” est basee sur une fonction arbitraire faisant intervenir l'age, l'IMC et le nombre de cigarettes fumees par jour.
A copy of this dataset is available in English under the name “tobacco”.