Data Analytics
Da Paradosso Cancro Caffe
Data Analysis# PARADOSSO ----
# Costruiamo l'array 3D: dim = c(Cancro, Caffe, Fumo)
# Cella [i, j, k] = conteggio con Cancro=i, Caffe=j, Fumo=k
caffe <- array(
data = c(
# Fumatori
41, 6, # cancro sì: caffè sì, caffè no
8, 1, # cancro no: caffè sì, caffè no
# Non fumatori
4, 4, # cancro sì: caffè sì, caffè no
17, 19 # cancro no: caffè sì, caffè no
),
dim = c(2, 2, 2),
dimnames = list(
Cancro = c("sì", "no"),
Caffe = c("sì", "no"),
Fumo = c("sì", "no")
)
)
caffe
# Sommare sulla terza dimensione:
# Distribuzione congiunta di T e C
tab_TC <- apply(caffe, c(1,2), sum)
tab_TC
sum(tab_TC)
prop.table(tab_TC)
# Profilo colonna (Cancro | Caffe)
round(prop.table(tab_TC, 2),2)
cbind(round(prop.table(tab_TC, 2),2),
round(prop.table(margin.table(tab_TC, 1)),2))
# Fumatori
caffe[, , "sì"]
# Non fumatori
caffe[, , "no"]
# Profili colonna (Cancro|Caffe) per fumatori
tab_TC_F <- prop.table(caffe[,,"sì"],2)
cbind(tab_TC_F, prop.table(margin.table(caffe[,,"sì"],1)))
# Profili colonna (Cancro|Caffe) per non fumatori
tab_TC_NF <- prop.table(caffe[,,"no"],2)
cbind(tab_TC_NF, prop.table(margin.table(caffe[,,"no"],1)))
# Perchè avviene?
tab_CF <- apply(caffe, c(2,3), sum)
prop.table(tab_CF, 2)