Data Analytics

Da Paradosso Cancro Caffe

Data Analysis
RCode2DA_Paradosso-CancroCaffe.R
# PARADOSSO ----
# Costruiamo l'array 3D: dim = c(Cancro, Caffe, Fumo)
# Cella [i, j, k] = conteggio con Cancro=i, Caffe=j, Fumo=k

caffe <- array(
  data = c(
    # Fumatori
    41,  6,   # cancro sì: caffè sì, caffè no
    8,  1,   # cancro no: caffè sì, caffè no
    # Non fumatori
    4,  4,   # cancro sì: caffè sì, caffè no
    17, 19    # cancro no: caffè sì, caffè no
  ),
  dim = c(2, 2, 2),
  dimnames = list(
    Cancro = c("sì", "no"),
    Caffe  = c("sì", "no"),
    Fumo   = c("sì", "no")
  )
)

caffe

# Sommare sulla terza dimensione:
# Distribuzione congiunta di T e C 
tab_TC <- apply(caffe, c(1,2), sum)
tab_TC
sum(tab_TC)

prop.table(tab_TC)

# Profilo colonna (Cancro | Caffe)
round(prop.table(tab_TC, 2),2)

cbind(round(prop.table(tab_TC, 2),2),
      round(prop.table(margin.table(tab_TC, 1)),2))

# Fumatori
caffe[, , "sì"]

# Non fumatori
caffe[, , "no"]

# Profili colonna (Cancro|Caffe) per fumatori
tab_TC_F <- prop.table(caffe[,,"sì"],2)
cbind(tab_TC_F, prop.table(margin.table(caffe[,,"sì"],1)))

# Profili colonna (Cancro|Caffe) per non fumatori
tab_TC_NF <- prop.table(caffe[,,"no"],2)
cbind(tab_TC_NF, prop.table(margin.table(caffe[,,"no"],1)))

# Perchè avviene?
tab_CF <- apply(caffe, c(2,3), sum) 

prop.table(tab_CF, 2)