Se ho una moneta e la lancio ho il 50% di probababilità che esca testa a qualsiasi lancio, ma la probabilità che esca testa per sette volte consecutive è lo 0.78%. Se esce testa per sei volte consecutive, allora, al settimo lancio ad esserci ancora il 50% di probabilitè di ottenere testa?

La situazione a cui questa domanda si riferisce è
probabilmente uno dei problemi matematici meno compresi in assoluto, nonché
uno dei quelli su cui le idee sono più confuse. La confusione deriva
essenzialmente da due fattori: il primo fattore è che nei problemi
di calcolo delle probabilità è importante come non mai capire
il significato “reale” dei risultati dei calcoli, il secondo fattore è
che si prendono spesso e volentieri per “dati oggettivi” quelli che invece
sono soltanto indicazioni statistiche.

Per tentare di fare
un po’ di chiarezza, divido questa risposta in due parti: la prima, discorsiva,
che prova a parlare in generale del problema con qualche esemplificazione
e riflessione, la seconda in cui, invece, si tratta la questione in modo
più rigoroso e si spiega anche che cos’è questa “legge dei
grandi numeri”, che gareggia con la “relatività” di Einstein per
le citazioni a sproposito.

La domanda, in buona parte, contiene la risposta a se stessa.
Vale la pena di sottolineare come, per esempio, il comportamento della
moneta è supposto indipendente dal passato: infatti, per calcolare
la probabilità che esca “testa” per 11 volte consecutive si usa
l’espressione 1 / 2¹¹ che deriva dalla cosiddetta
“formula per gli eventi indipendenti”. Lo stesso fattore chiave che può
portare alla comprensione del problema è chiaramente esposto nella
domanda, ed è il fatto che si punta su undici “teste” consecutive
dopo che la moneta ha già dato “testa” per dieci volte consecutive.
Per capire meglio come questo fatto sia decisivo, facciamo qualche esempio.

Prima del primo lancio
abbiamo tre scommettitori che puntano 1 euro su tre eventi diversi. Lo
scommettitore A, che ama il rischio e le squadre perdenti ma dalle
quote molto remunerative, scommette che uscirà testa per 11 volte
di seguito. Lo scommettitore B, che si trova lì più
che altro per passare il tempo, scommette che uscirà testa all’undicesimo
lancio: gli altri lanci non gli interessano, e li guarderà senza
preoccuparsene. Lo scommettitore C (che non ha tempo da perdere)
scommette invece che uscirà testa al primo lancio.

È evidente che
la puntata più “simpatica” al bookmaker di turno è quella
di A, che ha soltanto lo 0,048% di probabilità di vincita
(1 / 2¹¹, appunto): la quota “onesta” è pertanto
2048:1. Neanche la puntata di C causa problemi al botteghino, perché
il bookmaker sa che al primo lancio la moneta ha esattamente le stesse
probabilità di fare testa o croce, e quindi C ha il 50%
di probabilità di vincita: la sua quota è di 2:1. La puntata
di B, invece, viene accettata con la riserva (inammissibile da
parte di un bookmaker “serio”, ma che supponiamo concessa al nostro) di
fissare la quota più tardi. B accetta, perché come
abbiamo detto è lì soltanto per passare il pomeriggio in
allegria.

Al primo lancio, la
moneta dà testa. A pensa: beh, sono ancora in gioco. B
si guarda un po’ attorno con aria indifferente. Il bookmaker, pagati i
due euro a C che ringrazia e scappa via, non si preoccupa più
di tanto: le probabilità che una moneta faccia “testa” per 11 volte
di seguito, in fondo, sono sempre una su 2048.

La situazione si movimenta:
per i primi dieci lanci, la moneta continua a cadere dalla parte della
testa come se fosse calamitata. Dieci teste consecutive. Il bookmaker
può continuare a sentirsi in una botte di ferro, oppure comincia
a pensare che la probabilità di pagare la scommessa “grossa” non
è più così remota? Mettiamoci nei panni di A.
Di fronte alla prospettiva di tornare a casa con 2048 euro avendone scommesso
uno, avremmo anche noi tutti la seguente stima delle nostre attuali probabilità
di vittoria: se al prossimo lancio la moneta fa croce, perdiamo, se al
prossimo lancio fa testa, vinciamo. Una probabilità su due: A,
che sente l’effetto dell’adrenalina come soltanto i giocatori la conoscono,
pensa che ormai è praticamente fatta. Secondo l’ottica comune,
invece, B pensa: che sfortuna, non è possibile che esca
testa 11 volte di seguito, la mia scommessa è quasi persa.

Prima dell’undicesimo
lancio, il bookmaker deve comunicare a B la sua quota. Che cosa
deve fare: pensare come A e quotare la scommessa 2:1 oppure pensarla
come B e quotarla 2048:1? E se A, prima del primo lancio,
avesse deciso di dirigersi al tavolo del blackjack e non avesse mai puntato
sulle 11 teste di seguito, oppure se B avesse assistito alle corse
dei cavalli durante i primi dieci lanci, la quota di B sarebbe
sempre la stessa? La risposta a questo punto dovrebbe essere evidente:
la quota di B, fin dal primo lancio, poteva essere solamente 2:1.

Ma allora perché
A si trova al decimo lancio ad avere una probabilità su
due di vittoria invece di una su 2048? La risposta sta nel fatto che a
ogni lancio si verifica una delle due possibilità previste
per quel lancio, e quindi il numero dei risultati finali possibili viene
dimezzato, escludendone alcuni che ora diventano impossibili. Se esce
testa al primo lancio, in effetti, qual è la probabilità
che esca croce per undici volte di seguito in undici lanci? La risposta,
evidentemente, non è più 1 su 2048, ma (noto il risultato
del primo lancio) semplicemente zero. Allo stesso modo, se esce testa
il primo lancio, la probabilità che esca testa per undici volte
di seguito non è più 1 su 2048, ma raddoppia e passa a 1
su 1024. Ogni volta consecutiva che esce “testa”, insomma, la probabilità
di vittoria di A raddoppia, e questa è la ragione per cui
all’ultimo lancio le sua chances sono proprio una su due. Come
contropartita, bisogna considerare che se fosse uscita croce anche soltanto
una volta, le sue probabilità all’ultimo lancio sarebbero state
esattamente zero.

In definitiva: quando
si parla di eventi composti, non si può considerare il passato
per calcolarne la probabilità, perché il passato è
già accaduto, mentre ha senso parlare di probabilità solo
nel caso di eventi dal risultato incerto. Non a caso, nessun bookmaker
oggi (18 ottobre 2001) accetterebbe una scommessa sulla vittoria della
Juventus nella sua partita di ieri in Champions League.

Dedichiamoci ora a un approccio più rigoroso del
problema, cercando di costruire un modello matematico adatto a descriverlo.
Vogliamo effettuare un “esperimento aleatorio” lanciando una moneta n
volte consecutivamente (per esempio, nel caso della domanda in questione,
si ha n = 11). Decidiamo di associare a “testa” il valore
1 e a “croce” il valore zero (per il momento, si tratta di una pura convenzione;
in realtà vedremo tra pochissimo che questa scelta ci sarà
molto comoda): allora il risultato di una serie di n lanci si può
indicare con l’n-upla (a₁, a₂, a₃, … a_n)
dove a_i rappresenta il risultato dell’i-esimo
lancio. Per esempio, nel caso di due soli lanci (n=2), i possibili
risultati secondo questa notazione sono: (0, 0) (croce in entrambi
i lanci), (0, 1) (croce il primo lancio, testa il secondo), (1, 0)
(testa il primo lancio, croce il secondo) e (1, 1) (testa in entrambi
i lanci). Si noti che, in particolare (ecco la comodità di cui
parlavamo quando abbiamo scelto la convenzione), la somma dei primi k
risultati, cioè a₁ + a₂ + … + a_k,
rappresenta il numero di teste uscite nei primi k lanci.

Dato che per ogni lancio
ci sono due possibili risultati, il numero totale di risultati possibili
è 2ⁿ. Dal momento che non c’è nessuna
ragione per supporre che una successione di risultati sia “più
probabile” di un’altra — come la stessa domanda evidenzia in un caso
particolare — è naturale supporre che tutti i 2ⁿ
possibili risultati abbiano la stessa probabilità di verificarsi,
cioè 1 / 2ⁿ ciascuno (ricordiamo, infatti,
che la somma delle probabilità di tutti gli eventi deve sempre
essere uguale a 1). La naturale evoluzione di questa considerazione è
quello che alcuni probabilisti chiamano il “principio del contare”: se
gli eventi elementari sono equiprobabili, la probabilità di un
evento composto si calcola dividendo il numero di casi favorevoli per
il numero dei casi possibili. Vediamo qui di seguito alcuni esempi
in proposito, complicando le cose a mano a mano.

La probabilità
che esca testa in tutti gli n lanci si ritrova subito secondo questo
principio: c’è un solo caso favorevole — che nelle nostre notazioni
corrisponde a (1, 1, …, 1, 1) — mentre i casi possibili
sono 2ⁿ, quindi la probabilità cercata è
1 / 2ⁿ. La probabilità che escano
almeno n – 1 teste di seguito si calcola considerando
che i casi favorevoli sono (1, 1, …, 1, 1) (esce
sempre testa), (0, 1, …, 1, 1) (esce sempre testa
tranne il primo lancio) e (1, 1, …, 1, 0) (esce
sempre testa tranne l’ultimo lancio): la probabilità è quindi
3 / 2ⁿ. Se poi volevamo che uscissero esattamente
n – 1 teste di seguito, il primo dei tre casi appena
visti non è più “favorevole”, quindi la probabilità
è 2 / 2ⁿ = 1 / 2^n – 1.
Per calcolare la probabilità che escano esattamente n – 1
teste (anche “non di seguito”), basta osservare che i casi favorevoli
sono quelli che hanno n – 1 “uno” e un solo “zero”: dal
momento che le posizioni possibili per gli zeri sono n, tante quanti
sono i lanci effettuati in totale, la probabilità è n / 2ⁿ.

Possiamo calcolare
in questo modo anche la probabilità che esca testa il primo
lancio (che sappiamo già essere di 1 / 2). In questa
situazione, i casi favorevoli sono infatti tutti quelli della forma (1, *, …, *, *)
dove al posto di “*” si può mettere sia 0 sia 1: abbiamo quindi
una scelta obbligata per la prima componente e due scelte per tutte le
altre (dalla seconda all’ultima). I casi favorevoli sono allora 2^n – 1
e la probabilità è appunto 2^n – 1 / 2ⁿ = 1 / 2.
Ragionando nello stesso modo, si capisce che la probabilità che
esca “testa” in un lancio fissato (per esempio, il decimo, oppure l’ottavo)
è sempre 1 / 2 qualsiasi sia il lancio che si considera.

Questo “principio del
contare” può essere usato anche per calcolare le “probabilità
condizionate”, cioè la probabilità che diamo al verificarsi
di un evento A nel caso che sappiamo che un altro evento B
si è verificato. Useremo allora sempre la formula “numero di casi
favorevoli diviso numero di casi possibili”, considerando però
“possibili” soltanto i casi compatibili con l’evento che sappiamo essersi
verificato. Per esempio: se esce croce il primo lancio, non abbiamo più
2ⁿ risultati possibili, ma soltanto tutti quelli del
tipo (0, *, …, *, *) che sono 2^n – 1.
La probabilità che escano n – 1 teste di seguito
dato il fatto che è uscita croce il primo lancio,
allora, si deve calcolare considerando che ora l’unico evento favorevole
tra i 2^n – 1 che sono possibili dopo il primo
lancio è (0, 1, …, 1, 1), e vale quindi 1 / 2^n – 1
(cioè non più 3 / 2ⁿ com’era
“a priori”).

Possiamo ritrovare
in questo modo anche ciò che abbiamo detto nella prima parte, cioè
che la probabilità che escano n teste se sappiamo che è
uscita “croce” anche una sola volta è zero e che, se continuano
a uscire teste, la probabilità che escano n teste raddoppia
a ogni lancio. In particolare, la probabilità che escano n
teste se nei primi n – 1 lanci è sempre uscita
“testa” è 1 / 2, perchè gli unici due eventi possibili
sono (1, 1, …, 1, 0) e (1, 1, …, 1, 1),
e l’unico evento favorevole è il secondo dei due.

Complichiamo ora un po’ le cose, e consideriamo la probabilità
che escano esattamente k teste su n lanci. Grazie alla convenzione
che abbiamo scelto, la notazione per questo problema si “semplifica” definendo
la quantità S_n := a₁ + a₁ + … + a_n
e cercando la probabilità che S_n sia uguale a
k. Si ha che sono uscite esattamente k teste se (e solo
se!) ci sono esattamente k “uno” nella n-upla che rappresenta
il risultato degli n lanci: ci si può convincere che le
n-uple di questo tipo sono tante quante i sottoinsiemi di k
elementi contenuti in un insieme di n elementi (si tratta, infatti,
di vedere in “quali” k degli n lanci sono uscite le teste).
Grazie alla formula che permette di calcolare le “combinazioni di k
oggetti scelti tra n” e (ancora una volta) al “principio del contare”,
possiamo allora concludere che

dove n! (che si legge “n fattoriale”) indica
il prodotto di tutti i numeri interi tra uno e n. (Per esempio:
5! = 5 eq003
4 eq003
3 eq003
2 eq003
1 = 120.) Con un calcolo diretto si verifica che il valore atteso
di teste è

cioè che (e anche questo è suggerito correttamente
nella domanda) “in media” si otterranno metà teste e metà
croci. Si ricordi, però che il valore atteso ha un significato
soltanto statistico: il fatto che E{S_n} = 1 / 2,
infatti, si potrebbe esprimere (in termini matematicamente imprecisi)
dicendo che ripetendo moltissime volte una serie di n lanci, la media
del numero di teste ottenuta sarà “intorno” a n / 2.

Come è ragionevole, allora,
il numero medio di teste dipende dal numero n di lanci effettuati.
Ma ci accorgiamo subito che se definiamo la frequenza media di
teste in n lanci, cioè il rapporto S_n / n
tra il numero di teste uscite e il numero di lanci effettuati, otteniamo
che il valore atteso di questa nuova variabile aleatoria è 1 / 2
indipendentemente dal numero dei lanci. Il grafico qui a fianco rappresenta
la distribuzione di probabilità di questa “frequenza” di teste
in quattro casi particolari (1, 10, 100 e 1000 lanci): si può allora
notare come, al crescere del numero di lanci, la probabilità di
ottenere una frequenza vicina a 1 / 2 è sempre più
alta, mentre la probabilità di ottenere una frequenza lontana da
1 / 2 è sempre più bassa.

La legge dei grandi
numeri (di cui esistono varie versioni) non è altro che la
formalizzazione rigorosa di quanto si vede in questo grafico. Per esempio,
la legge dei grandi numeri nell’enunciato di Bernoulli (riferita al caso
della moneta) dice che: scelto comunque un numero positivo
, la probabilità che la frequenza di teste ottenuta sia lontana
da 1 / 2 più di
tende a zero quando il numero di lanci tende all’infinito, cioè
in simboli:

Vale forse a questo punto la pena di osservare come, in
questa forma, la legge dei grandi numeri sia pressoché inutile
dal punto di vista pratico. Non solo, infatti, ci troviamo ad avere a
che fare con un “intervallo di frequenze ammesse” (quell’ eq008
, che comunque possiamo scegliere a nostro piacere), ma abbiamo anche
un risultato che vale “al limite” senza specificare quanto rapidamente
si converga a quel limite. È soprattutto questa seconda parte la
cosa più fastidiosa: si consideri, per esempio, il fatto che sia
la funzione f(x) := 10 / log₁₀(x),
sia la funzione g(x) := e^–x
tendono a zero per x che tende all’infinito, ma mentre g(1000) = 5
eq003
10^-435 (un numero tanto piccolo che solo per pronunciarlo in
termini di miliardesimi di miliardesimi servirebbe circa un minuto), f(1000)=3.33…,
ancora molto “lontano” da zero. Se aggiungiamo che la f appena
definita è minore di 1 soltanto per x > 10 000 000 000,
possiamo forse capire quanta poca informazione dia la legge dei grandi
numeri in questa forma.

In effetti, si può
ottenere un po’ di informazione in più su questo comportamento
asintotico. Diamo un cenno rapido di un risultato in questo senso, perché
una trattazione completa richiederebbe troppo spazio e troppa precisione
per rientrare negli scopi di questa risposta. Tramite teoremi cosiddetti
“del limite”, si riesce a dimostrare che la legge di una variabile definita
in qualche modo a partire da S_n “tende” a una legge
gaussiana standard con precisione determinabile. In dettaglio, si ha che

Da questo risultato, per esempio, si può concludere
che la probabilità che la frequenza di teste sia esattamente n / 2
diminuisce al crescere del numero dei lanci, perchè

e quindi

che tende a 0 se n tende all’infinito.

Le cose vanno meglio
se, invece di un valore preciso, ci accontentiamo di un “intervallo” di
frequenze. Proviamo, per esempio, ad applicare lo stesso risultato per
calcolare la probabilità che la frequenza di teste sia compresa
tra il 49% e il 51%. Abbiamo

e quindi che tale probabilità tende a uno per n
tendente all’infinito. Usando questa stima, possiamo inoltre calcolare
esplicitamente l’ultimo termine qui sopra in funzione del numero dei lanci
e dire, per esempio, che se vogliamo avere il 95% di probabilità
di ottenere una frequenza tra il 49% e il 51% dobbiamo eseguire 10500
lanci, e che se vogliamo avere il 99% di probabilità di ottenere
una frequenza tra il 49% e il 51% dobbiamo eseguire circa 22000 lanci.
Tali risultati sono forse leggermente migliorabili (perché si basano
sul membro destro della disequazione trovata qui sopra che è una
stima per difetto della probabilità vera), ma danno comunque un
ordine di grandezza decisamente affidabile.

Si noti, inoltre, che
eseguire 10500 lanci non ci assicura per nulla che otterremo una frequenza
di teste tra il 49% e il 51%, ma soltanto che abbiamo il 95% di probabilità
di ottenerla. Si pone a questo punto il problema di quale sia l’atteggiamento
del “giocatore” nei confronti del rischio. Tutti, infatti, punteremmo
1 euro in un gioco che ci dà il 50% di probabilità di vincerne
1000 senza altre contropartite. Non tutti, però sono disposti a
puntare 5 euro in un gioco, come per esempio il superenalotto, che dà
una probabilità di vincita (includendo tutte le combinazioni vincenti,
dal “tre” in su) di circa una su 5650, e di una su decine milioni se si
considerano vincite superiori ai 1000 euro di cui sopra. Non solo: pensiamo
per esempio a un gioco al quale si partecipa gratis che dà il 99,9%
di probabilità di vinceere 1000 euro, e lo 0,1% di probabilità
di venire uccisi per fucilazione. Parteciperemmo? E se il premio “quasi
sicuro” fosse di 1 euro? Oppure di un milione di euro? Confesso che io
sarei decisamente tentato di competere per un milione, direi sicuramente
di no per un euro e ci penserei per i mille. Insomma: la valutazione delle
probabilità come “a favore” oppure “contro” è decisamente
soggettiva.

C’è infine un’altra
osservazione che è giusto fare, ed è il fatto che estremamente
improbabile non significa affatto impossibile. Da un lato,
in effetti, anche le probabilità più piccole diventano “grandi”
ripetendo l’esperimento un numero sufficiente di volte (per esempio, giocando
al superenalotto 4000 volte — cioè, per esempio, non perdendosi
un’estrazione per quarant’anni — la probabilità di fare almeno
un “tre” diventa del 50%. Dall’altro lato, soprattutto, si verificano
quotidianamente eventi che a priori devono essere ritenuti estremamente
improbabili. Per rimanere nell’ambito del superenalotto, è già
accaduto che un bottino di miliardi per il “sei” sia stato vinto da un
tranquillo signore di provincia che aveva giocato due colonne: a priori,
la sua probabilità di vittoria era di una su trecento milioni,
eppure ha vinto. Quando si impara a calcolare le probabilità di
un evento, insomma, è bene ricordarsi che la probabilità
esprime semplicemente un nostro grado di “fiducia” nel verificarsi di
quell’evento, ma che la realtà dei fatti potrebbe decidere di non
prestare nessuna cura a comportarsi secondo le nostre aspettative.