← Volver

Distribuciones notables discretas y continuas

Imagen ilustrativa

¿Alguna vez has observado patrones en la variabilidad de tus datos? Las distribuciones de probabilidad son el lenguaje con el que describimos esos patrones de incertidumbre. Imagina cada distribución como un molde que cuenta una historia particular —ya sea de éxitos y fracasos, de llegadas por minuto, o de mediciones con ruido— y nos proporciona fórmulas para calcular probabilidades, valores esperados y dispersión.

En esta guía presentamos las distribuciones discretas (para conteos) y luego las continuas (para mediciones) más importantes. De cada una se incluye una explicación intuitiva de qué representa, cuándo usarla, sus parámetros y soporte, las fórmulas clave (PMF/PDF, CDF si aplica, media, varianza, MGF), propiedades destacadas y errores comunes a evitar. Cada distribución viene acompañada de un ejemplo resuelto paso a paso (verificado con simulación en R) para ilustrar su aplicación.

Distribuciones discretas notables

Bernoulli

Imagina que cada mañana coges el autobús para ir a clase.

  • A veces llega a tiempo.
  • A veces llega tarde.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): el autobús llega a tiempo.
  • Fracaso (0): el autobús llega tarde.

Cada día solo puede ocurrir una de las dos cosas. No hay medias tintas.

Esto es una distribución de Bernoulli.

Resumen: Una Bernoulli es una variable aleatoria con dos posibles resultados éxito 1 con probabilidad \(p\) y fracaso 0 con probabilidad \(1-p\).

Definimos la variable indicadora: \[ X = \begin{cases} 1 & \text{si llega a tiempo}\\ 0 & \text{si llega tarde} \end{cases} \qquad\Rightarrow\qquad X\sim\text{Bernoulli}(p) \] donde \(p\) es la probabilidad de llegar a tiempo.

  • Soporte: \(\{0,1\}\)
  • Parámetro: \(p\in(0,1)\)
  • PMF:

    Definimos \(X=1\) si ocurre un éxito y \(X=0\) si ocurre un fracaso. El parámetro \(p\) representa la probabilidad de éxito en un único intento. Por definición: \[ P(X=1)=p. \] Como en un experimento de Bernoulli solo pueden ocurrir dos resultados posibles (éxito o fracaso) y la probabilidad total debe sumar 1, la probabilidad del otro resultado viene dada por el complemento: \[ P(X=0)=1-P(X=1)=1-p. \]
  • Media: \[ E[X]=0\cdot(1-p)+1\cdot p=p \]
  • Varianza: \[ \mathrm{Var}(X)=E[X^2]-E[X]^2 \] Como \(X\in\{0,1\}\), se cumple \(X^2=X\), entonces \(E[X^2]=E[X]=p\) y: \[ \mathrm{Var}(X)=p-p^2=p(1-p) \]
  • MGF: \[ M_X(t)=E[e^{tX}]=(1-p)e^{0}+pe^{t}=1-p+pe^t \]

Binomial

Imagina una fábrica de bombillas

Sabemos por experiencia que:

  • Una bombilla solo puede salir defectuosa o correcta
  • Aproximadamente el 2% salen defectuosas

Por tanto definimos:

  • Éxito (1): la bombilla es defectuosa.
  • Fracaso (0): la bombilla funciona bien.

Como hemos visto antes esto es una Bernoulli. Pero si ahora cogemos una caja con 100 bombillas y queremos saber el número de éxitos tendremos una binomial.

Resumen: Cálcula el número de éxitos en n ensayos de bernoulli.

  • Soporte: \(\{0,1,\dots,n\}\)
  • Parámetros: \(n\in\mathbb{N}\) (nº de intentos), \(p\in(0,1)\) (prob. de éxito)
  • PMF:

    Paso 1
    Consideramos una secuencia concreta de \(n\) ensayos, por ejemplo \( (1,0,1,1,0) \).

    Paso 2
    Como los ensayos son independientes, la probabilidad conjunta es el producto de las probabilidades individuales: \[ P(1,0,1,1,0) =P(X_1=1)\,P(X_2=0)\,P(X_3=1)\,P(X_4=1)\,P(X_5=0). \]

    Paso 3
    Como cada uno es un experimento de Bernoulli, sustituimos usando \(P(X_i=1)=p\) y \(P(X_i=0)=1-p\): \[ p\,(1-p)\,p\,p\,(1-p). \]

    Paso 4
    Agrupamos términos iguales.
    Por tanto: \[ p\cdot p\cdot p\,(1-p)\cdot(1-p)=p^3(1-p)^2. \]

    Generalización
    Si una secuencia tiene:

    \(k\) éxitos
    \(n-k\) fracasos

    entonces siempre: \[ P(\text{esa secuencia}) =\underbrace{p\cdot p\cdots p}_{k\ \text{veces}} \underbrace{(1-p)\cdot(1-p)\cdots(1-p)}_{n-k\ \text{veces}} =p^k(1-p)^{n-k}. \]

    No hay ningún truco. Es simplemente multiplicar cosas iguales.

    Paso 5
    Pero ahora piensa esto: hay muchas secuencias distintas que tienen exactamente \(k\) éxitos.

    Ejemplo sencillo: si \(n=3\) y \(k=2\), las secuencias posibles son \((1,1,0)\), \((1,0,1)\) y \((0,1,1)\).

    Son 3 secuencias distintas, pero todas tienen 2 éxitos, 1 fracaso y la misma probabilidad \[ p^2(1-p). \]

    La pregunta es:

    ¿De cuántas formas puedo elegir en qué posiciones van los \(k\) éxitos entre \(n\) intentos?

    Eso es exactamente una combinación: \[ \binom{n}{k}. \] Paso 6
    Todas esas secuencias son mutuamente excluyentes y tienen la misma probabilidad \(p^k(1-p)^{n-k}\). Por tanto, la probabilidad total de obtener exactamente \(k\) éxitos se obtiene sumando las probabilidades de todas ellas: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{\,n-k}. \]
  • Media:

    Paso 1
    Consideramos \(X_i\) como la variable que indica si el intento \(i\) es un éxito (\(X_i=1\)) o no (\(X_i=0\)). El número total de éxitos en los \(n\) intentos puede escribirse como \[ X=\sum_{i=1}^{n}X_i. \] Esto muestra que la variable binomial es una suma de \(n\) variables asociadas a cada intento.

    Paso 2
    Aplicamos la linealidad de la esperanza, que nos permite sumar las esperanzas, haya independencia o no: \[ E[X]=E\Big[\sum_{i=1}^{n}X_i\Big]=\sum_{i=1}^{n}E[X_i]. \]

    Paso 3
    Como todas las variables \(X_i\) tienen la misma esperanza \(p\), la suma anterior se convierte en \[ E[X]=\sum_{i=1}^{n}p. \] Al estar sumando el mismo valor \(p\) un total de \(n\) veces, se obtiene finalmente \[ E[X]=np. \]
  • Varianza

    Paso 1
    Escribimos la binomial como suma: \[ X=\sum_{i=1}^{n}X_i. \]

    Paso 2
    Fórmula general de la varianza de una suma: \[ \mathrm{Var}\!\left(\sum_{i=1}^{n}X_i\right) = \sum_{i=1}^{n}\mathrm{Var}(X_i) + 2\sum_{i\lt j}\mathrm{Cov}(X_i,X_j). \]

    Paso 3
    Como los ensayos son independientes: \[ \mathrm{Cov}(X_i,X_j)=0 \quad \text{si } i\neq j. \]

    Paso 4
    Entonces queda: \[ \mathrm{Var}(X)=\sum_{i=1}^{n}\mathrm{Var}(X_i). \]

    Paso 5
    Como \(\mathrm{Var}(X_i)=p(1-p)\), sumamos \(n\) veces: \[ \mathrm{Var}(X)=\sum_{i=1}^{n}p(1-p)=n\,p(1-p). \]
  • MGF:

    Paso 1
    Partimos de la definición de la función generadora de momentos: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2
    Sustituimos la variable binomial como suma de variables: \[ X=\sum_{i=1}^{n}X_i \qquad\Rightarrow\qquad M_X(t)=E\!\left[e^{t\sum_{i=1}^{n}X_i}\right]. \]

    Paso 3
    Aquí usamos una propiedad básica del exponencial: \[ e^{a+b}=e^a\,e^b. \] Aplicada repetidamente a una suma, esta propiedad convierte una suma en un producto. En nuestro caso: \[ e^{t(X_1+X_2+\cdots+X_n)} = e^{tX_1}\,e^{tX_2}\cdots e^{tX_n} = \prod_{i=1}^{n} e^{tX_i}. \] Por tanto: \[ M_X(t)=E\!\left[\prod_{i=1}^{n} e^{tX_i}\right]. \]

    Paso 4
    Como los ensayos son independientes, la esperanza del producto es el producto de las esperanzas: \[ E\!\left[\prod e^{tX_i}\right] = \prod E[e^{tX_i}]. \]

    Paso 5
    Todas las variables \(X_i\) tienen la misma distribución, así que todas las esperanzas son iguales: \[ \prod E[e^{tX_i}] = \big(E[e^{tX_1}]\big)^n. \]

    Paso 6
    Usando la MGF de una Bernoulli, \(E[e^{tX_1}]=1-p+pe^t\), se obtiene finalmente: \[ M_X(t)=(1-p+pe^t)^n. \]

Geométrica

Imagina que llamas a un servicio de atención al cliente.

  • A veces te atienden.
  • A veces no te atienden.

Cada llamada es independiente y siempre tiene la misma probabilidad de éxito.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): te atienden en la llamada.
  • Fracaso (0): no te atienden.

A diferencia de otros casos, ahora no fijamos de antemano el número de llamadas.

La pregunta que nos hacemos es:

¿Cuántas llamadas necesito hacer hasta que me atienden por primera vez?

Es decir, contamos cuántos fracasos ocurren seguidos hasta que aparece el primer éxito.

Esto es una distribución geométrica.

Resumen: Una distribución geométrica modela el número de intentos necesarios hasta obtener el primer éxito en una secuencia de ensayos Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetro: \(p\in(0,1)\) (probabilidad de éxito en cada intento)
  • PMF:

    Imagina que \(X\) es el número de llamadas hasta que te atienden por primera vez.

    Paso 1
    Que ocurra \(X=k\) significa: fallas \(k-1\) veces y luego tienes éxito en la llamada \(k\).

    Paso 2
    Eso corresponde a una única secuencia posible: \[ (\underbrace{0,0,\dots,0}_{k-1\ \text{fracasos}},\,1). \]

    Paso 3
    Como cada llamada es independiente, la probabilidad de esa secuencia es el producto: \[ (1-p)\cdot(1-p)\cdots(1-p)\cdot p. \]

    Paso 4
    Hay \(k-1\) fracasos, así que agrupando términos queda: \[ P(X=k)=(1-p)^{k-1}p. \]

    Conclusión
    \[ P(X=k)=(1-p)^{k-1}p,\qquad k=1,2,3,\dots \]
  • Media:

    Paso 1
    Por definición, la esperanza de una variable aleatoria discreta se calcula como la suma de cada valor posible multiplicado por su probabilidad: \[ E[X]=\sum_{k} k\,P(X=k). \]

    Paso 2
    En la distribución geométrica se cumple \(P(X=k)=p(1-p)^k\) para \(k=0,1,2,\dots\). Sustituyendo esta expresión en la definición anterior: \[ E[X]=\sum_{k=0}^{\infty} k\,p(1-p)^k. \]

    Paso 3
    Sacamos el factor constante \(p\) fuera de la suma: \[ E[X]=p\sum_{k=0}^{\infty} k(1-p)^k. \]

    Paso 4
    La suma que aparece es una serie infinita que se puede calcular usando una identidad conocida. En particular, se cumple que: \[ \sum_{k=0}^{\infty} k\,q^k=\frac{q}{(1-q)^2}, \] identidad que se obtiene derivando la serie geométrica básica \[ \sum_{k=0}^{\infty} q^k=\frac{1}{1-q}. \] En nuestro caso tomamos \(q=1-p\), lo que permite aplicar directamente esta identidad.

    Paso 5
    Sustituyendo en la expresión anterior y simplificando se obtiene finalmente: \[ E[X]=\frac{1-p}{p}. \]
  • Varianza:

    Paso 1
    Recordamos que la varianza puede calcularse a partir de la esperanza mediante: \[ \mathrm{Var}(X)=E[X^2]-\big(E[X]\big)^2. \]

    Paso 2
    Por definición de esperanza para variables aleatorias discretas: \[ E[X^2]=\sum_{k=0}^{\infty} k^2\,P(X=k) = \sum_{k=0}^{\infty} k^2\,p(1-p)^k. \]

    Paso 3
    Sacamos el factor constante \(p\) fuera de la suma: \[ E[X^2]=p\sum_{k=0}^{\infty} k^2(1-p)^k. \]

    Paso 4
    La suma que aparece es una serie infinita conocida. En particular, se cumple la identidad: \[ \sum_{k=0}^{\infty} k^2 q^k=\frac{q(1+q)}{(1-q)^3}, \] que se obtiene derivando dos veces la serie geométrica básica \[ \sum_{k=0}^{\infty} q^k=\frac{1}{1-q}. \] En nuestro caso tomamos \(q=1-p\), lo que permite aplicar directamente esta identidad.

    Paso 5
    Sustituyendo \(q=1-p\) en la identidad anterior se obtiene: \[ E[X^2] = p\,\frac{(1-p)(1+(1-p))}{p^3} = \frac{(1-p)(2-p)}{p^2}. \]

    Paso 6
    Ya conocemos la media \(E[X]=\frac{1-p}{p}\). Sustituimos ambos valores en la definición de la varianza: \[ \mathrm{Var}(X) = E[X^2]-\big(E[X]\big)^2 = \frac{(1-p)(2-p)}{p^2} - \left(\frac{1-p}{p}\right)^2. \] Desarrollando el cuadrado y simplificando: \[ \mathrm{Var}(X) = \frac{(1-p)(2-p)-(1-p)^2}{p^2} = \frac{1-p}{p^2}. \]
  • MGF:

    Paso 1
    Partimos de la definición de la función generadora de momentos: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2
    Usamos la definición de esperanza para una variable discreta: \[ M_X(t)=\sum_{k=0}^{\infty} e^{tk}\,P(X=k). \]

    Paso 3
    Sustituimos la PMF de la geométrica: \[ P(X=k)=p(1-p)^k. \] Entonces: \[ M_X(t)=\sum_{k=0}^{\infty} p\,\big[(1-p)e^{t}\big]^k. \]

    Paso 4
    Reconocemos una serie geométrica de la forma \[ \sum_{k=0}^{\infty} r^k=\frac{1}{1-r}, \qquad |r|<1. \] En nuestro caso \(r=(1-p)e^{t}\), que cumple la condición si \[ t<-\ln(1-p). \]

    Paso 5
    Aplicando la identidad de la serie geométrica:

    \[ M_X(t)=\frac{p}{1-(1-p)e^{t}}, \qquad t<-\ln(1-p). \]



Hipergeométrica

Imagina que tienes una urna con bolas de dos tipos.

  • Algunas bolas son rojas.
  • Las demás bolas son blancas.

Sabemos exactamente cuántas bolas hay de cada tipo dentro de la urna.

Ahora extraemos bolas sin devolverlas a la urna.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): sacar una bola roja.
  • Fracaso (0): sacar una bola blanca.

A diferencia de otros casos, la probabilidad cambia en cada extracción, porque el contenido de la urna se va modificando.

La pregunta que nos hacemos es:

¿Cuántas bolas rojas obtengo al extraer un número fijo de bolas?

Es decir, contamos el número de éxitos en una muestra tomada sin reemplazo de una población finita.

Esto es una distribución hipergeométrica.

Resumen: Una distribución hipergeométrica modela el número de éxitos en una muestra extraída sin reemplazo de una población finita, donde el número total de éxitos y fracasos es conocido.

  • Soporte: \(\{0,1,\dots,n\}\) (en realidad, máx. \(\min(n,K)\))
  • Parámetros: \(N\) (tamaño población), \(K\) éxitos en la población, \(n\) tamaño de muestra sin reemplazo
  • PMF:

    Paso 1
    Consideramos una población finita de tamaño \(N\), que contiene:
    • \(K\) éxitos (por ejemplo, bolas rojas).
    • \(N-K\) fracasos (bolas blancas).
    Extraemos una muestra de tamaño \(n\) sin reemplazo.

    Paso 2
    El evento \(X=k\) significa:
    • Elegir exactamente \(k\) éxitos de los \(K\) disponibles.
    • Elegir exactamente \(n-k\) fracasos de los \(N-K\) disponibles.
    No importa el orden en que se extraigan, solo el conjunto final.

    Paso 3
    El número de formas de elegir \(k\) éxitos entre \(K\) es: \[ \binom{K}{k}. \]

    Paso 4
    El número de formas de elegir \(n-k\) fracasos entre \(N-K\) es: \[ \binom{N-K}{\,n-k\,}. \]

    Paso 5
    Como ambas elecciones son independientes entre sí, el número total de muestras favorables es el producto: \[ \binom{K}{k}\binom{N-K}{\,n-k\,}. \]

    Paso 6
    El número total de muestras posibles de tamaño \(n\) que pueden extraerse de una población de tamaño \(N\) es: \[ \binom{N}{n}. \]

    Paso 7
    Como todas las muestras posibles son igualmente probables, la probabilidad de obtener exactamente \(k\) éxitos es el cociente: \[ P(X=k) = \frac{\binom{K}{k}\,\binom{N-K}{\,n-k\,}}{\binom{N}{n}}. \]
  • Media:

    Paso 1
    Pensamos cada extracción como una variable indicadora. Definimos \(X_i=1\) si en la extracción \(i\) obtenemos un éxito, y \(X_i=0\) si obtenemos un fracaso.

    Paso 2
    El número total de éxitos en la muestra puede escribirse como la suma: \[ X = X_1 + X_2 + \cdots + X_n. \]

    Paso 3
    Aunque las extracciones no son independientes, todas tienen la misma probabilidad de éxito, ya que la proporción de éxitos en la población es constante. Esa probabilidad es: \[ P(X_i=1)=\frac{K}{N}. \]

    Paso 4
    Por definición de esperanza y usando la linealidad de la esperanza: \[ E[X]=E\!\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i]. \]

    Paso 5
    Como cada \(X_i\) tiene esperanza \(\frac{K}{N}\), se obtiene: \[ E[X] = \sum_{i=1}^{n} \frac{K}{N} = n\frac{K}{N}. \]
  • Varianza:

    Paso 1
    Escribimos el número total de éxitos como suma de variables indicadoras:

    \[ X = X_1 + X_2 + \cdots + X_n \]

    donde \(X_i=1\) si la extracción \(i\) es un éxito y \(X_i=0\) en caso contrario.

    Paso 2
    Para calcular la varianza de una suma usamos la descomposición general:

    \[ \operatorname{Var}(X) = \sum_{i=1}^{n}\operatorname{Var}(X_i) + 2\sum_{i=1}^{n}\sum_{j=i+1}^{n}\operatorname{Cov}(X_i,X_j) \]

    El primer sumatorio recoge la variabilidad de cada extracción por separado. El segundo corrige por la dependencia entre pares de extracciones, que aparece porque el muestreo se realiza sin reemplazo.

    Paso 3
    Cada \(X_i\) es una variable indicadora: solo puede valer 0 o 1. Antes de fijar ninguna otra extracción, la probabilidad de éxito en una extracción cualquiera es la proporción de éxitos en la población:

    \[ P(X_i=1)=\frac{K}{N}, \qquad P(X_i=0)=1-\frac{K}{N} \]

    Esto coincide con la definición de una Bernoulli con parámetro \(p=\frac{K}{N}\). Ahora justificamos por qué su varianza vale \(p(1-p)\) (y no lo “suponemos”):

    Por definición, \[ \operatorname{Var}(X_i)=E[X_i^2]-\big(E[X_i]\big)^2. \]

    Como \(X_i\in\{0,1\}\), se cumple que \(X_i^2=X_i\). Por tanto: \[ E[X_i^2]=E[X_i]. \]

    Además, para una Bernoulli, \(E[X_i]=P(X_i=1)=p\). Sustituyendo: \[ \operatorname{Var}(X_i)=p-p^2=p(1-p). \]

    Aplicando esto con \(p=\frac{K}{N}\): \[ \operatorname{Var}(X_i) = \frac{K}{N}\left(1-\frac{K}{N}\right). \]

    Paso 4
    Las variables \(X_i\) y \(X_j\) no son independientes. Al extraer sin reemplazo, obtener un éxito reduce la probabilidad de obtener otro. Esto se traduce en una covarianza negativa:

    \[ \operatorname{Cov}(X_i,X_j) = -\,\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{1}{N-1} \]

    Paso 5
    Sustituimos en la fórmula general. El primer sumatorio tiene \(n\) términos iguales \(\Rightarrow\) aparece el factor \(n\). El segundo término suma las covarianzas de todos los pares distintos; hay \(\binom{n}{2}\) pares, y la fórmula lleva un factor 2 \(\Rightarrow\) aparece \(2\binom{n}{2}\):

    \[ \operatorname{Var}(X) = n\frac{K}{N}\left(1-\frac{K}{N}\right) + 2\binom{n}{2} \left( -\,\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{1}{N-1} \right) \]

    Paso 6
    Ahora simplificamos paso a paso. Primero sacamos el factor común \(\frac{K}{N}\left(1-\frac{K}{N}\right)\):

    \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \left[ n - 2\binom{n}{2}\frac{1}{N-1} \right] \]

    Usamos que \(\binom{n}{2}=\frac{n(n-1)}{2}\). Entonces: \[ 2\binom{n}{2} = 2\cdot\frac{n(n-1)}{2} = n(n-1). \]

    Sustituyendo: \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \left[ n - \frac{n(n-1)}{N-1} \right] \]

    Ahora sacamos \(n\) factor común dentro del corchete: \[ n - \frac{n(n-1)}{N-1} = n\left( 1 - \frac{n-1}{N-1} \right). \]

    Unificamos dentro del paréntesis: \[ 1-\frac{n-1}{N-1} = \frac{N-1}{N-1} - \frac{n-1}{N-1} = \frac{N-n}{N-1}. \]

    Por tanto: \[ \operatorname{Var}(X) = \frac{K}{N}\left(1-\frac{K}{N}\right) \,n\, \frac{N-n}{N-1}. \]

    Reordenando, queda la forma estándar: \[ \operatorname{Var}(X) = n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}. \]

  • MGF:

    La función generadora de momentos se define como \(M_X(t)=E[e^{tX}]\). En la distribución hipergeométrica, calcular esta esperanza implica sumar términos combinatorios complejos asociados al muestreo sin reemplazo.

    A diferencia de la binomial o la geométrica, esta suma no se puede simplificar a una expresión compacta y manejable. Por este motivo, la distribución hipergeométrica no tiene una MGF con forma cerrada simple, y sus momentos suelen obtenerse por otros métodos.

Binomial negativa

Imagina que tienes una urna con bolas de dos tipos.

  • Algunas bolas son rojas.
  • Las demás bolas son blancas.

No importa el número total de bolas en la urna, solo la proporción de bolas rojas.

Ahora extraemos bolas devolviéndolas a la urna después de cada extracción.

Esto hace que cada extracción sea independiente y tenga siempre la misma probabilidad de éxito.

Por tanto, podemos definir la siguiente regla:

  • Éxito (1): sacar una bola roja.
  • Fracaso (0): sacar una bola blanca.

Fijamos de antemano el número total de extracciones, digamos \(n\).

La pregunta que nos hacemos es:

¿Cuántas bolas rojas obtengo al realizar \(n\) extracciones?

Es decir, contamos el número de éxitos en una secuencia de ensayos independientes, todos con la misma probabilidad de éxito.

Esto es una distribución binomial.

Resumen: Una distribución binomial modela el número de éxitos en un número fijo de ensayos independientes, cada uno con probabilidad de éxito \(p\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetros: \(r>0\) (número de éxitos objetivo; usualmente entero), \(p\in(0,1)\)
  • PMF:

    Paso 1 · Ejemplo concreto
    Imagina que estás llamando a un servicio técnico. Cada llamada es independiente y:
    • Con probabilidad \(p\) te atienden (éxito).
    • Con probabilidad \(1-p\) no te atienden (fracaso).
    Decides seguir llamando hasta que te atiendan dos veces.

    Paso 2 · Qué significa \(X=k\)
    Definimos la variable aleatoria \(X\) como el número de fracasos antes de que ocurra el segundo éxito.

    Por ejemplo, \(X=3\) significa que:
    • Han ocurrido exactamente 3 fracasos.
    • Han ocurrido exactamente 2 éxitos.
    • La última llamada es necesariamente un éxito (el segundo).
    Una secuencia posible sería: \[ (F, E, F, F, E) \]

    Paso 3 · Probabilidad de una secuencia concreta
    En esa secuencia hay:
    • 3 fracasos \(\Rightarrow (1-p)^3\).
    • 2 éxitos \(\Rightarrow p^2\).
    Como las llamadas son independientes, la probabilidad de esa secuencia es: \[ (1-p)^3\,p^2. \]

    Paso 4 · ¿Cuántas secuencias dan lugar a \(X=3\)?
    El último resultado está fijado (tiene que ser un éxito). Antes de él hay \(3+2-1=4\) posiciones, en las que debemos colocar:
    • 3 fracasos.
    • 1 éxito.
    El número de formas distintas de hacerlo es: \[ \binom{4}{3}. \]

    Paso 5 · Probabilidad total del evento \(X=3\)
    Todas esas secuencias son disjuntas y tienen la misma probabilidad, así que sumamos sus probabilidades: \[ P(X=3)=\binom{4}{3}(1-p)^3p^2. \]

    Paso 6 · Generalización
    Si en lugar de 2 éxitos queremos obtener \(r\) éxitos, y el número de fracasos es \(k\), el razonamiento es exactamente el mismo:
    • El último ensayo es el \(r\)-ésimo éxito.
    • Antes hay \(k+r-1\) ensayos.
    • De ellos, \(k\) son fracasos y \(r-1\) son éxitos.
    El número de secuencias posibles es: \[ \binom{k+r-1}{k}. \]

    Resultado final
    Multiplicando número de secuencias por la probabilidad de cada una: \[ P(X=k) = \binom{k+r-1}{k}(1-p)^k\,p^r. \]
  • Media:

    Idea clave antes de empezar
    La binomial negativa cuenta cuántos fracasos ocurren hasta obtener exactamente \(r\) éxitos.

    En lugar de calcular la media “de golpe”, vamos a usar una idea muy sencilla: llegar a \(r\) éxitos es lo mismo que repetir \(r\) veces la espera hasta un éxito.

    Paso 1 · Descomponer el proceso
    Imagina el proceso así:
    • Esperas hasta el primer éxito → cuenta fracasos.
    • Luego esperas hasta el segundo éxito → cuenta fracasos.
    • Y así sucesivamente, hasta el éxito número \(r\).
    Cada uno de esos tramos es una distribución geométrica con probabilidad de éxito \(p\).

    Paso 2 · Escribir la variable como suma
    Si llamamos \(Y_1, Y_2, \dots, Y_r\) al número de fracasos antes de cada éxito, entonces el número total de fracasos es: \[ X = Y_1 + Y_2 + \cdots + Y_r. \]

    Paso 3 · Media de cada tramo
    Ya sabemos (de la distribución geométrica) que el número medio de fracasos antes de un éxito es: \[ E[Y_i] = \frac{1-p}{p}. \]

    Paso 4 · Sumar las medias
    Usamos la linealidad de la esperanza: \[ E[X] = E[Y_1 + \cdots + Y_r] = E[Y_1] + \cdots + E[Y_r]. \]

    Como hay \(r\) términos iguales: \[ E[X] = r\,\frac{1-p}{p}. \]

    Interpretación
    De media, cada éxito “cuesta” \(\frac{1-p}{p}\) fracasos. Para obtener \(r\) éxitos, el número medio total de fracasos es simplemente \(r\) veces esa cantidad.
  • Varianza:

    Idea clave
    Igual que con la media, la clave está en ver la binomial negativa como la suma de varias esperas independientes hasta un éxito.

    Paso 1 · Descomponer el proceso
    Para obtener \(r\) éxitos, el proceso se puede dividir en \(r\) etapas:
    • Esperar hasta el primer éxito.
    • Esperar hasta el segundo éxito.
    • Esperar hasta el éxito número \(r\).
    Si llamamos \(Y_1, Y_2, \dots, Y_r\) al número de fracasos antes de cada éxito, entonces: \[ X = Y_1 + Y_2 + \cdots + Y_r. \]

    Paso 2 · Varianza de cada tramo
    Cada variable \(Y_i\) sigue una distribución geométrica con probabilidad de éxito \(p\). Para una geométrica se cumple: \[ \operatorname{Var}(Y_i)=\frac{1-p}{p^2}. \]

    Paso 3 · Independencia
    Las esperas entre éxitos son independientes entre sí: lo que ocurre antes de un éxito no afecta a la espera hasta el siguiente.

    Paso 4 · Varianza de una suma
    Cuando sumamos variables independientes, la varianza de la suma es la suma de las varianzas: \[ \operatorname{Var}(X) = \operatorname{Var}(Y_1 + \cdots + Y_r) = \operatorname{Var}(Y_1) + \cdots + \operatorname{Var}(Y_r). \]

    Paso 5 · Sumar \(r\) veces la misma varianza
    Como todas las \(Y_i\) tienen la misma varianza: \[ \operatorname{Var}(X) = r\,\frac{1-p}{p^2}. \]

    Interpretación
    La dispersión total crece linealmente con el número de éxitos \(r\), y aumenta rápidamente cuando \(p\) es pequeño, porque los fracasos se vuelven más impredecibles.
  • MGF:

    Idea clave
    Igual que con la media y la varianza, la clave está en ver la binomial negativa como una suma de esperas geométricas independientes.

    Paso 1 · Descomponer la variable
    Para obtener \(r\) éxitos, el número total de fracasos puede escribirse como la suma de las esperas hasta cada éxito: \[ X = Y_1 + Y_2 + \cdots + Y_r, \] donde cada \(Y_i\) es el número de fracasos antes del \(i\)-ésimo éxito y sigue una distribución geométrica con probabilidad de éxito \(p\).

    Paso 2 · MGF de una suma
    Por definición, la función generadora de momentos es \[ M_X(t)=E[e^{tX}]. \] Sustituyendo la descomposición anterior: \[ M_X(t)=E\!\left[e^{t(Y_1+\cdots+Y_r)}\right]. \]

    Paso 3 · Pasar de suma a producto
    Usamos que el exponencial convierte sumas en productos: \[ e^{t(Y_1+\cdots+Y_r)} = e^{tY_1}\cdots e^{tY_r}. \] Por tanto: \[ M_X(t)=E\!\left[e^{tY_1}\cdots e^{tY_r}\right]. \]

    Paso 4 · Independencia
    Las esperas \(Y_1,\dots,Y_r\) son independientes, así que la esperanza del producto es el producto de las esperanzas: \[ M_X(t)=\prod_{i=1}^{r} E[e^{tY_i}]. \]

    Paso 5 · Todas las MGFs son iguales
    Todas las variables \(Y_i\) siguen la misma distribución geométrica, luego: \[ M_X(t)=\big(M_Y(t)\big)^r. \]

    Paso 6 · MGF de la geométrica
    Para una variable geométrica (fracasos antes del primer éxito), la MGF es: \[ M_Y(t)=\frac{p}{\,1-(1-p)e^t\,}, \qquad t<-\ln(1-p). \]

    Paso 7 · Resultado final
    Sustituyendo en la expresión anterior: \[ M_X(t) = \left(\frac{p}{\,1-(1-p)e^t\,}\right)^r, \qquad t<-\ln(1-p). \]

Poisson

Imagina que estás observando un fenómeno que ocurre de forma aleatoria en el tiempo.

  • Por ejemplo, las llamadas que llegan a un call center.
  • O los coches que pasan por un peaje.
  • O los errores que aparecen en una página web.

Sabemos que, de media, estos eventos ocurren a un cierto ritmo constante.

Por ejemplo: llegan unas \(\lambda\) llamadas por hora.

Dividimos el tiempo en intervalos pequeños y observamos lo siguiente:

  • En un intervalo muy pequeño, la probabilidad de que ocurra un evento es muy baja.
  • Es muy poco probable que ocurran dos eventos a la vez.
  • Lo que ocurre en un intervalo es independiente de los demás.

Ahora nos hacemos la siguiente pregunta:

¿Cuántos eventos ocurren en un intervalo de tiempo fijo?

Es decir, contamos el número de veces que ocurre el evento durante un periodo dado (por ejemplo, una hora).

Esto es una distribución de Poisson.

Resumen: Una distribución de Poisson modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio, cuando los eventos suceden de forma independiente y a una tasa media constante \(\lambda\).

  • Soporte: \(\{0,1,2,\dots\}\)
  • Parámetro: \(\lambda>0\)
  • PMF:

    Paso 1 · Ejemplo concreto
    Imagina que en un call center llegan, de media, \(\lambda=2\) llamadas por hora. Observamos exactamente una hora y contamos cuántas llamadas llegan en ese intervalo.

    Paso 2 · Dividir el tiempo
    Dividimos la hora en \(n\) intervalos muy pequeños, de modo que en cada uno:
    • La probabilidad de que llegue una llamada es muy pequeña.
    • Es prácticamente imposible que lleguen dos llamadas a la vez.
    En cada intervalo ocurre:
    • Éxito (1): llega una llamada.
    • Fracaso (0): no llega ninguna llamada.

    Paso 3 · Modelo binomial
    En cada intervalo la probabilidad de éxito es aproximadamente \(p=\frac{\lambda}{n}\). Por independencia, el número total de llamadas en la hora se puede aproximar por una binomial: \[ X_n \sim \operatorname{Binomial}\!\left(n,\frac{\lambda}{n}\right). \]

    Paso 4 · Probabilidad de un valor concreto
    La probabilidad de que lleguen exactamente \(k\) llamadas es: \[ P(X_n=k) = \binom{n}{k}\left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k}. \]

    Paso 5 · Pasar al límite
    Ahora hacemos \(n\to\infty\), es decir, tomamos intervalos cada vez más pequeños. En ese límite ocurren tres cosas clave:
    • \(\displaystyle \binom{n}{k}\frac{1}{n^k}\to\frac{1}{k!}\)
    • \(\displaystyle \left(1-\frac{\lambda}{n}\right)^n\to e^{-\lambda}\)
    • \(\displaystyle \left(1-\frac{\lambda}{n}\right)^{-k}\to 1\)

    Paso 6 · Resultado del límite
    Sustituyendo estos límites se obtiene: \[ P(X=k) = e^{-\lambda}\frac{\lambda^k}{k!}. \]

    Interpretación
    La distribución de Poisson aparece como el límite de una binomial cuando el número de ensayos es muy grande y la probabilidad de éxito en cada uno es muy pequeña, manteniendo constante la media \(\lambda\).
  • Media:

    Idea clave
    La distribución de Poisson se usa para contar cuántas veces ocurre un evento en un intervalo fijo, cuando sabemos cuántas veces ocurre de media.

    Paso 1 · Interpretación de \(\lambda\)
    El parámetro \(\lambda\) representa directamente la tasa media de ocurrencia del evento en el intervalo considerado.

    Por ejemplo, si \(\lambda=3\), significa que:
    • De media llegan 3 llamadas por hora.
    • De media ocurren 3 eventos en el intervalo.

    Paso 2 · Conexión con la binomial
    En la construcción de Poisson como límite de una binomial, consideramos una binomial con parámetros \(n\) y \(p=\frac{\lambda}{n}\). La media de una binomial es: \[ E[X_n]=np=\lambda. \]

    Paso 3 · Pasar al límite
    Al hacer \(n\to\infty\), la distribución binomial converge a una Poisson, y la media se conserva en el límite.

    Resultado final
    \[ E[X]=\lambda. \]
  • Varianza:

    Idea clave
    En la distribución de Poisson, la dispersión del número de eventos está directamente ligada a la frecuencia con la que ocurren.

    Paso 1 · Conexión con la binomial
    En la construcción de Poisson como límite de una binomial, partimos de una binomial con parámetros \(n\) y \(p=\frac{\lambda}{n}\).

    Paso 2 · Varianza de la binomial
    La varianza de una binomial es: \[ \operatorname{Var}(X_n)=np(1-p). \]

    Paso 3 · Sustituir el parámetro
    Sustituyendo \(p=\frac{\lambda}{n}\): \[ \operatorname{Var}(X_n) = n\frac{\lambda}{n}\left(1-\frac{\lambda}{n}\right) = \lambda\left(1-\frac{\lambda}{n}\right). \]

    Paso 4 · Pasar al límite
    Al hacer \(n\to\infty\), el término \(\frac{\lambda}{n}\) tiende a 0, y por tanto: \[ \operatorname{Var}(X)=\lambda. \]

    Resultado final
    \[ \operatorname{Var}(X)=\lambda. \]
  • MGF:

    Paso 1 · Definición
    La función generadora de momentos se define como: \[ M_X(t)=E[e^{tX}]. \]

    Paso 2 · Usar la PMF de Poisson
    Si \(X\sim\text{Poisson}(\lambda)\), entonces: \[ P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\qquad k=0,1,2,\dots \] Sustituyendo en la definición: \[ M_X(t)=\sum_{k=0}^{\infty} e^{tk}\,e^{-\lambda}\frac{\lambda^k}{k!}. \]

    Paso 3 · Sacar factores comunes
    Sacamos fuera de la suma los términos que no dependen de \(k\): \[ M_X(t) = e^{-\lambda}\sum_{k=0}^{\infty}\frac{(\lambda e^{t})^k}{k!}. \]

    Paso 4 · Reconocer la serie exponencial
    Recordamos que: \[ \sum_{k=0}^{\infty}\frac{a^k}{k!}=e^{a}. \] Aplicándolo con \(a=\lambda e^{t}\): \[ \sum_{k=0}^{\infty}\frac{(\lambda e^{t})^k}{k!} = e^{\lambda e^{t}}. \]

    Paso 5 · Simplificar
    Sustituyendo en la expresión anterior: \[ M_X(t) = e^{-\lambda}\,e^{\lambda e^{t}} = e^{\lambda(e^{t}-1)}. \]

    Resultado final
    \[ M_X(t)=\exp\!\big(\lambda(e^{t}-1)\big). \]

Distribuciones continuas notables

Uniforme continua \(\mathrm{U}(a,b)\)

Imagina que un técnico te dice que vendrá a casa entre las 16:00 y las 17:00.

  • No sabes la hora exacta.
  • Solo sabes que llegará dentro de ese intervalo.
  • No tienes ninguna razón para pensar que las 16:10 sean más probables que las 16:40.

En ese caso, cualquier subintervalo de la misma longitud tiene la misma probabilidad. Por ejemplo, llegar entre las 16:05 y las 16:15 es tan probable como llegar entre las 16:40 y las 16:50, porque ambos intervalos duran 10 minutos.

Ojo: como estamos en una variable continua, no tiene sentido preguntar “¿cuál es la probabilidad de que llegue exactamente a las 16:23?” porque esa probabilidad es 0. Lo correcto es preguntar por intervalos.

Esto es una distribución uniforme continua.

Resumen: Una Uniforme continua modela una variable aleatoria que puede tomar cualquier valor dentro de un intervalo \([a,b]\), y en la que no hay preferencia por ninguna zona del rango. Su densidad es constante en todo el intervalo, por lo que la probabilidad depende solo de la longitud del tramo considerado.

  • Soporte: \([a,b]\)
  • Parámetros: \(a<b\), donde \(a\) es el límite inferior y \(b\) el superior.
  • PDF:

    Paso 1
    Si todos los valores dentro de \([a,b]\) son igual de plausibles, la densidad debe ser constante en todo el intervalo. Llamemos \(c\) a esa constante: \[ f(x)=c,\qquad a\le x\le b. \]

    Paso 2
    Como el área total bajo una densidad debe ser 1: \[ \int_a^b c\,dx = 1. \]

    Paso 3
    Integrando: \[ c(b-a)=1. \]

    Conclusión
    \[ f(x)= \begin{cases} \dfrac{1}{b-a}, & a\le x\le b,\\[6pt] 0, & \text{en otro caso.} \end{cases} \]
  • CDF:

    La función de distribución es \[ F(x)=P(X\le x). \] Por tanto: \[ F(x)= \begin{cases} 0, & x<a,\\[6pt] \dfrac{x-a}{b-a}, & a\le x\le b,\\[6pt] 1, & x>b. \end{cases} \] Dentro del intervalo, la probabilidad acumulada crece de forma lineal.
  • Media:

    Por definición: \[ E[X]=\int_a^b x\,f(x)\,dx =\int_a^b x\,\frac{1}{b-a}\,dx. \] Sacamos la constante: \[ E[X]=\frac{1}{b-a}\int_a^b x\,dx =\frac{1}{b-a}\left[\frac{x^2}{2}\right]_a^b. \] Entonces: \[ E[X]=\frac{1}{b-a}\cdot\frac{b^2-a^2}{2}. \] Factorizando \(b^2-a^2=(b-a)(a+b)\): \[ E[X]=\frac{a+b}{2}. \] Es decir, la media es el punto medio del intervalo.
  • Varianza:

    Usamos: \[ \mathrm{Var}(X)=E[X^2]-E[X]^2. \] Primero calculamos \(E[X^2]\): \[ E[X^2]=\int_a^b x^2\,\frac{1}{b-a}\,dx =\frac{1}{b-a}\left[\frac{x^3}{3}\right]_a^b =\frac{b^3-a^3}{3(b-a)}. \] Como \(b^3-a^3=(b-a)(a^2+ab+b^2)\): \[ E[X^2]=\frac{a^2+ab+b^2}{3}. \] Ahora restamos el cuadrado de la media: \[ \mathrm{Var}(X)=\frac{a^2+ab+b^2}{3}-\left(\frac{a+b}{2}\right)^2. \] Simplificando: \[ \mathrm{Var}(X)=\frac{(b-a)^2}{12}. \]
  • MGF:

    Por definición: \[ M_X(t)=E[e^{tX}]=\int_a^b e^{tx}\frac{1}{b-a}\,dx. \] Integrando: \[ M_X(t)=\frac{1}{b-a}\left[\frac{e^{tx}}{t}\right]_a^b =\frac{e^{tb}-e^{ta}}{t(b-a)}, \qquad t\neq 0. \] Y además: \[ M_X(0)=1. \]
  • Propiedades:
    • La densidad es constante en todo el intervalo.
    • La probabilidad de un subintervalo depende solo de su longitud.
    • Si \(X\sim U(a,b)\), entonces \(Y=\dfrac{X-a}{b-a}\sim U(0,1)\).
    • La Uniforme \((0,1)\) es fundamental en simulación y generación de variables aleatorias.
  • Errores comunes:
    • Creer que “todos los valores son igual de probables” significa que \(P(X=x)\neq 0\). En continua, \(P(X=x)=0\).
    • Usarla solo porque “no sabemos nada”. La Uniforme requiere un intervalo acotado y una justificación razonable.
    • Olvidar que la probabilidad se calcula sobre intervalos, no sobre puntos concretos.
    • Aplicarla cuando en realidad hay concentración en ciertas zonas del rango.

Exponencial \(\mathrm{Exp}(\lambda)\)

Imagina que estás esperando el próximo mensaje importante en tu móvil.

  • No sabes exactamente cuándo llegará.
  • Solo sabes que los mensajes llegan de forma aleatoria.
  • Y que, de media, llegan con una cierta frecuencia constante.

Por ejemplo, puede que en promedio llegue 1 mensaje cada 10 minutos, pero eso no significa que vaya a llegar exactamente dentro de 10 minutos. Puede llegar en 2, en 7, en 15 o en 30.

La pregunta ahora no es cuántos mensajes llegan, sino:

¿Cuánto tiempo tengo que esperar hasta que ocurra el siguiente evento?

Es decir, medimos un tiempo de espera.

Esto es una distribución exponencial.

Resumen: La distribución exponencial modela el tiempo hasta que ocurre el siguiente evento cuando los eventos aparecen de forma aleatoria, independiente y con una tasa media constante \(\lambda\). Es la versión continua de la geométrica y se caracteriza por su propiedad de falta de memoria.

  • Soporte: \([0,\infty)\)
  • Parámetro: \(\lambda>0\), donde \(\lambda\) es la tasa media de ocurrencia de eventos por unidad de tiempo.
  • CDF:

    Paso 1
    Sea \(X\) el tiempo de espera hasta el siguiente evento.

    Queremos calcular: \[ F(x)=P(X\le x). \] Es decir, la probabilidad de que el evento haya ocurrido antes o en el instante \(x\).

    Paso 2
    Es más fácil empezar por el complementario: \[ P(X>x). \] Esto significa que hasta el tiempo \(x\) no ha ocurrido ningún evento.

    Paso 3
    Si los eventos siguen un proceso de Poisson con tasa \(\lambda\), el número de eventos ocurridos hasta el tiempo \(x\) cumple: \[ N(x)\sim \mathrm{Poisson}(\lambda x). \] Por tanto: \[ P(X>x)=P(N(x)=0)=e^{-\lambda x}. \]

    Paso 4
    Usamos que: \[ F(x)=1-P(X>x). \] Entonces: \[ F(x)=1-e^{-\lambda x}, \qquad x\ge 0. \]

    Conclusión
    \[ F(x)= \begin{cases} 0, & x<0,\\[6pt] 1-e^{-\lambda x}, & x\ge 0. \end{cases} \]
  • PDF:

    Paso 1
    La densidad se obtiene derivando la función de distribución: \[ f(x)=F'(x). \]

    Paso 2
    Como \[ F(x)=1-e^{-\lambda x}, \] derivamos: \[ f(x)=\lambda e^{-\lambda x}, \qquad x\ge 0. \]

    Conclusión
    \[ f(x)= \begin{cases} \lambda e^{-\lambda x}, & x\ge 0,\\[6pt] 0, & x<0. \end{cases} \]
  • Media:

    Por definición: \[ E[X]=\int_0^\infty x\,\lambda e^{-\lambda x}\,dx. \]

    Esta integral se resuelve por partes. Tomamos: \[ u=x,\qquad dv=\lambda e^{-\lambda x}\,dx. \] Entonces: \[ du=dx,\qquad v=-e^{-\lambda x}. \]

    Aplicando integración por partes: \[ E[X]=\left[-xe^{-\lambda x}\right]_0^\infty+\int_0^\infty e^{-\lambda x}\,dx. \]

    El primer término vale 0, y el segundo es: \[ \int_0^\infty e^{-\lambda x}\,dx=\frac{1}{\lambda}. \]

    Conclusión
    \[ E[X]=\frac{1}{\lambda}. \] Es decir, el tiempo medio de espera es el inverso de la tasa.
  • Varianza:

    Usamos: \[ \mathrm{Var}(X)=E[X^2]-E[X]^2. \]

    Primero calculamos: \[ E[X^2]=\int_0^\infty x^2\,\lambda e^{-\lambda x}\,dx. \] Esta integral da como resultado: \[ E[X^2]=\frac{2}{\lambda^2}. \]

    Ahora restamos el cuadrado de la media: \[ \mathrm{Var}(X)=\frac{2}{\lambda^2}-\left(\frac{1}{\lambda}\right)^2. \]

    Simplificando: \[ \mathrm{Var}(X)=\frac{1}{\lambda^2}. \]
  • MGF:

    Por definición: \[ M_X(t)=E[e^{tX}]=\int_0^\infty e^{tx}\lambda e^{-\lambda x}\,dx. \]

    Agrupamos exponentes: \[ M_X(t)=\lambda\int_0^\infty e^{-(\lambda-t)x}\,dx. \]

    Esta integral converge solo si \(\lambda-t>0\), es decir, si: \[ t<\lambda. \]

    En ese caso: \[ \int_0^\infty e^{-(\lambda-t)x}\,dx=\frac{1}{\lambda-t}. \] Por tanto: \[ M_X(t)=\frac{\lambda}{\lambda-t}, \qquad t<\lambda. \]
  • Propiedades:
    • Modela tiempos de espera entre eventos de un proceso de Poisson.
    • Es la versión continua de la distribución geométrica.
    • Tiene falta de memoria: \[ P(X>s+t\mid X>s)=P(X>t). \] Es decir, haber esperado ya un tiempo no cambia la distribución del tiempo restante.
    • Si \(X_1,\dots,X_k\) son exponenciales independientes con la misma tasa \(\lambda\), entonces su suma sigue una distribución Gamma.
    • Si \(\lambda\) aumenta, el tiempo medio de espera disminuye.
  • Errores comunes:
    • Confundir \(\lambda\) con la media. En realidad, la media es \(\frac{1}{\lambda}\).
    • Usarla cuando la tasa de ocurrencia cambia con el tiempo. La exponencial solo tiene sentido con tasa constante.
    • Olvidar que solo modela variables positivas: no puede tomar valores negativos.
    • Aplicarla a situaciones con desgaste o envejecimiento, donde el riesgo cambia con el tiempo.
    • No distinguir entre “tiempo hasta el próximo evento” (Exponencial) y “número de eventos en un intervalo” (Poisson).

Normal \(\mathcal{N}(\mu,\sigma^2)\)

Imagina que mides la altura de miles de personas adultas.

  • La mayoría tendrá una altura cercana a un valor central.
  • Habrá personas algo más bajas y algo más altas.
  • Y unas pocas estarán muy lejos de ese valor medio.

Si representas esos datos en un histograma, muchas veces aparece una forma muy característica: un gran pico en el centro y una caída progresiva hacia ambos lados.

Eso ocurre porque la variable no suele depender de una sola causa, sino de la suma de muchos pequeños efectos: genética, alimentación, descanso, entorno, etc.

Cuando una magnitud está influida por muchos factores pequeños e independientes, es muy frecuente que aparezca esta forma de campana.

Esto es una distribución normal.

Resumen: La distribución normal modela variables continuas que se concentran alrededor de un valor central \(\mu\), con una dispersión controlada por \(\sigma\). Es simétrica, tiene forma de campana y aparece de forma natural cuando una variable es el resultado de muchos efectos aleatorios pequeños.

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (media o centro) y \(\sigma>0\) (desviación típica).
  • PDF:

    La densidad de una normal viene dada por: \[ f(x)=\frac{1}{\sqrt{2\pi}\,\sigma} \exp\!\left( -\frac{(x-\mu)^2}{2\sigma^2} \right), \qquad x\in\mathbb{R}. \]

    Esta expresión tiene tres ideas importantes:
    • El término \((x-\mu)^2\) mide la distancia al centro.
    • Cuanto más lejos está \(x\) de \(\mu\), menor es la densidad.
    • El parámetro \(\sigma\) controla lo ancha o estrecha que es la campana.
    Interpretación
    • Si \(\sigma\) es pequeño, los datos están muy concentrados alrededor de \(\mu\).
    • Si \(\sigma\) es grande, la campana se ensancha y los valores se dispersan más.
    • La densidad es simétrica respecto a \(\mu\).
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En la normal, esta función no tiene una expresión elemental cerrada. Por eso se trabaja con la normal estándar y tablas o software estadístico.

    Si \(X\sim\mathcal N(\mu,\sigma^2)\), definimos la variable tipificada: \[ Z=\frac{X-\mu}{\sigma}. \] Entonces: \[ Z\sim\mathcal N(0,1), \] y por tanto: \[ P(X\le x)=P\!\left(Z\le \frac{x-\mu}{\sigma}\right)=\Phi\!\left(\frac{x-\mu}{\sigma}\right), \] donde \(\Phi\) es la CDF de la normal estándar.
  • Media:

    La media de una normal es: \[ E[X]=\mu. \]

    Interpretación
    Como la distribución es perfectamente simétrica respecto al punto \(\mu\), ese valor actúa como centro de equilibrio de la campana. Por eso la media coincide con el centro.
  • Varianza:

    La varianza de una normal es: \[ \mathrm{Var}(X)=\sigma^2. \]

    Interpretación
    El parámetro \(\sigma\) mide cuánto se dispersan los datos alrededor de la media, así que su cuadrado representa la varianza.
  • MGF:

    La función generadora de momentos de una normal es: \[ M_X(t)=E[e^{tX}] = \exp\!\left(\mu t+\frac{1}{2}\sigma^2 t^2\right). \] Esta expresión es muy útil porque permite recuperar directamente:
    • la media \(E[X]=\mu\)
    • la varianza \(\mathrm{Var}(X)=\sigma^2\)
  • Propiedades:
    • Es simétrica respecto a \(\mu\).
    • Media, mediana y moda coinciden: \[ \mu=\text{mediana}=\text{moda}. \]
    • La campana nunca toca el eje horizontal, aunque sus colas se extienden indefinidamente.
    • Si \(X\sim\mathcal N(\mu,\sigma^2)\), entonces \[ Z=\frac{X-\mu}{\sigma}\sim\mathcal N(0,1). \]
    • Las combinaciones lineales de variables normales siguen siendo normales.
    • Por el Teorema Central del Límite, muchas sumas y medias muestrales se aproximan a una normal cuando el tamaño de muestra es grande.
  • Regla empírica:
    • Aproximadamente el 68% de los valores cae en: \[ [\mu-\sigma,\mu+\sigma]. \]
    • Aproximadamente el 95% cae en: \[ [\mu-2\sigma,\mu+2\sigma]. \]
    • Aproximadamente el 99.7% cae en: \[ [\mu-3\sigma,\mu+3\sigma]. \]
    Esta regla ayuda a interpretar rápidamente qué tan lejos está un valor del centro.
  • Errores comunes:
    • Creer que cualquier variable “más o menos centrada” es normal.
    • Usar la normal con datos muy asimétricos o con colas pesadas sin comprobarlo antes.
    • Confundir \(\sigma\) con \(\sigma^2\): uno es desviación típica y el otro varianza.
    • Olvidar tipificar cuando se quieren calcular probabilidades con tablas o software estándar.
    • Suponer que la normal implica que los valores extremos son imposibles. No lo son: solo son menos probables.

Gamma \(\mathrm{Gamma}(k,\theta)\)

Imagina que en una central telefónica las llamadas llegan de forma aleatoria.

  • No sabes exactamente cuándo llegará la próxima llamada.
  • Sabes que el tiempo hasta una llamada se puede modelar con una exponencial.
  • Pero ahora no te interesa la primera llamada, sino por ejemplo la tercera.

La pregunta ya no es:

¿cuánto tarda en llegar el siguiente evento?

sino:

¿cuánto tiempo tengo que esperar hasta que ocurran varios eventos?

Por ejemplo:

  • tiempo hasta la tercera llamada,
  • tiempo hasta la quinta avería,
  • tiempo hasta acumular cierto número de incidencias.

Eso ya no se modela con una exponencial, sino con una Gamma.

En otras palabras: la distribución Gamma describe el tiempo total de espera hasta acumular varios eventos, no solo uno.

Resumen: La distribución Gamma modela una variable continua positiva que puede interpretarse como la suma de varios tiempos de espera exponenciales independientes. Es muy útil para representar tiempos hasta que ocurren varios eventos y generaliza a la exponencial.

  • Soporte: \((0,\infty)\)
  • Parámetros: \(k>0\) (forma) y \(\theta>0\) (escala).
  • PDF:

    La densidad de una Gamma viene dada por: \[ f(x)=\frac{1}{\Gamma(k)\,\theta^k}\,x^{k-1}e^{-x/\theta}, \qquad x>0. \]

    Aquí:
    • \(k\) controla la forma de la distribución,
    • \(\theta\) controla la escala o el tamaño típico de los valores,
    • \(\Gamma(k)\) es la función Gamma, que generaliza el factorial, ya que si \(k\) es entero: \[ \Gamma(k)=(k-1)!. \]
    Interpretación
    • Si \(k=1\), recuperamos la exponencial.
    • Si \(k>1\), la densidad ya no tiene su máximo en 0, sino que sube primero y luego baja.
    • Cuanto mayor es \(k\), más “centrada” queda la distribución alrededor de su media.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En general: \[ F(x)=\frac{1}{\Gamma(k)\,\theta^k}\int_0^x t^{k-1}e^{-t/\theta}\,dt. \] Esta integral no suele tener forma elemental simple, así que normalmente se evalúa con software estadístico o mediante la función Gamma incompleta.

    Cuando \(k\) es entero, la Gamma puede interpretarse como el tiempo hasta el \(k\)-ésimo evento en un proceso de Poisson, lo que ayuda mucho a entender su significado.
  • Media:

    La media de una Gamma es: \[ E[X]=k\theta. \]

    Interpretación
    Si piensas la Gamma como suma de \(k\) tiempos exponenciales independientes, y cada uno tiene media \(\theta\), entonces el tiempo total medio es simplemente: \[ \theta+\theta+\cdots+\theta=k\theta. \]
  • Varianza:

    La varianza de una Gamma es: \[ \mathrm{Var}(X)=k\theta^2. \]

    Interpretación
    Si sumamos \(k\) variables exponenciales independientes, las varianzas también se suman. Como cada una tiene varianza \(\theta^2\), obtenemos: \[ \theta^2+\theta^2+\cdots+\theta^2=k\theta^2. \]
  • MGF:

    La función generadora de momentos de una Gamma es: \[ M_X(t)=(1-\theta t)^{-k}, \qquad t<\frac{1}{\theta}. \] Esta expresión es coherente con la idea de suma de variables exponenciales:
    • la MGF de una exponencial es \[ \frac{1}{1-\theta t}, \]
    • y al sumar \(k\) variables independientes, las MGFs se multiplican, dando: \[ \left(\frac{1}{1-\theta t}\right)^k=(1-\theta t)^{-k}. \]
  • Propiedades:
    • Solo toma valores positivos.
    • Generaliza a la exponencial: si \(k=1\), entonces \[ X\sim\mathrm{Exp}\!\left(\frac{1}{\theta}\right). \]
    • Si \(k\) es entero, puede interpretarse como el tiempo hasta el \(k\)-ésimo evento en un proceso de Poisson.
    • La suma de variables Gamma independientes con la misma escala \(\theta\) vuelve a ser Gamma, sumando los parámetros de forma.
    • Si \(k\) aumenta, la distribución se vuelve menos asimétrica y más parecida a una normal.
    • La Chi-cuadrado es un caso particular de la Gamma.
  • Casos particulares importantes:
    • Exponencial: si \(k=1\).
    • Chi-cuadrado: si \[ k=\frac{\nu}{2},\qquad \theta=2. \]
  • Errores comunes:
    • Confundir la parametrización: a veces se usa escala \(\theta\) y otras veces tasa \(\beta=1/\theta\).
    • Creer que tiene propiedad de falta de memoria. Eso solo ocurre en la exponencial, no en la Gamma general.
    • Usarla sin tener en cuenta que solo sirve para variables positivas.
    • Confundir el parámetro \(k\) con un número obligatorio de eventos enteros. Puede ser no entero y seguir teniendo sentido como modelo flexible.
    • No distinguir entre “tiempo hasta un evento” (Exponencial) y “tiempo hasta varios eventos” (Gamma).

Beta \(\mathrm{Beta}(\alpha,\beta)\)

Imagina que quieres modelar una proporción desconocida.

  • Por ejemplo, la probabilidad real de que un usuario haga clic en un botón.
  • O la proporción de piezas defectuosas en una fábrica.
  • O el porcentaje real de aciertos de un jugador en tiros libres.

En todos esos casos, el valor que buscas no puede ser cualquier número:

  • no puede ser negativo,
  • no puede ser mayor que 1,
  • y además puede estar más cerca de 0, más cerca de 1 o concentrarse en el centro.

Necesitas, por tanto, una distribución continua que viva en el intervalo \([0,1]\) y que sea lo bastante flexible como para representar formas muy distintas.

Eso es exactamente lo que hace la distribución Beta.

Dependiendo de sus parámetros, puede ser:

  • uniforme,
  • simétrica,
  • sesgada hacia 0,
  • sesgada hacia 1,
  • o muy concentrada alrededor de un valor intermedio.

Resumen: La distribución Beta modela variables continuas acotadas entre 0 y 1, especialmente proporciones, probabilidades y porcentajes normalizados. Es una familia muy flexible y fundamental en estadística bayesiana para representar incertidumbre sobre una probabilidad desconocida.

  • Soporte: \([0,1]\)
  • Parámetros: \(\alpha>0\) y \(\beta>0\).
  • PDF:

    La densidad de una Beta viene dada por: \[ f(x)=\frac{1}{B(\alpha,\beta)}\,x^{\alpha-1}(1-x)^{\beta-1}, \qquad 0\le x\le 1. \]

    Aquí:
    • \(\alpha\) controla el comportamiento de la densidad cerca de 1,
    • \(\beta\) controla el comportamiento cerca de 0,
    • \(B(\alpha,\beta)\) es la función Beta, que actúa como constante de normalización para que el área total bajo la curva sea 1.
    Interpretación
    La forma de la distribución depende mucho de los parámetros:
    • si \(\alpha=\beta=1\), la Beta es uniforme en \([0,1]\),
    • si \(\alpha>\beta\), la masa tiende a concentrarse más hacia 1,
    • si \(\alpha<\beta\), tiende a concentrarse más hacia 0,
    • si ambos parámetros son grandes, la distribución se vuelve más concentrada.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En general, no tiene una forma elemental simple. Se expresa mediante la función Beta incompleta regularizada, por lo que normalmente se calcula con software estadístico.

    Aun así, su interpretación es la de siempre: representa la probabilidad acumulada hasta un punto \(x\) dentro de \([0,1]\).
  • Media:

    La media de una Beta es: \[ E[X]=\frac{\alpha}{\alpha+\beta}. \]

    Interpretación
    Este valor indica el centro de gravedad de la distribución. Por ejemplo:
    • si \(\alpha=\beta\), la media queda en \(0.5\),
    • si \(\alpha\) es mayor que \(\beta\), la media se desplaza hacia 1,
    • si \(\beta\) es mayor que \(\alpha\), la media se desplaza hacia 0.
  • Varianza:

    La varianza de una Beta es: \[ \mathrm{Var}(X)= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}. \]

    Interpretación
    La dispersión depende no solo del equilibrio entre \(\alpha\) y \(\beta\), sino también de su tamaño total:
    • si \(\alpha+\beta\) es pequeño, la distribución es más dispersa,
    • si \(\alpha+\beta\) es grande, la distribución se concentra más alrededor de la media.
  • MGF:

    La distribución Beta no tiene una MGF con forma cerrada simple. Por eso, en la práctica, sus propiedades suelen trabajarse con:
    • la media y la varianza,
    • la función Beta,
    • o directamente software estadístico.
  • Propiedades:
    • Solo toma valores entre 0 y 1.
    • Es una familia muy flexible: puede adoptar formas muy distintas según \(\alpha\) y \(\beta\).
    • La uniforme es un caso particular: \[ \mathrm{Beta}(1,1)=U(0,1). \]
    • Es la distribución conjugada de la Bernoulli y la Binomial en estadística bayesiana.
    • Se usa mucho para modelar incertidumbre sobre probabilidades desconocidas.
  • Casos típicos según los parámetros:
    • \(\alpha=\beta=1\): uniforme.
    • \(\alpha>\beta\): más peso cerca de 1.
    • \(\alpha<\beta\): más peso cerca de 0.
    • \(\alpha=\beta>1\): forma simétrica con pico en el centro.
    • \(\alpha,\beta<1\): forma en U, con más masa cerca de los extremos.
  • Errores comunes:
    • Usarla para variables que no están acotadas entre 0 y 1.
    • Confundir una Beta con una Uniforme solo porque ambas viven en \([0,1]\).
    • Olvidar que \(\alpha\) y \(\beta\) no son directamente “probabilidades”, sino parámetros de forma.
    • No distinguir entre una proporción observada y la distribución de incertidumbre sobre esa proporción.
    • Interpretar mal casos con \(\alpha,\beta<1\), donde la densidad puede dispararse cerca de 0 o 1.

Lognormal \(\mathrm{Lognormal}(\mu,\sigma)\)

Imagina que quieres modelar una variable que siempre es positiva.

  • Por ejemplo, el precio de una acción.
  • El tiempo que tarda una tarea compleja en completarse.
  • O los ingresos de una persona.

En todos estos casos suele ocurrir algo curioso:

  • la mayoría de los valores están en una zona relativamente moderada,
  • pero de vez en cuando aparecen valores mucho más grandes,
  • y la variable nunca puede ser negativa.

Este tipo de comportamiento no encaja bien con una normal, porque la normal es simétrica y permite valores negativos.

En cambio, muchas veces sí ocurre que el logaritmo de la variable se comporta de forma aproximadamente normal.

Es decir, no es \(X\) la que sigue una normal, sino:

\[ \ln X \sim \mathcal{N}(\mu,\sigma^2). \]

En ese caso decimos que \(X\) sigue una distribución lognormal.

Resumen: La distribución lognormal modela variables continuas positivas y normalmente asimétricas a la derecha. Aparece cuando una magnitud es el resultado de muchos efectos multiplicativos o de crecimientos porcentuales acumulados.

  • Soporte: \((0,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) y \(\sigma>0\), donde ambos son los parámetros de la normal de \(\ln X\).
  • Definición clave:

    Decimos que: \[ X\sim \mathrm{Lognormal}(\mu,\sigma) \] si y solo si: \[ \ln X \sim \mathcal{N}(\mu,\sigma^2). \] Esta es la idea central de toda la distribución. La lognormal no se entiende bien si no recuerdas esto:
    • \(\mu\) y \(\sigma\) no son la media y desviación típica de \(X\),
    • son la media y desviación típica de \(\ln X\).
  • PDF:

    La densidad de una lognormal es: \[ f(x)= \frac{1}{x\sigma\sqrt{2\pi}} \exp\!\left( -\frac{(\ln x-\mu)^2}{2\sigma^2} \right), \qquad x>0. \] Interpretación
    • El término \(\ln x\) refleja que la normal actúa sobre el logaritmo de la variable.
    • El factor \(\frac{1}{x}\) aparece por el cambio de variable al pasar de la normal a la lognormal.
    • La densidad está sesgada a la derecha: suele haber una cola larga hacia valores grandes.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] Como \(\ln X\) es normal: \[ P(X\le x)=P(\ln X\le \ln x). \] Por tanto: \[ F(x)=\Phi\!\left(\frac{\ln x-\mu}{\sigma}\right), \qquad x>0, \] donde \(\Phi\) es la función de distribución de la normal estándar. Interpretación
    Para calcular probabilidades con una lognormal, en el fondo lo que hacemos es pasar al logaritmo y usar la normal.
  • Media:

    La media de una lognormal es: \[ E[X]=e^{\mu+\sigma^2/2}. \] Interpretación
    La media siempre es positiva y además suele ser mayor que la mediana, porque la cola derecha empuja el promedio hacia arriba.
  • Varianza:

    La varianza de una lognormal es: \[ \mathrm{Var}(X)= \big(e^{\sigma^2}-1\big)e^{2\mu+\sigma^2}. \] Interpretación
    La dispersión crece mucho cuando \(\sigma\) aumenta. De hecho, pequeñas variaciones en \(\sigma\) pueden hacer que la cola derecha se vuelva mucho más pesada.
  • MGF:

    La distribución lognormal no tiene MGF finita para \(t>0\). Es decir, la integral que define \(E[e^{tX}]\) diverge para valores positivos de \(t\).

    Esto es una señal de que la lognormal tiene una cola derecha bastante pesada, aunque no tan extrema como la de una Cauchy.
  • Propiedades:
    • Solo toma valores positivos.
    • Es asimétrica a la derecha.
    • Si \(\ln X\) es normal, entonces \(X\) es lognormal.
    • La mediana es: \[ \mathrm{Med}(X)=e^\mu. \]
    • La moda es: \[ \mathrm{Moda}(X)=e^{\mu-\sigma^2}. \]
    • Se cumple típicamente: \[ \text{moda} < \text{mediana} < \text{media}. \]
    • Si varias influencias actúan de forma multiplicativa, la lognormal aparece de forma natural.
    • El producto de variables lognormales independientes vuelve a ser lognormal.
  • Cuándo aparece de forma natural:
    • Procesos de crecimiento porcentual acumulado.
    • Variables económicas positivas como ingresos, precios o patrimonio.
    • Tiempos o tamaños donde hay muchos factores multiplicativos.
    • Magnitudes biológicas o técnicas con fuerte asimetría a la derecha.
  • Errores comunes:
    • Confundir los parámetros \(\mu\) y \(\sigma\) con la media y varianza de \(X\).
    • Aplicar una normal directamente a datos positivos muy asimétricos.
    • Olvidar que la lognormal nunca puede tomar valores negativos ni cero.
    • No transformar con logaritmos cuando se quiere analizar o ajustar este tipo de datos.
    • Confundir “lognormal” con “logística”, que son distribuciones completamente distintas.

Chi-cuadrada \(\chi^2_\nu\)

Imagina que tienes varias mediciones que oscilan alrededor de un valor esperado.

  • Algunas quedan un poco por encima.
  • Otras un poco por debajo.
  • Y te interesa medir el tamaño total de esas desviaciones.

Pero hay un detalle importante:

  • si sumas desviaciones con signo, unas pueden cancelar a otras,
  • así que no basta con sumar diferencias normales,
  • lo natural es elevarlas al cuadrado.

Eso hace que todas las contribuciones sean positivas y que las desviaciones grandes pesen más.

Si tomas varias variables normales estándar independientes \[ Z_1,Z_2,\dots,Z_\nu \sim \mathcal N(0,1) \] y sumas sus cuadrados: \[ X=Z_1^2+Z_2^2+\cdots+Z_\nu^2, \] entonces \(X\) sigue una distribución Chi-cuadrada.

Esta distribución aparece de forma natural cuando trabajamos con:

  • sumas de cuadrados,
  • varianzas muestrales,
  • contrastes de ajuste,
  • y muchos procedimientos clásicos de inferencia.

Resumen: La distribución Chi-cuadrada modela la suma de cuadrados de variables normales estándar independientes. Solo toma valores positivos y es fundamental en estadística para trabajar con varianzas, residuos y contrastes de hipótesis.

  • Soporte: \((0,\infty)\)
  • Parámetro: \(\nu>0\), llamado grados de libertad.
  • Definición clave:

    Si \[ Z_1,\dots,Z_\nu \sim \mathcal N(0,1) \] son independientes, entonces: \[ X=\sum_{i=1}^{\nu} Z_i^2 \sim \chi^2_\nu. \] Interpretación
    La Chi-cuadrada mide una especie de “energía total” o “tamaño acumulado” de varias desviaciones normales. Por eso siempre es positiva y por eso aparece cuando analizamos dispersión.
  • PDF:

    La densidad de una Chi-cuadrada es: \[ f(x)= \frac{1}{2^{\nu/2}\Gamma(\nu/2)} x^{\nu/2-1}e^{-x/2}, \qquad x>0. \] Interpretación
    • La forma depende de los grados de libertad \(\nu\).
    • Si \(\nu\) es pequeño, la distribución es muy asimétrica a la derecha.
    • Si \(\nu\) crece, la distribución se vuelve más ancha y más parecida a una normal.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En general, no tiene una expresión elemental simple. Se calcula mediante la función Gamma incompleta o con software estadístico.

    Aun así, su interpretación es clara: representa la probabilidad de que la suma de cuadrados acumulada no supere el valor \(x\).
  • Media:

    La media de una Chi-cuadrada es: \[ E[X]=\nu. \] Justificación intuitiva
    Cada \(Z_i^2\) aporta, de media, una unidad: \[ E[Z_i^2]=1. \] Como estamos sumando \(\nu\) términos independientes: \[ E[X]=1+1+\cdots+1=\nu. \]
  • Varianza:

    La varianza de una Chi-cuadrada es: \[ \mathrm{Var}(X)=2\nu. \] Interpretación
    La dispersión aumenta linealmente con los grados de libertad: cuantos más cuadrados sumas, mayor es el valor típico de \(X\), pero también su variabilidad.
  • MGF:

    La función generadora de momentos es: \[ M_X(t)=(1-2t)^{-\nu/2}, \qquad t<\frac{1}{2}. \] Esta fórmula encaja con su relación con la Gamma, ya que la Chi-cuadrada es un caso particular de ella.
  • Relación con la Gamma:
    • La Chi-cuadrada es un caso particular de la Gamma.
    • En concreto: \[ \chi^2_\nu \equiv \mathrm{Gamma}\!\left(\frac{\nu}{2},\,2\right). \]
    Esto explica muchas de sus fórmulas y propiedades.
  • Propiedades:
    • Solo toma valores positivos.
    • Es asimétrica a la derecha, sobre todo para \(\nu\) pequeño.
    • Si \(\nu\) aumenta, la distribución se parece cada vez más a una normal.
    • La suma de Chi-cuadradas independientes vuelve a ser Chi-cuadrada, sumando grados de libertad.
    • Aparece al estudiar la varianza muestral de una población normal.
    • Es básica en pruebas de bondad de ajuste, tablas de contingencia y análisis de varianza.
  • Cuándo aparece de forma natural:
    • En la distribución de la varianza muestral cuando los datos son normales.
    • En el estadístico \(\chi^2\) de Pearson para contrastes de ajuste.
    • En tablas de contingencia e independencia entre variables categóricas.
    • En ANOVA y regresión, al trabajar con sumas de cuadrados.
  • Errores comunes:
    • Creer que es simétrica como la normal. No lo es, salvo aproximadamente cuando \(\nu\) es grande.
    • Olvidar que solo toma valores positivos.
    • Confundir los grados de libertad con el tamaño muestral sin más.
    • Usarla sin comprobar las condiciones del contraste correspondiente.
    • No ver su conexión con la Gamma, lo que hace más difícil entender sus fórmulas.

t de Student \(\mathrm{t}_\nu\)

Imagina que quieres estimar la media de una población a partir de una muestra pequeña.

  • Calculas la media muestral.
  • Pero no conoces la varianza real de la población.
  • Y además la muestra no es lo bastante grande como para “fiarte” sin más de la normal.

En esa situación aparece una dificultad importante:

  • hay incertidumbre por la propia variabilidad de los datos,
  • pero también por el hecho de que estás estimando la desviación típica en vez de conocerla.

Esa incertidumbre extra hace que la distribución tenga colas más pesadas que la normal.

Es decir:

  • los valores cercanos al centro siguen siendo los más probables,
  • pero los valores alejados del centro son más plausibles que en una normal.

Eso es exactamente lo que modela la t de Student.

Resumen: La distribución t de Student aparece al estandarizar una media muestral cuando la población es normal pero la varianza poblacional es desconocida. Se parece a la normal, pero tiene colas más pesadas, sobre todo cuando los grados de libertad son pequeños.

  • Soporte: \((-\infty,\infty)\)
  • Parámetro: \(\nu>0\), llamado grados de libertad.
  • Definición clave:

    Si \[ Z\sim\mathcal N(0,1) \] y \[ Y\sim\chi^2_\nu \] son independientes, entonces la variable \[ T=\frac{Z}{\sqrt{Y/\nu}} \] sigue una distribución t de Student con \(\nu\) grados de libertad: \[ T\sim \mathrm{t}_\nu. \] Interpretación
    La t de Student combina:
    • una parte normal en el numerador,
    • y una varianza estimada en el denominador.
    Esa combinación introduce más incertidumbre que en la normal pura, y por eso aparecen colas más pesadas.
  • PDF:

    La densidad de una t de Student es: \[ f(x)= \frac{\Gamma\!\left(\frac{\nu+1}{2}\right)} {\sqrt{\nu\pi}\,\Gamma\!\left(\frac{\nu}{2}\right)} \left(1+\frac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}}, \qquad x\in\mathbb{R}. \] Interpretación
    • La distribución es simétrica alrededor de 0.
    • Cuanto menor es \(\nu\), más pesadas son las colas.
    • Cuanto mayor es \(\nu\), más se parece la t a una normal estándar.
  • CDF:

    La función de distribución es: \[ F(x)=P(T\le x). \] En general, no tiene una forma elemental simple. Se calcula mediante funciones especiales o con software estadístico.

    Aun así, su interpretación sigue siendo la habitual: representa la probabilidad acumulada hasta un valor \(x\).
  • Media:

    La media de una t de Student es: \[ E[T]=0, \qquad \text{si } \nu>1. \] Interpretación
    Como la distribución es simétrica respecto a 0, el centro natural de equilibrio está en ese punto. Sin embargo, la media solo existe cuando \(\nu>1\).
  • Varianza:

    La varianza de una t de Student es: \[ \mathrm{Var}(T)=\frac{\nu}{\nu-2}, \qquad \text{si } \nu>2. \] Interpretación
    • Cuando \(\nu\) es pequeña, la varianza es grande porque las colas pesan mucho.
    • Cuando \(\nu\to\infty\), la varianza se acerca a 1, como en la normal estándar.
  • MGF:

    La distribución t de Student no tiene una MGF con forma cerrada simple. De hecho, para muchos valores la integral que define \(E[e^{tT}]\) no converge.

    Por eso, en la práctica, la t se trabaja sobre todo a través de:
    • su densidad,
    • su simetría,
    • sus cuantiles,
    • y sus tablas o software.
  • Propiedades:
    • Es simétrica respecto a 0.
    • Tiene colas más pesadas que la normal.
    • Depende de los grados de libertad \(\nu\).
    • Cuando \(\nu\) aumenta, la distribución se aproxima a \(\mathcal N(0,1)\).
    • Se usa cuando la varianza poblacional es desconocida y se estima con la muestra.
  • Relación con la inferencia:
    • Si \(X_1,\dots,X_n\) es una muestra de una población normal, entonces \[ \frac{\overline X-\mu}{S/\sqrt{n}} \sim \mathrm{t}_{n-1}, \] donde \(S\) es la desviación típica muestral.
    • Por eso la t de Student aparece en:
      • intervalos de confianza para la media,
      • contrastes sobre medias,
      • pruebas t de una muestra, dos muestras y datos emparejados.
  • Comparación con la normal:
    • Normal: colas más ligeras, adecuada cuando la varianza poblacional es conocida o la muestra es grande.
    • t de Student: colas más pesadas, adecuada cuando la varianza es desconocida y la muestra es pequeña o moderada.
    En el fondo, la t “penaliza” el hecho de no conocer exactamente la varianza.
  • Errores comunes:
    • Usar directamente la normal cuando la muestra es pequeña y la varianza poblacional es desconocida.
    • Olvidar que los grados de libertad suelen ser \(n-1\) en una muestra simple.
    • Pensar que t y normal son lo mismo. Solo se parecen mucho cuando \(\nu\) es grande.
    • No tener en cuenta que la media solo existe si \(\nu>1\) y la varianza solo si \(\nu>2\).
    • Aplicarla automáticamente sin revisar si la hipótesis de normalidad es razonable en muestras pequeñas.

F de Snedecor \(\mathrm{F}_{d_1,d_2}\)

Imagina que quieres comparar la variabilidad de dos grupos distintos.

  • Por ejemplo, las notas de dos clases.
  • O la dispersión de dos procesos de fabricación.
  • O la variabilidad explicada frente a la no explicada en un modelo estadístico.

En estos casos no te interesa tanto la media, sino saber si una fuente de variación es grande o pequeña en relación con otra.

Eso te lleva de forma natural a construir una razón entre dos cantidades positivas, normalmente dos estimaciones de varianza.

Si ambas varianzas proceden de poblaciones normales e independientes, esa razón no sigue una normal ni una t, sino una distribución F de Snedecor.

Resumen: La distribución F de Snedecor modela la razón entre dos cantidades tipo Chi-cuadrada normalizadas por sus grados de libertad. Es fundamental para comparar varianzas y para contrastes globales en ANOVA y regresión.

  • Soporte: \((0,\infty)\)
  • Parámetros: \(d_1>0\) y \(d_2>0\), llamados grados de libertad del numerador y del denominador.
  • Definición clave:

    Si \[ U\sim \chi^2_{d_1}, \qquad V\sim \chi^2_{d_2} \] son independientes, entonces la variable \[ F=\frac{U/d_1}{V/d_2} \] sigue una distribución F de Snedecor con \(d_1\) y \(d_2\) grados de libertad: \[ F\sim \mathrm{F}_{d_1,d_2}. \] Interpretación
    La F compara dos medidas de variación:
    • si la razón vale cerca de 1, ambas variaciones son parecidas,
    • si la razón es mucho mayor que 1, la del numerador domina,
    • si es mucho menor que 1, domina la del denominador.
  • PDF:

    La densidad de una F de Snedecor es: \[ f(x)= \frac{\Gamma\!\left(\frac{d_1+d_2}{2}\right)} {\Gamma\!\left(\frac{d_1}{2}\right)\Gamma\!\left(\frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right)^{d_1/2} x^{\,d_1/2-1} \left(1+\frac{d_1}{d_2}x\right)^{-(d_1+d_2)/2}, \qquad x>0. \] Interpretación
    • La distribución solo toma valores positivos.
    • No es simétrica.
    • Suele estar sesgada a la derecha, sobre todo si los grados de libertad son pequeños.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En general, no tiene una forma elemental simple. Se expresa mediante funciones especiales relacionadas con la Beta incompleta, por lo que normalmente se calcula con software estadístico.

    Su interpretación es la habitual: representa la probabilidad acumulada hasta un cierto valor de la razón de varianzas.
  • Media:

    La media de una F de Snedecor es: \[ E[X]=\frac{d_2}{d_2-2}, \qquad \text{si } d_2>2. \] Interpretación
    La media depende solo de los grados de libertad del denominador. Además, cuando \(d_2\) es grande, esta media se acerca a 1, lo que encaja con la idea de que el denominador se estabiliza más.
  • Varianza:

    La varianza de una F de Snedecor es: \[ \mathrm{Var}(X)= \frac{2\,d_2^2(d_1+d_2-2)} {d_1(d_2-2)^2(d_2-4)}, \qquad \text{si } d_2>4. \] Interpretación
    La varianza puede ser bastante grande cuando los grados de libertad son pequeños, porque la razón entre dos cantidades aleatorias es más inestable que cada una por separado.
  • MGF:

    La distribución F de Snedecor no tiene una MGF con forma cerrada simple. Por eso, en la práctica, se trabaja sobre todo con:
    • su densidad,
    • sus cuantiles,
    • sus tablas,
    • o directamente software estadístico.
  • Propiedades:
    • Solo toma valores positivos.
    • Es asimétrica a la derecha.
    • Depende de dos grados de libertad: uno para el numerador y otro para el denominador.
    • Si intercambias numerador y denominador, aparece la relación: \[ X\sim \mathrm{F}_{d_1,d_2} \quad\Longrightarrow\quad \frac{1}{X}\sim \mathrm{F}_{d_2,d_1}. \]
    • Cuando los grados de libertad crecen, la distribución se concentra más cerca de 1.
  • Relación con otras distribuciones:
    • Se construye a partir de dos Chi-cuadradas independientes.
    • Está relacionada con la Beta mediante transformaciones algebraicas.
    • En ANOVA, la F aparece como razón entre una variación “explicada” y otra “residual”.
  • Cuándo aparece de forma natural:
    • En contrastes de igualdad de varianzas.
    • En ANOVA, para comparar la variabilidad entre grupos con la variabilidad dentro de los grupos.
    • En regresión lineal, en el contraste global del modelo.
    • En general, cuando se comparan dos fuentes de dispersión mediante un cociente.
  • Errores comunes:
    • Confundir qué grados de libertad van en el numerador y cuáles en el denominador.
    • Creer que es simétrica. No lo es.
    • Usarla sin tener en cuenta la hipótesis de normalidad en los datos subyacentes.
    • Interpretar un valor grande de F sin compararlo con sus grados de libertad y su contexto.
    • Olvidar que una F pequeña puede ser equivalente a una F grande al invertir la razón.

Cauchy \(\mathrm{Cauchy}(x_0,\gamma)\)

Imagina que estás midiendo una variable que, la mayoría de las veces, toma valores moderados, pero de vez en cuando produce valores extremadamente grandes o extremadamente pequeños.

  • No son simples outliers raros.
  • Forman parte natural del fenómeno.
  • Y aparecen con mucha más frecuencia de lo que permitiría una normal.

En una situación así, la intuición habitual falla:

  • la media muestral deja de ser estable,
  • el promedio puede cambiar muchísimo al añadir solo una observación,
  • y hablar de “valor medio típico” deja de tener sentido.

Eso ocurre porque la distribución de Cauchy tiene colas extremadamente pesadas. Visualmente puede recordar un poco a una normal, porque tiene un pico central, pero sus colas decrecen mucho más despacio.

De hecho, es un ejemplo clásico de distribución en la que la intuición basada en media y varianza simplemente no funciona.

Resumen: La distribución de Cauchy modela variables continuas con un pico central pero con colas muy pesadas. Es una distribución simétrica, pero no tiene media ni varianza definidas, lo que la convierte en un caso muy especial dentro de la estadística.

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(x_0\in\mathbb{R}\) (posición o mediana) y \(\gamma>0\) (escala).
  • Definición clave:

    Una forma muy importante de obtener una Cauchy es como cociente de dos normales estándar independientes. Si \[ Z_1,Z_2\sim\mathcal N(0,1) \] son independientes, entonces: \[ X=\frac{Z_1}{Z_2} \] sigue una distribución Cauchy estándar: \[ X\sim \mathrm{Cauchy}(0,1). \] Interpretación
    Este cociente puede explotar fácilmente cuando el denominador \(Z_2\) toma valores cercanos a 0, y eso explica por qué aparecen colas tan extremas.
  • PDF:

    La densidad de una Cauchy es: \[ f(x)=\frac{1}{\pi}\, \frac{\gamma}{(x-x_0)^2+\gamma^2}, \qquad x\in\mathbb{R}. \] Interpretación
    • El parámetro \(x_0\) desplaza el centro de la distribución.
    • El parámetro \(\gamma\) controla la anchura del pico y el tamaño de la dispersión.
    • La densidad es simétrica respecto a \(x_0\).
    • Las colas decrecen lentamente, mucho más que en una normal.
  • CDF:

    La función de distribución sí tiene forma cerrada: \[ F(x)=\frac{1}{2}+\frac{1}{\pi}\arctan\!\left(\frac{x-x_0}{\gamma}\right). \] Interpretación
    Esta expresión permite calcular probabilidades acumuladas de forma directa. Además, muestra claramente que:
    • la mediana está en \(x_0\),
    • y la distribución es perfectamente simétrica alrededor de ese punto.
  • Media:

    La distribución de Cauchy no tiene media definida.

    Aunque la densidad sea simétrica, la integral que define la esperanza no converge. No es que la media sea 0 o \(x_0\): es que simplemente no existe como valor esperado finito.
  • Varianza:

    La distribución de Cauchy tampoco tiene varianza definida.

    Como la media ya no existe, la varianza tampoco puede definirse de la manera habitual. Las colas son tan pesadas que los momentos clásicos divergen.
  • MGF:

    La distribución de Cauchy no tiene MGF.

    La integral que define \[ E[e^{tX}] \] no converge, precisamente por la pesadez extrema de sus colas.
  • Propiedades:
    • Es simétrica respecto a \(x_0\).
    • La mediana y la moda son \(x_0\).
    • No tiene media ni varianza definidas.
    • Tiene colas mucho más pesadas que la normal.
    • La media muestral de variables Cauchy no se estabiliza como en otros casos.
    • Es un caso particular de la t de Student con \(\nu=1\): \[ \mathrm{Cauchy}(0,1)\equiv t_1. \]
  • Comportamiento especial:
    • En distribuciones normales, al aumentar la muestra la media muestral se estabiliza.
    • En una Cauchy, eso no ocurre: la media muestral sigue siendo muy errática.
    • Por eso la ley de los grandes números, en su forma habitual, no sirve aquí.
    Esta es una de las razones por las que la Cauchy se estudia tanto: rompe muchas intuiciones básicas de estadística.
  • Cuándo aparece de forma natural:
    • Como cociente de dos normales independientes.
    • En ciertos fenómenos físicos relacionados con resonancias.
    • Como caso extremo de distribución con outliers frecuentes.
    • Como ejemplo teórico para mostrar los límites de la media y la varianza.
  • Errores comunes:
    • Creer que, por ser simétrica, su media debe existir y coincidir con \(x_0\).
    • Aplicar métodos basados en media y varianza como si fuera una normal.
    • Confundir cola pesada con “unos pocos outliers”. En la Cauchy es parte estructural del modelo.
    • No distinguirla de la t de Student con muchos grados de libertad, que sí se aproxima a una normal.
    • Suponer que al aumentar el tamaño muestral la media se vuelve fiable. En Cauchy, no.

Laplace \(\mathrm{Laplace}(\mu,b)\)

Imagina que estás midiendo un error alrededor de un valor central.

  • La mayoría de las veces el error es pequeño.
  • Los valores positivos y negativos aparecen con la misma facilidad.
  • Pero los errores grandes ocurren más a menudo de lo que predeciría una normal.

En ese caso, una normal puede quedarse corta:

  • porque la normal reparte mucha masa de forma suave alrededor del centro,
  • mientras que aquí puede haber un pico más agudo en la zona central,
  • y además unas colas más pesadas.

Esa combinación —centro muy marcado y colas más largas que la normal— es precisamente la firma de la distribución de Laplace.

También se la conoce como doble exponencial, porque puede verse como una exponencial hacia la derecha y otra reflejada hacia la izquierda, unidas en el punto central.

Resumen: La distribución de Laplace modela variables continuas simétricas alrededor de un centro \(\mu\), con un pico más agudo que la normal y con colas más pesadas. Es muy útil para representar errores con muchos valores cercanos al centro, pero con outliers moderados más frecuentes de lo habitual.

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (posición) y \(b>0\) (escala).
  • PDF:

    La densidad de una Laplace es: \[ f(x)=\frac{1}{2b}\exp\!\left(-\frac{|x-\mu|}{b}\right), \qquad x\in\mathbb{R}. \] Interpretación
    • El valor \(\mu\) marca el centro de simetría.
    • El parámetro \(b\) controla la escala o dispersión.
    • El valor absoluto \(|x-\mu|\) hace que la densidad dependa solo de la distancia al centro, no de la dirección.
    Qué forma tiene
    • En \(x=\mu\) la densidad alcanza su máximo.
    • Al alejarnos del centro, la caída es exponencial.
    • El pico central es más puntiagudo que el de una normal.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x). \] En la Laplace, sí tiene forma cerrada, pero depende de si estamos a la izquierda o a la derecha de \(\mu\): \[ F(x)= \begin{cases} \dfrac{1}{2}\exp\!\left(\dfrac{x-\mu}{b}\right), & x<\mu,\\[8pt] 1-\dfrac{1}{2}\exp\!\left(-\dfrac{x-\mu}{b}\right), & x\ge \mu. \end{cases} \] Interpretación
    • La distribución reparte exactamente la mitad de la probabilidad a cada lado de \(\mu\).
    • Por eso \(\mu\) es también la mediana.
  • Media:

    La media de una Laplace es: \[ E[X]=\mu. \] Interpretación
    Como la distribución es simétrica respecto a \(\mu\), el equilibrio de masas queda exactamente en ese punto.
  • Varianza:

    La varianza de una Laplace es: \[ \mathrm{Var}(X)=2b^2. \] Interpretación
    El parámetro \(b\) controla la dispersión:
    • si \(b\) aumenta, la distribución se ensancha,
    • si \(b\) disminuye, la masa se concentra más cerca del centro.
  • MGF:

    La función generadora de momentos de una Laplace es: \[ M_X(t)=\frac{e^{\mu t}}{1-b^2t^2}, \qquad |t|<\frac{1}{b}. \] Esta restricción muestra que, aunque la Laplace tiene colas más pesadas que la normal, no son tan extremas como las de una Cauchy.
  • Propiedades:
    • Es simétrica respecto a \(\mu\).
    • Media, mediana y moda coinciden en: \[ \mu. \]
    • Tiene un pico más agudo que la normal.
    • Sus colas son más pesadas que las de la normal, pero mucho menos extremas que las de Cauchy.
    • Puede verse como una “doble exponencial”.
  • Relación con otras distribuciones:
    • Se puede construir pegando dos exponenciales simétricamente alrededor de \(\mu\).
    • Está relacionada con la norma \(L_1\), por eso aparece en contextos de optimización robusta.
    • Es una alternativa a la normal cuando hay más concentración central y más valores extremos moderados.
  • Cuándo aparece de forma natural:
    • En errores simétricos con más outliers de lo esperado por una normal.
    • En modelos robustos frente a valores atípicos moderados.
    • En regularización tipo Lasso, donde la prior de los coeficientes suele modelarse con una Laplace.
    • En fenómenos con mucha masa cerca del centro y caídas exponenciales hacia ambos lados.
  • Comparación con la normal:
    • Normal: pico más suave y colas más ligeras.
    • Laplace: pico más agudo y colas más pesadas.
    Eso hace que la Laplace sea más adecuada cuando:
    • hay mucha concentración central,
    • pero también aparecen desviaciones grandes con cierta frecuencia.
  • Errores comunes:
    • Confundirla con una normal solo porque ambas son simétricas.
    • No tener en cuenta que el pico central de la Laplace es más agudo.
    • Interpretar \(b\) como si fuera la desviación típica. No lo es: la desviación típica es \(\sqrt{2}\,b\).
    • Usarla para fenómenos claramente asimétricos, donde no encaja bien.
    • Confundir colas moderadamente pesadas con colas extremas tipo Cauchy.

Logística \(\mathrm{Logistic}(\mu,s)\)

Imagina que quieres modelar una variable continua centrada alrededor de un valor medio, parecida a una normal, pero con una diferencia importante:

  • los valores centrales siguen siendo los más probables,
  • la distribución es simétrica,
  • pero los valores alejados del centro aparecen algo más a menudo que en una normal.

En ese caso, la distribución logística encaja muy bien.

Además, esta distribución tiene una función de distribución especialmente bonita: una curva en forma de S, también llamada sigmoide.

Esa forma aparece muchísimo en estadística y ciencia de datos:

  • en probabilidades que pasan suavemente de 0 a 1,
  • en procesos de crecimiento con saturación,
  • y en la regresión logística.

Por eso la distribución logística es importante no solo como distribución de probabilidad, sino también por la forma de su función acumulada.

Resumen: La distribución logística modela variables continuas simétricas alrededor de un centro \(\mu\), de forma parecida a una normal, pero con colas algo más pesadas. Su rasgo más característico es que su función de distribución tiene forma sigmoide.

  • Soporte: \((-\infty,\infty)\)
  • Parámetros: \(\mu\in\mathbb{R}\) (posición) y \(s>0\) (escala).
  • CDF:

    La función de distribución de una logística es: \[ F(x)=\frac{1}{1+\exp\!\left(-\frac{x-\mu}{s}\right)}. \] Interpretación
    • Cuando \(x\) está muy por debajo de \(\mu\), \(F(x)\) está cerca de 0.
    • Cuando \(x=\mu\), se cumple: \[ F(\mu)=\frac{1}{2}. \]
    • Cuando \(x\) está muy por encima de \(\mu\), \(F(x)\) está cerca de 1.
    Esta transición suave entre 0 y 1 es la razón por la que la logística aparece tanto en modelos de probabilidad.
  • PDF:

    Derivando la función de distribución, obtenemos la densidad: \[ f(x)= \frac{\exp\!\left(-\frac{x-\mu}{s}\right)} {s\left(1+\exp\!\left(-\frac{x-\mu}{s}\right)\right)^2}, \qquad x\in\mathbb{R}. \] Interpretación
    • La densidad es simétrica respecto a \(\mu\).
    • Toma su valor máximo en \(x=\mu\).
    • La escala \(s\) controla cuánto se ensancha o estrecha la distribución.
  • Media:

    La media de una logística es: \[ E[X]=\mu. \] Interpretación
    Como la distribución es simétrica respecto a \(\mu\), ese punto actúa como centro de equilibrio.
  • Varianza:

    La varianza de una logística es: \[ \mathrm{Var}(X)=\frac{\pi^2 s^2}{3}. \] Interpretación
    La dispersión depende del parámetro \(s\):
    • si \(s\) aumenta, la distribución se ensancha,
    • si \(s\) disminuye, se concentra más alrededor de \(\mu\).
  • MGF:

    La distribución logística no suele trabajarse mediante una MGF elemental simple en apuntes introductorios. En la práctica, lo importante de esta distribución es mucho más su:
    • función de distribución sigmoide,
    • simetría,
    • media y varianza,
    • y su uso en regresión logística.
  • Propiedades:
    • Es simétrica respecto a \(\mu\).
    • Media, mediana y moda coinciden en: \[ \mu. \]
    • Tiene una forma parecida a la normal, pero con colas más pesadas.
    • Su función acumulada es una sigmoide.
    • La distribución estándar se obtiene con \(\mu=0\) y \(s=1\).
  • Relación con la normal:
    • Ambas son simétricas y unimodales.
    • La logística se parece mucho a la normal en la zona central.
    • Sin embargo, la logística asigna algo más de probabilidad a valores alejados del centro.
    Por eso muchas veces se usa como aproximación práctica de la normal, especialmente cuando interesa una CDF simple.
  • Cuándo aparece de forma natural:
    • En regresión logística, para modelar probabilidades entre 0 y 1.
    • En procesos de crecimiento o adopción con saturación.
    • En variables centradas y simétricas con colas algo más pesadas que la normal.
    • En contextos donde interesa una función acumulada con forma sigmoide.
  • Comparación con otras distribuciones:
    • Normal: colas algo más ligeras.
    • Logística: muy parecida en el centro, pero con colas algo más pesadas.
    • Laplace: también simétrica, pero con un pico central más agudo que la logística.
  • Errores comunes:
    • Confundir “logística” con “lognormal”. Son distribuciones totalmente distintas.
    • Interpretar \(s\) como si fuera directamente la desviación típica. No lo es.
    • Creer que es exactamente una normal. Solo se parecen bastante, pero no son iguales.
    • Usarla para variables claramente asimétricas, donde no encaja bien.
    • No distinguir entre la distribución logística y la función logística usada en regresión.

Weibull \(\mathrm{Weibull}(\alpha,\beta)\)

Imagina que quieres modelar el tiempo hasta que algo falla.

  • Puede ser una bombilla.
  • Un componente electrónico.
  • O incluso el tiempo hasta que ocurre un determinado evento.

El problema es que no todos los fallos se comportan igual:

  • en algunos casos, el riesgo es casi constante,
  • en otros, el riesgo aumenta con el tiempo porque hay desgaste,
  • y en otros, el riesgo es mayor al principio y luego disminuye.

La distribución exponencial solo puede modelar el caso de riesgo constante. Pero si quieres una familia más flexible, necesitas algo más general.

Ahí entra la distribución de Weibull.

Su gran ventaja es que, cambiando un parámetro, puede representar:

  • riesgo decreciente,
  • riesgo constante,
  • o riesgo creciente.

Resumen: La distribución de Weibull modela variables continuas positivas, especialmente tiempos de vida, supervivencia y fallo. Es una distribución muy importante en fiabilidad porque permite describir distintos comportamientos de la tasa de fallo según el valor de su parámetro de forma.

  • Soporte: \((0,\infty)\)
  • Parámetros: \(\alpha>0\) (escala) y \(\beta>0\) (forma).
  • PDF:

    La densidad de una Weibull es: \[ f(x)=\frac{\beta}{\alpha}\left(\frac{x}{\alpha}\right)^{\beta-1} \exp\!\left[-\left(\frac{x}{\alpha}\right)^\beta\right], \qquad x>0. \] Interpretación
    • \(\alpha\) controla la escala típica de los tiempos.
    • \(\beta\) controla la forma de la distribución.
    • La flexibilidad real está en \(\beta\), porque determina cómo cambia el riesgo con el tiempo.
  • CDF:

    La función de distribución es: \[ F(x)=P(X\le x)=1-\exp\!\left[-\left(\frac{x}{\alpha}\right)^\beta\right], \qquad x\ge 0. \] Interpretación
    Esta expresión da la probabilidad de que el fallo o el evento ya haya ocurrido antes del tiempo \(x\). Por tanto, la función de supervivencia es: \[ P(X>x)=1-F(x)=\exp\!\left[-\left(\frac{x}{\alpha}\right)^\beta\right]. \]
  • Media:

    La media de una Weibull es: \[ E[X]=\alpha\,\Gamma\!\left(1+\frac{1}{\beta}\right). \] Interpretación
    La media depende de los dos parámetros:
    • \(\alpha\) fija la escala general,
    • \(\beta\) modifica cómo se reparte la masa alrededor de esa escala.
  • Varianza:

    La varianza de una Weibull es: \[ \mathrm{Var}(X)= \alpha^2\left[ \Gamma\!\left(1+\frac{2}{\beta}\right) -\Gamma^2\!\left(1+\frac{1}{\beta}\right) \right]. \] Interpretación
    La dispersión también depende de ambos parámetros y cambia bastante con \(\beta\). Por eso la Weibull puede ajustarse a situaciones con formas muy distintas.
  • MGF:

    La distribución Weibull no tiene una MGF con forma elemental simple. En la práctica suele trabajarse mediante:
    • su densidad,
    • su función de supervivencia,
    • su hazard o tasa de fallo,
    • y software estadístico.
  • Función de riesgo (hazard):

    Una de las razones por las que la Weibull es tan importante en fiabilidad es su función de riesgo: \[ h(x)=\frac{f(x)}{1-F(x)} =\frac{\beta}{\alpha}\left(\frac{x}{\alpha}\right)^{\beta-1}. \] Interpretación según \(\beta\)
    • Si \(\beta<1\), el riesgo disminuye con el tiempo.
    • Si \(\beta=1\), el riesgo es constante.
    • Si \(\beta>1\), el riesgo aumenta con el tiempo.
    Esto es precisamente lo que hace tan útil a la Weibull.
  • Casos importantes:
    • Si \(\beta=1\), la Weibull se reduce a una Exponencial.
    • Si \(\beta>1\), modela bien fenómenos de desgaste o envejecimiento.
    • Si \(\beta<1\), modela fallos tempranos o defectos iniciales.
  • Propiedades:
    • Solo toma valores positivos.
    • Es muy flexible en análisis de supervivencia y fiabilidad.
    • Su forma cambia mucho según el parámetro \(\beta\).
    • Generaliza a la exponencial como caso particular.
    • Se usa muchísimo para modelar tiempos hasta fallo.
  • Cuándo aparece de forma natural:
    • En análisis de vida útil de componentes.
    • En estudios de fiabilidad industrial.
    • En supervivencia y tiempo hasta evento.
    • Cuando el riesgo no es constante, sino que cambia con el tiempo.
  • Comparación con otras distribuciones:
    • Exponencial: caso particular de Weibull con \(\beta=1\).
    • Gamma: también positiva y usada en tiempos de espera, pero con otra interpretación estructural.
    • Weibull: especialmente útil cuando interesa modelar directamente la tasa de fallo.
  • Errores comunes:
    • Usar una exponencial cuando el riesgo claramente cambia con el tiempo.
    • Confundir \(\alpha\) con la media. No son lo mismo.
    • No interpretar el papel central del parámetro \(\beta\).
    • Aplicarla sin pensar si el problema realmente es de tiempos de vida o supervivencia.
    • Olvidar que solo toma valores positivos.