Distribuciones notables discretas y continuas

Modelando la incertidumbre con distribuciones

¿Alguna vez has observado patrones en la variabilidad de tus datos? Las distribuciones de probabilidad son el lenguaje con el que describimos esos patrones de incertidumbre. Imagina cada distribución como un molde que cuenta una historia particular —ya sea de éxitos y fracasos, de llegadas por minuto, o de mediciones con ruido— y nos proporciona fórmulas para calcular probabilidades, valores esperados y dispersión.

En esta guía presentamos las distribuciones discretas (para conteos) y luego las continuas (para mediciones) más importantes. De cada una se incluye una explicación intuitiva de qué representa, cuándo usarla, sus parámetros y soporte, las fórmulas clave (PMF/PDF, CDF si aplica, media, varianza, MGF), propiedades destacadas y errores comunes a evitar. Cada distribución viene acompañada de un ejemplo resuelto paso a paso (verificado con simulación en R) para ilustrar su aplicación.

Distribuciones discretas notables

Bernoulli

Qué es: un experimento de un solo ensayo con resultado binario: 1 (éxito) con probabilidad \(p\) o 0 (fracaso) con \(1-p\).

Cómo se usa: modelar situaciones de sí/no (clic o no clic, compra o no compra, acierto/error, etc.). Es el bloque básico: la Binomial se obtiene como la suma de ensayos Bernoulli.

Soporte: \(\{0,1\}\)
Parámetro: \(p\in(0,1)\) (probabilidad de éxito)
PMF: \(P(X=1)=p,\; P(X=0)=1-p\)
Media: \(E[X]=p\)
Varianza: \(\Var(X)=p(1-p)\)
MGF: \(M_X(t)=1-p+pe^t\)
Propiedades: caso particular de Binomial con \(n=1\).
Errores comunes: no definir claramente qué se considera “éxito” (confusión entre \(p\) y \(1-p\)).

Ejemplo resuelto (paso a paso)

Ejemplo (conversión web): La probabilidad de que un visitante realice una compra es \(p=0.2\). Sea \(X\sim \text{Bernoulli}(0.2)\) la variable que indica compra (1 si compra, 0 si no). Calcula \(E[X]\), \(\Var(X)\) y \(P(X=0)\) y \(P(X=1)\).

Probabilidades: \(P(X=1)=p=0.2,\; P(X=0)=1-p=0.8\).
Media: \(E[X]=p=0.2\).
Varianza: \(\Var(X)=p(1-p)=0.2\cdot 0.8=0.16\).

set.seed(1)
x <- rbinom(10000, size=1, prob=0.2)
c(P0 = mean(x==0), P1 = mean(x==1), media = mean(x), var = var(x))

Binomial

Qué es: el número de éxitos en \(n\) ensayos Bernoulli independientes con probabilidad de éxito \(p\).

Cómo se usa: conteos con un número fijo de intentos: p. ej., cantidad de envíos entregados de \(n\) intentos, aciertos en un test de \(n\) preguntas, defectos en un lote de tamaño \(n\).

Soporte: \(\{0,1,\dots,n\}\)
Parámetros: \(n\in\mathbb{N}\) (ensayos), \(p\in(0,1)\) (éxito)
PMF: \(P(X=k)=\binom{n}{k}p^k(1-p)^{\,n-k}\)
Media: \(E[X]=np\)
Varianza: \(\Var(X)=np(1-p)\)
MGF: \(M_X(t)=(1-p+pe^t)^n\)
Propiedades: suma de \(n\) variables Bernoulli. Para \(n\) grande, \(X\approx \mathcal{N}(np,\;np(1-p))\) (aprox. normal). Si \(p\) es muy pequeño y \(n\) grande con \(\lambda=np\) fijo, \(X\approx \Pois(\lambda)\) (eventos raros).
Errores comunes: aplicar Binomial cuando los ensayos no son independientes o cuando no hay reemplazo (en muestreo sin reemplazo corresponde Hipergeométrica).

Ensayos \(n\): 10 Prob. éxito \(p\): 0.50

Ejemplo resuelto (paso a paso)

Ejemplo: \(n=10\), \(p=0.3\). Calcula \(E[X]\), \(\Var(X)\), \(P(X=3)\) y \(P(X\ge 3)\).

Media: \(E[X]=np=10\cdot 0.3=3\).
Varianza: \(\Var(X)=np(1-p)=10\cdot 0.3\cdot 0.7=2.1\).
\(P(X=3)=\binom{10}{3}(0.3)^3(0.7)^7 \approx 0.2668\).
\(P(X\ge 3)=1-[P(X=0)+P(X=1)+P(X=2)]\approx 0.6172\).

n <- 10; p <- 0.3
dbinom(3, size=n, prob=p)
1 - pbinom(2, size=n, prob=p)
# media y varianza
c(media = n*p, var = n*p*(1-p))

Geométrica

Qué es: número de fracasos antes del primer éxito (asumimos esta convención).

Cómo se usa: tiempo o cantidad de intentos hasta lograr un primer acierto: por ejemplo, la cantidad de ensayos hasta detectar el primer bug, primer clic, primera venta, etc.

Soporte: \(\{0,1,2,\dots\}\)
Parámetro: \(p\in(0,1)\) (probabilidad de éxito en cada intento)
PMF: \(P(X=k)=p(1-p)^k\) (cero éxitos en \(k\) ensayos y éxito en el siguiente)
CDF: \(P(X\le k)=1-(1-p)^{\,k+1}\)
Media: \(E[X]=\frac{1-p}{p}\)
Varianza: \(\Var(X)=\frac{1-p}{p^2}\)
MGF: \(M_X(t)=\frac{pe^t}{\,1-(1-p)e^t\,},\) válida para \(t<-\ln(1-p)\)
Propiedades: falta de memoria (única distribución discreta con esta propiedad): \(P(X>m+n\mid X>m)=P(X>n)\).
Errores comunes: confundir la definición (si \(X\) incluye o no el ensayo exitoso) — aclarar si \(X=0\) significa éxito al primer intento. También asumir indebidamente que \(p\) cambia en cada ensayo (debe ser constante).

Ejemplo resuelto (paso a paso)

Ejemplo: \(p=0.4\). Calcula \(E[X]\), \(\Var(X)\), \(P(X=2)\) y \(P(X\ge 3)\).

Media: \(E[X]=\frac{1-p}{p}=\frac{0.6}{0.4}=1.5\).
Varianza: \(\Var(X)=\frac{1-p}{p^2}=\frac{0.6}{0.16}=3.75\).
\(P(X=2)=p(1-p)^2=0.4\times 0.6^2=0.144\).
\(P(X\ge 3)=(1-p)^3=0.6^3=0.216\).

p <- 0.4
dgeom(2, prob=p)                   # P(X = 2)
pgeom(2, prob=p, lower.tail=FALSE) # P(X ≥ 3)
# media y varianza
c(media = (1-p)/p, var = (1-p)/p^2)

Hipergeométrica

Qué es: número de éxitos al extraer sin reemplazo \(n\) elementos de una población finita de tamaño \(N\) que contiene \(K\) éxitos (y \(N-K\) fracasos).

Cómo se usa: muestreos sin reemplazo en control de calidad, loterías, auditorías y selección de lotes.

Soporte: \(\{0,1,\dots,n\}\) (en realidad, máx. \(\min(n,K)\))
Parámetros: \(N\) (tamaño población), \(K\) éxitos en la población, \(n\) tamaño de muestra sin reemplazo
PMF: \(\displaystyle P(X=k)=\frac{\binom{K}{\,k\,}\,\binom{N-K}{\,n-k\,}}{\binom{N}{\,n\,}}\)
Media: \(E[X]=n\frac{K}{N}\)
Varianza: \(\Var(X)=n\frac{K}{N}\Big(1-\frac{K}{N}\Big)\frac{N-n}{\,N-1\,}\)
MGF: no tiene forma cerrada simple
Propiedades: sin reemplazo (dependencia negativa entre ensayos). Varianza menor que la binomial equivalente (factor \(\frac{N-n}{N-1}\)).
Errores comunes: usar Binomial cuando el muestreo es sin reemplazo (ignora la dependencia), o confundir los parámetros \(N, K, n\).

Ejemplo resuelto (paso a paso)

Ejemplo: \(N=40\), \(K=10\) éxitos en la población, \(n=5\) extracciones. Calcula \(E[X]\), \(\Var(X)\), \(P(X=2)\) y \(P(X\ge 2)\).

Media: \(E[X]=n\frac{K}{N}=5\cdot\frac{10}{40}=1.25\).
Varianza: \(\Var(X)=5\cdot\frac{10}{40}\left(1-\frac{10}{40}\right)\frac{40-5}{39}\approx0.8413\).
\(P(X=2)=\frac{\binom{10}{2}\,\binom{30}{3}}{\binom{40}{5}}\approx0.2777\).
\(P(X\ge 2)=1-[P(X=0)+P(X=1)]\approx0.3669\).

N <- 40; K <- 10; n <- 5
dhyper(2, K, N-K, n)
1 - (dhyper(0, K, N-K, n) + dhyper(1, K, N-K, n))
# media y varianza
c(media = n*(K/N), var = n*(K/N)*(1-K/N)*((N-n)/(N-1)))

Binomial negativa

Qué es: número de fracasos antes de obtener \(r\) éxitos, con probabilidad de éxito \(p\) en cada intento (generaliza la Geométrica, que es el caso \(r=1\)).

Cómo se usa: conteos donde se persigue un número fijo de éxitos (p. ej. cuántos intentos fallidos hasta lograr \(r\) aciertos). También modela conteos con sobre-dispersión frente a Poisson (vía mezcla Gamma–Poisson).

Soporte: \(\{0,1,2,\dots\}\)
Parámetros: \(r>0\) (número de éxitos objetivo; usualmente entero), \(p\in(0,1)\)
PMF: \(P(X=k)=\displaystyle\binom{k+r-1}{\,k\,}(1-p)^k\,p^r\)
Media: \(E[X]=r\frac{1-p}{p}\)
Varianza: \(\Var(X)=r\frac{1-p}{p^2}\)
MGF: \(M_X(t)=\Big(\frac{p}{\,1-(1-p)e^t\,}\Big)^r,\) válido para \(t<-\ln(1-p)\)
Propiedades: suma de \(r\) variables Geométricas i.i.d. (espera de \(r\) éxitos). Equivale a una mezcla Poisson-Gamma: \(X\) es Poisson cuyo parámetro \(\lambda\) es aleatorio ~Gamma(\(r\),\(\theta=\tfrac{1-p}{p}\)). Esto explica su varianza > media (sobre-dispersión).
Errores comunes: confundirla con la Binomial (aquí \(n\) no es fijo, se “juega” hasta lograr \(r\) éxitos). También existen distintas parametrizaciones (contar fracasos vs contar ensayos totales hasta el r-ésimo éxito); aclarar la convención usada.

Ejemplo resuelto (paso a paso)

Ejemplo: \(r=2\), \(p=0.5\). Calcula \(E[X]\), \(\Var(X)\), \(P(X=4)\) y \(P(X\le 4)\).

Media: \(E[X]=r\frac{1-p}{p}=2\frac{0.5}{0.5}=2\).
Varianza: \(\Var(X)=r\frac{1-p}{p^2}=2\frac{0.5}{0.25}=4\).
\(P(X=4)=\displaystyle\binom{4+2-1}{4}(0.5)^4(0.5)^2 = \binom{5}{4}(0.5)^6 = 5\times0.015625 = 0.078125\).
\(P(X\le 4)=\sum_{k=0}^{4} \binom{k+1}{k}(0.5)^k(0.5)^2 \approx 0.8906\).

r <- 2; p <- 0.5
dnbinom(4, size=r, prob=p)
pnbinom(4, size=r, prob=p)
# media y varianza
c(media = r*(1-p)/p, var = r*(1-p)/p^2)

Poisson

Qué es: número de eventos que ocurren en un intervalo fijo (tiempo, espacio, etc.) cuando suceden de manera independiente y con tasa media constante \(\lambda\).

Cómo se usa: conteos de eventos aleatorios en un lapso: llamadas por minuto, defectos por página, llegadas a una cola por hora, accidentes por año, etc.

\(\lambda\) (tasa media): valor esperado de eventos por intervalo (p. ej., “3 eventos por minuto” implica \(\lambda=3\)).
Soporte: \(\{0,1,2,\dots\}\)
Parámetro: \(\lambda>0\)
PMF: \(P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!}\)
Media: \(E[X]=\lambda\)
Varianza: \(\Var(X)=\lambda\)
MGF: \(M_X(t)=\exp(\lambda(e^t-1))\)
Propiedades: suma de Poisson independientes es Poisson (las tasas suman). Para \(\lambda\) grande, \(X\approx \mathcal{N}(\lambda,\lambda)\). La Binomial \(B(n,p)\) se aproxima a \(\Pois(np)\) si \(n\) grande, \(p\) pequeño (\emph{ley de eventos raros}).
Errores comunes: asumir modelo Poisson sin verificar independencia o tasa constante (si hay sobre-dispersión, conviene Binomial Negativa). También confundir que \(\lambda\) es a la vez media y varianza: en datos Poisson reales, suele cumplirse \(\text{media}\approx \text{var}\).

Ejemplo resuelto (paso a paso)

Ejemplo: \(\lambda=3\). Supongamos \(X\sim \Pois(3)\) modela el número de llamadas por minuto en un call center. Calcula \(E[X]\), \(\Var(X)\), \(P(X=3)\) y \(P(X\ge 3)\).

Media: \(E[X]=\lambda=3\). Varianza: \(\Var(X)=\lambda=3\).
\(P(X=3)=e^{-3}\frac{3^3}{3!}=e^{-3}\frac{27}{6}=4.5\,e^{-3}\approx0.2240\).
\(P(X\ge 3)=1-[P(X=0)+P(X=1)+P(X=2)]\approx0.5768\).

lambda <- 3
dpois(3, lambda)
1 - ppois(2, lambda)
# media y varianza
c(media = lambda, var = lambda)

Distribuciones continuas notables

Uniforme continua \(\mathrm{U}(a,b)\)

Qué es: distribución “plana” en la que cualquier valor dentro del intervalo \([a,b]\) es igual de probable.

Cómo se usa: incertidumbre total en un rango conocido (no se prefiere ningún valor sobre otro). Se emplea para muestreos iniciales aleatorios o como supuesto de mínima información (p. ej. priors no informativos en Bayes).

Soporte: \([a,b]\)
Parámetros: \(a
PDF: \(f(x)=\frac{1}{\,b-a\,}\) para \(x\in[a,b]\), y 0 fuera
CDF: \(F(x)=\frac{x-a}{\,b-a\,}\) para \(a\le x\le b\)
Media: \(E[X]=\frac{a+b}{2}\)
Varianza: \(\Var(X)=\frac{(b-a)^2}{12}\)
MGF: \(M_X(t)=\frac{e^{tb}-e^{ta}}{\,t(b-a)\,}\) (\(t\neq 0\))
Propiedades: si \(X\sim U(a,b)\) entonces \(Y=\frac{X-a}{\,b-a\,}\sim U(0,1)\). Es la base para generar otras distribuciones vía transformación inversa.
Errores comunes: asumir distribución uniforme sin fundamentos (pocas variables son verdaderamente uniformes). También, no reconocer que requiere un rango acotado conocido; si el soporte es infinito no corresponde una uniforme.

Ejemplo resuelto

Ejemplo: \(X\sim U(1,6)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(2\le X\le 5)\).

Media: \(E[X]=\frac{1+6}{2}=3.5\).
Varianza: \(\Var(X)=\frac{(6-1)^2}{12}=\frac{25}{12}\approx2.0833\).
\(P(2\le X\le 5)=\frac{5-2}{6-1}=\frac{3}{5}=0.6\).

punif(5, 1, 6) - punif(2, 1, 6)
c(media = (1+6)/2, var = (6-1)^2/12)

Exponencial \(\mathrm{Exp}(\lambda)\)

Qué es: distribución de los tiempos de espera entre eventos en un proceso Poisson de tasa constante \(\lambda\). Es continua equivalente a la Geométrica (propiedad de “sin memoria”).

Cómo se usa: tiempo hasta el siguiente evento o falla cuando ocurren al azar con frecuencia promedio conocida. Modela la vida de componentes sin desgaste (tasa de fallo constante), esperas en colas, llegada de eventos raros.

Soporte: \([0,\infty)\)
Parámetro: \(\lambda>0\) (tasa de eventos por unidad de tiempo; alternativamente se usa \(\beta=1/\lambda\) como parámetro de escala o media)
PDF: \(f(x)=\lambda e^{-\lambda x}\)
CDF: \(F(x)=1-e^{-\lambda x}\)
Media: \(E[X]=\frac{1}{\lambda}\)
Varianza: \(\Var(X)=\frac{1}{\lambda^2}\)
MGF: \(M_X(t)=\frac{\lambda}{\,\lambda - t\,}\), válida para \(t<\lambda\)
Propiedades: falta de memoria (única distribución continua con esta propiedad): \(P(X> s+t \mid X> s)=P(X> t)\). La suma de \(k\) exponentiales independientes \(\sim \Gamma(k,\theta=1/\lambda)\).
Errores comunes: asumir modelo exponencial cuando la tasa de eventos cambia en el tiempo (violando la falta de memoria). Confundir los parámetros: \(\lambda\) es tasa (media \(=1/\lambda\)). No confundir con distribuciones con cola más larga (si hay muchos valores atípicos, puede requerirse otra distribución).

Ejemplo resuelto

Ejemplo: \(X\sim \Exp(\lambda=1)\). Calcula \(E[X]\), \(\Var(X)\), \(P(X>3)\) y \(P(1\le X\le 4)\).

Media: \(E[X]=1/\lambda=1\). Varianza: \(1/\lambda^2=1\).
\(P(X>3)=e^{-1\cdot 3}=e^{-3}\approx0.0498\).
\(P(1\le X\le 4)=F(4)-F(1)=(1-e^{-4})-(1-e^{-1})=e^{-1}-e^{-4}\approx0.3496\).

pexp(4, rate=1) - pexp(1, rate=1)
exp(-1) - exp(-4)
# media y varianza
c(media = 1/1, var = 1/1^2)

Normal \(\mathcal{N}(\mu,\sigma^2)\)

Qué es: la clásica curva de “campana de Gauss”, una distribución continua simétrica alrededor de \(\mu\). Surge teóricamente como la suma de muchos efectos aleatorios pequeños (TCL).

Cómo se usa: modelo genérico para variables con fluctuaciones alrededor de un promedio: errores de medición, estimaciones con ruido, fenónemos naturales (altura, IQ) que tienden a promediarse. Es fundamental en inferencia por el Teorema Central del Límite (distribución de promedios).

Soporte: \((-\infty,\infty)\)
Parámetros: \(\mu\in\mathbb{R}\) (media, centro de simetría), \(\sigma>0\) (desviación típica, controla la dispersión)
PDF: \(f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big)\)
CDF: no tiene forma cerrada elemental (se usa la función especial \(\Phi\) para \(Z\sim \mathcal{N}(0,1)\))
Media: \(E[X]=\mu\)
Varianza: \(\Var(X)=\sigma^2\)
MGF: \(M_X(t)=\exp(\mu t + \frac{1}{2}\sigma^2 t^2)\)
Propiedades: cualquier combinación lineal de normales es normal (familia cerrada bajo suma y afín). Por el TCL, la distribución de la media muestral (con \(n\) grande) tiende a Normal, independientemente de la distribución original (si varianza finita). Aproximaciones: p. ej., \(B(n,p)\approx \mathcal{N}(np,\;np(1-p))\) si \(n\) grande, y \(\Pois(\lambda)\approx \mathcal{N}(\lambda,\lambda)\) si \(\lambda\) grande.
Errores comunes: asumir que los datos “deben” ser normales (muchos fenómenos reales presentan asimetrías o colas pesadas). En muestras pequeñas, usar directamente Normal en vez de t de Student puede subestimar la incertidumbre si \(\sigma\) es estimada.

Ejemplo resuelto

Ejemplo: \(X\sim \mathcal{N}(100, 15^2)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(90\le X\le 130)\).

Media: \(E[X]=100\). Varianza: \(\Var(X)=15^2=225\).
Estandariza: para 90, \(z_1=\frac{90-100}{15}=-0.67\); para 130, \(z_2=\frac{130-100}{15}=2.00\).
\(P(90\le X\le 130)=P(-0.67\le Z\le 2.00)=\Phi(2.00)-\Phi(-0.67)\approx0.7252\).

pnorm(130, mean=100, sd=15) - pnorm(90, mean=100, sd=15)
c(media = 100, var = 225)

Gamma \(\mathrm{Gamma}(k,\theta)\)

Qué es: distribución de la suma de \(k\) variables Exponenciales independientes de media \(\theta\) (escala). Equivale al tiempo de espera hasta el k-ésimo evento en un proceso Poisson (si \(k\) es entero).

Cómo se usa: modelar tiempos de vida agregados o espera hasta múltiples eventos. Muy utilizada en modelos de colas, y en estadística bayesiana como distribución previa/conjugada para tasas (el parámetro de la Poisson o Exponencial).

Soporte: \((0,\infty)\)
Parámetros: forma \(k>0\) (puede no ser entero), escala \(\theta>0\) (a veces se parametriza por tasa \(\beta=1/\theta\))
PDF: \(f(x)=\frac{1}{\Gamma(k)\,\theta^k} x^{\,k-1} e^{-x/\theta}\)
Media: \(E[X]=k\,\theta\)
Varianza: \(\Var(X)=k\,\theta^2\)
MGF: \(M_X(t)=(1-\theta t)^{-k}\), válida para \(t<1/\theta\)
Propiedades: suma de dos Gamma \(=\) Gamma con parámetro de forma sumado (si misma \(\theta\)). Casos especiales: \(k=1\) ⇒ Exponencial(\(\theta\)). Si \(k=\frac{\nu}{2}\) y \(\theta=2\), es \(\chi^2_\nu\). Para \(k\) grande, por TCL \(X\) es aproximadamente Normal(\(k\theta,\;k\theta^2\)).
Errores comunes: confundir la parametrización (escala \(\theta\) vs tasa \(=1/\theta\)). Suponer que \(\Gamma\) tiene falta de memoria (solo Exponencial la tiene). Si \(k\) no es entero, pierde interpretación directa de “espera de k eventos” y a veces se maneja como un ajuste flexible.

Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Gamma}(k=2,\theta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 5)\).

Media: \(E[X]=k\theta=2\cdot 3=6\).
Varianza: \( \Var(X)=k\theta^2=2\cdot 9=18\).
La CDF no es elemental: usando R, \(P(X\le 5)=\texttt{pgamma}(5,\texttt{shape}=2,\texttt{scale}=3)\approx0.4963\).

pgamma(5, shape=2, scale=3)
c(media = 2*3, var = 2*3^2)

Beta \(\mathrm{Beta}(\alpha,\beta)\)

Qué es: distribución continua definida en \([0,1]\), muy flexible para modelar probabilidades o proporciones desconocidas.

Cómo se usa: proporciones de eventos (p. ej., tasa de éxito desconocida); es la distribución previa/posterior conjugada para el parámetro \(p\) de Bernoulli/Binomial en estadística bayesiana.

Soporte: \([0,1]\)
Parámetros: \(\alpha>0,\; \beta>0\)
PDF: \(f(x)=\frac{1}{B(\alpha,\beta)}\,x^{\alpha-1}(1-x)^{\beta-1}\)
Media: \(E[X]=\frac{\alpha}{\,\alpha+\beta\,}\)
Varianza: \(\Var(X)=\frac{\alpha\beta}{\,(\alpha+\beta)^2(\alpha+\beta+1)\,}\)
MGF: no tiene forma cerrada simple
Propiedades: casos especiales: \(\alpha=\beta=1\) es Uniforme(0,1). Si \(\alpha,\beta\) son grandes, Beta(~) se aproxima a Normal con media \(\frac{\alpha}{\alpha+\beta}\) (y var como arriba). Conexión: si \(Y\sim F_{2\alpha,2\beta}\) entonces \(\frac{Y}{1+Y}\sim \Beta(\alpha,\beta)\) (relación con F de Snedecor).
Errores comunes: olvidar que solo toma valores entre 0 y 1 (no usar para variables fuera de ese rango). Confundirla con la distribución uniforme: Beta puede ser sesgada hacia 0 o 1 dependiendo de \(\alpha,\beta\). Interpretar mal los parámetros: en contexto Bayes, \(\alpha-1,\beta-1\) a veces se interpretan como pseudo-éxitos/fracasos a priori.

Ejemplo resuelto

Ejemplo: \(X\sim \Beta(\alpha=3,\beta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 0.4)\).

Media: \(E[X]=\frac{3}{3+3}=0.5\).
Varianza: \(\Var(X)=\frac{3\cdot 3}{6^2\cdot 7}=\frac{9}{252}=0.0357\).
\(P(X\le0.4)=\texttt{pbeta}(0.4,3,3)\approx0.3174\).

pbeta(0.4, shape1=3, shape2=3)
c(media = 3/(3+3), var = 3*3/((3+3)^2*(3+3+1)))

Lognormal \(\mathrm{Lognormal}(\mu,\sigma)\)

Qué es: distribución de una variable positiva cuya logaritmo se distribuye Normal: si \(\ln X \sim \mathcal{N}(\mu,\sigma^2)\), entonces \(X\) es lognormal. Es asimétrica (cola derecha) y de cola más pesada que la normal.

Cómo se usa: modelar magnitudes positivas resultantes de productos multiplicativos o crecimiento porcentual: tiempos de proceso, ingresos, tamaños de ciudades, niveles de contaminación, etc., donde tomar log produce algo aproximadamente normal.

Soporte: \((0,\infty)\)
Parámetros: \(\mu\in\mathbb{R},\; \sigma>0\) (media y desviación típica de \(\ln X\))
PDF: \(f(x)=\frac{1}{x\sigma\sqrt{2\pi}}\exp\!\Big(-\frac{(\ln x-\mu)^2}{2\sigma^2}\Big)\), \(x>0\)
Media: \(E[X]=e^{\,\mu+\sigma^2/2}\)
Varianza: \(\Var(X)=(e^{\sigma^2}-1)e^{\,2\mu+\sigma^2}\)
MGF: no existe para \(t>0\) (diverge)
Propiedades: mediana = \(e^{\mu}\) (la mitad de la prob. está debajo de \(e^\mu\)). Producto de variables lognormales es lognormal (suma de logs → normal). Tiene colas pesadas: la media puede ser mucho mayor que la mediana si \(\sigma\) es grande.
Errores comunes: aplicar métodos asumiendo simetría (mejor analizar en el espacio log). Confundir “logística” con “lognormal” (nombres). No reconocer colas pesadas: la ley de los grandes números y la varianza clásica no aplican bien si la cola es muy gruesa (requiere muestras enormes).

Ejemplo resuelto

Ejemplo: \(\ln X\sim\mathcal{N}(\mu=0,\sigma=1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 1)\).

Media: \(E[X]=e^{0+1/2}=e^{0.5}\approx1.6487\).
Varianza: \((e^{1}-1)e^{2\cdot 0+1}=(e-1)e^{1}\approx4.669\).
\(P(X\le 1)=P(\ln X\le 0)=P(Z\le 0)=0.5\) (la mediana es 1).

plnorm(1, meanlog=0, sdlog=1)
c(media = exp(0 + 1^2/2), var = (exp(1^2)-1)*exp(2*0 + 1^2))

Chi-cuadrada \(\chi^2_k\)

Qué es: distribución de la suma de cuadrados de \(k\) variables Normales estándar independientes (\(Z_i\sim N(0,1)\)). Equivale a \(\Gamma(k/2,\theta=2)\).

Cómo se usa: se emplea como distribución teórica para contrastes de varianza (p. ej. test de varianza de una muestra) y en pruebas de ajuste (\(\chi^2\) de Pearson). En ANOVA y regresión aparece al analizar sumas de cuadrados residuales.

Soporte: \((0,\infty)\)
Parámetro: \(k>0\) (grados de libertad, típicamente entero; \(k=n-1\) en varianza muestral de tamaño \(n\))
PDF: \(f(x)=\frac{1}{2^{k/2}\Gamma(k/2)}\,x^{\,k/2-1}e^{-x/2}\)
Media: \(E[X]=k\)
Varianza: \(\Var(X)=2k\)
MGF: \(M_X(t)=(1-2t)^{-k/2}\), válida para \(t<\frac{1}{2}\)
Propiedades: suma de independientes \(\chi^2\) da otra \(\chi^2\) (suma los \(k\)). Para \(k\) grande, \(\chi^2_k \approx \mathcal{N}(k, 2k)\) (distribución aproximadamente normal por TCL). Caso especial: \(\chi^2_1\) es la distribución de la distancia al cuadrado de 1 variable normal estándar.
Errores comunes: uso inapropiado en datos no provenientes de normales (la validez en tests depende de esa suposición). Confundir grados de libertad (ej. en \(\chi^2\) de Pearson, \(k\) depende de categorías). Suponer que es simétrica (no lo es para \(k\) pequeño, aunque se vuelve más simétrica al crecer \(k\)).

Ejemplo resuelto

Ejemplo: \(X\sim\chi^2_{6}\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 10)\).

Media: \(E[X]=6\). Varianza: \(\Var(X)=2\cdot 6=12\).
\(P(X\le 10)=\texttt{pchisq}(10,\texttt{df}=6)\approx0.8753\).

pchisq(10, df=6)
c(media = 6, var = 12)

t de Student \(\mathrm{t}_\nu\)

Qué es: distribución con colas más pesadas que la Normal, surge como el cociente de una Normal estándar y la raíz de una Chi-cuadrado(\(\nu\)) escalada (es decir, \(\frac{Z}{\sqrt{Y/\nu}}\) con \(Z\sim N(0,1)\), \(Y\sim\chi^2_\nu\)). Equivale a la distribución de la media estandarizada cuando la varianza es estimada.

Cómo se usa: inferencia sobre medias con muestras pequeñas (varianza poblacional desconocida). Aparece en intervalos de confianza y pruebas \(t\) de Student. También útil para modelar datos aproximadamente centrados pero con colas más pesadas que la normal (robustez a outliers moderados).

Soporte: \((-\infty,\infty)\)
Parámetro: \(\nu>0\) (grados de libertad; generalmente \(\nu=n-1\) para muestras de tamaño \(n\))
PDF: \(f(x)=\frac{\Gamma\!\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\!\left(\frac{\nu}{2}\right)}\Big(1+\frac{x^2}{\nu}\Big)^{-\frac{\nu+1}{2}}\)
Media: \(0\) (si \(\nu>1\))
Varianza: \(\frac{\nu}{\nu-2}\) (si \(\nu>2\))
MGF: no tiene forma cerrada simple
Propiedades: colas más gruesas que la normal (kurtosis > 3). A medida que \(\nu\to\infty\), \(t_\nu \to N(0,1)\) (para \(\nu\) grande se aproxima a la Normal estándar). Es simétrica con media 0 (cuando existe) y mediana 0.
Errores comunes: usar Normal en lugar de \(t\) cuando \(n\) es pequeño (subestima la variabilidad). Confundir los grados de libertad (ej., para una muestra de tamaño \(n\), \(\nu=n-1\)). Suponer que con \(\nu\) pequeño la distribución es igual a la normal (en realidad tiene más probabilidad en los extremos, importante para tests).

Ejemplo resuelto

Ejemplo: \(T\sim t_{5}\). Calcula \(E[T]\), \(\Var(T)\) y \(P(-1\le T\le 1.5)\).

Media: \(E[T]=0\) (para \(\nu=5>1\)).
Varianza: \(\Var(T)=\frac{\nu}{\nu-2}=\frac{5}{3}\approx1.667\) (para \(\nu=5>2\)).
\(P(-1\le T\le 1.5)=\texttt{pt}(1.5,5)-\texttt{pt}(-1,5)\approx0.7214\).

pt(1.5, df=5) - pt(-1, df=5)
c(media = 0, var = 5/3)

F de Snedecor \(\mathrm{F}_{d_1,d_2}\)

Qué es: distribución de la razón de dos varianzas muestrales independientes. Matemáticamente, \(F=\frac{(Y_1/d_1)}{(Y_2/d_2)}\) con \(Y_1\sim\chi^2_{d_1},\, Y_2\sim\chi^2_{d_2}\) independientes (i.e. cociente de \(\chi^2\) escaladas).

Cómo se usa: pruebas de comparación de varianzas (test \(F\) de Fisher), análisis de varianza (ANOVA) para contrastar la igualdad de medias de varios grupos (a través de razones de dispersiones), y en regresión para el test global (estadístico \(F\)).

Soporte: \((0,\infty)\)
Parámetros: \(d_1>0,\; d_2>0\) (grados de libertad del numerador y denominador, correspondientes a las dos varianzas comparadas)
PDF: \[f(x)=\frac{\Gamma\!\left(\frac{d_1+d_2}{2}\right)}{\Gamma\!\left(\frac{d_1}{2}\right)\Gamma\!\left(\frac{d_2}{2}\right)}\Big(\frac{d_1}{d_2}\Big)^{d_1/2} x^{\,d_1/2-1}\Big(1+\frac{d_1}{d_2}x\Big)^{-\frac{d_1+d_2}{2}}\]
Media: \(\frac{d_2}{\,d_2-2\,}\) (si \(d_2>2\))
Varianza: \(\frac{2\,d_2^2(d_1+d_2-2)}{\,d_1(d_2-2)^2(d_2-4)\,}\) (si \(d_2>4\))
MGF: no tiene forma cerrada simple
Propiedades: si \(d_2\) es muy grande, \(F_{d_1,d_2}\) se acerca a \(\frac{\chi^2_{d_1}}{d_1}\) (denominador casi constante). Relación con Beta: si \(F\sim F_{d_1,d_2}\), entonces \(\frac{d_1 F}{\,d_1 F + d_2\,}\sim \Beta(d_1/2,\,d_2/2)\). Es asimétrica (sesgada a la derecha), especialmente para \(d_1\) pequeño.
Errores comunes: intercambiar \(d_1, d_2\) (la cola de la distribución depende de cuál varianza va en numerador). Usar \(F\) cuando no aplican supuestos de normalidad (los tests \(F\) requieren normalidad). Suponer que \(F\) es simétrica (no lo es, siempre positiva y con cola hacia valores altos).

Ejemplo resuelto

Ejemplo: \(F\sim F_{3,15}\). Calcula \(E[F]\), \(\Var(F)\) y \(P(F\le 2)\).

Media: \(E[F]=\frac{15}{15-2}=\frac{15}{13}\approx1.1538\).
Varianza: \(\frac{2\cdot15^2(3+15-2)}{3(15-2)^2(15-4)}\approx1.2910\).
\(P(F\le 2)=\texttt{pf}(2,3,15)\approx0.8427\).

pf(2, df1=3, df2=15)
c(media = 15/13, var = 2*15^2*(3+15-2)/(3*(15-2)^2*(15-4)))

Cauchy \(\mathrm{Cauchy}(x_0,\gamma)\)

Qué es: distribución de cola extremadamente pesada (mucho más que la normal); no tiene media ni varianza definidas. Surge como el cociente de dos normales estándar independientes (o \(t\) de Student con \(\nu=1\)). Su función de densidad tiene colas tipo \(1/x^2\).

Cómo se usa: casos con valores atípicos extremadamente frecuentes; por ejemplo, modelar fenómenos físicos con “picos resonantes” o en estadística robusta como distribución de errores cuando hay outliers severos (aunque es rara vez usada directamente).

Soporte: \((-\infty,\infty)\)
Parámetros: \(x_0\in\mathbb{R}\) (ubicación o mediana), \(\gamma>0\) (escala, controla la dispersión de la cola)
PDF: \(f(x)=\frac{1}{\pi}\,\frac{\gamma}{(x-x_0)^2+\gamma^2}\)
Media y Varianza: no definidas (integrales divergentes)
MGF: no definida (diverge)
Propiedades: mediana = \(x_0\). Es una distribución “estable” (la suma de variables Cauchy independientes sigue siendo Cauchy, con mismo \(\gamma\)). La ley de los grandes números falla: la media muestral de una Cauchy no converge a nada (por la cola tan pesada).
Errores comunes: intentar aplicar métodos basados en media/varianza (no existen). Confundir su apariencia con la normal: visualmente tiene un pico similar pero colas muchísimo más extendidas, lo que provoca muchos más valores extremos de lo esperado por Normal.

Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Cauchy}(0,1)\) (estándar). Calcula \(P(-1\le X\le 1)\).

La CDF es \(F(x)=\frac{1}{2}+\frac{1}{\pi}\arctan\!\big(\frac{x-x_0}{\gamma}\big)\). Para \(x=1\): \(F(1)=0.5+ \frac{1}{\pi}\arctan(1)\ =0.5+ \frac{\pi/4}{\pi}=0.75\). Para \(x=-1\): \(F(-1)=0.5+\frac{1}{\pi}\arctan(-1)=0.25\).
Entonces \(P(-1\le X\le 1)=F(1)-F(-1)=0.75-0.25=0.5\).

pcauchy(1) - pcauchy(-1)

Laplace \(\mathrm{Laplace}(\mu,b)\)

Qué es: distribución continua con pico central muy agudo y colas más gruesas que la normal (también llamada “doble exponencial”). Es simétrica alrededor de \(\mu\) pero tiene curtosis alta.

Cómo se usa: para modelar errores que presentan ocasionalmente saltos grandes en valor (más outliers que lo esperado normalmente). Aparece en modelos de ruido con distribución \(L_1\) y como distribución implícita en la regularización Lasso (la prior de coeficientes es Laplace).

Soporte: \((-\infty,\infty)\)
Parámetros: \(\mu\in\mathbb{R}\) (ubicación, mediana), \(b>0\) (escala)
PDF: \(f(x)=\frac{1}{2b}\exp\!\Big(-\frac{|x-\mu|}{\,b\,}\Big)\)
Media: \(E[X]=\mu\)
Varianza: \(\Var(X)=2b^2\)
MGF: \(M_X(t)=\frac{e^{\mu t}}{\,1-b^2 t^2\,}\), válida para \(|t|<\frac{1}{b}\)
Propiedades: es la mezcla de dos distribuciones Exponenciales (mitad de prob. a una expo positiva y mitad a una expo negativa). Tiene colas más pesadas que la normal, con curtosis 6 (frente a 3 de normal). La suma de variables Laplace (i.i.d.) tiende a normal (varianza finita → aplica TCL).
Errores comunes: suponer Normal cuando los datos muestran un pico excesivamente concentrado en la mediana y a la vez más valores extremos de lo esperado — en tal caso Laplace puede ser más adecuada. Confundir \(b\) con \(\sigma\): en Laplace, \(b = \sigma/\sqrt{2}\). También asumir que colas muy pesadas requieren Cauchy, cuando Laplace podría bastar (colas más leves que Cauchy pero más pesadas que Normal).

Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Laplace}(0,1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(|X|\le 1)\).

Media: \(E[X]=0\).
Varianza: \(\Var(X)=2b^2=2\).
\(P(|X|\le 1)=F(1)-F(-1)=0.8161-0.1839\approx0.6322\). (Nota: \(F(x)=0.5[1+\operatorname{sgn}(x-\mu)(1-e^{-|x-\mu|/b})]\)).

plaplace <- function(x, m=0, b=1){
  ifelse(x < m, 0.5*exp((x-m)/b), 1-0.5*exp(-(x-m)/b))
}
plaplace(1) - plaplace(-1)
# media y varianza
c(media = 0, var = 2)

Logística \(\mathrm{Logistic}(\mu,s)\)

Qué es: distribución continua simétrica cuya CDF tiene la conocida forma sigmoide (curva en “S”). Se parece a la normal en forma pero con colas un poco más pesadas (más curtosis).

Cómo se usa: describe procesos de crecimiento o adopción con saturación (p. ej. curvas de población, difusión de innovación). También se usa como función enlace (logit) en regresión logística para modelar probabilidades.

Soporte: \((-\infty,\infty)\)
Parámetros: \(\mu\in\mathbb{R}\) (localización o mediana), \(s>0\) (escala, proporcional al desvío típico: \( \sigma = s\pi/\sqrt{3} \))
PDF: \(f(x)=\frac{\exp\!\big(-\frac{x-\mu}{s}\big)}{\,s\big(1+\exp\!(-\frac{x-\mu}{s})\big)^2}\)
Media: \(E[X]=\mu\)
Varianza: \(\Var(X)=\frac{\pi^2 s^2}{3}\)
MGF: no tiene forma cerrada simple (depende de la función poligamma)
Propiedades: la CDF es \(F(x)=\frac{1}{1+\exp[-(x-\mu)/s]}\). Es simétrica alrededor de \(\mu\) (mediana = \(\mu\)). Colas más pesadas que normal pero no tan extremas como Cauchy. Puede aproximar a la normal en el centro, pero asigna mayor probabilidad a valores alejados de \(\mu\).
Errores comunes: confundir “logística” con “lognormal” (son muy diferentes). Interpretar mal \(s\): no es la desviación típica, aunque está relacionado (\(\sigma\approx1.814\,s\)). En modelado, suponer colas normales cuando en realidad hay evidencia de colas logísticas (por ejemplo en regresión, usar probit vs logit puede diferir en presencia de valores extremos).

Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Logistic}(0,1)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X\le 1)\).

Media: \(E[X]=0\).
Varianza: \(\Var(X)=\pi^2/3\approx3.2899\).
Probabilidad: \(P(X\le 1)=\frac{1}{1+e^{-1}}\approx0.7311\).

plogis(1, location=0, scale=1)
c(media = 0, var = pi^2/3)

Weibull \(\mathrm{Weibull}(\alpha,\beta)\)

Qué es: familia flexible para modelar tiempos de vida. Según el parámetro de forma \(\beta\), la tasa de fallo (hazard) puede aumentar (\(\beta>1\)), ser constante (\(\beta=1\), caso exponencial) o disminuir (\(\beta<1\)). \(\alpha\) es el parámetro de escala (relacionado con la “vida característica”).

Cómo se usa: análisis de fiabilidad de componentes, estudios de supervivencia (tiempo hasta evento), análisis de duración en economía. Permite captar escenarios de desgaste (riesgo creciente) o debilidad inicial (riesgo decreciente).

Soporte: \((0,\infty)\)
Parámetros: \(\alpha>0\) (escala), \(\beta>0\) (forma)
PDF: \(f(x)=\frac{\beta}{\alpha}\Big(\frac{x}{\alpha}\Big)^{\beta-1}\exp\!\Big[-\Big(\frac{x}{\alpha}\Big)^{\beta}\Big]\)
Media: \(E[X]=\alpha\,\Gamma\!\Big(1+\frac{1}{\beta}\Big)\)
Varianza: \[\Var(X)=\alpha^2\Big[\Gamma\!\Big(1+\frac{2}{\beta}\Big)-\Gamma^2\!\Big(1+\frac{1}{\beta}\Big)\Big]\]
MGF: no tiene forma elemental simple (involucra series de Laurent)
Propiedades: \(\beta=1\) da la Exponencial(\(\alpha\)). Si \(X\sim \Weibull(\alpha,\beta)\), entonces \(Y=(X/\alpha)^\beta \sim \Exp(1)\) (transformación a exponencial estándar). Para \(\beta\) grande, la densidad se concentra más alrededor de \(\alpha\) (cuando \(\beta\to\infty\), \(X\) tiende a \(\alpha\) determinista).
Errores comunes: usar Exponencial cuando los datos sugieren \(\beta\neq1\) (p. ej. si el riesgo de fallo aumenta con el tiempo, Weibull con \(\beta>1\) es más adecuado). Confundir \(\alpha\) con la media (no son iguales salvo ciertos casos). Olvidar revisar la función de supervivencia: un gráfico de \(\ln(-\ln(1-F(x)))\) vs \(\ln x\) lineal sugiere Weibull (a menudo no se hace esta verificación).

Ejemplo resuelto

Ejemplo: \(X\sim \mathrm{Weibull}(\alpha=2,\beta=3)\). Calcula \(E[X]\), \(\Var(X)\) y \(P(X>3)\).

Media: \(E[X]=2\,\Gamma(1+1/3)\approx2\times0.893=\;1.786\).
Varianza: \(2^2\big[\Gamma(1+2/3)-\Gamma^2(1+1/3)\big]\approx4\times(0.972-0.797)=0.4213\).
Cola: \(P(X>3)=\exp[-(3/2)^3]=\exp(-3.375)\approx0.0342\).

pweibull(3, shape=3, scale=2, lower.tail=FALSE)
# media y varianza
c(media = 2*gamma(4/3), var = 4*(gamma(1+2/3) - gamma(4/3)^2))

Herramientas de unificación

La función generadora de momentos (MGF) de \(X\) es \(M_X(t)=E[e^{\,tX}]\) (cuando existe en un entorno de \(t=0\)). Dos ideas clave:

Convergencia por MGFs (Teorema de Curtiss): si \(M_{X_n}(t)\to M_X(t)\) en un entorno de \(t=0\), entonces \(X_n \xrightarrow{D} X\) (convergencia en distribución). Esto se usa para demostrar teoremas límite.
Suma de independientes: si \(X\) y \(Y\) son independientes, entonces \(M_{X+Y}(t)=M_X(t)\,M_Y(t)\). Muchas distribuciones familiares son cerradas bajo suma (p. ej., la Normal o la Gamma suman dentro de su familia).

Transformación ubicación–escala: si \(X\) tiene CDF \(F\), entonces para \(Y=aX+b\) (con \(a>0\)) la nueva CDF es \(F_Y(y)=F\!\big(\frac{y-b}{a}\big)\). En particular, partiendo de \(Z\sim \mathcal{N}(0,1)\), cualquier normal \(X=\mu+\sigma Z\sim \mathcal{N}(\mu,\sigma^2)\). Esto muestra cómo “desestandarizar” distribuciones.

Método de la inversa: para simular una v.a. continua con CDF \(F\), se puede tomar \(U\sim U(0,1)\) y definir \(X=F^{-1}(U)\) (aplicando la inversa de la CDF al uniforme). Este principio permite generar números aleatorios de cualquier distribución a partir de uniformes.

Familias relacionadas (conexiones entre distribuciones):

\(\Exp(\lambda)\) es un caso particular de \(\Gamma(k=1,\theta=1/\lambda)\) (y viceversa, Gamma con \(k=1\) es exponencial).
\(\chi^2_k\) es \(\Gamma(k/2,\,\theta=2)\) (suma de cuadrados de normales).
Mezcla Gamma–Poisson \(\Rightarrow\) Binomial Negativa (una Poisson con tasa aleatoria gamma produce distribución NB: útil para conteos con sobre-dispersión).
Relación \(F\)–Beta: si \(F\sim F_{d_1,d_2}\), entonces \(Y=\frac{d_1 F}{\,d_1 F + d_2\,}\sim \Beta(d_1/2,\,d_2/2)\).

Distribuciones límite y leyes asintóticas

Ley Débil de los Grandes Números (LDGN): si \(X_1,\dots,X_n\) son i.i.d. con \(E[X_i]=\mu\), entonces la media muestral \(\bar X_n = \frac{1}{n}\sum_{i=1}^n X_i\) converge en probabilidad a \(\mu\). Intuitivamente, con suficientes datos la media observada se acerca a la media real. Por ejemplo, si \(Y_n\sim \Bin(n,p)\), entonces \(\frac{Y_n}{n} \xrightarrow{P} p\) (la proporción de éxitos tiende a \(p\)).

Convergencia en distribución: decimos \(X_n \xrightarrow{D} X\) si las CDF \(F_{X_n}(x)\) tienden a \(F_X(x)\) para todo \(x\) donde \(F_X\) es continua. Es la noción de convergencia utilizada cuando hablamos de distribuciones límite (por ejemplo, la distribución de un estimador al crecer \(n\)).

TCL (Teorema Central del Límite): si \(X_1,\dots,X_n\) son i.i.d. con \(E[X_i]=\mu\) y \(\Var(X_i)=\sigma^2<\infty\), entonces la suma (o media) debidamente estandarizada tiende a una Normal. En concreto: \[\frac{\sqrt{n}\,(\bar X_n - \mu)}{\sigma} \;\xrightarrow{D}\; \mathcal{N}(0,1),\] es decir, para \(n\) grande la distribución de \(\bar X_n\) es aproximadamente \(\mathcal{N}(\mu,\sigma^2/n)\). Esto explica por qué la Normal aparece al promediar muchos efectos.

Tamaño de muestra \(n\):

Como consecuencia del TCL, muchas distribuciones pueden aproximarse por la Normal en ciertos regímenes: por ejemplo, \(B(n,p)\approx \mathcal{N}(np,\;np(1-p))\) si \(n\) es grande y \(p\) moderado, y \(\Pois(\lambda)\approx \mathcal{N}(\lambda,\;\lambda)\) si \(\lambda\) es grande. Otra ley límite importante es la ley de los eventos raros: si \(n\to\infty\), \(p\to 0\) y \(np\to\lambda\) constante, entonces \(B(n,p)\xrightarrow{D}\Pois(\lambda)\). Esto permite usar Poisson como aproximación de una Binomial con probabilidad pequeña.

Existen otras leyes límite avanzadas, como las de valores extremos (máximos/mínimos): por ejemplo, el valor máximo de \(n\) observaciones puede converger (tras reescalarse) a distribuciones de Gumbel, Fréchet o Weibull dependiendo de la cola de la distribución original. En términos simples, el mínimo de una muestra grande tiende al límite inferior del soporte, y el máximo tiende al superior (o crece ilimitadamente si el soporte es infinito), con escalas particulares. Sin embargo, estos resultados exceden el alcance de esta guía básica.

Guía de selección de distribuciones

Árbol de decisión orientativo para la selección de distribuciones.

Árbol de decisión para elegir distribuciones

Distribuciones discretas

Distribución	Escenario típico	Palabras clave	Supuestos	Parámetros	Aproximaciones válidas	Test rápido	Errores frecuentes
Bernoulli	Un solo ensayo con resultado sí/no.	Único intento, éxito/fracaso, base de Binomial.	Dos resultados excluyentes; probabilidad de éxito fija \(p\).	\(p\) (éxito).	No aplica (caso elemental, \(n=1\)).	Trivial (0 o 1; proporción de éxitos = media).	Confundir qué se define como “éxito” (p vs \(1-p\)).
Binomial	Conteo de éxitos en \(n\) ensayos independientes.	Ensayos fijos, conteo éxitos, prob. constante.	Ensayos idénticos independientes; \(p\) igual en cada intento; número de ensayos \(n\) predefinido.	\(n,\,p\).	\(\Pois(\lambda=np)\) si \(p\) pequeño, \(n\) grande. \(\mathcal{N}(np,\;np(1-p))\) si \(n\) grande (CLT).	¿Existe un número máximo de casos? (sí, \(n\)). ¿Media \(\approx\) var más pequeña? (var = \(np(1-p)	Usar Binomial en muestreo sin reemplazo (debe ser Hipergeométrica). Suponer independencia cuando no la hay.
Hipergeométrica	Muestreo sin reemplazo de población finita.	Sin reemplazo, población, muestra, lotería.	Población tamaño \(N\) con \(K\) éxitos totales; se extrae muestra \(n\) sin reemplazo.	\(N,\,K,\,n\).	Si \(N\) muy grande vs \(n\): \(\approx \Bin(n,\,p=K/N)\).	¿Tamaño de muestra significativo comparado con \(N\)? (si muestra es fracción grande, usar hipergeom.).	Aplicar Binomial cuando hay dependencia (sin reemplazo). Ignorar corrección \(\frac{N-n}{N-1}\) en varianza.
Geométrica	Ensayos hasta el primer éxito.	Primer éxito, ensayos repetidos, “hasta que…”.	Intentos independientes; prob. de éxito \(p\) constante; se detiene al lograr éxito.	\(p\).	Equivalente continua: \(\Exp(\lambda=p)\) (tiempo continuo, aproximación si \(p\) pequeño).	¿Cumple propiedad sin memoria? (sí para Geométrica).	Confundir definición (si \(X\) cuenta fracasos o ensayos totales). Asumir \(p\) cambia entre ensayos.
Binomial Neg.	Hasta conseguir \(r\) éxitos (cuenta fracasos).	“Objetivo de \(r\) éxitos”, sobre-dispersión.	Ensayos ind. con \(p\) constante; se realizan hasta lograr \(r\) éxitos.	\(r,\,p\).	CLT: si \(r\) grande, \(\approx \mathcal{N}(r\frac{1-p}{p},\;r\frac{1-p}{p^2})\). Caso \(r=1\) = Geométrica.	¿Var >> media? (NB tiene var = media + extra \(\frac{1-p}{p}\) factor).	Confundir con Binomial (\(n\) fijo vs aleatorio). Diferentes parametrizaciones (incluir o no los éxitos en el conteo).
Poisson	Conteo de eventos aleatorios en tiempo/espacio continuo.	Tasa constante, eventos raros, sin límite superior.	Eventos independientes, ocurren a tasa media \(\lambda\) constante; número potencialmente ilimitado en intervalo.	\(\lambda\).	\(\mathcal{N}(\lambda,\lambda)\) si \(\lambda\) grande. \(\Bin(n,p)\) (con \(np=\lambda\)) para eventos raros. Suma de Poisson = Poisson (tasa suma).	¿Media ≈ var? (Poisson → E ≈ Var). ¿No hay un \(n\) máximo? (Poisson ilimitado).	No verificar independencia ni homogeneidad (si var >> media ⇒ no Poisson). Aplicar Poisson a datos agrupados con distintas tasas (debería ser mezcla).

Distribuciones continuas

Distribución	Escenario típico	Palabras clave	Supuestos	Parámetros	Aproximaciones válidas	Test rápido	Errores frecuentes
Uniforme	Valor desconocido pero acotado en [a,b].	Equiprobable, sin preferencia, intervalo.	Soporte finito [a,b] conocido; probabilidad uniforme en todo el rango.	a, b.	Suma de uniformes → tiende a Normal (muchos términos, TCL).	¿Datos distribuidos uniformemente sin tendencia? (histograma plano).	Usarla sin razón (pocas variables son realmente uniformes). Requiere límites claros; no usar si rango indeterminado.
Exponencial	Tiempo hasta un evento aleatorio con tasa fija.	Tiempo de espera, sin memoria, vida media.	Riesgo constante (hazard constante); eventos independientes en tiempo continuo.	\(\lambda\) (o \(\beta=1/\lambda\)).	Equivalente discreto: Geométrica. Suma de k expo = Gamma(k,θ).	¿Tiene falta de memoria? (sí → exponencial).	Aplicar exponencial con hazard variable (no es memoria-less). Confundir \(\lambda\) con media \(1/\lambda\).
Normal	Variaciones naturales con efectos aditivos (ruido, promedios).	Campana, simétrica, CLT, media±σ.	Distribución aproximadamente simétrica unimodal; varianza finita; sin colas pesadas.	\(\mu,\;\sigma\).	Suma de muchas v.a. (TCL). Aproxima Binomial, Poisson si condiciones (np, λ grandes).	¿Histograma con forma de campana simétrica? ~68% datos en [μ±σ]?	Asumir normalidad sin evidencias (datos sesgados o con outliers). Usar Normal en muestras pequeñas (debería t).
Gamma	Tiempo hasta acumular k eventos (k puede no entero).	Suma de exponenciales, tiempo de espera total, colas asimétricas.	Fenómeno de espera/agregación de causas independientes de tasa constante (si k entero). Variable positiva asimétrica.	k (forma), θ (escala).	k grande: ≈ Normal (por TCL). Casos: Exp (k=1), χ² (k=ν/2, θ=2).	¿Datos positivos sesgados a derecha? (Coef. variación > 1/√k). Var > media^2/k.	Parametrización (θ vs β=1/θ). Suponer memoryless para k>1. Ignorar que k no necesita ser entero.
Chi-cuadrado	Suma de cuadrados de desviaciones normales.	Varianza muestral, prueba χ², ANOVA.	Datos ~ normales; estadístico = suma de cuadrados normalizados.	ν (grados de libertad).	ν grande: ≈ Normal(ν, 2ν). χ² = Gamma(ν/2, θ=2).	¿df calculado correctamente? (p.ej. n-1 para varianza).	Usar χ² sin normalidad. Confundir df en tests. Esperar simetría con df bajos (no lo es).
t-Student	Media muestral con varianza desconocida (n pequeño).	Colas pesadas moderadas, muestras pequeñas, media poblacional.	Datos ~ normales; varianza estimada. df = n-1 (una muestra).	\(\nu\) (grados de libertad).	\(\nu\) grande: ≈ Normal(0,1).	¿Datos simétricos con algunos valores alejados? (t se ajusta mejor que Normal).	No usar t cuando corresponde (p.ej. usar Normal con n<30). Confundir df (n-1 vs n).
F de Snedecor	Comparar dos varianzas (ANOVA, test F).	Razón de varianzas, grupos, ANOVA.	Cada varianza ~ χ²/df (normalidad en cada grupo); independientes.	d1, d2 (df numerador, denominador).	d2 → ∞: F(d1,d2) → χ²(d1)/d1. Relación: F ↦ Beta (ver propiedades).	¿Varianzas similares? (si F >>1 o <<1 → diferencias significativas).	Intercambiar df1 y df2. Usar F sin normalidad subyacente (test inválido).
Cauchy	Fenómeno con outliers extremos frecuentes.	Colas ultrapesadas, sin media, resonancias.	Sin varianza definida; mediana existe; a menudo modelo teórico más que empírico directo.	x0, γ.	Ninguna (distribución estable por sí misma; no converge a Normal por TCL).	¿Media muestral errática? (indicativo de Cauchy).	Calcular promedios/varianzas (no existen). Confundir con normal (colas caen mucho más lento).
Laplace	Errores con picos fuertes y outliers moderados.	Doble exponencial, pico agudo, colas moderadas.	Simetría alrededor de μ; colas exponenciales (no cuadráticas como normal).	μ, b.	Sumas → Normal (var finita). 50% central ≈ mediana ± 0.693b (donde normal tendría ±0.674σ).	¿Pico muy alto en centro + más valores alejados de lo normal? (posible Laplace).	Asumir Normal con datos puntudos (Laplace mejor). Confundir b con σ (σ≈1.253*b).
Logística	Curvas S de crecimiento; errores alternativos a normal.	Sigmoide, saturación, logit (regresión).	Simétrica, colas más largas que normal, valores en (-∞,∞).	μ, s.	Forma ~ Normal en centro; colas intermedias entre Normal y Cauchy.	¿Datos acumulativos en S? (posible logística). Q–Q vs normal muestra colas divergentes.	Confundir con lognormal. No interpretar bien s (no es σ pero relacionado: σ=πs/√3).
Weibull	Tiempos de falla con tendencia (creciente/decreciente).	Fiabilidad, hazard variable, vida útil.	Independencia; hazard ~ potencia de t (\(\beta-1\)). \(\beta>1\) implica desgaste acumulado, \(\beta<1\) implica período inicial de fallos.	α, β.	\(\beta=1\): exponencial. \(\beta→∞\): falla casi determinista cerca de α.	¿Ritmo de fallos aumenta o disminuye en datos? (Weibull ajusta eso).	Usar expo cuando hay tendencia en tasa de fallos. Tomar α=media (no, media = αΓ(1+1/β)).