Capítulo 2 Conceptos Generales

7 de Febrero 2017

  • Cuando se tiene un modelo conocido que se asemeja al conjunto de datos, se le llama modelo parametrico. P.ej:

\[\int_{a}^{b} f(x)dx\]

  • La robustez del modelo la da el coeficiente de correlacion (\(R^2\)), el cual nos habla de que tanto se parece el modelo a los datos. los valores van de \(0-1\), un valor \(>0.9\) se considera adecuado.
  • Cunado los datos no se parecen a un modelo ya conocido, se utilizan los modelos no parametricos.

2.1 Terms comparing statistics and computer sciences

2.2 Teoria de Conjuntos

2.2.1 Definiciones

  • Conjunto: Una coleccion de elementos con caracteristicas que comparten entre ellos.

\[A=\text{{1,2,3,4}}\] \[B = \text{{numeros enteros positivos}}\] \[ C = \text{{numeros enteros > 3}} = \text{{4,5,6...}}\] Todos estos tipos de conjuntos se pueden convertir eventualmente en el espacio muestral, por lo tanto la definicion del espacio muestral es vital antes de iniciar procesos de anlalisis.

  • Alternativamente, los elementos \(x\) de un conjunto se pueden enunciar de tal manera que cumplan una caracteristica \(P\).

\[\text{{x|x satisface P}}\]

En esta notacion, el simbolo \(|\) se interpreta como: “tal que”.

Otro ejemplo con esta notacion:

\[ E = \{x|x \space numero\space entero\space 4 \leq x \leq 10\}\]

  • Pertenece a (\(\in\)):

Tomando el ejemplo anterior, podemos decir que \(x = 5 \in E\).

  • No pertenece a (\(\notin\))

Tomando el ejemplo anterior podemos decir que \(x = 11 \notin E\)

  • Subconjunto (\(\subset\))

Cuando todos los elementos del conjunto \(A\) estan incluidos en el conjunto \(B\) (\(A \subset B\))

  • Complemento (\(^c\))

El complemento de un conjunto \(S\), con respecto al conjunto universo (\(\Omega\)), otros autores utilizan \(U\), es el conjunto de todos los elementos que no pertenecen a \(S\), y se denota como \(S^c\).
Es importante recordar que \(\Omega^c = \emptyset\) donde \(\emptyset\) es el conjunto vacio.

  • Union (\(\cup\))

\[S \cup T = \{x|x \in or\space x\in T\}\]

  • Intereseccion (\(\cap\))

\[S \cap T = \{x|x \in S\space y \space x \in T \} \]


Por lo tanto:

\[\bigcup_{n=1}^{\infty}= S_1 \cup S_2 \cup ...= \{ x|x \in S_n para \space alguna\space n\} \] Donde \(para\space S_n = \space un \space entero \space positivo\).

\[ \bigcap_{n=1}^{\infty} = S_1 \cap S_2 \cap ... = \{ x|x \in S_n \space para \space alguna \space n\}\]

2.2.2 Conjuntos Disjuntos

  • Son aquellos cuya interseccion (\(\cap\)) es el conjunto vacio (\(\emptyset\)).
  • No se intersectan.

\[S \cap T = \{ \emptyset\}\] La probabilidad del conjunto vacio no es igual a \(\emptyset\), por lo tanto habra que calcularla en cada caso.

2.2.3 Partición:

Una colección de conjuntos se dice que es una particion de un conjunto \(S\) si los conjuntos en la coleccion son disjuntos y su union es \(S\).

\[S = \{1,2,3,4,5,6,7,8\}\] \(A = \{1,2,3\}\), \(B = \{4,5,6,7,8\}\) y \(C = \{\emptyset\}\)


Ojo: simpre considerar la probabilidad del conjunto vacio, siempre existe.

  • Si \(x\) y \(y\) son 2 objetos \((x,y)\) para describir un par ordenado, por ejemplo, numeros reales \(R\), el conjunto de pares (o tripleta) de escalares se puede escribir como \(R^2\) y \(R^3\), respectivamente.

2.3 Diagramas de Venn


\(A \cap B\)

\(A\cup B\)

\(A^c \cap B\)

\(\text{Conjuntos Disjuntos}\)

\(S,T,\space y \space V \space son \space una \space particion \space de \space \Omega\)

2.4 Algebra de Conjuntos

Propiedad asociativa ???? \[S \cup T = T \cup S\] \[S \cap (T \cup V) = (S \cap T) \cup (S \cap V)\] \[(S^c)^c = S\] \[S \cup \Omega = \Omega\] Propiedad Distributiva????

\[S \cup (T \cup V) = (S \cup T)\cup V\] \[S \cup (T \cap V) = (S \cup T)\cap (S \cap V)\] \[S \cap S^c = \emptyset\] \[S \cap \Omega = S\]

2.5 Leyes de Morgan

Considerar las siguentes notaciones:

\((\bigcup_{n}^{}S_n)^c = \bigcap_{n}^{}{S_n}^c\)

\((\bigcap S_n)^2 = \bigcup_{n}^{}{S_n}^c\)

*Notar como cambian de \(\cup\) a \(\cap\) y viceversa, en estas leyes.

8 de Febrero de 2017

2.6 Modelos De Probabilidad

Buscan proveer certidumbre o reducir incertidumbre.

2.6.1 Elementos de un Modelo de Probabilidad

  • El espacio muestral (\(\Omega\)): Entendido como el conjunto de todos los posibles resultados de un experimento.
  • Ley de probabilidad, la cual asigna a un conjunto \(A\) de posibles resultados (llamdo también evento) un número no-negativo (\(P(A) = (\text{la probabilidad de A})\)) que codifica nuestro conocimiento o creencia sobre la probabilidad de los elementos de \(A\).

2.6.2 Axiomas de Probabilidad

  1. No negatividad
    Para cada uno de los eventos en \(A\): \(P(A) \geq 0\)
  2. Adición
    Si \(A\) y \(B\) son dos eventos disjuntos, entonces la posibilidad de su unión satisface:

    \(P(A \cup B) = P(A)+P(B)\)
    ó
    \(P(A_1\cup A_2 \cup ...A_n) = P(A_1) + P(A_2)+...P(A_n)\)
  3. Normalización
    La probabilidad del copmleto (entire) espacio muestral \(\Omega\) es \(1\), esto es \(P(\Omega) = 1\).


Ojo: Los eventos del espacio muestral deben ser eventos mutuamente excluyentes, osea que no puedan suceder simultaneamente.

2.6.3 Ley de Probabilidad Discreta

Probabilidad discreta: Asignar a un evento una probabilidad única (valor).

Si el espacio de probabilidad consiste de un número finito de posibles resultados, entonces la ley de probabilidad se especifica por las probabilidades de cada uno de los eventos. En particular, la probabilidad de cualquier evento. \(\{S_1,S_2,...S_n\}\) es la suma de las probabilidades de sus elementos:
\[P(\{S_1,S_2,...S_n\}) = P(S_1)+P(S_2)+...+P(S_n)\]

2.6.4 Ley de Probabilidad Discreta Uniforme

Si el espacio muestral consiste de \(n\) posibles resultados con igual probabilidad de ocurrencia, entonces la probabilidad de cualquier evneto \(A\), está dada por: \[P(A)= \frac{\text{Número de elementos de A}}{n}\]

2.6.5 Función Densidad de Probabilidad

  • También conocida como Probability Density Function (pdf) o Probability Mass Function (pmf).

Para una variable aleatoria o evento discreto, se define como: \[f(x) = P(X=x)\]

  • Muchos procesos aleatorios vienen descritos por variables de forma que son conocidas las probabilidades en itnervalos.
  • La integral definida de la función de densidad en dichos intervalos coincide con la probabilidad de los mismos.
  • Es decir, identificamos la probabilida de un intervalo con el área bajo la función de densidad.

2.6.6 Acumulativa pdf (Comulative pdf)

  • Se define como la suma de los resultados parcials de los eventos que validan el experimento:

\[cpdf = \sum_{i}(P(x_i=x))\]

Para los \(x_i\) que validan el experimento.

2.6.7 Función de Distribución

Es la función que asocia a cada valor de una variable, la probabilidad acumulada de los valores inferiores o iguales.

  • Piénsalo como la generalización de las frecuencias acumuladas. Diagrama integral.
    • A los valores extremadamente bajos les corresponden valores de la función de distribución cercanos a cero.
    • A los valores extremadamente altos les corresponden valores de la función de distribución cercanos a uno.
  • Se encuéntra en los artículos y aplicaciones en forma de valor p, significación.

2.6.7.1 Para qué sirve la función de distribución

  • Contrastar lo anómalo de una observación concreta.
    • Sé que una persona de altura 210 cm es “anómala” porque la función de distribución en 210 es muy alta.
    • Sé que una persona adulta que mida menos de 140 cm es “anómala” porque la función de distribución es muy baja para 140cm.
    • Sé que una persona que mida 170 cm no posee una altura nada extraña pues su función de distribución es aproximadamente 0.5
  • Ésto se puede relacional con la idea de cuantil.
  • En otro contexto (contrastes de hipótesis) podremos observar unos resultados experimentales y contrastar lo “anómalos” que son en conjunto con respecto a una hipótesis de terminada.

2.7 Probabilidad Condicional

La siguiente ecuación:

\[P(A/B) = \frac{P(A\cap B)}{P(B)}\]

Puede también ser expresada en los términos de probabilidad condicional secuencial: \[P(A\cap B) = P(A/B)*P(B)\] Siempre y cuando \(P(B)>0\)

Si los posibles resultados tienen la misma probabilidad de ocurrencia entonces: \[P(A/B) = \frac{\text{No. de elementos en } A\cap B}{\text{No. de elementos en }B}\]

Importante:
El conjunto universo en la probabilidad condicional (dado un evento anterior) cambia de \(\Omega\) al subconjunto \(B\).

2.7.0.1 Ejemplos:

  • Considerar el lanzamiento de 2 dados:

\[A = \{\text{la suma es}\geq 8 \space y \space \leq 10\}\] \[B = \{\text{el dado 1}=6 \} \therefore P(B) = \frac {1}{6}\]
Recordando los conceptos de combinaciones: \(C = n^m\) cuando \(n\) es el número de posibles resultados y \(m\), el número de experimentos. para éste ejemplo en particular las combinaciones posibles son \(6^2 = 36\), entonces: \[P(A\cap B) = \frac {3}{36} \therefore P(A/B) = \frac {\frac {3}{36}}{\frac {1}{6}} = \frac {18}{36} = \frac {1}{2}\] Es importante que la probabilidad condicional es mayor a la probabilidad independiente de previos eventos, porque el universo en la condicional disminuye de \(\Omega\) a un subconjunto, en éste caso \(B\).

  • La probabilidad de que, al lanzar los dados del ejemplo anterior, la suma sea \(\geq 8\) y \(\leq 10\) ó \(A = \{\geq 8 \space y \space \leq 10\}.\)

    A ésta probabilidad la denotaremos como \(P(A)\), al realizar el experimento manual obtenemos la siguiente imagen:


    Se puede observar que se han indicado las combinaciones que cumplen con una suma \(\geq 8\) y \(\leq 10\) ó \(A = \{\geq 8 \space y \space \leq 10\}\).

    Por lo tanto: \[P(A) = \frac {12}{36} = \frac {1}{3}\].

    Otra manera de entender éste concepto es visualizarlo a través de una matriz:

Con la visualización, es sencillo llegar a la conclusión \(A = \frac {12}{36} = \frac {1}{3}\)

  • En el lanzamiento sucesivo de 3 monedas, queremos saber la probabilidad condicional, \(P(A/B)\), cuando \(A\) y \(B\) son los eventos: \[A = \{\text{aparecen más soles que águilas}\}\] \[B = \{\text{el primer lanzamiento cae sol}\}\] La visualización de todas las posibilidades de éste fenómeno se puede apreciar en la siguiente figura:

Derivado del árbol en la imagen se pueden determinar las probabilidades de los siguientes subconjuntos: \[P(A) = \{\text{sss, ssa, sas, ass }\} = \frac {4}{8} = \frac {1}{2}\]

\[P(B) = \{\text{sss, ssa, sas, saa}\} = \frac{4}{8} = \frac{1}{2}\] \[P(A\cap B) = \{\text{sss, ssa, sas}\} = \frac{3}{8}\]

\[\therefore\] \[P(A/B) = \frac {P(A\cap B)}{P(B)} = \frac {\frac {3}{8}}{\frac {1}{2}} = \frac {6}{8} = \frac {3}{4}\]
Nótese el la mayor probabilidad de \(P(A/B)\) dado que el universo pasó de ser \(\Omega\) al subconjunto \(B\).

2.7.1 Repaso de combinaciones y permutaciones


La cantidad total de combinaciones posibles en un experimento se puede calcular como \(n^m\) donde: \[n = \text{posibles resutlados}\] \[m = \text{número de experimentos a realizar}\]

  • Cuando de un número de combinaciones se elige una muestra \(r\) y el orden en el que éstas se elige no importa (combinaciones): \[P = \left( \begin{array}{c} n \\ r \end{array} \right) = \frac {n!}{r!(n-r)!}\]

  • Cuando de un numero de combinaciones se elige una muestra \(r\) y el orden en el que ésta se elige SI importa (permutaciones): \[P = \left( \begin{array}{c} n \\ r \end{array} \right) = \frac {n!}{(n-r)!}\]

2.7.1.1 Ejemplo:

Al lanzar 8 dados, ¿cuántas combinaciones diferentes son posibles? \[C = 6^8\] PENDIENTE REVISAR- Si elijo el resultado de 2 dados de los 8 lanzados, ¿de cuántas maneras distintas los puedo elegir?:

\[P = \left( \begin{array}{c} 8 \\ 2 \end{array} \right) = \frac {n!}{r!(n-r)!}\]

Siempre y cuando \(A_1\) y \(A_2\) sean eventos disjuntos (\(P(A_1\cap A_2) = \emptyset\)) podemos entonces decir que:

\[P = (A_1 \cap A_2 \vert B) = \frac {P(A_1 \cap B)}{P(B)}+ \frac {P(A_2 \cap B)}{P(B)} = P(A_1/B) + P(A_2/B)\]

2.7.1.2 Ejemplo

Tomando datos del experimento anterior con monedas:

\[A_1 = \{\text{aparecen más soles que águilas}\} = \{\text{sss, ssa, sas, ass}\}\] \[A_2 = \{\text{aparecen más águilas que soles}\} = \{\text{ssa, asa, aas, aaa}\}\] \[B = \{\text{el primer lanzamiento es sol}\} = \{\text{sss, ssa, sas, saa}\}\] \[A_1 \cap A_2 = \{\emptyset\}\] \[\therefore\] \[P(A_1) = \frac {4}{8} = \frac {1}{4}\space \& \space P(A_2) = \frac {4}{8} = \frac {1}{4}\] \[P(A_1\cap B) = \frac{3}{8}\] \[P(A_2\cap B) = \frac{1}{8}\] \[P(A_1\cup A_2\vert B) = \frac {\frac{3}{8}}{\frac{1}{2}} + \frac{\frac{1}{8}}{\frac{1}{2}} = \frac{6}{8} + \frac{2}{8} = 1\] \[P(A_1\cup A_2\vert B) = 1 \space \therefore\] \[P(A_1\cup A_2...\cup A_i \vert B) = P(A_1/B) + P(A_2/B)+...+ P(A_i/B)\] Siempre y cuando \(\{A_1\cap A_2...\cap A_i\}= \emptyset\).

2.7.2 Independencia

Si: \[P(A\cap B) = P(A)*P(B)\] Se dice que \(A\) y \(B\) son eventos independientes. Distinto a ser eventos disjuntos: \(P(A\cap B) = \emptyset\).
Entonces, asumiendo independencia obetnemos:

\[P(A/B) = \frac {P(A\cap B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A)\]

La ecuación anterior demuestra que, los eventos independientes no afectan la probabilidad uno del otro.

2.8 Modelos de Distribución Probabilística y variables aleatorias.

Hay variables aleatorias que aparecen con frecuencia:

  • Experimentos dicotómicos.
    • Bernoulli
  • Contar éxitos en experimentos dicotómicos repetidos:
    • Binomial
    • Poisson (sucesos raros)
  • Y en otras muchas ocasiones:
    • Distribución normal (gaussiana, campana, …)

2.8.1 Distribución de Bernoulli (López 2013)

Tenemos un experimento de Bernoulli si al realizar un experimento sólo son posibles dos resultados:

  • \(x = 1\) (éxito, con probabilidad p)
  • \(x = 0\) (fracaso, con probabilidad q = 1 - p)

Ejemplos:

  • Lanzar una moneda y que salga cara: \(p = \frac{1}{2}\).
  • Elegir una persona de la población y que esté enfermo: $p = = $ prevalencia de la enferemdad.
  • Aplicar un tratamiento a un enfermo y que éste se cure: $p = 95% = $ probabilidad de que el individuo se cure.
  • Como se aprecia, en experimentos donde el resultado es dicotómico, la variable queda perfectamente determinada conociendo el parámetro p.

2.8.2 Distribución binomial (López 2013)

Función de probabilidad:

\[P[X = k]= \left( \begin{array}{c} x \\ y \end{array}\right)p^kq^{n-k}, 0 \leq k \leq n\]

  • En ésta distribución hay problemas de cálculo si \(n\) es grande y/o \(p\) cercano a \(0\) ó \(1\).
  • Media: \(\mu = np\)
  • Varianza: \(\sigma^2 = npq\)

AQUI PONER IMAGEN

2.8.3 Distribución Binomial (López 2013)

  • Si se repite un número fijo de veces, \(n\), un experimento de Bernoulli con parámetro \(p\), el número de éxitos sigue una distribución binomial de parámetros (\(n,p\)).

Ejemplos:

  • Lanzar una moneda 10 veces y contar las caras: Bin(\(n = 10\), \(p = \frac{1}{2}\))
  • Lanzar una moneda 100 veces y contar las caras: Bin(\(n = 100\), \(p = \frac{1}{2}\)). En éste caso es mejor utilizar una distribución normal.
  • El número de personas que enfermará (en una población de 500, 000 personas) de una enfermedad que desarrolla una cada de 2000 personas: Bin(\(n = 500,000\), \(p = \frac{1}{2000}\))
  • Es difícil hacer cálculos con las cantidades del ejemplo anterior. El modelo de Poisson será mas adecuado en éstas ocaciones.

2.8.4 Distribución normal de Gauss (López 2013)

  • Aparece de manera natural:
    • Errores de medida.
    • Distancia de frenado.
    • Altura, peso, propensión al crimen …
    • Distribuciones binomiales con \(n\) grande (n > 30) y ’p con (np>5) ó (nq > 5).
  • Está caracterizada por dos parámetros:
    • La media (\(\mu\)) y
    • La desviación estándar/ típica (\(\sigma\))
  • Función de densidad de la distribución normal:

\[f(x) = \frac {1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})}\]

References

López, Francisco Javier Barón. 2013. “Apuntes Y Vídeos de Bioestadística.” https://www.bioestadistica.uma.es/baron/apuntes/.