Muestreo contemporáneo orientado al análisis de Grandes Datos y al manejo de Muestras No Probabilísticas

  Regresar al programa

Emilio López Escobar

Emilio López Escobar (Numérika)

En el curso se revisarán los principales conceptos del muestreo contemporáneo (muestreo probabilístico con probabilidades desiguales sin reemplazo). Se actualizará sobre las principales aplicaciones y la solución general que ofrecen las técnicas de muestreo para el análisis de Grandes Datos. Se dará cuenta de retos y soluciones recientemente planteados en foros internacionales y en la literatura para la generación de estimaciones a partir de muestras no probabilísticas.


OBJETIVOS: Al concluir el taller,  el participante...

Reconocerá la importancia del muestreo en el contexto de Grandes Datos. * Dará importancia a conocer el proceso de generación de los datos.

Conocerá la diferencia entre los 3 principales enfoques dentro del muestreo (basado en diseño, basado en modelos y modelo-asistido).

Repasará los principales conceptos de la teoría de muestreo probabilístico.

Probará empíricamente, mediante un ejercicio práctico, la gran utilidad que tiene el uso de diseños de muestreo con probabilidades desiguales sin reemplazo.

Conocerá las propuestas más recientes que se plantean para la generación de estimaciones a partir de muestras no probabilísticas.


PÚBLICO DE INTERÉS: Matemáticos, Actuarios, Estadísticos, Científicos de Datos y Economistas. Perfiles que cubran la parte operativa y técnica de las empresas y de las agencias de investigación de mercados. Docentes y alumnos universitarios de carreras técnicas y afines que deseen actualizarse en algunos conceptos y técnicas de muestreo. El curso contendrá notación matemática (ecuaciones). El taller tiene un nivel intermedio, ya que se asume que los participantes tienen familiaridad con el manejo de bases de datos muestrales y el software de cómputo estadístico R.

TEMARIO GENERAL:

I. Introducción y motivación

DESARROLLO.

1. Creciente importancia del muestreo. Sobre la conciencia del origen de los datos. Muestreo como solución al análisis de Grandes Datos de la Ciencia de Datos. ¿Para qué muestrear si tengo toda la data? Por otro lado, ¿para qué usar todo, si con una muestra puedo focalizar recursos y esfuerzos? El gran supuesto de la teoría estadística estándar, que no contempla cómo se obtuvieron los datos. De verdad son ¿v. aleatorias? ¿independientes? ¿idénticamente distribuidas?

UTILIDAD.

Reconocer al muestreo como una solución al problema del análisis de Grandes Datos.


II. Repaso de teoría contemporánea básica (muestreo probabilístico)

DESARROLLO.

2. El objetivo del muestreo y el marco muestral. Los 3 grandes enfoques teóricos del muestreo.

3. Estimación a partir de muestras probabilísticas. Población, muestra y selección, la función diseño de muestreo, probabilidades e indicadoras de inclusión. Algunos diseños y algoritmos de extracción de muestra básicos. Muestreo Bernoulli. Muestreo Aleatorio Simple. Muestreo Poisson. Muestreo Poisson Condicional.

4. Estimadores y sus propiedades estadísticas básicas. Distribución muestral de un estimador. Los estimadores NHT y sus propiedades. El estimador NHT bajo el diseño SI. El efecto de diseño.

UTILIDAD.

Es necesario tener bases teóricas comunes y actualizadas sobre muestreo probabilístico.

Actividad práctica en R (RStudio).


DESARROLLO.

5. Actividad práctica de cómputo (para aquellos que lleven una Laptop y estén interesados en participar - Opcional).


UTILIDAD.

Individual o en equipo, se trata de ejecutar algunas rutinas de programación en R, estas mismas serán ejecutadas por el instructor. La idea es ejemplificar la implementación de la estimación con probabilidades desiguales y sin reemplazo.


III. Introducción a la estimación a partir de muestras no probabilísticas


DESARROLLO.

6. Motivación al muestreo no probabilístico. Muestras probabilísticas vs. muestras no probabilísticas. Mejora de muestras no probabilísticas mediante muestra probabilísticas. El problema de cobertura y desbalance.

Algunas soluciones recientemente planteadas en foros internacionales y en la literatura.


UTILIDAD.

Conocer la diferencia entre muestras probabilísticas y no probabilísticas. Dar cuenta de algunas soluciones para el manejo de datos no probabilísticos.


PREPARACIÓN PREVIA:

Se considera útil tener conocimientos de Algebra, Cálculo de Probabilidades (distribuciones de probabilidad básicas, funciones de densidad Bernoulli y Normal), Estadística descriptiva, Inferencia estadística (estimación puntual, intervalos de confianza). Para la sesión práctica se sugiere llevar una laptop con acceso a internet, software R, y RStudio instalado (esto es algo opcional).