Cálculos del artículo
"Por una ley de encuestas"

Por Daniel Mordecki
21 de octubre de 2014

Para no alargar el texto de la nota, acá están todos los datos y los cálculos por separado.

Datos

Habilitados para votar: 2,668,775

 

Corte Electoral

Cifra

Equipos

Factum

Interconsult

Opción

Radar

Muestra

 

 

1,002

1,200

1,936

1,323

1,200

1,500

% Error

 

3

2.8

2.4

2.7

2.8

2.5

 

Votos

 %*

%

%

%

%

%

%

FA

302,205

 

 

 

 

 

 

 

Tabaré

246,607

81.6

81

83

84

80

87

77

Constanza

52,653

17.4

15

15

15

19

12

20

Otros

 

 

4

2

1

1

1

3

 

 

 

 

 

 

 

 

 

PC

140,227

 

 

 

 

 

 

 

Pedro

102,856

73.3

80

75

75

80

83

84

Amorin

36,228

25.8

16

15

24

19

15

14

Flores S.

497

0.4

2

 

1

 

 

 

Otros

 

 

2

10

 

1

2

2

 

 

 

 

 

 

 

 

 

PN

416,140

 

 

 

 

 

 

 

Lacalle

226,194

54.4

45

46

46

48

49

48

Larrañaga

189,500

45.5

47

50

53

50

48

49

Germano

101

0.02

 

 

 

 

 

 

Oliu

345

0.1

 

 

 

 

 

 

Otros

 

 

8

4

1

2

3

3

* Los porcentajes reales se calcularon en base a todos los votos de cada partido, incluyendo los votos en blanco parciales

Paso a paso

Detalle de los pasos para calcular la probabilidad de un resultado de encuesta, tomando como ejemplo el Partido Nacional y la encuesta de Cifra.

1 - Se define el universo

Habilitados:   2,668,775
Lacalle Pou:     226,194
Larrañaga:       189,500
Otros:           2,253,081

2 - Se definen los rangos favorables para la encuesta

Para el universo dado, los votantes del PN representan el 15.6% de los habilitados. Por tanto, si la muestra es de 1002 casos, el partido nacional está representado en la muestra por 156 individuos.

El rango de 45% +/-3% corresponde a 42% y 48%, y está representado en la muestra por todos los casos en los que los votos a favor de Lacalle Pou están entre 66 y 75 individuos inclusive.

Por su parte el rango 47% +/-3% corresponde a 44% - 50% y está representado en la muestra por todos los casos en los que los votos a favor de Larrañaga están entre 69 y 78 individuos inclusive.

3 - Se calcula la probabilidad para cada caso favorable

(75, 78, 849) -> 0.000890550478
(75, 77, 850) -> 0.000971660689
(75, 76, 851) -> 0.001045330750
(75, 75, 852) -> 0.001108672223
(75, 74, 853) -> 0.001159013132
(75, 73, 854) -> 0.001194077948
(75, 72, 855) -> 0.001212152914
(75, 71, 856) -> 0.001212220552
(75, 70, 857) -> 0.001194049098
(75, 69, 858) -> 0.001158226420
(74, 78, 850) -> 0.000782663403
(74, 77, 851) -> 0.000852943553
(74, 76, 852) -> 0.000916535217
(74, 75, 853) -> 0.000970932344
(74, 74, 854) -> 0.001013829971
(74, 73, 855) -> 0.001043280308
(74, 72, 856) -> 0.001057834920
(74, 71, 857) -> 0.001056659063
(74, 70, 858) -> 0.001039605973
(74, 69, 859) -> 0.001007242354
(73, 78, 851) -> 0.000677874381
(73, 77, 852) -> 0.000737877483
(73, 76, 853) -> 0.000791960451
(73, 75, 854) -> 0.000837981196
(73, 74, 855) -> 0.000873981006
(73, 73, 856) -> 0.000898317863
(73, 72, 857) -> 0.000909786891
(73, 71, 858) -> 0.000907716017
(73, 70, 859) -> 0.000892026617
(73, 69, 860) -> 0.000863251908
(72, 78, 852) -> 0.000578498727
(72, 77, 853) -> 0.000628966934
(72, 76, 854) -> 0.000674276493
(72, 75, 855) -> 0.000712623863
(72, 74, 856) -> 0.000742369702
(72, 73, 857) -> 0.000762151012
(72, 72, 858) -> 0.000770981596
(72, 71, 859) -> 0.000768330841
(72, 70, 860) -> 0.000754172341
(72, 69, 861) -> 0.000728996496
(71, 78, 853) -> 0.000486355330
(71, 77, 854) -> 0.000528165531
(71, 76, 855) -> 0.000565551063
(71, 75, 856) -> 0.000597016484
(71, 74, 857) -> 0.000621210732
(71, 73, 858) -> 0.000637020022
(71, 72, 859) -> 0.000643650327
(71, 71, 860) -> 0.000640691215
(71, 70, 861) -> 0.000628154117
(71, 69, 862) -> 0.000606480363
(70, 78, 854) -> 0.000402735444
(70, 77, 855) -> 0.000436845423
(70, 76, 856) -> 0.000467220312
(70, 75, 857) -> 0.000492639198
(70, 74, 858) -> 0.000512005862
(70, 73, 859) -> 0.000524424530
(70, 72, 860) -> 0.000529266528
(70, 71, 861) -> 0.000526221164
(70, 70, 862) -> 0.000515325277
(70, 69, 863) -> 0.000496967806
(69, 78, 855) -> 0.000328409233
(69, 77, 856) -> 0.000355807791
(69, 76, 857) -> 0.000380103727
(69, 75, 858) -> 0.000400315788
(69, 74, 859) -> 0.000415568499
(69, 73, 860) -> 0.000425152956
(69, 72, 861) -> 0.000428579843
(69, 71, 862) -> 0.000425619303
(69, 70, 863) -> 0.000416323310
(69, 69, 864) -> 0.000401027725
(68, 78, 856) -> 0.000263664798
(68, 77, 857) -> 0.000285328397
(68, 76, 858) -> 0.000304456333
(68, 75, 859) -> 0.000320272415
(68, 74, 860) -> 0.000332088590
(68, 73, 861) -> 0.000339352963
(68, 72, 862) -> 0.000341691265
(68, 71, 863) -> 0.000338937583
(68, 70, 864) -> 0.000331150946
(68, 69, 865) -> 0.000318615657
(67, 78, 857) -> 0.000208372113
(67, 77, 858) -> 0.000225229764
(67, 76, 859) -> 0.000240048905
(67, 75, 860) -> 0.000252225372
(67, 74, 861) -> 0.000261227142
(67, 73, 862) -> 0.000266631639
(67, 72, 863) -> 0.000268157649
(67, 71, 864) -> 0.000265688589
(67, 70, 865) -> 0.000259284537
(67, 69, 866) -> 0.000249181475
(66, 78, 858) -> 0.000162063178
(66, 77, 859) -> 0.000174970353
(66, 76, 860) -> 0.000186265720
(66, 75, 861) -> 0.000195486641
(66, 74, 862) -> 0.000202228474
(66, 73, 863) -> 0.000206173083
(66, 72, 864) -> 0.000207112988
(66, 71, 865) -> 0.000204968673
(66, 70, 866) -> 0.000199797121
(66, 69, 867) -> 0.000191790443

4 - Se suma el rango

La probabilidad de acertar para el tamaño muestral y el error dado es la suma de la probabilidad de cada uno de los casos, en el ejemplo 0.0588369408354 o más correctamente 5.9%.

Fórmulas y programación

El problema a resolver es el siguiente:

En una bolsa tengo N bolitas negras, B bolitas blancas y T bolitas de cualquier otro color, y extraigo una muestra de tamaño m. Qué probabilidad hay de que la muestra extraída contenga n bolitas negras, b bolitas blancas y t bolitas de otro color, donde naturalmente n + b + t = m

 (B! / (B-b)!) * (N! / (N-n)!)* (T! / (T-t)!) * Comb (m,b) * Comb (m-b,t)
 ------------------------------------------------------------------------------
                                               ( D! / (D-m)!)

Donde D = N + B + T y Comb (m,b) significa combinaciones de b tomadas de m

Las probabilidades con números tan grandes supone un problema de cálculo porque implica multiplicaciones de valores que exceden la capacidad de la computadora.

Para evitar este problema el programa "desarma" la fórmula de modo de poder ir multiplicando y dividiendo para mantener el resultado dentro de un rango razonable y con una precisión adecuada.

Descargar el programa PHP y los datos en Excel

 

Otros artículos relacionados sobre las encuestas
¿Tocan las encuestas? ¡A quién le importa! (Internas 2014)
Encuestas de opinión, ¿política o ciencia? (elecciones internas 2009)
Sobre la validez de las encuestas - Episodio II (elecciones nacionales 2005)
Sobre la validez de las encuestas (Internas 2004)
La encuesta y el censo (sobre las consideraciones metodológicas)
 

 

 

Datos de apoyo

 

 

 

 

mordecki.com

 

 

 

Publicaciones

frentelibro_chicoPensar primero

Descargar

miro y entiendo thumb

Miro y Entiendo
Guía Práctica de Usabilidad web


Descargar

¡Suscríbase!

Reciba una notificación cuando se incorpora un artículo
Más información

Usabilidad, y estrategia en Internet

white_spacer

Comentar

Nombre:

Email:

Comentario:white_spacer

Escriba la letra N

white_spacer

Comentarios

Daniel Mordecki
23 de Octubre del 2014white_spacer
Juan Pablo,

Intento explicar mi intención, a ver si la considerás correcta.
Yo no conozco \"la cocina\" de una encuesta. Para mí es una caja negra, de la que tengo solo unos pocos datos:
- Tamaño de la muestra
- Error estimado
- Intervalo de confianza
- Resultado

Una vez que se realiza la elección, que es un verdadero censo, tenemos la posibilidad de saber el resultado real de cada una de la variables que se estimaban a través de la encuesta. Esto nos permite entender la precisión y validez de la metodología que aplicaron.

Cuando Luis Eduardo Gonzalez (Cifra) dice en Canal 12 \"Los resultados de las elecciones nacionales siempre estuvieron dentro de los rangos de margen de error de Cifra\" (cito de memoria), está implicitamente aplicando esta idea.

El cálculo está hecho partido por partido y es el que detalla el artículo: definir el universo para ese partido a partir de los datos de la corte, calcular la probabilidad para cada \"terna\" (LLP, JL, resto) y sumar las probabilidades que caen dentro del valor de la encuestadora más/menos su margen de error.

Si mis cálculos están bien, ese valor es la probabilidad que había de que el resultado cayera en ese rango. Es decir, dado que LLP tuvo 226,194 votos (54.4% del PN) y JL tuvo 189,500 votos (45.5% del PN) en un total de 2,668,775 habilitados para votar, la probabilidad de que una muestra de 1002 casos de rangos de más/menos 3% (Cifra) centrados en LLP 45% y JL 47% es de 5.9%.

El intervalo de confianza qué tenían se corresponde con el mejor caso, es decir, con la misma muestra y el mismo error asumido de más/menos 3%, centrar en intervalo en el valor real como si el pronóstico hubiera sido exacto. Ese resultado para los mismos datos es 23.5%. Mucho menos que el 95% de la ficha técnica.

En realidad, haciendo un par de suposiciones, calculos similares se pueden hacer ANTES de la elección, por ejemplo asumiendo que el resultado es exactamente el pronosticado por la encuesta, calcular el Intervalo de Confianza REAL, porque ni p=0.5, ni es una sola variable, ni son 1002 casos en el PN, ni casi niguna hipotesis de los teoremas que utilizan es cierta.

Se entendió?


white_spacer


Juan Pablo Ferreira
23 de Octubre del 2014white_spacer
Estimado Daniel, sinceramente no entendí mucho lo que pretendías demostrar. No creo en las estimaciones de las encuestadoras por un tema de que no tiene personal con formación estadística buena y tampoco se cuáles son sus motivaciones. Cuando ellos publican sus metodologías no queda claro el marco mustral (de donde selecciona a los individuos), si la selección es aleatoria (lo que nos permite inferir) y como es que tratan la no respuesta (el que contesta nunca se comporta como el que no) y el sesgo ocasionado por la misma (desconocido) y cuáles son las técnicas para minimizarlo, si utilizan métodos de calibración en base a variables que se encuentren correlacionadas con la intención de voto etc o los métodos de imputación para los faltantes. Ahora, vos hablas de probabilidad en la interpretación del margen de error y eso no está bien y los IC que calculas no tienen sentido porque estas asumiendo el tamaño de nuestra efectivo en el dominio (digamos por interna del partido). Un intervalo de confianza de 95 % con un margen de error del 3% implica que si seleccionamos 100 muestras y construimos sus respectivos IC el 95% de ellos contendrá al verdadero valor (desconocido). El problema es si la muestra que tiene es una buena (95/100 aprox) o una mala. Probabilidad no hay ya que el experimento fue realizado. Cuando calculan el tamaño de muestra implica que para cualquier proporcion el error es ese (fijan p=0.5 que es cuando la varianza es máxima en una variable de tipo bernoulli) y las estimaciones en dominios (por ejemplo por interna) se ven reflejadas ahi. Si bien la formula que utilizan se base en un diseño simple y generalmente la estrategia de selección es más compleja, estratos, conglomerados, varias etapas de selección, etc y no ajustan este tamaño en base al efecto de diseño no creo que el impacto en la precisión sea tal. Sinceramente leí la nota en Montevideo. Com y me llamó la atención. También es sabido que las precisiones se calculan a posteriori estimando las varianzas de los estimadores por lo que los IC construidos son aproximados más aun cuando hay efecto de no respuesta y ajuste de los ponderadores o pesos muestrales.
Saludos,


white_spacer


white_spacer

Usabilidad Estrategia Presentaciones Otros Temas Casos Otros Autores

white_spacer

     Contactar      Comentarios sobre el sitio      Valoraciones      Privacidad      Curriculum


Late Latino

calific1

 

calific2

 

calific3

 

calific4

 

calific5

 

calific7

 

calific8

 

 

Articles in English