PrecisaResearch

Es una herramienta interactiva que permite explorar tendencias de opinión pública para las elecciones generales a lo largo de las última décadas.

Objetivos

El principal objetivo de PrecisaDB es proporcionar a los usuarios datos consistentes y confiables a lo largo de las últimas décadas para poder analizar con rigor las tendencias de la opinión pública y brindar una visión clara y completa de la evolución de la política española.

Datos y fuentes

PrecisaDB se alimenta con datos abiertos del Centro de Investigaciones Sociológicas (CIS), institución pública encargada de realizar estudios y encuestas sobre opiniones y comportamientos políticos en España.

Trabajamos específicamente con los microdatos que el CIS publica de manera abierta —procesados y analizados utilizando nuestra metodología propia— lo que nos permite acceder a información detallada y granular sobre las preferencias de voto y otras variables relevantes.

Actualmente, tenemos procesados más de 400 barómetros mensuales (+1.000.000 de entrevistas) y preelectorales de ámbito estatal, con más de 80 variables sociodemográficas, geográficas, educativas, laborales, religiosas, socioeconómicas, culturales, ideológicas, de comportamiento electoral y actitudes hacia la política y la economía.

A lo largo de todo el proceso también utilizamos otras fuentes de datos públicos, como los resultados electorales recogidos desde el Ministerio del Interior, datos del padrón continuo del Instituto Nacional de Estadística (INE), así como fuentes de información auxiliares del propio CIS, cómo ficheros de registros o cuestionarios.

Funcionalidades destacadas

El dashboard ofrece una serie de funcionalidades destacadas que lo diferencian de otras herramientas disponibles en el mercado.

Captura de pantalla de PrecisaDB v1-Beta

  1. Se pueden visualizar y explorar tendencias electorales históricas de forma completa y accesible.
  2. Gracias a nuestra metodología propia, podemos sortear los cambios de criterios que han surgido en las encuestas del CIS a lo largo de los años. Utilizar el mismo proceso metodológico permite analizar y comparar los datos electorales en diferentes periodos y hacer una interpretación más precisa y consistente de las tendencias políticas.
  3. Los usuarios pueden explorar tendencias electorales particulares en diferentes segmentos de la población, como edad, género, nivel educativo o ubicación geográfica. Esta función permite identificar patrones y comprender mejor los diferentes factores que influyen en los resultados electorales.

Usabilidad y accesibilidad

PrecisaDB hemos diseñado pensando en la usabilidad y accesibilidad para brindar una experiencia fácil y accesible a todo tipo de usuarios. Ofrecemos opciones de personalización para adaptarse a las necesidades individuales de los usuarios, permitiéndoles seleccionar periodos de tiempo, regiones geográficas y variables específicas. Con una interfaz intuitiva, nos aseguramos de que todos los usuarios puedan explorar las tendencias electorales de manera fácil y cómoda, sin importar su nivel de experiencia o habilidades.

Captura multipantalla de PrecisaDB v1-Beta

Próximas actualizaciones

En PrecisaResearch estamos trabajando en la incorporación de nuevas secciones y funcionalidades. A continuación identificamos algunas de ellas:

Metodología

A continuación explicaré de forma breve (escribiré un artículo detallado más adelante, con la publicación de la versión definitiva) el proceso metodológico que seguimos hasta llegar a los datos que visualizaras en PrecisaDB.

Este es el esquema del proceso metodológico, que consta de 6 pasos principales:

Esquema metodología PrecisaDashboard v1-Beta

  1. Procesamiento de datos: Se recopilan y procesan datos de diversas fuentes, como he mencionado anteriormente. Procesamos archivos CSV y SAV, pero también ficheros de registro en formato PDF. Utilizamos un algoritmo diseñado internamente para dar la misma estructura de datos a cada uno de los estudios del CIS. Para lograr esto, aplicamos técnicas avanzadas de text-mining avanzado (limpieza de datos, detección de sintaxis…) y modelado supervisado (incorporación de base de datos propia, elaborado manualmente, que sirve al algoritmo para establecer patrones e identificar variables relevantes en futuros estudios).Una vez que hemos estructurado los datos, obtenemos los barómetros generales y los barómetros multirespuesta (donde el entrevistado tienen que dar más de una respuesta a cada pregunta, por ejemplo, principales problemas o escala de valoración de líderes políticos).
  2. Imputación de recuerdo de voto: Utilizamos la técnica de MICE (Multiple Imputation by Chained Equations) y método Ranger (un algoritmo de aprendizaje automático o machine learning utilizado para problemas de clasificación y regresión basado en la técnica de bosques aleatorios o Random Forest) para imputar los valores vacíos en la variable recuerdo de voto.MICE es un enfoque basado en modelos estadísticos que utiliza una cadena de ecuaciones condicionales para estimar los valores faltantes y se realiza utilizando múltiples variables sociodemográficas.
  3. Equilibrado de la muestra: Equilibramos la muestra por variables sociodemográficas cruzadas que se encuentran en el padrón continuo, como el sexo, grupos de edad y el territorio.También ponderamos la muestra por recuerdo de voto —uno de los principales sesgos de los barómetros del CIS— utilizando los resultados electorales oficiales como referencia. Esta etapa se realiza mediante el método de imputación conocido como raking, que busca los pesos que mejor se ajustan de forma iterativa para asegurar que la distribución de las variables en la muestra se ajuste a la distribución poblacional conocida.

Imputación de indecisos: Una vez que hemos imputado y equilibrado los datos, utilizamos un modelo de machine learning llamado eXtreme Gradient Boosting (XGBoost) para estimar la intención de voto de los indecisos. XGBoost es un algoritmo potente que utiliza una combinación de árboles de decisión y boosting para realizar predicciones precisas. El modelo de aprendizaje automático se basa en un proceso de búsqueda en cuadrícula (grid search) que sirve para encontrar los mejores hiperparámetros en cada caso y utiliza la validación cruzada (cross-validation) para evaluar y comparar su rendimiento.

La imputación se realiza para cada barómetro individualmente y el modelo se entrena con los votantes no-indecisos para predecir el comportamiento electoral de los que no tienen decidido su voto. Para ello se utilizan decenas de variables sociodemográficas y de actitudes hacia la política.

  1. Es un modelo similar al que utiliza Centre d’Estudis d’Opinió (CEO), cuya trabajo y transparencia es especialmente reseñable.
  2. Estimación de la participación individual: Por último, utilizamos un modelo de machine learning bayesiano llamado MCMC (Markov Chain Monte Carlo) para obtener la probabilidad de voto de cada individuo y estimar la participación electoral. El modelo MCMC utiliza métodos de simulación y muestreo para obtener estimaciones probabilísticas.A diferencia de la imputación de indecisos, este modelo está preentrenado. El preentrenamiento del modelo con la base de datos histórica (con especial atención puesta en los barómetros preelectorales) nos permite capturar las relaciones y patrones subyacentes entre las variables independientes y la probabilidad de votar de cada entrevistado. Utilizamos un modelo preentrenado debido a la ausencia de la variable “escala de probabilidad de votar (0-10)” en muchos barómetros del CIS. Por tanto, el modelo se entrena con todos los barómetros que incluyan esta información y predice la probabilidad de participar de cada individuo en cualquier nuevo estudio. Este modelo tiene 2 virtudes:
    1. Las probabilidades son individuales, por lo que nos permite conocer qué segmentos de la población (por edad, ideología o renta, por ejemplo) son más proclives de ir a votar.
    2. Es un modelo probabilístico, por lo que los resultados que arroja están sujetas a una distribución de la probabilidad. Esto es, ofrece distintos escenarios de participación.
En PrecisaResearch estamos trabajando en distintos modelos de partición, por lo que no descartamos usar varios modelos ensamblados en las futuras actualizaciones.

Es una herramienta interactiva que permite explorar tendencias de opinión pública para las elecciones generales a lo largo de las última décadas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *