Resumen
Los avances recientes en tecnologías de sensores e IoT permiten mediciones de calidad del aire más densas y móviles. Estas mediciones todavía son escasas en el espacio y el tiempo a nivel de ciudad, pero pueden ser interpoladas utilizando técnicas basadas en datos. Este trabajo presenta los resultados de validación de dos modelos de aprendizaje automático para inferir datos de sensores de calidad del aire tanto en el espacio como en el tiempo. Los ejercicios de validación temporal se realizan en estaciones de monitoreo regulatorias disponibles siguiendo el protocolo FAIRMODE. Ambos modelos muestran escalabilidad para diferentes conjuntos de datos móviles con un rendimiento de predicción comparable para PM2.5 (R2 = 0.68–0.75, MAE = 2.99–2.82 μg m−3) y NO2 (R2 = 0.8–0.82, MAE = 8.81–9.83 μg m−3) en Utrecht y Amberes. En Oakland (Atlanta), observamos un rendimiento más bajo para NO2 (R2 = 0.46–0.41, MAE = 4.06–5.07) y BC (R2 = 0.31–0.28, MAE = 0.48–0.27), probablemente causado por una cobertura de monitoreo menos representativa. Aunque comparables en términos de rendimiento de predicción, el modelo de Bosque Aleatorio Geográfico (GRF) parece lograr una precisión ligeramente mejor, mientras que las correlaciones suelen ser más altas en el modelo de Codificador Automático de Grafo Variacional del Aire (AVGAE). Este trabajo demuestra el potencial de las técnicas basadas en datos para la inferencia espaciotemporal de la calidad del aire a partir de datos de sensores complementarios. Las métricas de rendimiento observadas se acercan a los modelos actuales de transporte químico de última generación en términos de rendimiento, mientras que requieren muchos menos recursos, poder computacional, infraestructura y tiempo de procesamiento.

