
Evaluar subvenciones con IA: cinco escenarios
La evaluación de memorias técnicas en convocatorias de subvenciones es un proceso intensivo, repetitivo y expuesto a variabilidad humana. La inteligencia artificial ofrece una oportunidad real de mejorar la consistencia, la velocidad y la trazabilidad de este proceso, pero no existe una única solución válida para todos los contextos.
En este artículo presentamos cinco escenarios de implementación, ordenados de menor a mayor complejidad, junto con un análisis transversal de los retos comunes que cualquier solución deberá afrontar.
Escenario 1 — Evaluación asistida con prompts
Descripción
El usuario utiliza un conjunto estructurado de prompts, diseñados y validados internamente, para evaluar cada memoria con ayuda de una herramienta de IA genérica (Claude, ChatGPT, Microsoft Copilot). No hay automatización ni integración tecnológica: el valor está en el procedimiento, no en la plataforma. El usuario copia el contenido relevante de la memoria, aplica el prompt correspondiente a cada criterio y registra manualmente el resultado.
Este escenario no es simplemente "usar IA de forma informal". Su utilidad depende de que los prompts estén bien diseñados, sean compartidos entre el equipo y se apliquen de forma consistente, casi como un procedimiento interno normalizado.
Cuándo tiene sentido
Como punto de partida para cualquier organización que quiera entender qué puede aportar la IA antes de hacer ninguna inversión. También como ejercicio previo e imprescindible para cualquiera de los escenarios siguientes: el proceso de escribir buenos prompts obliga a formalizar los criterios de evaluación con una precisión que a menudo no existe todavía.
Auditabilidad y trazabilidad
Muy limitada. Depende enteramente de la disciplina del revisor. Si el técnico guarda el input y el output de cada evaluación como parte del expediente, existe un rastro mínimo. Sin ese protocolo manual, no hay trazabilidad. No es adecuado como solución definitiva.
Ventajas
- Coste cero de implementación
- Implementable en horas
- Homogeneiza el criterio entre revisores si se aplica de forma disciplinada
- Prepara el terreno conceptual para escenarios más avanzados
Limitaciones
- Totalmente dependiente de la disciplina individual del revisor
- Sin estructura tecnológica que lo soporte, la consistencia se degrada con el tiempo
- Trazabilidad casi nula sin protocolo manual de guardado
- No escala con el volumen
Escenario 2 — Agente en plataforma existente (Claude / ChatGPT / Copilot)
Descripción
El revisor sube directamente el PDF de la memoria técnica a una plataforma de IA conversacional (como Claude.ai o Microsoft Copilot). El agente, configurado previamente con la rúbrica de la convocatoria, lee el documento, aplica los criterios y devuelve una ficha de puntuación con justificaciones. El revisor valida y firma.
Cuándo tiene sentido
Cuando se quiere validar el concepto rápidamente, sin inversión tecnológica ni dependencia de un equipo IT.
Auditabilidad y trazabilidad
Limitada. Las conversaciones quedan en la plataforma del proveedor, pero no hay un sistema estructurado de registro. Reconstruir el historial de una evaluación concreta puede ser difícil. No es adecuado como solución definitiva en un entorno de Administración pública donde la trazabilidad es un requisito.
Ventajas
- Implementación en días
- Sin coste de desarrollo
- Permite aprender qué funciona antes de invertir más
Limitaciones
- La rúbrica debe actualizarse manualmente en cada convocatoria
- No escala bien con múltiples revisores trabajando en paralelo
- Auditoría incompleta
- Los datos de los expedientes pasan por servidores externos
Escenario 3 — Flujo automatizado sobre infraestructura existente
Descripción
Cuando un revisor sube un PDF a una carpeta o sistema de gestión documental, un flujo automatizado se activa: lee la rúbrica de la convocatoria, llama a un modelo de IA y escribe los resultados en un formato estructurado y compartido.
Lo que diferencia este escenario del anterior no es la tecnología concreta, sino el hecho de que el proceso se automatiza: el revisor recibe el resultado, no tiene que generarlo.
En el contexto de la Administración pública española, donde Microsoft 365 está ampliamente implantado, este escenario se puede implementar de forma natural con Power Automate para la orquestación y Azure OpenAI como modelo de IA, con los resultados volcados en SharePoint o Excel. No requiere adquirir nueva infraestructura. Para organizaciones que prefieran herramientas independientes de Microsoft, existen alternativas como Make o n8n que ofrecen capacidades equivalentes de automatización y pueden conectarse a diferentes modelos de IA.
Cuándo tiene sentido
Cuando se ha validado el modelo de evaluación (Escenarios 0 y 1) y se quiere dar un paso hacia la consistencia y la escala sin acometer un desarrollo de software a medida.
Auditabilidad y trazabilidad
Media-alta. El sistema de gestión documental (SharePoint u equivalente) ofrece control de versiones y registro de accesos. Los resultados quedan almacenados con fecha y autoría. Es posible reconstruir qué modelo evaluó qué memoria y con qué rúbrica, siempre que el flujo esté bien diseñado desde el inicio. Es una solución válida para Administración pública si se complementa con políticas de retención y acceso bien definidas.
Ventajas
- Aprovecha infraestructura ya existente en la mayoría de AAPP
- Reduce la dependencia de la disciplina individual
- Varios revisores pueden trabajar en paralelo
- Historial y trazabilidad en el sistema documental
Limitaciones
- Requiere un perfil IT para la configuración inicial
- La adaptación a distintos tipos de convocatoria debe validarse
- No genera informes de resolución oficial de forma nativa
- Los datos siguen pasando por servidores de un proveedor externo. En el caso de Azure OpenAI, es posible configurar el despliegue en regiones de la UE con residencia del dato y sin uso del contenido para entrenamiento

Escenario 4 — Plataforma de evaluación propia
Descripción
Una aplicación web diseñada específicamente para este proceso. Gestiona convocatorias, expedientes y revisores. La IA puntúa cada memoria automáticamente, el revisor valida en pantalla y el sistema genera el informe de resolución oficial. Todo queda registrado y es auditable.
Cuándo tiene sentido
Cuando el volumen de convocatorias y memorias justifica la inversión, y cuando la organización necesita garantías completas de auditoría, interoperabilidad con otros sistemas y control total sobre el proceso.
Auditabilidad y trazabilidad
Alta. Permite una auditoría completa y exportable: qué criterios se aplicaron, qué puntuación propuso la IA, qué modificó el revisor humano y cuándo. Diseñada para cumplir con los requisitos de transparencia y rendición de cuentas propios de la Administración pública. Los datos pueden alojarse en infraestructura propia o en nube soberana europea.
Ventajas
- Diseñada específicamente para este proceso
- Auditoría completa, exportable e integrable con otros sistemas
- Escala a múltiples convocatorias y equipos
Limitaciones
- Requiere inversión económica y tiempo de desarrollo (meses)
- Necesita mantenimiento continuo
- Mayor dependencia del proveedor tecnológico si no se construye con estándares abiertos
Escenario 5 — Modelo propio entrenado y desplegado en local
Descripción
En lugar de utilizar modelos de IA genéricos de proveedores externos, la organización desarrolla y despliega su propio modelo de evaluación, tomando como base un modelo de lenguaje open source (como LLaMA o Mistral) y proporcionarle la rúbrica como contexto en cada evaluación, o ajustarlo con evaluaciones históricas reales para afinar su criterio. Todo el procesamiento ocurre en infraestructura local o en una nube soberana controlada por la propia Administración, ningún dato sale del entorno.
Cuándo tiene sentido
Cuando la confidencialidad de los expedientes es un requisito no negociable, cuando la organización quiere independencia total de proveedores externos, o cuando el volumen y la madurez del proceso justifican la inversión en capacidades propias. También es relevante en el contexto de las iniciativas europeas de soberanía digital y trustworthy AI.
Auditabilidad y trazabilidad
Muy alta en potencial, exigente en ejecución. Al tener control total sobre el modelo y la infraestructura, es posible diseñar un sistema de auditoría exhaustivo: versiones del modelo, criterios aplicados, trazabilidad de cada decisión. Sin embargo, construir esa auditoría de forma rigurosa es responsabilidad interna, no viene dada por el proveedor. Requiere un esfuerzo explícito de AI governance.
Ventajas
- Los datos nunca salen de la organización
- Independencia total de proveedores externos
- El modelo puede afinarse con el tiempo con datos reales de la organización
- Alineación con marcos europeos de soberanía e IA de confianza
- Mayor control sobre sesgos y comportamiento del modelo
Limitaciones
- Requiere un equipo técnico especializado (ingeniería de datos, MLOps)
- Infraestructura local con capacidad de cómputo significativa
- El mantenimiento y actualización del modelo es responsabilidad interna
- Validar y controlar sesgos sin el soporte de un proveedor es más complejo
- El tiempo hasta tener algo operativo es el más largo de todos los escenarios
Retos transversales
Estos son los retos que cualquier implementación deberá resolver, independientemente del escenario elegido. Conviene abordarlos antes de tomar decisiones tecnológicas.
1. Definición de los criterios de evaluación
La IA evalúa tan bien como lo hacen los criterios que se le dan. Si la rúbrica es ambigua, subjetiva o incompleta, la IA amplificará esa ambigüedad en lugar de resolverla. Es necesario invertir tiempo en formalizar los criterios de forma precisa, con ejemplos de puntuaciones altas, medias y bajas para cada dimensión. Este trabajo es previo a cualquier desarrollo tecnológico y es probablemente el más importante.
2. Validación de la calidad de la evaluación
Antes de confiar en la IA hay que demostrar que evalúa bien, y eso no es evidente ni se resuelve de una sola vez. La validación no es un trámite previo al despliegue, sino un control continuo: el modelo, la rúbrica y los tipos de convocatoria cambian con el tiempo, y los modelos de proveedores externos se actualizan sin aviso, de modo que un sistema que funcionaba bien puede degradarse sin que nadie lo perciba.
La recomendación es construir un conjunto de memorias ya evaluadas por personas que sirva de referencia, comparar periódicamente las puntuaciones de la IA con las humanas y medir el grado de acuerdo a lo largo del tiempo, no solo al inicio.
3. Control de sesgos
Un sistema de IA puede replicar o incluso reforzar sesgos presentes en evaluaciones anteriores. Algunas medidas de mitigación: separar criterios objetivos de subjetivos, establecer revisión humana obligatoria, y auditar periódicamente si ciertos tipos de entidades o sectores reciben puntuaciones sistemáticamente distintas.
4. El humano en el bucle
En ninguno de los cinco escenarios la IA toma la decisión final. El técnico gestor siempre tiene la última palabra. Esto no es solo una garantía legal, es también la forma de mejorar el sistema con el tiempo. Es importante diseñar los flujos de trabajo para que esta validación humana sea cómoda y esté bien registrada.
5. Adaptación a distintos tipos de convocatoria
Las convocatorias varían enormemente en criterios, formato de memorias y pesos de cada dimensión. Es recomendable comenzar con una sola línea de actuación como piloto, validar los resultados y escalar de forma progresiva.
6. Transparencia ante el ciudadano
En la Administración pública, las resoluciones deben ser justificables y recurribles. Si la IA genera una puntuación, el expediente debe recoger de forma legible qué criterios se aplicaron y por qué.
7. Marco regulatorio: clasificación de riesgo y seguridad
Antes de cualquier despliegue deben analizarse dos marcos. El Reglamento Europeo de IA obliga a determinar si el sistema es de alto riesgo, algo probable cuando la convocatoria afecta a personas físicas, con las consiguientes obligaciones reforzadas; la supervisión humana es necesaria, pero no exime por sí sola de cumplirlas. El Esquema Nacional de Seguridad (ENS), por su parte, se aplica a cualquier sistema que trate expedientes públicos y condiciona dónde y cómo se alojan y procesan los datos. En ambos casos la valoración corresponde al servicio jurídico y de seguridad, y debe hacerse antes de elegir la tecnología.
Los cinco escenarios no son alternativas excluyentes, sino etapas de una progresión. Lo razonable es empezar por los escenarios 1 y 2 para formalizar criterios y validar el concepto con bajo coste; consolidar en el escenario 3 cuando el modelo de evaluación ya esté probado; y reservar los escenarios 4 y 5 para cuando el volumen, los requisitos de auditoría o la confidencialidad lo justifiquen. La inversión más rentable, en cualquier caso, no es tecnológica: es la definición precisa de los criterios de evaluación y la validación de que la IA puntúa de forma fiable.



