Modelos

La verificación formal regresa para salvar a la IA de sus alucinaciones

Pramaana y Probably recaudan mientras KPMG retira un informe por errores propios.

Esta semana, KPMG retiró un informe sobre uso de IA después de descubrir que contenía alucinaciones generadas por los propios modelos que el informe pretendía analizar. La ironía sería cómica si no señalara algo más profundo: las herramientas que las consultoras usan para producir conocimiento no son lo suficientemente confiables para producir conocimiento. Y el mercado empieza a tomar nota con dinero real.

El momento en que KPMG se mordió la cola

La firma retiró el informe, pero el daño epistemológico es más amplio que un documento mal revisado. KPMG lleva años vendiendo consultoría de IA a clientes que ahora ven cómo uno de sus informes estrella cae por un problema elemental de fiabilidad. No es un caso aislado: una semana de fallos institucionales de IA mostró el mismo patrón en PwC y en una unidad policial. El mensaje involuntario es claro: si las firmas más sofisticadas en adopción de IA no pueden garantizar la veracidad de sus propios outputs, ¿qué garantías puede ofrecer el sector a los usuarios finales?

La respuesta habitual a este problema es más supervisión humana. Pero la supervisión humana no escala: no podés contratar un equipo de verificación para cada párrafo que genera un modelo en producción. El problema no es de proceso; es estructural. Los modelos de lenguaje grandes están diseñados para producir texto coherente y convincente, no texto verdadero. Esa distinción, que los investigadores conocen bien, está llegando ahora al público corporativo con el peso de un informe retirado.

El capital apuesta a la verificación matemática

La respuesta del venture capital a esta crisis de fiabilidad no es escalar más supervisión humana: es volver a fundamentos de las ciencias de la computación que llevan décadas sin salir en portada. Pramaana Labs acaba de cerrar $27 millones con Khosla Ventures para traer verificación formal a sectores donde el error tiene consecuencias reales: derecho, descubrimiento de fármacos y preparación de impuestos.

La verificación formal es una disciplina de las matemáticas de la computación que permite demostrar, con certeza matemática, que un sistema se comporta de determinada manera ante determinadas condiciones. No es nueva —tiene más de 40 años de historia en sistemas críticos como aviónica y criptografía— pero nunca había encontrado un mercado masivo. La IA cambia eso: por primera vez, hay aplicaciones de lenguaje con consecuencias legales y médicas que justifican el costo de la verificación formal.

Probably, con $9 millones recaudados, apunta al mismo problema desde un ángulo diferente: en vez de verificar formalmente el comportamiento del modelo, busca alcanzar precisión comparable a la de sistemas deterministas mediante métodos probabilísticos más robustos. El objetivo es que los errores factuales no lleguen al usuario final, no que se los detecte después de que llegaron.

Por qué estos dos modelos son complementarios, no competidores

Pramaana y Probably no están atacando el mismo mercado: están en extremos distintos del espectro de confiabilidad. Pramaana busca certeza matemática en un conjunto acotado de tareas de alto riesgo —un análisis legal, una molécula candidata, una declaración de impuestos—. Probably busca reducir la tasa de error en aplicaciones de uso más amplio, donde la certeza absoluta no es técnicamente posible, pero la precisión sí es medible y exigible.

Juntos, dibujan un mapa de cómo podría verse la IA de segunda generación: no más grande, sino más verificable. No más parámetros, sino más garantías. Esta es la dirección contraria a la que apuntó el mercado los últimos tres años, que apostó casi exclusivamente a escalar modelos fundacionales y dejar que la fiabilidad se resolviera en post-procesamiento.

Lo que conviene hacer a partir de ahora

Para cualquier organización que use IA en producción para tareas de alto impacto —análisis legal, revisión médica, preparación fiscal, auditoría financiera—, la pregunta correcta ya no es solo «¿cuál modelo da mejores resultados en el benchmark?» sino «¿qué nivel de error es aceptable en este caso de uso, y qué arquitectura puede garantizarlo contractualmente?» El problema ya quedó documentado: el costo de calibrar guardrails en producción suele ser más alto de lo que las estimaciones iniciales contemplan.

Los próximos movimientos a seguir: si otras firmas de auditoría enfrentan situaciones similares a KPMG (la presión reputacional ya existe en todo el sector), si Pramaana entra en pilotos con firmas legales o farmacéuticas en los próximos meses, y si Khosla Ventures suma más apuestas al segmento de IA verificable. El paradigma de «suficientemente bueno» está bajo presión, y los primeros grandes contratos en sectores regulados van a acelerar esa revisión.

Fuentes citadas (3)

NEA’s Tiffany Luck says enterprises are still figuring out their AI ROI· 17-jun-2026
Pinterest launches an experimental AI shopping app called ‘Ask Pinterest’· 17-jun-2026
Sarvam becomes India’s newest AI unicorn with $234 million funding round led by HCLTech· 15-jun-2026