Cohere entró al terreno de los coding agents con una apuesta muy concreta: North Mini Code, publicado el 10 de junio de 2026 por Cohere y Cohere Labs. Es un modelo Mixture-of-Experts de 30B parámetros totales que activa 3B por token, disponible en Hugging Face bajo Apache 2.0.

Lo interesante no es solo el tamaño. Es el enfoque. Cohere lo presenta como su primer modelo para desarrolladores, optimizado para generación de código, tareas terminal-based y software engineering agentic. En un mercado lleno de modelos que "también programan", esa precisión importa.

Pipeline editorial con entrenamiento RLVR, tareas verificables en terminal y repositorios usados para evaluar un coding agent

Por qué el MoE cambia la conversación

Un modelo de 30B denso puede ser caro de servir si lo quieres dentro de un agente que hace muchos pasos. North Mini Code intenta otra ruta: mantener capacidad total alta, pero activar solo una fracción en cada token. La model card lo resume como 30B-A3B y documenta contexto de hasta 256K, con salida máxima de 64K.

Para un coding agent, eso no es un detalle académico. Un agente que arregla un bug puede necesitar leer issues, navegar el repo, ejecutar tests, editar varios archivos, interpretar fallos y reintentar. Si cada paso es lento o caro, el flujo deja de ser práctico.

Cohere dice que North Mini Code está pensado para despliegues soberanos, on-prem o locales. Esa palabra "soberano" no es marketing vacío para ciertos equipos: bancos, gobierno, salud, defensa, empresas con repos privados sensibles y consultoras que no pueden mandar todo su código a cualquier proveedor tienen una razón real para buscar modelos abiertos.

Entrenamiento orientado a agentes, no solo a benchmarks

El post técnico en Hugging Face baja detalles útiles. Cohere entrenó North Mini Code con una mezcla de programación, razonamiento e instruction following. Reporta que, en la primera etapa SFT, 70% de los tokens entrenables eran de código, 43% de datos de tool-use agentic y 27% de programación competitiva o científica single-turn.

La segunda etapa subió el foco: una mezcla de 4.5B tokens de muestras agentic y de razonamiento, con 61% de tokens de código. Luego vino RLVR, reinforcement learning con recompensas verificables, sobre tareas de software engineering y terminal.

Eso importa porque muchos modelos de código se ven bien cuando responden snippets aislados, pero fallan cuando el agente debe coordinar pasos. Cohere afirma que entrenó con múltiples scaffolds en vez de optimizar para uno solo, justo para que el modelo sea más robusto en harnesses reales como OpenCode.

Tablero editorial comparando harnesses, latencia, tareas verificables y resultados de coding agents

Qué deberías validar antes de adoptarlo

No basta con instalar el modelo y declarar independencia. Yo miraría cuatro cosas:

Latencia por trayectoria completa, no solo tokens por segundo.
Calidad con tu harness, porque el prompt, el formato de tool calls y el sistema de archivos cambian resultados.
Costo de contexto largo, especialmente si tu agente mete medio monorepo en cada intento.
Tasa de patches ejecutables, medida con tus tests y no con ejemplos bonitos.

También pondría una prueba de regresión contra tu stack actual: mismo issue, mismo repo, mismo presupuesto de pasos, misma política de permisos. Si North Mini Code produce más intentos inválidos o necesita demasiados reintentos, el ahorro de inferencia puede desaparecer.

La conclusión útil es esta: North Mini Code no compite solo como otro modelo de código; compite como pieza de infraestructura para equipos que quieren correr coding agents con más control sobre pesos, datos, latencia y costo. Si todavía estás ordenando cómo trabajar con agentes antes de cambiar modelos, empieza por Instala Tu Propio Agente de IA y mide primero el flujo completo.