// modelos

Modelos abiertos.
Resultados de frontera.

La frontera open ya cubre el trabajo real de las empresas: recuperación, código, agentes, extracción. Comparados con los labs cerrados, probados en producción, servidos solo desde la UE.

ver_benchmarks

// el 80 / 20

Los modelos abiertos cubren el 80% de la inferencia enterprise.

El trabajo que mueve el negocio (RAG, clasificación, generación de código, asistentes internos) lo resuelven hoy los modelos open-weight. El 20% donde de verdad necesitas un modelo cerrado de frontera es más estrecho de lo que parece.

El 80%, abierto, privado, tarifa plana

RAG sobre conocimiento interno
Clasificación y enrutado
Generación y revisión de código
Asistentes internos y copilotos
Extracción de documentos
Resúmenes
Traducción
Agentes autónomos

El 20%, labs cerrados de frontera

Razonamiento puntero en el límite mismo de la capacidad. Real, pero específico, y rara vez la carga que un equipo regulado necesita mantener en casa. Preferimos ser honestos con ese límite a fingir que no existe.

// benchmark · artificial analysis

Inteligencia de frontera, precios open-weight.

El Artificial Analysis Intelligence Index es un compuesto de nueve evaluaciones exigentes: GPQA Diamond, SciCode, Terminal-Bench, Humanity's Last Exam y más. Los modelos open-weight ya están justo por debajo de la frontera cerrada.

Claude Fable 5 Anthropic 60 N/A

Claude Opus 4.8 Anthropic 56 $5.00 / $25.00

GPT-5.5 OpenAI 55 $5.00 / $30.00

GLM-5.2 Z.AI open 51 $1.40 / $4.40

DeepSeek V4 Pro DeepSeek open 44 $0.43 / $0.87

DeepSeek V4 Flash DeepSeek on helmcode 40 $0.14 / $0.28

Qwen3.6 35B Alibaba on helmcode 32 $0.25 / $1.49

Gemma 4 26B Google on helmcode 26 $0.13 / $0.40

GLM-5.2 lidera los 92 modelos open-weight con 51, a tiro de Claude Opus 4.8 (56) y GPT-5.5 (55). Los modelos que corre Helmcode van justo detrás: DeepSeek V4 Flash (40), Qwen3.6 35B (32) y Gemma 4 26B (26). DeepSeek V4 Flash marca 40 a $0.14 / $0.28 por millón de tokens, frente a los $5.00 / $25.00 de Opus 4.8, eso es ~35x más barato para lectura y ~90x para escritura, con el 67% de la inteligencia del líder del índice.

Fuente: artificialanalysis.ai · Intelligence Index v4.1 · June 2026 · compuesto de 9 evaluaciones · precio = API de primera parte, por 1M tokens (input · output). Las filas marcadas on helmcode, DeepSeek V4 Flash, Qwen3.6 35B y Gemma 4 26B, corren en Helmcode. GLM-5.2 y DeepSeek V4 Pro son open-weight pero no están en la plataforma.

// probado en producción

Los datos en producción.

En la propia plataforma, casi toda la inferencia ya corre en modelos abiertos, y la mayoría en uno solo de 35B.

333.8B

Tokens en producción

acumulado

76%

Corre en Qwen 3.6 (35B)

el caballo de batalla abierto

99.5%

De tokens en modelos abiertos

tráfico LLM

Ver los números en vivo en OpenData

// el lineup

Lo que de verdad mueve el 80%.

Los tres modelos de lenguaje, ordenados por cuota real de tokens en producción. Un modelo abierto de 35B absorbe la mayor parte, el resto entra para razonamiento, escala y multimodal.

qwen3.6 35B MoE · 256K ctx RAG de alto volumen, clasificación, código

deepseek-v4-flash 284B MoE · 1M ctx Razonamiento, agentes, contexto largo

gemma4 26B MoE · 256K ctx Asistentes eficientes, documentos

Más embeddings y reranking (qwen3-embedding, rerank) y voz (kokoro, whisper-large-v3), ocho modelos en una API. Referencia completa de modelos →

// faq de modelos

Modelos abiertos, respondidos.

Las preguntas que todo el mundo nos hace antes de confiar en modelos abiertos en producción.

¿Son los modelos abiertos lo bastante buenos?

Para el trabajo del día a día de las empresas, sí. En el Intelligence Index de Artificial Analysis, GLM-5.2 es el #1 de 92 modelos open-weight, justo por debajo de la frontera cerrada, y el modelo que corremos, DeepSeek V4 Flash, da en torno a dos tercios de la inteligencia del líder por céntimos por millón de tokens. En producción, el 99,5% de los tokens en Helmcode ya pasan por modelos abiertos. La brecha restante es un conjunto estrecho de tareas de frontera que la mayoría de equipos no necesitan.

¿Qué modelo conviene usar?

Empieza con Qwen 3.6: absorbe tres cuartas partes del tráfico de producción y es el camino más rápido y barato para RAG, clasificación y código. Para razonamiento difícil, agentes o contexto de 1M tokens, DeepSeek V4-Flash. Para entrada de imagen y audio, Qwen 3.6 y Gemma 4 son multimodales. Misma API, solo cambia el id del modelo.

¿Y el 20% que de verdad necesita GPT-5?

Existe, y es más específico de lo que se asume: razonamiento de frontera en el límite mismo de la capacidad. Helmcode es honesto con ese límite: cubrimos el 80% que mueve el negocio, en privado y a tarifa plana, no la última milla del leaderboard.

¿Cómo de actuales son estos benchmarks?

Las cifras son puntuaciones publicadas a junio de 2026: modelos abiertos servidos en Helmcode, cifras de los cerrados según cada proveedor. Los benchmarks cambian en cada release; conviene tratarlos como direccionales. Lo que no cambia es dónde se procesan los datos: siempre la UE, siempre sin logs.

¿Se puede correr un modelo que no esté en la lista?

En los planes Dedicated y On-premise, sí, modelos open-weight custom o fine-tuned en hardware reservado. El cluster Shared sirve el lineup curado de arriba.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.

reservar_llamada

Modelos abiertos.Resultados de frontera.