// modelos

Modelos abiertos.
Resultados de frontera.

La frontera open ya cubre el trabajo real de las empresas: recuperación, código, agentes, extracción. Más del 80% de las tareas se pueden hacer con modelos open con el mismo resultado y mucho menor coste.

// el 80 / 20

Los modelos abiertos cubren el 80% de la inferencia enterprise.

El trabajo que mueve el negocio (RAG, clasificación, text-to-speech, asistentes internos) lo resuelven hoy los modelos open-weight. Deja solo ese 20% para el trabajo de los modelos de frontera.

El 80% — abierto, privado, tarifa plana
  • RAG sobre conocimiento interno
  • Clasificación y enrutado
  • Generación y revisión de código
  • Asistentes internos y copilotos
  • Extracción de documentos
  • Resúmenes
  • Traducción
  • Agentes autónomos
El 20% — labs cerrados de frontera

Razonamiento puntero en el límite mismo de la capacidad. Real, pero específico — y rara vez la carga que un equipo regulado necesita mantener en casa. Preferimos ser honestos con ese límite a fingir que no existe.

// benchmark · artificial analysis

Inteligencia de frontera, precios open-weight.

El Artificial Analysis Intelligence Index es un compuesto de nueve evaluaciones exigentes — GPQA Diamond, SciCode, Terminal-Bench, Humanity's Last Exam y más. Los modelos open-weight ya están justo por debajo de la frontera cerrada — y el que corre Helmcode cuesta céntimos.

Claude Fable 5 Anthropic 60
Claude Opus 4.8 Anthropic 56 $5.00 / $25.00
GPT-5.5 OpenAI 55 $5.00 / $30.00
GLM-5.2 Z.AI open 51 $1.40 / $4.40
DeepSeek V4 Pro DeepSeek open 44 $0.43 / $0.87
MiMo V2.5 Xiaomi on helmcode 42 $0.44 / $0.87
DeepSeek V4 Flash DeepSeek on helmcode 40 $0.14 / $0.28
Qwen3.6 35B Alibaba on helmcode 32 $0.25 / $1.49
Gemma 4 26B Google on helmcode 26 $0.13 / $0.40

GLM-5.2 lidera los 92 modelos open-weight con 51 — a tiro de Claude Opus 4.8 (56) y GPT-5.5 (55). Los modelos que corre Helmcode van justo detrás: MiMo V2.5 (42), DeepSeek V4 Flash (40), Qwen3.6 35B (32) y Gemma 4 26B (26). DeepSeek V4 Flash marca 40 a $0.14 / $0.28 por millón de tokens — frente a los $5.00 / $25.00 de Opus 4.8, eso es ~35x más barato para lectura y ~90x para escritura, con el 67% de la inteligencia del líder del índice.

Fuente: artificialanalysis.ai · Intelligence Index v4.1 · June 2026 · compuesto de 9 evaluaciones · precio = API de primera parte, por 1M tokens (input · output). Las filas marcadas on helmcode — MiMo V2.5, DeepSeek V4 Flash, Qwen3.6 35B y Gemma 4 26B — corren en Helmcode. GLM-5.2 y DeepSeek V4 Pro son open-weight pero no están en la plataforma.

// probado en producción

Los benchmarks son una cosa. El tráfico, otra.

El argumento no es teórico. En la propia plataforma, casi toda la inferencia ya corre en modelos abiertos — y la mayoría en uno solo de 35B.

333.8B

Tokens en producción

acumulado

76%

Corre en Qwen 3.6 (35B)

el caballo de batalla abierto

99.5%

De tokens en modelos abiertos

tráfico LLM

Ver los números en vivo en OpenData

// el lineup

Lo que de verdad mueve el 80%.

Los cuatro modelos de lenguaje, ordenados por cuota real de tokens en producción. Un modelo abierto de 35B absorbe la mayor parte — el resto entra para razonamiento, escala y multimodal.

qwen3.6 35B MoE · 256K ctx 76.1% RAG de alto volumen, clasificación, código
deepseek-v4-flash 284B MoE · 1M ctx 12.4% Razonamiento, agentes, contexto largo
mimo-v2.5 310B MoE · 1M ctx 8.6% Multimodal — visión + audio + texto
gemma4 26B MoE · 256K ctx 2.4% Asistentes eficientes, documentos

Más embeddings y reranking (qwen3-embedding, rerank) y voz (kokoro, whisper-large-v3) — nueve modelos en una API. Referencia completa de modelos →

// faq de modelos

Modelos abiertos, respondidos.

Las preguntas que todo CTO hace antes de confiar en pesos abiertos en producción.

¿Son los modelos abiertos lo bastante buenos?

Para el trabajo del día a día de las empresas — sí. En el Intelligence Index de Artificial Analysis, GLM-5.2 es el #1 de 92 modelos open-weight, justo por debajo de la frontera cerrada — y el modelo que corremos, DeepSeek V4 Flash, da en torno a dos tercios de la inteligencia del líder por céntimos por millón de tokens. En producción, el 99,5% de los tokens en Helmcode ya pasan por modelos abiertos. La brecha restante es un conjunto estrecho de tareas de frontera que la mayoría de equipos no necesitan.

¿Qué modelo conviene usar?

Empezar con Qwen 3.6 — absorbe tres cuartas partes del tráfico de producción y es el camino más rápido y barato para RAG, clasificación y código. Para razonamiento difícil, agentes o contexto de 1M tokens, DeepSeek V4-Flash. Para entrada multimodal, MiMo. Misma API, solo cambia el id del modelo.

¿Y el 20% que de verdad necesita GPT-5?

Existe, y es más específico de lo que se asume — razonamiento de frontera en el límite mismo de la capacidad. Helmcode es honesto con ese límite: cubrimos el 80% que mueve el negocio, en privado y a tarifa plana, no la última milla del leaderboard.

¿Cómo de actuales son estos benchmarks?

Las cifras son scores publicados a junio de 2026 — modelos abiertos servidos en Helmcode, cifras de los cerrados según cada proveedor. Los benchmarks cambian en cada release; hay que tratarlos como direccionales. Lo que no cambia es dónde se procesan los datos: siempre la UE, siempre sin logs.

¿Se puede correr un modelo que no esté en la lista?

En los planes Dedicated y On-premise, sí — modelos open-weight custom o fine-tuned en hardware reservado. El cluster Shared sirve el lineup curado de arriba.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.