NaN: el primer mes de la comunidad en números

117 mil millones de tokens, 3,68 millones de requests, 21 países y 99,98% de uptime. NaN es la comunidad una comunidad de builders con infraestructura de inferencia propia y con una plataforma privada para desplegar apps y agentes.

El día 17 de Mayo se cumplió el primer mes de la plataforma y en este post vamos a ver como ha sido todo en números.

Ventana de Datos: 30 días (17/04/2026 → 17/05/2026)

1. La magnitud

En 30 días NaN sirvió:

MétricaValor
Requests exitosos3.678.787 (≈ 3,68 M)
Tokens totales117.674.297.968 (≈ 117,7 B)
Tokens de input116.222.578.716
Tokens de output1.451.719.252
Tokens de embeddings697.810.776
Días con tráfico continuo31 / 31

Más de 117 mil millones de tokens generados. Aproximadamente el equivalente a leer 235.000 copias completas del Quijote en un mes.

2. La comunidad

De momento el registro a la comunidad se lleva a través de una waitlist que en el último mes no ha parado de crecer. Este son los números:

EstadoMembers
Apuntados a la waitlist1.027
En waitlist actualmente151
Suscritos305

Casi un cuarto de los que se han apuntado a la waitlist han terminado entrando en la comunidad.

Distribución geográfica

NaN ha sido utilizado desde 21 países. El top del mapa quedó así:

País% requests
🇨🇴 Colombia30,38 %
🇲🇽 México21,95 %
🇪🇸 España15,10 %
🇺🇸 USA13,05 %
🇫🇮 Finlandia6,96 %
🇫🇷 Francia4,07 %
🇩🇪 Alemania3,06 %
🇨🇦 Canadá1,35 %
🇵🇱 Polonia1,33 %
🇦🇷 Argentina1,31 %
Resto (11 países)1,43 %

LATAM + España suman el 67 % del tráfico. Es predominantemente una plataforma hispanohablante de coding agents, con presencia real en Colombia, México, España, Argentina, Ecuador, Perú, Uruguay, Chile, Puerto Rico y El Salvador.

3. El ahorro real

Si los mismos 115,5 B tokens de input + 1,45 B de output (chat completions) hubieran pasado por proveedores cerrados, la factura del mes sería:

Proveedor (precio in/out por 1M tokens)Coste equivalente (30 días)
Claude Sonnet 4 ($3 / $15)$368.374 USD
GPT-4o ($2,50 / $10)$303.348 USD
Gemini 2.5 Pro ($1,25 / $10)$158.935 USD
DeepSeek V3 ($0,27 / $1,10)$32.791 USD
GPT-4o-mini ($0,15 / $0,60)$18.201 USD

Dependiendo del modelo, de haber usado un proveedor privado habríamos gastado entre ~$18K y +$360K.

Lo que se ahorra cada usuario

Tipo de usuarioTokens/mesVale en Claude Sonnet 4Vale en GPT-4oPaga en NaN
P50 (mediano)112,6 M$347,13$287,3670€ / $75
P90 (power user)1,11 B$3.509,97$2.869,7170€ / $75

35 miembros superaron los 1.000 millones de tokens en el mes.

El usuario típico de NaN ya consume entre $287 y $347 USD/mes de valor equivalente a GPT-4o o Claude Sonnet 4. El 10 % más activo está entre $2.800 y $3.500 USD/mes de valor equivalente. Todos pagan lo mismo: 70€ o $75 dependiendo de la región.

4. Performance

La sección de la que más orgullosos estamos del primer mes.

MétricaValor
Uptime (descontando errores de cliente)99,986 %
Success rate global99,556 %
Errores 5xx propios505 / 3.695.485 (0,014 %)
Errores 4xx del cliente13.378 (0,36 %)

Throughput agregado

MétricaValor
Tokens/segundo (avg sostenido)~46.056
Tokens/segundo (pico)285.270
Tokens/minuto (pico)17.116.195

Latencia (chat completions, vista del usuario)

MétricaValor
TTFT (time to first token) P501.013 ms
TTFT P9521.066 ms
Duración total request P502.660 ms
Duración total request P9537.245 ms

Aproximadamente 1 segundo desde tu petición hasta el primer token.

5. Modelos disponibles

Todo miembro accede a todos los modelos del stack:

ModeloFunciónRequestsTokens
Qwen 3.6 (35B-A3B)Chat y coding principal3.282.599114,36 B
Gemma 4 (26B-A4B)Chat rápido, baja latencia277.6022,62 B
Qwen3 EmbeddingVector search, RAG113.564698 M
WhisperSpeech-to-text3.993
KokoroText-to-speech (af_heart, ef_dora, em_alex)1.565

Ofrecemos un stack completo de modelos: LLMs, embeddings, transcripción y síntesis de voz, todo bajo la misma membresía. Además desde este mes hemos empezado a explorar la posibilidad de añadir modelos SOTA.

El primero que ha llegado es DeepSeek V4 Flash. El mes que viene habrá reportes de este nuevo nivel de modelos que hemos desbloqueado.

6. Cómo se usa NaN

Distribución por cliente / SDK:

ClienteRequests%
OpenAI Python SDK (sync + async)1.666.76645,32 %
opencode (coding agent en Bun)742.33620,18 %
OpenAI JS / Node / Bun614.23116,70 %
Python (httpx / requests raw)378.85110,30 %
Otros142.3663,87 %
Go (SDK + raw)86.1422,34 %
Anthropic SDK (vía proxy)21.0230,57 %
PHP (GuzzleHttp)17.5200,48 %
Cursor5.3780,15 %
Cline3.5130,10 %

Dos lecturas:

  • El SDK oficial de OpenAI funciona contra NaN sin cambios. Basta con indicar un base_url y un api_key. La mayoría de los clientes usan este mismo estándar de comunicación. Eso explica el 45 % del tráfico.
  • opencode se ha consolidado como el coding agent favorito de la comunidad: 20 % de todo el tráfico, con prompts típicamente grandes.

NaN se esta usando para hacer tareas de coding en lenguajes como Python, JS, Go, PHP y Rust.

7. Patrones de uso

Tamaño de prompt (chat completions, tokens)

PercentilTokens
P10140
P504.443
P90100.890
P99202.467
Máximo262.052

La mitad de las llamadas envía más de 4.400 tokens de contexto. El 10 % más grande envía más de 100.000. NaN se usa para coding agents, con proyectos enteros como contexto.

Día de la semana

DíaRequests
Miércoles644.104
Martes620.146
Lunes561.809
Jueves527.489
Domingo466.320
Viernes434.390
Sábado425.534

Entre semana es cuando más se usa NaN pero no baja del 66% de uso los fines de semana tampoco. Por lo que aunque la presencia en horarios laborales es mas alto, fuera de este no deja de usarse.

Crecimiento día a día

FechaRequestsTokensUsuarios activos
17/04 (día 1)28.8431,06 B25
30/0460.6344,47 B81
08/05218.6204,09 B127
15/05107.0144,58 B170
16/05257.7876,70 B177
17/05 (pico)278.4925,95 B179

~10× en requests/día y ~7× en usuarios activos diarios en los primeros 30 días.

8. Agentes y Spaces

  • Desde hace dos semanas habilitamos la posibilidad desplegar un agente hermes por cada usuario en su propio Sandbox privado (microVM). Actualmente hay 128 agentes activos.
  • La última funcionalidad que se ha sacado en NaN Cloud es que a cada miembro de la comunidad se le ha dado un space privado con 2vCPU, 4GB de RAM y 20 GB de disco para desplegar aplicaciones. Actualmente hay 66 Spaces y 12 aplicaciones de usuarios desplegados en la plataforma.

9. Lo que viene

  • DeepSeek V4 Flash ya está disponible como SOTA on-demand para los miembros que lo necesitan.
  • Más capacidad de inferencia para sostener el ritmo de crecimiento.
  • Más modelos abiertos a medida que aparecen, sin cambiar la membresía.
  • Proyecto por y para la comunidad. Empezaremos a impulsar proyectos Open Source para mejorar la experiencia en la comunidad. En especial con la documentación actual, el soporte y el bot de Discord.

10. Algunas recomendaciones

  • Es importante entender que Gemma y Qwen tienen 256K de ventana de contexto. Es fundamental marcar correctamente este límite en el cliente que usemos (OpenCode, Pi, etc) y así mismo definir un margen para compactar ese contexto antes de llegar a ese límite. Ejemplo en Opencode.
  • Hay que intentar no alargar o reutilizar sesiones de forma innecesaria. Hacer tareas atómicas con un inicio y un fin que debe nacer y morir en sola sesión.
  • Encontrar el flujo correcto. Algo que ha funcionado a varios usuarios de la comunidad es utilizar modelos más potentes para planificar y validar código. Y usar Qwen o Gemma para ejecutar todas las tareas que se necesiten. Ahora con DeepSeek podemos usar este como orquestador/lider.
  • Usar los clientes (OpenCode, Pi, Hermes, etc) tal y como vienen por defecto no funciona. Lo más importante es tu harness, dependiendo de este el modelo va a encontrar mejores o peores resultados.
  • Dado el punto anterior, aprovecha los diferentes canales de Discord. Explora y prueba skills, tools, CLIs, clientes y agentes nuevos. La comunidad es sumamente activa respondiendo dudas, preguntas y dando recomendaciones.
  • Recuerda que cada mes vamos a hacer dos sesiones. Ya sea un evento o un workshop que podrás ver grabado siempre que quieras en NaN .
  • Aprovechar los Spaces para desplegar aplicaciones o ¡agentes custom! (pronto vendrá un pequeño tutorial de cómo montar un chatbot desplegado en spaces)

NaN nació para poder poder juntar personas que están construyendo cosas y que además puedan aprovechar modelos abiertos de inferencia. Así fue como se montó nuestro primer server. Hoy ya es un cluster de 7 servidores y 11 GPUs dedicados en exclusiva a servir modelos para NaN.

Ha sido un mes de autentica locura y de mucho trabajo para poder sacar adelante todo esto. Por mi parte solo me queda daros las gracias por la confianza y sabed que esto no ha hecho mas que empezar. ¡Seguimos! 🚀