El día 17 de Mayo se cumplió el primer mes de la plataforma y en este post vamos a ver como ha sido todo en números.
Ventana de Datos: 30 días (17/04/2026 → 17/05/2026)
1. La magnitud
En 30 días NaN sirvió:
| Métrica | Valor |
|---|---|
| Requests exitosos | 3.678.787 (≈ 3,68 M) |
| Tokens totales | 117.674.297.968 (≈ 117,7 B) |
| Tokens de input | 116.222.578.716 |
| Tokens de output | 1.451.719.252 |
| Tokens de embeddings | 697.810.776 |
| Días con tráfico continuo | 31 / 31 |
Más de 117 mil millones de tokens generados. Aproximadamente el equivalente a leer 235.000 copias completas del Quijote en un mes.
2. La comunidad
De momento el registro a la comunidad se lleva a través de una waitlist que en el último mes no ha parado de crecer. Este son los números:
| Estado | Members |
|---|---|
| Apuntados a la waitlist | 1.027 |
| En waitlist actualmente | 151 |
| Suscritos | 305 |
Casi un cuarto de los que se han apuntado a la waitlist han terminado entrando en la comunidad.
Distribución geográfica
NaN ha sido utilizado desde 21 países. El top del mapa quedó así:
| País | % requests |
|---|---|
| 🇨🇴 Colombia | 30,38 % |
| 🇲🇽 México | 21,95 % |
| 🇪🇸 España | 15,10 % |
| 🇺🇸 USA | 13,05 % |
| 🇫🇮 Finlandia | 6,96 % |
| 🇫🇷 Francia | 4,07 % |
| 🇩🇪 Alemania | 3,06 % |
| 🇨🇦 Canadá | 1,35 % |
| 🇵🇱 Polonia | 1,33 % |
| 🇦🇷 Argentina | 1,31 % |
| Resto (11 países) | 1,43 % |
LATAM + España suman el 67 % del tráfico. Es predominantemente una plataforma hispanohablante de coding agents, con presencia real en Colombia, México, España, Argentina, Ecuador, Perú, Uruguay, Chile, Puerto Rico y El Salvador.
3. El ahorro real
Si los mismos 115,5 B tokens de input + 1,45 B de output (chat completions) hubieran pasado por proveedores cerrados, la factura del mes sería:
| Proveedor (precio in/out por 1M tokens) | Coste equivalente (30 días) |
|---|---|
| Claude Sonnet 4 ($3 / $15) | $368.374 USD |
| GPT-4o ($2,50 / $10) | $303.348 USD |
| Gemini 2.5 Pro ($1,25 / $10) | $158.935 USD |
| DeepSeek V3 ($0,27 / $1,10) | $32.791 USD |
| GPT-4o-mini ($0,15 / $0,60) | $18.201 USD |
Dependiendo del modelo, de haber usado un proveedor privado habríamos gastado entre ~$18K y +$360K.
Lo que se ahorra cada usuario
| Tipo de usuario | Tokens/mes | Vale en Claude Sonnet 4 | Vale en GPT-4o | Paga en NaN |
|---|---|---|---|---|
| P50 (mediano) | 112,6 M | $347,13 | $287,36 | 70€ / $75 |
| P90 (power user) | 1,11 B | $3.509,97 | $2.869,71 | 70€ / $75 |
35 miembros superaron los 1.000 millones de tokens en el mes.
El usuario típico de NaN ya consume entre $287 y $347 USD/mes de valor equivalente a GPT-4o o Claude Sonnet 4. El 10 % más activo está entre $2.800 y $3.500 USD/mes de valor equivalente. Todos pagan lo mismo: 70€ o $75 dependiendo de la región.
4. Performance
La sección de la que más orgullosos estamos del primer mes.
| Métrica | Valor |
|---|---|
| Uptime (descontando errores de cliente) | 99,986 % |
| Success rate global | 99,556 % |
| Errores 5xx propios | 505 / 3.695.485 (0,014 %) |
| Errores 4xx del cliente | 13.378 (0,36 %) |
Throughput agregado
| Métrica | Valor |
|---|---|
| Tokens/segundo (avg sostenido) | ~46.056 |
| Tokens/segundo (pico) | 285.270 |
| Tokens/minuto (pico) | 17.116.195 |
Latencia (chat completions, vista del usuario)
| Métrica | Valor |
|---|---|
| TTFT (time to first token) P50 | 1.013 ms |
| TTFT P95 | 21.066 ms |
| Duración total request P50 | 2.660 ms |
| Duración total request P95 | 37.245 ms |
Aproximadamente 1 segundo desde tu petición hasta el primer token.
5. Modelos disponibles
Todo miembro accede a todos los modelos del stack:
| Modelo | Función | Requests | Tokens |
|---|---|---|---|
| Qwen 3.6 (35B-A3B) | Chat y coding principal | 3.282.599 | 114,36 B |
| Gemma 4 (26B-A4B) | Chat rápido, baja latencia | 277.602 | 2,62 B |
| Qwen3 Embedding | Vector search, RAG | 113.564 | 698 M |
| Whisper | Speech-to-text | 3.993 | — |
| Kokoro | Text-to-speech (af_heart, ef_dora, em_alex) | 1.565 | — |
Ofrecemos un stack completo de modelos: LLMs, embeddings, transcripción y síntesis de voz, todo bajo la misma membresía. Además desde este mes hemos empezado a explorar la posibilidad de añadir modelos SOTA.
El primero que ha llegado es DeepSeek V4 Flash. El mes que viene habrá reportes de este nuevo nivel de modelos que hemos desbloqueado.
6. Cómo se usa NaN
Distribución por cliente / SDK:
| Cliente | Requests | % |
|---|---|---|
| OpenAI Python SDK (sync + async) | 1.666.766 | 45,32 % |
| opencode (coding agent en Bun) | 742.336 | 20,18 % |
| OpenAI JS / Node / Bun | 614.231 | 16,70 % |
| Python (httpx / requests raw) | 378.851 | 10,30 % |
| Otros | 142.366 | 3,87 % |
| Go (SDK + raw) | 86.142 | 2,34 % |
| Anthropic SDK (vía proxy) | 21.023 | 0,57 % |
| PHP (GuzzleHttp) | 17.520 | 0,48 % |
| Cursor | 5.378 | 0,15 % |
| Cline | 3.513 | 0,10 % |
Dos lecturas:
- El SDK oficial de OpenAI funciona contra NaN sin cambios. Basta con indicar un
base_urly unapi_key. La mayoría de los clientes usan este mismo estándar de comunicación. Eso explica el 45 % del tráfico. - opencode se ha consolidado como el coding agent favorito de la comunidad: 20 % de todo el tráfico, con prompts típicamente grandes.
NaN se esta usando para hacer tareas de coding en lenguajes como Python, JS, Go, PHP y Rust.
7. Patrones de uso
Tamaño de prompt (chat completions, tokens)
| Percentil | Tokens |
|---|---|
| P10 | 140 |
| P50 | 4.443 |
| P90 | 100.890 |
| P99 | 202.467 |
| Máximo | 262.052 |
La mitad de las llamadas envía más de 4.400 tokens de contexto. El 10 % más grande envía más de 100.000. NaN se usa para coding agents, con proyectos enteros como contexto.
Día de la semana
| Día | Requests |
|---|---|
| Miércoles | 644.104 |
| Martes | 620.146 |
| Lunes | 561.809 |
| Jueves | 527.489 |
| Domingo | 466.320 |
| Viernes | 434.390 |
| Sábado | 425.534 |
Entre semana es cuando más se usa NaN pero no baja del 66% de uso los fines de semana tampoco. Por lo que aunque la presencia en horarios laborales es mas alto, fuera de este no deja de usarse.
Crecimiento día a día
| Fecha | Requests | Tokens | Usuarios activos |
|---|---|---|---|
| 17/04 (día 1) | 28.843 | 1,06 B | 25 |
| 30/04 | 60.634 | 4,47 B | 81 |
| 08/05 | 218.620 | 4,09 B | 127 |
| 15/05 | 107.014 | 4,58 B | 170 |
| 16/05 | 257.787 | 6,70 B | 177 |
| 17/05 (pico) | 278.492 | 5,95 B | 179 |
~10× en requests/día y ~7× en usuarios activos diarios en los primeros 30 días.
8. Agentes y Spaces
- Desde hace dos semanas habilitamos la posibilidad desplegar un agente hermes por cada usuario en su propio Sandbox privado (microVM). Actualmente hay 128 agentes activos.
- La última funcionalidad que se ha sacado en NaN Cloud es que a cada miembro de la comunidad se le ha dado un space privado con 2vCPU, 4GB de RAM y 20 GB de disco para desplegar aplicaciones. Actualmente hay 66 Spaces y 12 aplicaciones de usuarios desplegados en la plataforma.
9. Lo que viene
- DeepSeek V4 Flash ya está disponible como SOTA on-demand para los miembros que lo necesitan.
- Más capacidad de inferencia para sostener el ritmo de crecimiento.
- Más modelos abiertos a medida que aparecen, sin cambiar la membresía.
- Proyecto por y para la comunidad. Empezaremos a impulsar proyectos Open Source para mejorar la experiencia en la comunidad. En especial con la documentación actual, el soporte y el bot de Discord.
10. Algunas recomendaciones
- Es importante entender que Gemma y Qwen tienen 256K de ventana de contexto. Es fundamental marcar correctamente este límite en el cliente que usemos (OpenCode, Pi, etc) y así mismo definir un margen para compactar ese contexto antes de llegar a ese límite. Ejemplo en Opencode.
- Hay que intentar no alargar o reutilizar sesiones de forma innecesaria. Hacer tareas atómicas con un inicio y un fin que debe nacer y morir en sola sesión.
- Encontrar el flujo correcto. Algo que ha funcionado a varios usuarios de la comunidad es utilizar modelos más potentes para planificar y validar código. Y usar Qwen o Gemma para ejecutar todas las tareas que se necesiten. Ahora con DeepSeek podemos usar este como orquestador/lider.
- Usar los clientes (OpenCode, Pi, Hermes, etc) tal y como vienen por defecto no funciona. Lo más importante es tu harness, dependiendo de este el modelo va a encontrar mejores o peores resultados.
- Dado el punto anterior, aprovecha los diferentes canales de Discord. Explora y prueba skills, tools, CLIs, clientes y agentes nuevos. La comunidad es sumamente activa respondiendo dudas, preguntas y dando recomendaciones.
- Recuerda que cada mes vamos a hacer dos sesiones. Ya sea un evento o un workshop que podrás ver grabado siempre que quieras en NaN .
- Aprovechar los Spaces para desplegar aplicaciones o ¡agentes custom! (pronto vendrá un pequeño tutorial de cómo montar un chatbot desplegado en spaces)
NaN nació para poder poder juntar personas que están construyendo cosas y que además puedan aprovechar modelos abiertos de inferencia. Así fue como se montó nuestro primer server. Hoy ya es un cluster de 7 servidores y 11 GPUs dedicados en exclusiva a servir modelos para NaN.
Ha sido un mes de autentica locura y de mucho trabajo para poder sacar adelante todo esto. Por mi parte solo me queda daros las gracias por la confianza y sabed que esto no ha hecho mas que empezar. ¡Seguimos! 🚀