// casos de uso · resumen

Entradas largas.
Respuestas cortas.

Llamadas, tickets, casos y documentos largos resumidos en una sola pasada, hasta 1M tokens.

// cómo funciona

Sea lo que sea, en una pasada.

Transcripción, resumen de contexto largo y salida estructurada desde un único endpoint compatible con OpenAI, exclusivamente dentro de la UE.

paso 01

Ingesta de la fuente

whisper-large-v3

Transcripciones, tickets, hilos o PDFs largos, incluso audio, transcrito primero con whisper-large-v3 en 99+ idiomas. Sea cual sea la fuente, entra como texto.

paso 02

Resumen en una pasada

deepseek-v4-flash

Una ventana de contexto de 1M tokens permite que documentos enteros e historiales de llamadas completos entren a la vez, sin fragmentar ni encadenar resúmenes de resúmenes.

paso 03

Salida con la forma exacta

qwen3.6

Resúmenes estructurados, TL;DR, acciones, decisiones, sentimiento, en el formato exacto que necesita el producto o el flujo de trabajo, vía salidas estructuradas.

// drop-in

Cambia una línea. Conserva el stack.

Una sola chat completion con toda la transcripción en contexto. Cambias la base URL y la key, y el código de resumen ya corre sobre modelos privados en la UE.

leer_los_docs

summarize.py

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.helmcode.com/v1",  # one line changes
)

# whole transcript in one pass — up to 1M tokens of context
summary = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Summarize into a TL;DR and action items."},
        {"role": "user", "content": transcript},
    ],
)

// por qué helmcode

Resúmenes que no salen de la infraestructura.

Las llamadas y los casos que se resumen son los registros más sensibles, exactamente lo que no debería acabar en el modelo de un tercero.

Sin logs, por arquitectura.

Las llamadas, tickets y documentos que se resumen no se almacenan nunca ni entrenan ningún modelo, ni el nuestro ni el de nadie.

Procesado en la UE.

Cada resumen se ejecuta en infraestructura europea, no en hyperscalers de EE. UU. sujetos al Cloud Act. Cumplimiento nativo con GDPR y AI Act.

Entradas completas, una pasada.

Hasta 1M tokens de contexto. Un informe de 300 páginas o un historial de llamadas completo se resume en una sola petición, sin fragmentación, sin perder detalle.

Sin límites de volumen.

Se resume cada llamada y cada ticket, no solo una muestra. Los límites son RPM y concurrencia por key, nunca el total de tokens.

Texto o audio, una API.

Se transcribe con whisper-large-v3 y se resume con un LLM tras un único endpoint compatible con OpenAI, las llamadas pasan a ser resúmenes en un solo sitio.

En producción en

B2B SaaS
Contact center / BPO
Seguros
Salud
Farma y biotech
RRHH y reclutamiento

En producción en

// faq de resumen

Resumen, respondido.

Lo que preguntan los equipos de producto y operaciones antes de resumir registros propios.

¿Qué longitud de entrada se puede resumir?

Hasta 1M tokens de contexto con deepseek-v4-flash, documentos enteros, hilos largos e historiales de llamadas completos en una sola pasada, sin fragmentación ni pérdida.

¿Se puede resumir audio y llamadas, no solo texto?

Sí. Se transcribe primero con whisper-large-v3 (99+ idiomas) y se resume con un LLM, ambos tras la misma API compatible con OpenAI.

¿Se almacena lo que se resume?

No. Sin logs, las entradas y los resúmenes producidos no se persisten nunca ni entrenan ningún modelo.

¿Se puede controlar el formato del resumen?

Sí. Con salidas estructuradas se obtiene una forma fija, TL;DR, acciones, decisiones, sentimiento, lista para volcar en el producto o la base de datos.

¿Soporta alto volumen?

Sí. No hay límites de tokens, los límites son RPM y concurrencia por API key, así que se puede resumir cada llamada y ticket con precio plano y predecible.

¿Y con registros sensibles?

Se ejecuta en una GPU dedicada o totalmente on-premise dentro del propio datacenter, la misma API y el mismo código, con datos que nunca salen de tu red.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.

reservar_llamada

Entradas largas.Respuestas cortas.