// casos de uso · rag

RAG privado sobre
tu propio conocimiento.

Fundamenta los modelos en documentos, código y políticas internas, embeddings, reranking y generación en nuestra infraestructura. Consume la documentación o amplíala sin pagar más en tu factura.

reservar_llamada

// cómo funciona

Una API, todo el stack de recuperación.

Embeddings, reranking y generación desde un único endpoint compatible con OpenAI, los datos hacen un solo trayecto, y siempre dentro de la UE.

paso 01

Ingesta y vectorización

qwen3-embedding

Convierte documentos, código y políticas en vectores de 4096 dimensiones, en más de 100 idiomas. Se puede reindexar el corpus entero todas las veces que haga falta; los tokens son ilimitados.

paso 02

Recuperación y reordenación

rerank

Se extraen los fragmentos más relevantes del vector store y se reordenan con nuestro reranker multilingüe, para que el modelo reciba primero el contexto correcto.

paso 03

Generación fundamentada

deepseek-v4-flash

La respuesta se genera estrictamente a partir del contexto recuperado, con hasta 1M tokens de ventana cuando la recuperación sola no basta. No se registra nada, nunca.

// drop-in

Cambia una línea. El código se queda.

Apunta el SDK de OpenAI, o LangChain, LlamaIndex, el pipeline que ya tengas, a Helmcode. Mismas llamadas, mismas formas, modelos privados en infraestructura de la UE.

leer_los_docs

rag.py

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.helmcode.com/v1",  # one line changes
)

# 1 · embed your documents — privately, in the EU
vectors = client.embeddings.create(
    model="qwen3-embedding",
    input=documents,
)

# 2 · answer grounded in the retrieved context
answer = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "Answer only from the context."},
        {"role": "user", "content": context + question},
    ],
)

// por qué helmcode

Para el RAG que no se puede externalizar.

El caso de uso donde confidencialidad, coste y control importan a la vez, y donde las APIs cerradas obligan a renunciar a los tres.

Sin logs, por arquitectura.

Los prompts y el contexto recuperado no se almacenan. La base de conocimiento nunca entrena un modelo, ni el nuestro, ni el de nadie.

Los embeddings se quedan en la UE.

La indexación y la generación se ejecutan solo en infraestructura de la UE, no en hyperscalers de EE. UU. sujetos al Cloud Act. Nativos en GDPR y AI Act.

Todo el stack de recuperación.

Embeddings, reranking y generación tras un único endpoint compatible con OpenAI. Sin tres proveedores que conectar entre sí.

Reindexa sin factura.

Se puede reindexar el corpus entero todas las veces que haga falta. Los límites son RPM y concurrencia por key, nunca el total de tokens.

Hasta 1M tokens.

Cuando la recuperación no basta, deepseek-v4-flash acepta prompts con el corpus completo, menos fragmentos que ajustar, menos respuestas que se pierden.

El pipeline no cambia.

Basta con cambiar la base URL y la key. LangChain, LlamaIndex, Haystack y cualquier código de recuperación propio siguen funcionando tal cual.

En producción en

Banca y fintech
Seguros
Legal
Salud
Farma y biotech
Sector público
Telco
Energía y utilities
Industria
Educación
Dev tools

En producción en

// faq de rag

RAG, respondido.

Lo que preguntan los equipos de ingeniería y seguridad antes de fundamentar modelos en datos propios.

¿Se almacenan los documentos indexados o el contexto recuperado?

No. Sin logs: las entradas, los embeddings y el contexto recuperado no se persisten nunca, y nada de lo que se envía entrena un modelo. La confidencialidad se garantiza por cómo está construida, no por una política.

¿Qué modelos de embedding y reranking ofrecéis?

qwen3-embedding (8B, 4096 dimensiones, 100+ idiomas, MMTEB 70.58) para embeddings, y rerank (Qwen3 Reranker, multilingüe) para reordenación semántica. Ambos se sirven desde la misma API compatible con OpenAI que los LLMs.

¿Se puede mantener la base de datos vectorial propia?

Sí. Helmcode se encarga de embeddings, reranking y generación, la base vectorial sigue siendo la del equipo (pgvector, Qdrant, Pinecone, Weaviate...). No se impone ninguna capa de almacenamiento.

¿Funciona con LangChain o LlamaIndex?

Sí. Basta con apuntar cualquier cliente o framework compatible con OpenAI a nuestra base URL con la API key. LangChain, LlamaIndex, Haystack y pipelines a medida funcionan sin cambios.

¿Qué tamaño de contexto se puede enviar?

deepseek-v4-flash admite una ventana de contexto de hasta 1M tokens, lo que permite pasar grandes conjuntos recuperados, o documentos enteros, cuando la recuperación por fragmentos no es suficiente.

¿Y para corpus altamente sensibles?

Para compliance estricto, se puede ejecutar RAG en una GPU dedicada o totalmente on-premise dentro del propio datacenter. La misma API y el mismo código, con datos que nunca salen de tu red.

// empezar

EMPIEZA A QUEMAR TOKENS

Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.

Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.