paso 01
Ingesta y vectorización
qwen3-embedding Convierte documentos, código y políticas en vectores de 4096 dimensiones, en más de 100 idiomas. Se puede reindexar el corpus entero todas las veces que haga falta; los tokens son ilimitados.
// casos de uso · rag
Fundamenta los modelos en documentos, código y políticas internas, embeddings, reranking y generación en nuestra infraestructura. Consume la documentación o amplíala sin pagar más en tu factura.
// cómo funciona
Embeddings, reranking y generación desde un único endpoint compatible con OpenAI — los datos hacen un solo trayecto, y siempre dentro de la UE.
paso 01
qwen3-embedding Convierte documentos, código y políticas en vectores de 4096 dimensiones, en más de 100 idiomas. Se puede reindexar el corpus entero todas las veces que haga falta; los tokens son ilimitados.
paso 02
rerank Se extraen los fragmentos más relevantes del vector store y se reordenan con nuestro reranker multilingüe, para que el modelo reciba primero el contexto correcto.
paso 03
deepseek-v4-flash La respuesta se genera estrictamente a partir del contexto recuperado — con hasta 1M tokens de ventana cuando la recuperación sola no basta. No se registra nada, nunca.
// drop-in
Apunta el SDK de OpenAI — o LangChain, LlamaIndex, el pipeline que ya tengas — a Helmcode. Mismas llamadas, mismas formas, modelos privados en infraestructura de la UE.
leer_los_docsfrom openai import OpenAI client = OpenAI( api_key="sk-...", base_url="https://api.helmcode.com/v1", # one line changes ) # 1 · embed your documents — privately, in the EU vectors = client.embeddings.create( model="qwen3-embedding", input=documents, ) # 2 · answer grounded in the retrieved context answer = client.chat.completions.create( model="deepseek-v4-flash", messages=[ {"role": "system", "content": "Answer only from the context."}, {"role": "user", "content": context + question}, ], )
// por qué helmcode
El caso de uso donde confidencialidad, coste y control importan a la vez — y donde las APIs cerradas obligan a renunciar a los tres.
Los prompts y el contexto recuperado no se almacenan. La base de conocimiento nunca entrena un modelo — ni el nuestro, ni el de nadie.
La indexación y la generación se ejecutan solo en infraestructura de la UE — no en hyperscalers de EE. UU. sujetos al Cloud Act. Nativos en GDPR y AI Act.
Embeddings, reranking y generación tras un único endpoint compatible con OpenAI. Sin tres proveedores que conectar entre sí.
Se puede reindexar el corpus entero todas las veces que haga falta. Los límites son RPM y concurrencia por key, nunca el total de tokens.
Cuando la recuperación no basta, deepseek-v4-flash acepta prompts con el corpus completo — menos fragmentos que ajustar, menos respuestas que se pierden.
Basta con cambiar la base URL y la key. LangChain, LlamaIndex, Haystack y cualquier código de recuperación propio siguen funcionando tal cual.
// faq de rag
Lo que preguntan los equipos de ingeniería y seguridad antes de fundamentar modelos en datos propios.
No. Sin logs: las entradas, los embeddings y el contexto recuperado no se persisten nunca, y nada de lo que se envía entrena un modelo. La confidencialidad se garantiza desde la arquitectura, no desde una política.
qwen3-embedding (8B, 4096 dimensiones, 100+ idiomas, MMTEB 70.58) para embeddings, y rerank (Qwen3 Reranker, multilingüe) para reordenación semántica. Ambos se sirven desde la misma API compatible con OpenAI que los LLMs.
Sí. Helmcode se encarga de embeddings, reranking y generación — la base vectorial sigue siendo la del equipo (pgvector, Qdrant, Pinecone, Weaviate...). No se impone ninguna capa de almacenamiento.
Sí. Basta con apuntar cualquier cliente o framework compatible con OpenAI a nuestra base URL con la API key. LangChain, LlamaIndex, Haystack y pipelines a medida funcionan sin cambios.
deepseek-v4-flash admite una ventana de contexto de hasta 1M tokens, lo que permite pasar grandes conjuntos recuperados — o documentos enteros — cuando la recuperación por fragmentos no es suficiente.
Para compliance estricto, se puede ejecutar RAG en una GPU dedicada o totalmente on-premise dentro del propio datacenter. La misma API y el mismo código, con datos que nunca salen de la red.
// empezar
Olvídate de la infra de IA. Despliega hoy el primer endpoint de inferencia privada.
Tarifa plana. Datos en la UE. Compatible con la API de OpenAI.
// cookies
Usamos cookies estrictamente necesarias para que el sitio funcione y, solo con consentimiento explícito, Google Analytics para entender el uso. Nada de publicidad, nunca — consulta la Política de cookies.
// preferencias