En la mayoría de los equipos comerciales que cruzamos, un manager escucha entre 5 y 10 llamadas por semana. Y su equipo hace entre 200 y 400. Eso significa que el 95% de las conversaciones cliente nunca se evalúan. Es un agujero negro. Cuando Heex Technologies nos pidió taparlo, construimos un scoring IA automático sobre el 100% de las llamadas. Lo que pasó después fue más interesante que la propia tecnología.

El problema: 5 llamadas escuchadas de 200

Heex es una scale-up tech con 8 comerciales. Cada uno hace entre 30 y 40 llamadas por semana — demos, cualificación, cierre. El director comercial escuchaba, en el mejor de los casos, 10 llamadas por semana. Eso es un 4% de visibilidad sobre la actividad.

Efecto colateral: el coaching comercial se basaba en una muestra sesgada. El manager oía a menudo a los mismos dos o tres comerciales y se perdía las buenas (y malas) prácticas de los demás.

El brief: poder puntuar cada llamada automáticamente, y convertir esa data en una herramienta de mejora colectiva.

La arquitectura que entregamos

Captura: integración con las herramientas de videollamada (Zoom, Google Meet) y con el softphone del CRM. En cuanto termina una llamada, el archivo de audio sube automáticamente.

Transcripción: Whisper en local para las llamadas sensibles, la API de OpenAI para el resto. Precisión en español: > 95%.

Scoring: un workflow LLM compara el desarrollo de la llamada con el guion comercial Heex (descubrimiento → cualificación → demo → objeciones → cierre). Produce una puntuación 0–100 por etapa, más un resumen de dos líneas.

Entrega: push automático al dashboard vía un workflow de automatización IA. Sin recapturar, sin export Excel.

El giro: de «reporting» a «coaching»

Al lanzar, el equipo comercial estaba receloso. La frase «scoring IA» sonaba a «vigilancia automatizada». Y es legítimo: si las puntuaciones son públicas, matas la moral en dos semanas.

Tomamos por tanto una decisión de producto: por defecto, cada comercial ve sus propias puntuaciones en detalle (con los pasajes problemáticos resaltados), pero el manager solo ve medias agregadas. Sin ranking público, sin comparación directa.

El resultado fue sorprendente. Al cabo de unas semanas, los comerciales empezaron a escuchar ellos mismos sus llamadas peor puntuadas, identificando sus propios patrones de fallo (no profundizar en la decisión, saltarse la cualificación de presupuesto). Se convirtió en una herramienta de auto-mejora, no de vigilancia.

Cuatro errores a evitar en scoring IA de llamadas

Error 1 — Puntuar sin un guion como referencia. Si pides a un LLM «¿este comercial es bueno?» sin marco, obtienes ruido. Necesitas un guion de referencia (aunque imperfecto) para comparar. Si no, la puntuación cambia con el humor del modelo.

Error 2 — Hacer públicas todas las puntuaciones. Tentador desde dirección, desastroso desde el equipo. Los comerciales gamearán la puntuación (hablar más para marcar las casillas) y perderán la espontaneidad que gana deals.

Error 3 — Querer una puntuación numérica ultra-precisa. La diferencia entre 72 y 78 no tiene sentido estadístico. Mejor tres niveles («on protocol», «parcial», «fuera del guion») que un falso 0–100.

Error 4 — Olvidar el RGPD del recording. Tus prospectos deben ser informados al inicio de la llamada de que la conversación se graba y se analiza con un sistema automatizado. Es un punto bloqueante si se olvida.

Extender más allá del sales

La misma arquitectura funciona muy más allá de las llamadas comerciales. Soporte cliente: puntuar la resolución y la satisfacción. Onboarding (como en el caso Toshify): puntuar la calidad de la cualificación IA. RRHH: puntuar entrevistas (con consentimiento, obviamente).

El patrón a recordar: transcribir automáticamente, puntuar contra un marco, entregar a las personas correctas con el nivel adecuado de agregación. Es un workflow reutilizable, no un producto único.

Lo que nos llevamos

El verdadero éxito en Heex no es el scoring en sí. Es el paso del scoring de herramienta de reporting a herramienta de coaching. Ese paso depende de un detalle de producto: quién ve qué, y a qué nivel de agregación. Si lo fallas, entregas una herramienta técnicamente correcta pero socialmente inutilizable.

Leer el caso Heex completo