Una de las quejas mas frecuentes del uso de Claude Code, es que "no se acuerda" de las cosas y hay que repetirle una y otra vez instrucciones. He buscado los mas populares y los he puesto a prueba en distintas dimensiones.

Resultados aqui: http://localhost:8765

(Es broma 😂 resultados aqui -> https://tomacco.github.io/distill-benchmark/ )

Disclaimer: Soy el autor de aura-distill

Metodologia (por claude code)

>Cada sistema recibe exactamente el mismo conocimiento sobre un proyecto ficticio (Helios Financial): arquitectura, equipo, decisiones técnicas, preferencias del usuario y correcciones ("nunca sugieran DynamoDB"). La diferencia es el formato — cada herramienta estructura ese conocimiento a su manera.
>
>Para cada test, se envía el mismo prompt a los 7 sistemas. Las respuestas se mezclan aleatoriamente y se etiquetan como "Sistema A", "Sistema B", etc. Un evaluador (Claude también, pero sin saber qué sistema produjo qué respuesta) puntúa cada una del 1 al 5 en tres criterios específicos por categoría.
>
>Recién después de puntuar se revela qué etiqueta corresponde a qué sistema. Esto elimina el sesgo del experimentador — no hay forma de favorecer a ningún sistema durante la evaluación.
>
>25 tests, 6 categorías, 175 ejecuciones totales. Los datos crudos están en el repo para que cualquiera los audite.

u/tom4cco

Hice un benchmark para comparar herramientas de memoria para Claude Code -> comparto resultados aquí

Metodologia (por claude code)

u/tom4cco

Hice un benchmark para comparar herramientas de memoria para Claude Code -&gt; comparto resultados aquí

Metodologia (por claude code)

Hice un benchmark para comparar herramientas de memoria para Claude Code -> comparto resultados aquí