Arthur lanza una herramienta de código abierto para ayudar a las empresas a encontrar el mejor LLM para un trabajo
HogarHogar > Blog > Arthur lanza una herramienta de código abierto para ayudar a las empresas a encontrar el mejor LLM para un trabajo

Arthur lanza una herramienta de código abierto para ayudar a las empresas a encontrar el mejor LLM para un trabajo

Mar 04, 2024

Arthur, una startup de monitoreo de aprendizaje automático, se ha beneficiado del interés en la IA generativa este año y ha estado desarrollando herramientas para ayudar a las empresas a trabajar con LLM de manera más efectiva. Hoy lanza Arthur Bench, una herramienta de código abierto para ayudar a los usuarios a encontrar el mejor LLM para un conjunto de datos particular.

Adam Wenchel, director ejecutivo y cofundador de Arthur, dice que la empresa ha visto mucho interés en la IA generativa y los LLM, por lo que han puesto mucho esfuerzo en la creación de productos.

Dice que hoy, y dado que estamos a menos de un año desde el lanzamiento de ChatGPT, las empresas no tienen una forma organizada de medir la efectividad de una herramienta frente a otra, y es por eso que crearon Arthur Bench.

"Arthur Bench resuelve uno de los problemas críticos que escuchamos con cada cliente, que es [con todas las opciones de modelo], cuál es mejor para su aplicación particular", dijo Wenchel a TechCrunch.

Viene con un conjunto de herramientas que puede utilizar para probar metódicamente el rendimiento, pero el valor real es que le permite probar y medir cómo se desempeñarán los tipos de indicaciones que sus usuarios usarían para su aplicación particular frente a diferentes LLM.

Créditos de imagen:Arturo

"Podrías probar 100 mensajes diferentes y luego ver cómo dos LLM diferentes, como Anthropic se compara con OpenAI, en los tipos de mensajes que tus usuarios probablemente usarán", dijo Wenchel. Es más, dice que puedes hacerlo a escala y tomar una mejor decisión sobre qué modelo es mejor para tu caso de uso particular.

Arthur Bench se lanza hoy como una herramienta de código abierto. También habrá una versión SaaS para los clientes que no quieran lidiar con la complejidad de administrar la versión de código abierto, o que tengan mayores requisitos de prueba y estén dispuestos a pagar por ello. Pero por ahora, Wenchel dijo que se están concentrando en el proyecto de código abierto.

La nueva herramienta llega inmediatamente después del lanzamiento de Arthur Shield en mayo, una especie de firewall LLM diseñado para detectar alucinaciones en modelos, al tiempo que protege contra información tóxica y filtraciones de datos privados.

Créditos de imagen: