SolidityBench de IQ se lanzó como la primera tabla de clasificación para evaluar LLM en generación de código Solidity. Disponible en abrazando la carapresenta dos puntos de referencia innovadores, NaïveJudge y HumanEval for Solidity, diseñados para evaluar y clasificar la competencia de los modelos de IA en la generación de código de contrato inteligente.
Desarrollado por IQ CerebroDAO Como parte de su próxima suite IQ Code, SolidityBench sirve para perfeccionar sus propios LLM de EVMind y compararlos con modelos generalistas y creados por la comunidad. IQ Code tiene como objetivo ofrecer modelos de IA diseñados para generar y auditar códigos de contratos inteligentes, abordando la creciente necesidad de aplicaciones blockchain seguras y eficientes.
Como dijo IQ criptopizarraNaïveJudge ofrece un enfoque novedoso al asignar a los LLM la tarea de implementar contratos inteligentes basados en especificaciones detalladas derivadas de contratos OpenZeppelin auditados. Estos contratos proporcionan un estándar de oro en cuanto a corrección y eficiencia. El código generado se evalúa frente a una implementación de referencia utilizando criterios como integridad funcional, cumplimiento de las mejores prácticas y estándares de seguridad de Solidity y eficiencia de optimización.
El proceso de evaluación aprovecha los LLM avanzados, incluidas diferentes versiones de GPT-4 de OpenAI y Claude 3.5 Sonnet como revisores de código imparciales. Evalúan el código basándose en criterios rigurosos, incluida la implementación de todas las funcionalidades clave, el manejo de casos extremos, la gestión de errores, el uso adecuado de la sintaxis y la estructura y mantenibilidad general del código.
También se evalúan consideraciones de optimización como la eficiencia del gas y la gestión del almacenamiento. Las puntuaciones varían de 0 a 100, lo que proporciona una evaluación integral de la funcionalidad, la seguridad y la eficiencia, reflejando las complejidades del desarrollo profesional de contratos inteligentes.
¿Qué modelos de IA son mejores para el desarrollo sólido de contratos inteligentes?
Los resultados de las evaluaciones comparativas mostraron que el modelo GPT-4o de OpenAI logró la puntuación general más alta de 80,05, con una puntuación NaïveJudge de 72,18 y tasas de aprobación de HumanEval for Solidity del 80 % en pass@1 y del 92 % en pass@3.
Curiosamente, los modelos de razonamiento más nuevos como o1-preview y o1-mini de OpenAI fueron superados hasta el primer puesto, con una puntuación de 77,61 y 75,08, respectivamente. Los modelos de Anthropic y XAI, incluidos Claude 3.5 Sonnet y grok-2, demostraron un rendimiento competitivo con puntuaciones generales que rondan los 74. Llama-3.1-Nemotron-70B de Nvidia obtuvo la puntuación más baja entre los 10 primeros con 52,54.
Según IQ, HumanEval for Solidity adapta el punto de referencia HumanEval original de OpenAI de Python a Solidity, abarcando 25 tareas de diferente dificultad. Cada tarea incluye pruebas correspondientes compatibles con Hardhat, un popular entorno de desarrollo de Ethereum, que facilita la compilación y prueba precisas del código generado. Las métricas de evaluación, pass@1 y pass@3, miden el éxito del modelo en los intentos iniciales y en múltiples intentos, ofreciendo información sobre la precisión y las capacidades de resolución de problemas.
Objetivos de utilizar modelos de IA en el desarrollo de contratos inteligentes
Al introducir estos puntos de referencia, SolidityBench busca avanzar en el desarrollo de contratos inteligentes asistidos por IA. Fomenta la creación de modelos de IA más sofisticados y confiables, al tiempo que proporciona a los desarrolladores e investigadores información valiosa sobre las capacidades y limitaciones actuales de la IA en el desarrollo de Solidity.
El conjunto de herramientas de evaluación comparativa tiene como objetivo avanzar en los LLM EVMind de IQ Code y también establece nuevos estándares para el desarrollo de contratos inteligentes asistidos por IA en todo el ecosistema blockchain. La iniciativa espera abordar una necesidad crítica en la industria, donde la demanda de contratos inteligentes seguros y eficientes continúa creciendo.
Se invita a desarrolladores, investigadores y entusiastas de la IA a explorar y contribuir a SolidityBench, cuyo objetivo es impulsar el perfeccionamiento continuo de los modelos de IA, promover las mejores prácticas y hacer avanzar las aplicaciones descentralizadas.
Visita el SolidityBench tabla de clasificación en Hugging Face para obtener más información y comenzar a comparar los modelos de generación de Solidity.