OpenAI推出代码生成评估基准

Connie 2024-08-15 14:54

OpenAI公司于8月13日发布新闻稿，宣布推出SWE-bench Verified代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。

SWE-bench是一个软件工程评估套件，用于评估大型语言模型 (LLM) 解决从GitHub提取的真实软件问题的能力。（IT之家）

AI 人工智能

Connie