当前位置:首页 > 人工智能 > >

OpenAI推出MLE-bench基准 评估AI在机器学习领域的能力

OpenAI推出MLE-bench基准 评估AI在机器学习领域的能力
2024-10-12 17:26:59 来源:聚焦媒体网

  科技媒体 The Decoder 报道,OpenAI 公司推出了一个全新的基准工具——MLE-bench,旨在评估人工智能(AI)系统在开发机器学习解决方案方面的能力。这一基准的推出,标志着 OpenAI 在推动机器学习研究与应用方面迈出了重要一步。

  MLE-bench 基准包含 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛覆盖了多个领域,包括自然语言处理、计算机视觉以及信号处理等,展示了机器学习技术在实际应用中的广泛性和重要性。Kaggle 是一个极受欢迎的在线数据科学平台,专注于数据科学和机器学习的各种竞赛,参与者可以通过这些比赛提升自己的技能水平。

  在 Kaggle 上,不同的绩效层级将数据科学家分为“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和“Grandmaster”(特级大师),这些层级不仅反映了参与者的技能,还标志着他们在数据科学社区中的成就。

  MLE-bench 中包含的许多任务具有现实世界的应用价值,比如预测 COVID-19 mRNA 疫苗的降解过程,以及解码古代卷轴等。这些任务的选择不仅具有挑战性,还能够真实反映当前机器学习的发展水平。

  该基准的设计重点在于两个关键领域:首先,选择了具有挑战性的任务,这些任务能够代表当前机器学习技术的前沿水平;其次,通过将 AI 与人类的表现进行比较,来评估 AI 在特定任务中的能力。这一方法使得研究者能够更加清晰地了解 AI 系统在实际应用中的优势和不足之处。

  在对多个 AI 模型和智能体框架进行测试的过程中,OpenAI 发现使用 AIDE 框架的 o1-preview 模型表现最佳。在 16.9% 的竞赛中,该模型至少获得了一枚铜牌,表现超越了竞争对手 Anthropic 的 Claude 3.5 Sonnet 模型。尤其值得注意的是,o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌,成功晋级为“Grandmaster”特级大师。

  尽管 MLE-bench 基准的推出具有里程碑式的意义,OpenAI 也坦诚这一工具的局限性。MLE-bench 主要集中在具有明确问题和简单评估指标的任务上,因此并未涵盖 AI 研究与开发的所有方面。这一点提醒我们,在评估 AI 系统能力时,仍需结合更多复杂和多样化的任务进行综合分析。

  目前,MLE-bench 基准已在 GitHub 上发布,OpenAI 希望通过这一工具,进一步推动 AI 在机器学习领域的发展。

关键词:OpenAI

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

投诉邮箱:Email:133 46734 45@qq.com

相关新闻