OpenAI推出MLE-bench基准评估AI在机器学习领域的能力

2024-10-12 17:26:59 来源：聚焦媒体网

　　科技媒体 The Decoder 报道，OpenAI 公司推出了一个全新的基准工具——MLE-bench，旨在评估人工智能(AI)系统在开发机器学习解决方案方面的能力。这一基准的推出，标志着 OpenAI 在推动机器学习研究与应用方面迈出了重要一步。

　　MLE-bench 基准包含 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛覆盖了多个领域，包括自然语言处理、计算机视觉以及信号处理等，展示了机器学习技术在实际应用中的广泛性和重要性。Kaggle 是一个极受欢迎的在线数据科学平台，专注于数据科学和机器学习的各种竞赛，参与者可以通过这些比赛提升自己的技能水平。

　　在 Kaggle 上，不同的绩效层级将数据科学家分为“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和“Grandmaster”(特级大师)，这些层级不仅反映了参与者的技能，还标志着他们在数据科学社区中的成就。

　　MLE-bench 中包含的许多任务具有现实世界的应用价值，比如预测 COVID-19 mRNA 疫苗的降解过程，以及解码古代卷轴等。这些任务的选择不仅具有挑战性，还能够真实反映当前机器学习的发展水平。

　　该基准的设计重点在于两个关键领域：首先，选择了具有挑战性的任务，这些任务能够代表当前机器学习技术的前沿水平;其次，通过将 AI 与人类的表现进行比较，来评估 AI 在特定任务中的能力。这一方法使得研究者能够更加清晰地了解 AI 系统在实际应用中的优势和不足之处。

　　在对多个 AI 模型和智能体框架进行测试的过程中，OpenAI 发现使用 AIDE 框架的 o1-preview 模型表现最佳。在 16.9% 的竞赛中，该模型至少获得了一枚铜牌，表现超越了竞争对手 Anthropic 的 Claude 3.5 Sonnet 模型。尤其值得注意的是，o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌，成功晋级为“Grandmaster”特级大师。

　　尽管 MLE-bench 基准的推出具有里程碑式的意义，OpenAI 也坦诚这一工具的局限性。MLE-bench 主要集中在具有明确问题和简单评估指标的任务上，因此并未涵盖 AI 研究与开发的所有方面。这一点提醒我们，在评估 AI 系统能力时，仍需结合更多复杂和多样化的任务进行综合分析。

　　目前，MLE-bench 基准已在 GitHub 上发布，OpenAI 希望通过这一工具，进一步推动 AI 在机器学习领域的发展。

关键词：OpenAI

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

投诉邮箱:Email：133 46734 45@qq.com

新款摩托罗拉Razr可折叠设备揭晓三星新竞争对手的发布传闻出现

福来喜再创辉煌！第六度夺得冬季联盟捕手金手套

努比亚Z70 Ultra新年版将于1月16日推出附赠独家表壳

上汽通用与宁德时代深化合作 6C超快充磷酸铁锂电池将投入使用

OpenAI推出MLE-bench基准 评估AI在机器学习领域的能力

相关新闻

今日推荐

榜单

（演员）王星越个人资料介绍 王星越毕业中央戏剧学院表演系(出生湖南省岳阳市)

易烊千玺歌手、舞者、演员个人资料介绍 身高射手座

《爱的释放》是谁唱的 歌曲原唱刘子琳填词徐凌沧

（演员、平面模特）吴晴晴个人资料介绍 吴晴晴(出生湖北，荆门)

出生地黑龙江鹤岗（演员）吴昊宸个人简介介绍

出生地上海市（歌手、演员）孙珍妮个人简介介绍

55岁夏祎消失5年报喜讯 曝光新身份：身边有伴

（歌手、演员、主持人）毛宁个人资料介绍 毛宁毕业辽宁省体育运动技术学院(出生辽宁省沈阳市)

（演员）吴昊宸个人资料介绍 吴昊宸毕业中央戏剧学院(出生黑龙江鹤岗)

《进击的巨人》完结篇来了！全球粉丝哭喊：名留动画史

新闻排行

OpenAI推出MLE-bench基准评估AI在机器学习领域的能力

（演员）王星越个人资料介绍王星越毕业中央戏剧学院表演系(出生湖南省岳阳市)

易烊千玺歌手、舞者、演员个人资料介绍身高射手座

《爱的释放》是谁唱的歌曲原唱刘子琳填词徐凌沧

（演员、平面模特）吴晴晴个人资料介绍吴晴晴(出生湖北，荆门)

55岁夏祎消失5年报喜讯曝光新身份：身边有伴

（歌手、演员、主持人）毛宁个人资料介绍毛宁毕业辽宁省体育运动技术学院(出生辽宁省沈阳市)

（演员）吴昊宸个人资料介绍吴昊宸毕业中央戏剧学院(出生黑龙江鹤岗)