科技媒体 The Decoder 报道,OpenAI 公司推出了一个全新的基准工具——MLE-bench,旨在评估人工智能(AI)系统在开发机器学习解决方案方面的能力。这一基准的推出,标志着 OpenAI 在推动机器学习研究与应用方面迈出了重要一步。
MLE-bench 基准包含 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛覆盖了多个领域,包括自然语言处理、计算机视觉以及信号处理等,展示了机器学习技术在实际应用中的广泛性和重要性。Kaggle 是一个极受欢迎的在线数据科学平台,专注于数据科学和机器学习的各种竞赛,参与者可以通过这些比赛提升自己的技能水平。
在 Kaggle 上,不同的绩效层级将数据科学家分为“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和“Grandmaster”(特级大师),这些层级不仅反映了参与者的技能,还标志着他们在数据科学社区中的成就。
MLE-bench 中包含的许多任务具有现实世界的应用价值,比如预测 COVID-19 mRNA 疫苗的降解过程,以及解码古代卷轴等。这些任务的选择不仅具有挑战性,还能够真实反映当前机器学习的发展水平。
该基准的设计重点在于两个关键领域:首先,选择了具有挑战性的任务,这些任务能够代表当前机器学习技术的前沿水平;其次,通过将 AI 与人类的表现进行比较,来评估 AI 在特定任务中的能力。这一方法使得研究者能够更加清晰地了解 AI 系统在实际应用中的优势和不足之处。
在对多个 AI 模型和智能体框架进行测试的过程中,OpenAI 发现使用 AIDE 框架的 o1-preview 模型表现最佳。在 16.9% 的竞赛中,该模型至少获得了一枚铜牌,表现超越了竞争对手 Anthropic 的 Claude 3.5 Sonnet 模型。尤其值得注意的是,o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌,成功晋级为“Grandmaster”特级大师。
尽管 MLE-bench 基准的推出具有里程碑式的意义,OpenAI 也坦诚这一工具的局限性。MLE-bench 主要集中在具有明确问题和简单评估指标的任务上,因此并未涵盖 AI 研究与开发的所有方面。这一点提醒我们,在评估 AI 系统能力时,仍需结合更多复杂和多样化的任务进行综合分析。
目前,MLE-bench 基准已在 GitHub 上发布,OpenAI 希望通过这一工具,进一步推动 AI 在机器学习领域的发展。
关键词:OpenAI
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
投诉邮箱:Email:133 46734 45@qq.com家乐福目前在其法国官网推出了 Hopla 购物资讯机器人,据称,该机器人基于 GPT-4 模型,顾客可以使用该机器人改善自...
游戏中的非玩家角色(NPC),通常是遵循对话树(Dialogue Tree)设定,与玩家进行互动对答。游戏开发商育碧在游戏开发者大会2024...
近段时间以来,AIGC 爆火并引发诸多互联网科技公司入局。今日,怒喵科技创始人李楠更新微博,并配文AngryMiao AI 希望...
IBM 刚刚公布了 2023 财年第一季度财报。IBM 第一季度营收为 142 52 亿美元(当前约 987 66 亿元人民币),同比增长 0 4%,不计
新型人工智能聊天机器人模型ChatGPT横空出世,引发轰动。根据瑞银集团的报告,ChatGPT的活跃用户数或已达1亿,成为史上增...
Business Insider网站引述消息指称,亚马逊目前正在打造代号为Metis的聊天机器人,甚至由首席执行官Andy Jassy亲自坐镇参与开发,预
谷歌母公司 Alphabet 旗下投资公司 CapitalG 近日宣布,向 AI 市场情报公司 AlphaSense 投资 1 亿美元(当前约 6 89 亿元人
今年在Google I O 2024期间宣布推出全新开源模型Gemma 2,并且在日前正式向开发者、研究人员提供对应270亿组参数版本...
UL Solutions宣布推出新版人工智能推论效能量测工具Procyon AI Inference Benchmark,让OEM、ODM,或是零售业者能借此确认新一代Window
音乐平台 Spotify 宣布推出一项全新的人工智能 AI 功能,可以为每个人打造专属的 DJ。 Spotify 在博客中称,这个 DJ 非
外媒指出,苹果已经继续与OpenAI进行洽谈,预计游OpenAI协助将其特定人工智能技术应用在iOS 18作业系统,让iPhone能实现装置...
微软宣布将与数字病理学提供商 Paige 合作,建立世界上最大的基于图像的人工智能模型,用于识别癌症。 新闻稿显示,...
Gizmodo 母公司 G O Media 近日发布公告,旗下西班牙子网站 Gizmodo en Español 解雇所有编辑和记者,今后改用人工
夏普在东京国际论坛举办的独家大型技术展示活动SHARP Tech-Day& 39;24 Innovation Showcase活动上,分别展示其符合近未来世界观的创
Anthropic 近日发布博文,正式推出 Claude Instant 1 2 AI 模型,并已经向企业提供 API 访问。 Anthropic 公司表示,Claud
意大利数据保护局因OpenAI涉嫌违法,调查期间禁止国民造访聊天机器人ChatGPT。 OpenAI有20天修正时间,否则会面临严重罚款。 OpenAI
一位前Facebook工程师将与人工智能(AI)co-pilot一起编码的经历描述为类似于与半神合作。在X(前身为Twitter)上最...
Infosys正在扩大与谷歌云的联盟。这些公司旨在帮助企业利用Infosys Topaz产品和谷歌云的生成式AI解决方案构建人工智能体...
在推动诸多结合Copilot服务应用的人工智能技术之后,微软也因应越来越多工作人员、职场经理人有更大使用人工智能意愿,在Link...
手机中国注意到,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数...
目前大多数 AI 聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联...
阿里巴巴国际站官方公众号于上周五晚间宣布,在美国 Co-Create2023 大会上,旗下 AI 采购助手Smart Assistant正式推出。 据介
Apptronik 宣布与梅赛德斯-奔驰达成协议。 作为协议的一部分,Apptronik 和梅赛德斯-奔驰将合作寻找高科技机器人技术在梅赛德斯-奔驰生
王小川旗下百川智能今日发布 Baichuan-13B 大模型,号称130 亿参数开源可商用。 ▲ 图源 Baichuang-13B GitHub 页面
谷歌打算将他们的人工智能语言模型Gemini 直接整合到Android 手机中,计划将会在2025 年开始。谷歌透露会将Gemini Nano 整合到Android
NVIDIA今日宣布公司创办人暨首席执行官黄仁勋将在GTC 2023发表主题演讲,内容将涵盖在人工智能、元宇宙、大型语言模型、...
科技媒体 The Decoder 报道,OpenAI 公司推出了一个全新的基准工具——MLE-bench,旨在评估人工智能(AI)系统在开发机...
未来想要发挥 ChatGPT 完整潜力,恐怕会越来越贵! 根据《纽约时报》获得一份OpenAI给予投资人的内部报告指出,他们计划调整ChatGPT
Meta 于今天宣布推出 Segment Anything 工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的 Apache 2 0 许
Stability AI 日前发布新闻稿,宣布推出 SDXL 0 9 版本更新,升级了 Stable Diffusion 文本生成图片模型。 Stability AI
Linux 内核背后的人 Linus Torvalds 对人工智能的发展并不感到兴奋,他称人工智能更多的是炒作,而不是现实世界的使...
Infinix推出了 Infinix AI,这是一种开创性的 AI 解决方案,旨在增强用户与技术的交互。随着 Infinix AI 的加入,即将推出的 I
一款基于 OpenAI 的冥想应用 Ogimi ai目前已经上线,据悉其可为用户提供教练级个性化指导。 公司创始人 David Gull 表示:Ogi
根据 Business Insider 披露的一封内部信,谷歌首席执行官桑达・皮采(Sundar Pichai)要求所有员工在工作日内,花 2-4 个小时测试