自然语言处理(NLP)技术的快速发展使得大型语言模型(LLMs)在执行复杂任务时具备了前所未有的精度和自然度,然而,评估这些模型的性能依然是一个重要挑战。传统上,评估依赖于人工注释的数据,这不仅费时费力,而且在应对新模型或场景时效果有限。
为了解决这一问题,Meta 公司的 FAIR 团队推出了一种革命性的评估方法——“自学评估器”。这项技术利用合成数据而非人工注释来训练和评估AI模型,从而显著降低了人工注释的依赖性。
技术原理与实施
“自学评估器”通过以下关键步骤实现:
种子模型生成基线响应:首先,使用种子LLM生成对给定指令的基本响应。
创建对比偏好对:修改指令,使得LLM生成一个质量低于基线响应的新响应。这些对比偏好对构成了训练数据的基础。
模型自我评估与改进:模型接着对这些对比偏好对进行评估,并在后续迭代中利用这些评估来改进自身判断能力。这种过程充分利用了模型生成和评估数据的能力,实现了自我完善的循环。
通过反复迭代,模型能够逐步提高其判断的准确性,而无需额外的人工注释。这种方法不仅节省了时间和成本,还能够更快速地适应新的数据和任务要求。
技术应用与成果展示
Meta FAIR团队在最新的Llama-3-70B-Instruct模型上测试了自学评估器的效果,并在行业标准的RewardBench基准测试中取得了显著的成绩提升。例如,他们成功将模型的准确率从75.4%提高到了88.7%,这一表现甚至超过了使用传统人工注释数据训练的模型,同时也超越了目前常用的大型语言模型评审系统如GPT-4等。
这项技术的成功应用不仅证明了合成数据在提升模型评估效能方面的潜力,还为未来AI技术的发展开辟了新的可能性。此外,Meta的研究团队还在不断进行进一步的研究与改进,以进一步优化自学评估器的功能和适用范围。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
投诉邮箱:Email:133 46734 45@qq.com腾讯发布了一种新的人工智能(AI) 模型,称为 InstantMesh,可以使用静态照片渲染 3D 对象。新的人工智能模型是对该公司旧版Instant3D框
先前有消息指称苹果的人工智能服务Apple Intelligence付费订阅价格可能会以每月20美元计算,但最快可能会等到2027年才会...
YouTube 在昨日的创作者大会Made on YouTube上宣布将推出一系列由 AI 驱动的创作者工具。这些今年晚些时候或明年推出的工具包括由
配合接下来的人工智能应用趋势,微软在此次Ignite 2023宣布于Windows 11整合诸多人工智能应用功能,并且将Copilot功能...
在今日举行的 2023 年华为云数字文娱 AI 创新峰会上,华为云全球 Marketing 与销售服务总裁石冀琳表示,华为云将在后续推出盘古
OpenAI 在GPT-5上的工作,绰号为 Project Orion,遇到了相当大的颠簸。该项目的运行远远落后于计划,而且启动成本很高。经过 1
傅利叶智能宣布战略升级,正式切入到万亿级通用机器人赛道。在刚刚过去的2023世界人工智能大会上,傅利叶智能的最新产品...
Spotify 在今年 2 月于北美市场推出了由 AI 驱动的测试版DJ功能,据外媒 Engadget 表示,Spotify 目前正打算将该服务扩展到全
根据一份新报告,OpenAI 突破性的 GPT LLM 的下一次迭代即将到来。ChatGPT-5 预计将更加智能、更快,并且将是多模式的。OpenAI 的 C
家乐福目前在其法国官网推出了 Hopla 购物资讯机器人,据称,该机器人基于 GPT-4 模型,顾客可以使用该机器人改善自...
Elon Musk旗下人工智能新创公司X ai宣布,其自动生成式人工智能模型Grok将升级至1 5版本。Grok-1 5将改进其推论能力,使...
创立于2019年,针对制造业需求打造人智慧软件服务的Profet AI (杰伦智能科技),今日正式宣布推出其企业级人工智能管...
自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。 然鹅,现实可能更残酷QAQ 据就业服务平台Resume Builder调查
Menteebot 是 Mentee Robotics 的新产品,它是一款专为家庭或商业用途设计的人类大小的机器人,将人工智能技术提升到了一个全新的水平
三星电子在拉斯维加斯 2024 年消费电子展 (CES) 上推出了新版本的人工智能家庭伴侣机器人 Ballie。Ballie 首次在 CES 2020 上展示
2023年彭博富豪榜TOP10大部分来自于科技领域。由于AI技术的不断发展,美股在2023年年内出现了一波反弹,这使得科技领域的...
虽然 AMD 此前已经收购了多家硬件公司,但收购的软件公司却少之又少。昨天,AMD 宣布收购人工智能软件公司 Mipsology。 Mipsolo
近段时间以来,AIGC 爆火并引发诸多互联网科技公司入局。今日,怒喵科技创始人李楠更新微博,并配文AngryMiao AI 希望...
原本以Project Tailwind为称、能以人工智能汇整不同来源资料的谷歌笔记服务NotebookLM,目前已经将其背后的人工智能模型换成Gemini 1
openKylin 操作系统 1 0 版本今日正式发布,适配支持 X86、ARM、RISC-V 架构的个人电脑及平板及教育开发板,支持调用 AI 大模型
除了ChatGPT这样的AI聊天机器人,AI绘图也是很红的另一个应用范围。 前几个月大家是玩Stable-Diffusion、Lora这样的生成工具,最近最
根据市场调查机构 Gartner 公布的最新报告,全球客服中心(CC)正大力拥抱对话式 AI 和虚拟助手,预估 2023 年 CC 支出将达到 1
为了帮助视障人士,瑞士联邦理工学院(ETH Zürich)D-ITET 项目学习中心的学生开发出一种机器人导盲犬,其能够利用...
OpenAI 首席执行官 Sam Altman 表示,他的公司正在寻求微软公司进一步资金支持,来开发通用人工智能 (AGI)。 Altman在接受英
英特尔通过成立Articul8 AI(一家致力于推进生成式人工智能的新独立公司)在人工智能 (AI) 领域掀起波澜。英特尔与几位知名...
微软在去年年底推出了Copilot 程序的Android 版本,程序提供多种实用的人工智能功能,包括回答用户的查询、为用户生成内容...
韩国科技公司 Bear Robotics 周二表示,LG 电子已向美国人工智能自主服务机器人公司 Bear Robotics 投资 6000 万美元。LG表示,它
今年 5 月,OpenAI 发布了 iOS 版的 ChatGPT 应用,该应用已更新了许多新功能,包括对 Siri 快捷方式的支持。今日该应用又推