当前位置: 首页>资讯>足球快讯

    OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远_1

    发布时间:2024-06-06 18:21:23   阅读:  次

    示例,上下文,预训练,原始版,提示词,能走多远,gpt-4,openai,视频生成模型

    梦晨 发自 凹非寺量子位 | 公众号 QbitAI

    除了OpenAI自己,居然还有别人能用上GPT-4-Base版??

    也就是未经微调的预训练版,还不会对话聊天,只会补全句子的模型。

    EPFL(瑞士洛桑联邦理工)团队申请到了访问权限,用于研究“上下文学习足以让大模型跟随指令吗?”

    OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远_1

    也就是不用监督微调、也不用RHLF或其他强化学习对齐方法,只靠提示词能走多远?

    预训练模型,究竟能不能一步登天,直接改造成聊天机器人或AI助手?

    如果可行,将大大降低类ChatGPT大模型的开发难度。

    免微调对齐靠谱吗?

    免微调对齐,让刚出炉的预训练模型不止会“文本补全”,只从提示词中学会和用户对话、跟随指令,一直是业界关注的研究方向。

    目前的SOTA方法URIAL来自艾伦研究所,使用系统提示词+少数风格示例就能达到不错的效果。

    但EPFL团队发现,URIAL仍无法完全弥补与指令微调模型的差距,尤其在多轮对话中的表现更差一些。

    实验中,在Llama系列、Mistral系列和一般人接触不到的GPT-4-Base都观察到这种现象。

    其中GPT-4-Base的API访问权限从OpenAI Researcher Access Program项目中申请到。

    EPFL团队从这里出发,尝试了各种办法来提升上下文学习的效果。

    首先他们增加示例的数量,但发现帮助不大,没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

    然后他们使用了贪心搜索算法,从一大堆示例中选择最佳的添加到上下文。

    这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 AlpacaEval 2.0基准测试中。

    OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远_1

    此外他们还发现,贪心搜索为某个特定模型找到的最佳示例,对于其他模型不能可靠地迁移。

    也就是说,不同的示例适合不同的模型

    团队还进行了一系列消融实验,以更多地了解上下文学习的工作原理。

    他们发现,在MT-Bench这样的综合评测中,示例包含正确的“问题-答案对”至关重要

    这与此前大模型在分类任务中,只要有大量示例,部分标签错了也无所谓的发现非常不同。

    所以最终得出的结论是:t即使采用更多复杂的改进方法,完全缩小上下文学习和指令微调之间的差距也有挑战,即使对于非常长上下文的大模型也是如此。

    论文最后分析,大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格,但还没有真正理解执行指令的逻辑。

    指令跟随任务相对还是比较复杂和开放的,没那么容易掌握。

    目前来看,想让AI助手更“听话”,暂时还是很难有捷径可走。

    论文地址:

    https://arxiv.org/abs/2405.19874

    参考链接:[1]https://x.com/maksym_andr/status/1796574297894318136

    — 完 —量子位 QbitAI · 头条号签约关注我们,第一时间获知前沿科技动态

    OpenAI把GPT-4原始版给了他们:研究不微调只靠提示词能走多远_1
    示例,上下文,预训练,原始版,提示词,能走多远,gpt-4,openai,视频生成模型

    上一篇 : 波尔津吉斯表示总决赛G1我将会出战

    下一篇 : 哈姆西克-渴望打破老马纪录 那不勒斯真核放豪言

最新直播 / Match
推荐录像 / Video

网站首页 | 网站地图 | Sitemap

JRS直播吧是一个业界专业的NBA直播网站,24小时实时更新最新比赛信息,主要提供高清NBA直播、足球直播、英超直播,JRS直播以最全最高清信号源,让您免费畅享体育赛事。

JRS直播吧所有直播信号和视频录像均由用户收集或从搜索引擎搜索整理获得,如有侵犯您的权益请通知我们,我们会第一时间处理,谢谢。

Copyright © 2023 JRS直播吧. All Rights Reserved 版权所有 粤ICP备17058876号-1

足球 篮球 录像 新闻