专栏中心

EEPW首页 > 专栏 > 教科书级数据is all you need:1.3B小模型逆袭大模型的秘密(2)

教科书级数据is all you need:1.3B小模型逆袭大模型的秘密(2)

发布人:机器之心 时间:2023-06-23 来源:工程师 发布文章
在 CodeExercises 上微调后模型能力的峰值


如下图 2.1 所示,该研究发现模型在 HumanEval 基准上的最大改进来自于在小型 CodeExercises 数据集(<200M token)上的微调。CodeExercises 仅包含使用基本 Python 库的简短 Python 任务。
图片
该研究表明,微调后的模型在执行微调数据集中没有的任务上也表现出显著的性能改进。
微调提升了模型的理解能力
该研究仅使用简单的 Python 函数就观察到,微调后的模型对指令的理解和遵循程度要高得多。例如,phi-1-base 很难处理 prompt 中的逻辑关系,而 phi-1 可以正确解释问题并生成答案。
图片
微调提升了模型使用外部库的能力
该研究发现在 CodeExercises 上的微调意外地提高了模型使用 Pygame 和 Tkinter 等外部库的能力,尽管微调中不包含这些库。这表明微调不仅改进了目标任务,还使不相关的任务更容易从预训练中蒸馏(distill)出来。
图片
LLM 分级中非常规问题的评估
如下表 1 所示,phi-1 在 HumanEval 基准上取得了令人惊讶的良好性能。但一个潜在问题是,phi-1 优越的性能可能来源于 CodeExercises 数据集的「污染」。
图片
为了最大限度地减少 bias 和数据泄露(data leakage),该研究在没有访问 CodeExercises 数据集的情况下创建了新的评估问题。具体来说,该研究以 HumanEval 的格式创建了 50 个新问题,并附有设计说明,这些问题不太可能出现在现实世界的代码库或编码练习中。例如:
图片

下表 2 显示了 phi-1 和一些模型的比较结果:
图片

数据修剪及性能评估
如上图 2.1 所示,在 CodeExercises 上的训练显著提升了模型在 HumanEval 基准上的性能。为了研究这种提升,该研究通过移除与 HumanEval「相似」的文件来修剪 CodeExercises 数据集。这个过程可以被视为数据净化的「强力形式」。
然后,该研究在修剪过的数据上重新训练模型,模型在 HumanEval 基准上仍然表现出强大的性能。特别是,即使在修剪超过 40% 的 情况下,重新训练的 phi-1 仍然优于 StarCoder。
图片
感兴趣的读者可以阅读论文原文,了解更多研究细节。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: AI

相关推荐

紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

视频 2025-12-19

AI热潮引发多层陶瓷电容MLCC供应短缺

GPU:面临工作负载转变的高吞吐架构

EEPW2018年3月刊(工业物联网)

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 2017-12-14

尼吉康的事业介绍

视频 2025-07-25

爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运

赋能边缘端对话式人工智能

Nigel AI赋能LabVIEW,NI用AI重塑测试新边界

2026-05-22

基于Microchip MCU的AI/ML培训教程3

视频 2025-11-12

英伟达CFO:我们早就知道内存大涨价要来了

2026-05-24

AI 驱动估值飙升:光通信半导体企业市值暴涨

电子元件培训教材

基于Microchip MCU的AI/ML培训教程2

视频 2025-11-12

基于Microchip MCU的AI/ML培训教程1

视频 2025-11-12

研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结

AI竞争进入下半场:从“卷参数”到“卷单价”

2026-05-22

EEPW2018年6月刊(5G)

资源下载 2018-06-11
更多 培训课堂
更多 焦点
更多 视频

技术专区