GitHub 的 AI 编程工具漏洞高达 40% ，再次陷入争议……

发布人：AI科技大本营时间：2021-09-19 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

在近日发表的一篇论文中，研究人员对 GitHub Copilot 人工智能编程辅助工具进行了深入调查。结果发现，仍处于测试预览阶段的 Copilot 具有高达 40% 的错误代码率，意味着开发者必须在使用时对其保持清醒的认知。此外在多场景测试项目中，约 40% 都被发现包含了安全漏洞。

AI 编程神器 GitHub Copilot

此前，GitHub 和 OpenAI 推出一种新人工智能自动编程工具 Copilot ，能自动生成代码，供开发者参考使用。

官方宣传语为“你的 AI 结对编程助手”。

什么是结对编程呢？

结对编程（英语：Pair programming）是一种敏捷软件开发的方法，两个程序员在一个计算机上共同工作。一个人输入代码，而另一个人审查他输入的每一行代码。输入代码的人称作驾驶员，审查代码的人称作观察员（或导航员）。两个程序员经常互换角色。

在结对编程中，观察员同时考虑工作的战略性方向，提出改进的意见，或将来可能出现的问题以便处理。这样使得驾驶者可以集中全部注意力在完成当前任务的“战术”方面。观察员当作安全网和指南。结对编程对开发程序有很多好处。比如增加纪律性，写出更好的代码等。

那么AI结对编程就是人机结对编程的升级版，具体来说 GitHub Copilot 由 OpenAI Codex 提供支持，可以从开发者已经编写的代码和注释中提取上下文，试图理解开发者意图，生成需要添加的一行、多行代码或整个函数，当程序员接受或拒绝建议时，模型就会学习越来越适应和匹配开发者的编程风格。

这使得程序员无需在写代码时去查阅大量文档或搜索相关示例，更加聚焦于开发工作本身。

正如 OpenAI 员工 Harri Edwards 所言：“用一种不熟悉的语言编写代码，用谷歌搜索所有东西，就像用一本短语手册去浏览一个外国国家。而使用 GitHub Copilot ，好比雇佣一名翻译。”

GitHub 首席执行官在 6 月 29 日的一篇博客文章中称：

OpenAI Codex 对人们如何使用代码有着广泛的了解，且在代码生成方面较 GPT-3 强大得多，部分原因是其在包含大量公共源码的数据集上展开了训练。

GitHub Copilot 适用于多种语言框架，但现阶段的技术预览版本更侧重于 Python、JavaScript、TypeScript、Ruby 和 Go 语言。

然而 Copilot 很快引发了多方争议，尤其涉及代码质量、法律与道德考量、替换人类开发者的可能性、以及引入安全漏洞的可能性。

GitHub Copilot 的代码质量如何呢？

近日，康奈尔大学的研究人员公布了一项数据，为了对 Copilot 的实际价值做出量化，他们为 GitHubCopilot 生成了 89 个不同的场景，生成了 1692 个程序。其中，大约 40% 的程序存在安全漏洞。

具体说来是，这项研究从三个维度展开了考量，分别是缺陷的多样性、prompt 的多样性、以及领域的多样性。

总体而言，头部 39.33% 和总体 40.48% 的项目易受攻击。从安全角度来看，Copilot 在测试场景中的表现也有好有坏。

对于新手来说，Copilot 借鉴的高质量代码还是相当值得推荐的。但若开源存储库中的某些错误相当明显，Copilot 也会更加频繁地重现。

研究人员表示，由于 Copilot 是利用 GitHub 上提供的开源代码进行训练的，因此可以推断，代码安全质量取决于 GitHub 社区的开源代码质量。

在 GitHub Copilot 推出后，有关于它的负面消息这并不是第一次。

就在其发布不到一周的时间里，GitHub Copilot 就被推上了侵权的风口浪尖，引发了前所未有的争议。

原因是有位程序员尝试了一下平方根倒数速算法（Fast Inverse Square Root），结果只是打出来这四个关键词。

floatQ_rsqrt( float number )
{
long i;
float x2, y;
constfloat threehalfs = 1.5F;
    x2 = number * 0.5F;
    y  = number;
    i  = * ( long * ) &y;                       // evil floating point bit level hacking
    i  = 0x5f3759df - ( i >> 1 );               // what the fuck? 
    y  = * ( float * ) &i;
    y  = y * ( threehalfs - ( x2 * y * y ) );   // 1st iteration
//    y  = y * ( threehalfs - ( x2 * y * y ) );   // 2nd iteration, this can be removed
return y;
}

GitHub Copilot 就逐行“完美复刻”了当年那段神奇的算法，甚至连当时的原版注释都被保留下来。