千家信息网

北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源,性能霸榜

发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,CTOnews.com 10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称"同等
千家信息网最后更新 2024年11月11日北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源,性能霸榜

CTOnews.com 10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称"同等规模最强代码基座"

官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用,感兴趣的小伙伴们可以在此前往。

▲ 图源 官方 GitHub 项目

CTOnews.com从项目详情中获悉,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性

官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量"高质量的中英文数据",这些预训练数据均经过了"数据判重、数据过滤规则、数据质量模型一系列流水线"。

CodeShell 构建了包含 7 万个词的词表,中文、英文、代码的压缩比分别为 2.83、3.29、3.21,支持中英文和代码的平衡且高效的编解码。

具体性能方面,为了获得最大的分布式训练效率,Codeshell 基于 Megatron-LM,声称"在 Attention 算子优化、数据预处理、数据加载、日志输出、状态监控、分布式训练管理等方面进行了深度定制",支持 Flash Attention2 加速,训练吞吐量达到了每 GPU 每秒 3400 Token 的业界先进水平。

在代码评估基准 HumanEval 和 MBPP 中,CodeShell 超过了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它编程语言评测中,如 JavaScript、Java、C++,CodeShell 依然性能领先

▲ 图源 官方 GitHub 项目

官方还介绍了基于 CodeShell 打造的"全能代码助手模型"CodeShell-Chat,该 AI 工具支持"对话"、"代码生成"、"代码补齐"、"代码注释"、"代码检查"与"测试用例生成"等功能。

而在 IDE 插件方面,该插件目前支持 VSCode 和 IntelliJ IDEA,适用于各种主流编程语言,并提供了"专注模式"和"交互模式",以提升开发者效率。

0