北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源,性能霸榜
CTOnews.com 10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称"同等规模最强代码基座"。
官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用,感兴趣的小伙伴们可以在此前往。
CTOnews.com从项目详情中获悉,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。
官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量"高质量的中英文数据",这些预训练数据均经过了"数据判重、数据过滤规则、数据质量模型一系列流水线"。
CodeShell 构建了包含 7 万个词的词表,中文、英文、代码的压缩比分别为 2.83、3.29、3.21,支持中英文和代码的平衡且高效的编解码。
具体性能方面,为了获得最大的分布式训练效率,Codeshell 基于 Megatron-LM,声称"在 Attention 算子优化、数据预处理、数据加载、日志输出、状态监控、分布式训练管理等方面进行了深度定制",支持 Flash Attention2 加速,训练吞吐量达到了每 GPU 每秒 3400 Token 的业界先进水平。
在代码评估基准 HumanEval 和 MBPP 中,CodeShell 超过了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它编程语言评测中,如 JavaScript、Java、C++,CodeShell 依然性能领先。
官方还介绍了基于 CodeShell 打造的"全能代码助手模型"CodeShell-Chat,该 AI 工具支持"对话"、"代码生成"、"代码补齐"、"代码注释"、"代码检查"与"测试用例生成"等功能。
而在 IDE 插件方面,该插件目前支持 VSCode 和 IntelliJ IDEA,适用于各种主流编程语言,并提供了"专注模式"和"交互模式",以提升开发者效率。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售