AI 公司 MosaicML 推出 70 亿参数模型 MPT-7B-8,号称“一次处理 8000 字长文本、可商用”
CTOnews.com 7 月 25 日消息,AI 创业公司 MosaicML 近日发布了其 70 亿参数模型 MPT-7B-8K,据悉,该模型一次可以处理 8000 字文本,相当擅长处理长文重点摘要和问答,还能在 MosaicML 平台上根据特定任务,进一步微调相关配置。
据悉,系列模型采用了 150 万个 Token,并以 256 块 H100 GPU 花 3 天完成模型训练而成。MosaicML 本次发布了 3 个版本模型,包括 MPT-7B-8k、MPT-7B-8k-Instruct 和 MPT-7B-8k-Chat。
其中,第一个版本 MPT-7B-8k、是以 Transformer 解码器为基础,并以 FlashAttention 和 FasterTransformer 机制来加速训练与推论,能一次处理 8000 字文本,MosaicML 公司表示,该模型开源、允许商用。
第二个版本 MPT-7B-8k-Instruct 是以第一个版本 MPT-7B-8k 微调而成,MosaicML 公司表示,MPT-7B-8k-Instruct 模型可处理长篇指令,特别注重于生成"摘要和问答",该模型一样开源且可商用。
第三个版本 MPT-7B-8k-Chat 则是机器人对话式的 AI 模型,MosaicML 公司宣称,该模型额外多用了 15 亿个聊天数据 Token,在第一版模型 MPT-7B-8k 之上继续训练而成,该模型开源,但不允许商用。
CTOnews.com此前报道,MosaicML 公司也推出了一款号称训练成本仅为竞品零头的 MPT-30B 开源模型,该公司日前已将所有开源模型发布于 Huggingface 平台,感兴趣的小伙伴们可以前往进行相关了解,还可以在本地硬件上使用自己的数据,在下载后,对模型进行各种微调。
相关文章
- 25 周年纪念作,情怀拉满但诚意欠缺:《勇者斗恶龙 怪物仙境 3》
- 联想拯救者 Y700 2023 平板推送 ZUI 15.0.723 系统灰度测试:新增“USB 网络共享”,优化底部小白条
- Streacom 推出 SG10 高端被动散热机箱:可解热 600W,1300 美元
- 3D 角色扮演策略游戏《少女前线 2:追放》公测开启,安卓、iOS、PC 多端互通
- 新能源车市:价格战开局,价值战结束
- 雪天这样拍,照片更为味道
- Cybertruck:未来物种重新定义汽车
- 2022 年我国未成年网民规模突破 1.93 亿,普及率达 97.2%
- 上映 7 天,《名侦探柯南:黑铁的鱼影》内地票房破亿、豆瓣 6.6 分
- 小岛工作室推出《死亡搁浅》联名手机手柄,预计明年发售