千家信息网

AI 公司 MosaicML 推出 70 亿参数模型 MPT-7B-8,号称“一次处理 8000 字长文本、可商用”

发表于:2024-10-01 作者:千家信息网编辑
千家信息网最后更新 2024年10月01日,CTOnews.com 7 月 25 日消息,AI 创业公司 MosaicML 近日发布了其 70 亿参数模型 MPT-7B-8K,据悉,该模型一次可以处理 8000 字文本,相当擅长处理长文重点摘要
千家信息网最后更新 2024年10月01日AI 公司 MosaicML 推出 70 亿参数模型 MPT-7B-8,号称“一次处理 8000 字长文本、可商用”

CTOnews.com 7 月 25 日消息,AI 创业公司 MosaicML 近日发布了其 70 亿参数模型 MPT-7B-8K,据悉,模型一次可以处理 8000 字文本,相当擅长处理长文重点摘要和问答,还能在 MosaicML 平台上根据特定任务,进一步微调相关配置

▲ 图源 Huggingface

据悉,系列模型采用了 150 万个 Token,并以 256 块 H100 GPU 花 3 天完成模型训练而成。MosaicML 本次发布了 3 个版本模型,包括 MPT-7B-8k、MPT-7B-8k-Instruct 和 MPT-7B-8k-Chat

▲ 图源 Huggingface

其中,第一个版本 MPT-7B-8k、是以 Transformer 解码器为基础,并以 FlashAttention 和 FasterTransformer 机制来加速训练与推论,能一次处理 8000 字文本,MosaicML 公司表示,该模型开源、允许商用。

第二个版本 MPT-7B-8k-Instruct 是以第一个版本 MPT-7B-8k 微调而成,MosaicML 公司表示,MPT-7B-8k-Instruct 模型可处理长篇指令,特别注重于生成"摘要和问答",该模型一样开源且可商用。

第三个版本 MPT-7B-8k-Chat 则是机器人对话式的 AI 模型,MosaicML 公司宣称,该模型额外多用了 15 亿个聊天数据 Token,在第一版模型 MPT-7B-8k 之上继续训练而成,该模型开源,但不允许商用。

CTOnews.com此前报道,MosaicML 公司也推出了一款号称训练成本仅为竞品零头的 MPT-30B 开源模型,该公司日前已将所有开源模型发布于 Huggingface 平台,感兴趣的小伙伴们可以前往进行相关了解,还可以在本地硬件上使用自己的数据,在下载后,对模型进行各种微调。

模型 公司 版本 训练 商用 处理 文本 平台 摘要 数据 问答 参数 三个 任务 兴趣 基础 小伙 小伙伴 成本 指令 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 佛山通信软件开发商家 常山北明是网络安全股吗 国庆70周年网络安全应急预案 淄博高校党建软件开发系统 hp服务器电源灯闪 服务器上怎么部署iis 五常软件开发者在线咨询 数据库中的坏表怎么修复 数据库最多可以存多少 进入云服务器该怎么设置 文科男生适合学软件开发吗 云服务器使用雷电模拟器 黎明杀机默认什么服务器 深圳金凯迪网络技术开发 软件开发所涉及的两大技术 国泰安数据库找公司总资产 什么数据库可以检索图表 海南工程软件开发排行 软件开发费是什么意思 网络营销不但是一种网络技术 嵌入式软件开发需要的技术 安徽录播服务器供应商云主机 数据库分区表存储空间回收 什么网络技术可以降低延迟 数据库适合不适合用虚拟机 烽火科技武汉 软件开发 软件开发部工资核算方法 洛江区网络安全知识竞答开始了 应用数学 软件开发 锤子手机一直显示连接服务器
0