千家信息网

炬芯科技周正宇:焕新声音活力,AI 驱动下的音频芯片创新

发表于:2025-02-05 作者:千家信息网编辑
千家信息网最后更新 2025年02月05日,人类高度依赖对声音的感知,从某些角度出发甚至高于对于视觉的依赖。海伦凯勒说: 盲隔离人和物,聋隔离人和人。可以说声音是人与人交互最重要的手段。人对声音的高度依赖从生到死永不停息,耳朵是一生从不关断的感
千家信息网最后更新 2025年02月05日炬芯科技周正宇:焕新声音活力,AI 驱动下的音频芯片创新

人类高度依赖对声音的感知,从某些角度出发甚至高于对于视觉的依赖。海伦凯勒说: 盲隔离人和物,聋隔离人和人。可以说声音是人与人交互最重要的手段。人对声音的高度依赖从生到死永不停息,耳朵是一生从不关断的感应装置,即使在睡眠中也始终保持敏锐,每时每刻都在接收环境内所有的声音并传递给大脑。因此,在人工智能时代,声音也将是人机交互的最重要手段之一。

也正因为人类对声音感知的高度依赖,人类对美好声音的追求永无止境。从最早的留声机到收录机、从 CD 到 MP3, 从蓝牙音箱到 TWS 耳机,人们对高品质音频体验的追求更是永不停息,昨天发烧友的愿望往往成为明天普通人的标配。相伴而行的是人们持续对于音频产品便携化,小型化,长待机的需求。

历史证明了,音频产品虽然历史悠久,但却常常在各个时代引领时尚。从早期的留声机到八十年代的收录机成为家庭和街头的时尚,从 70 年代的三转一响到 80-90 年代八大件作为结婚标配,都有音频产品引领时尚的历史痕迹。苹果公司是全球最具创新力的公司之一,多次以颠覆性的创新改变人们的生活,其中有两次都是以音频产品成功引领时尚,一次是 iPod 引领 MP3 便携式音频的新体验,其后是 Airpods 引领 TWS 耳机风潮。

近几年,以亚马逊 Alexa 为标志的智能音箱风靡一时,带来了人机语音互动的新体验。新一代基于语音互动的 ChatGPT 则让所有人对于未来的 AI 体验有了无尽的想象空间。相信在 AI 时代,AI 化的音频产品依然会引领 AI 时代的时尚,最早落地生根。而芯片,是让这些引领时尚的音频产品成为现实的核心,音频 AI 化必将再一次驱动芯片跳跃式创新。

2023 年 11 月 10 日,炬芯科技股份有限公司董事长兼 CEO 周正宇博士受邀出席中国集成电路设计业 2023 年会 (ICCAD2023), 结合音频领域的发展趋势及 AI 时代热潮,分享便携式产品如何在 AI 时代打造高算力,发表主题演讲:《焕新声音活力:AI 驱动下的音频芯片创新》。

●低功耗前提下打造高算力是便携式 AI 音频 SoC 的核心基础

周正宇博士指出:AI 时代,对于音频穿戴或者音频便携式产品而言,提升 AI 体验的挑战和机遇,是如何在每毫瓦功耗上打造尽可能大的算力,而不是简单追求大算力绝对值。以电池供电为基础的便携式音频或者穿戴产品,成功 AI 化的核心诉求是在低功耗下打造大算力,才能实现更好的 AI 体验。

算力和功耗两者是矛盾的统一体,大算力必然需要更大的功耗,功耗的增大又成为算力提升的障碍。周正宇博士提到,"实现单位 mW 下算力的数量级提升不能光是期待和依赖先进工艺,必须在计算架构和芯片电路实现上进行创新。"

以最典型的两种穿戴产品:TWS 耳机和智能手表为例,基于 4.2V 的锂电池供电,其使用的典型完整功能 SoC 平均工作电流一般在 3-5mA; 也就是说,便携式音频或穿戴产品核心 SoC 整体功耗总预算在 15-20mW 以下,在电池技术没有革命性变革的情况下,便携式音频或穿戴产品 SoC 应该以 10mW 或者以下的功耗预算来打造更大的 AI 算力。

通过对当下较著名的不同领域 AI 模型和算法所需算力进行系统的分析和归纳,AI 音频模型算力需求基本在 1TOPS 以下,并且典型算力在 200-500GOPS 即可提供很好的音频 AI 体验。所以,我们面对的挑战是如何在低于 10mW 的功耗下打造 200-500GOPS 的 AI 算力。200-500GOPS 的算力貌似挑战不大,几乎所有的 NPU IP 都能达成,但在 10mW 以下的功耗预算内达成却极具挑战。

以基于传统计算架构的 NPU 周易公开数据为例,它在 28nm 下能效比约 2TOPS / W, 也就是说 200-500GOPS 需要 100-250mW 的功耗,比 10mW 以下的功耗预算高了 10-25 倍以上。即便使用 7nm, 周易可以达成 10TOPS / W, 但功耗仍有 20-50mW, 仅进入了合理的量级,依然高了 2-5 倍。换而言之,即使使用 7nm 先进工艺,在功耗限制下依然只能提供比目标值低很多的算力。

也就是说,要达到"10mW 以下功耗预算打造 200-500GOPS 的音频 AI 算力"的目标,传统冯诺依曼计算架构必须依赖比 7nm 更先进的工艺,如 5nm 或者 3nm, 并且这都还是假设传统 NPU 能够发挥百分百的计算效率,不受"存储墙"和"功耗墙"的限制。

冯诺依曼计算架构的特点是存储和计算是完全分离的,由于处理器的设计以提升计算速度为主,存储则更注重容量提升和成本优化,"存""算"之间性能失配从而导致了访存带宽低、时延长、功耗高等问题,主要功耗消耗及性能瓶颈在存和算之间的数据搬移,即通常所说的"存储墙"和"功耗墙"。访存愈密集,速度越快,"墙"的问题愈严重,算力提升愈困难。

为了突破冯诺伊曼架构的"存储墙"和"功耗墙",存内计算 (Compute-In-Memory , 简称 CIM) 是一种富有潜力的技术路径。在芯片设计过程中,不再区分存储单元和计算单元,真正实现存算融合,在存储单元上实现计算,直接消除"存""算"界限,使计算能效达到数量级提升。这样的一种极度的近邻的布局,基本上完全消除了数据移动延迟和功耗,是解决传统冯诺依曼架构下存储墙与功耗墙问题的关键技术。

当下,基于几种最普及的存储介质,例如 Flash, DRAM, SRAM 和其它新兴 Memory 发展 CIM 各有优缺点和合理的应用领域。基于 Flash 的 CIM 最大问题在于写速度慢而且写的次数有限制,写多次后芯片就坏了,同时它需要使用特殊工艺,虽成熟但不宜和 SoC 的其他电路整合,不是 CIM 技术的理想选择。基于 DRAM 的 CIM 虽然没有写次数的限制,但相对能效比在四种介质中最低,不适合低功耗算力的打造,同时 DRAM 也是特殊工艺无法在 SoC 集成,但它具备密度高的优势,所以适合云计算、服务器类打造超大算力采用。新兴的存储介质如 RRAM、MRAM 等虽然理论上具备非常多的优势,未来可能给大家带来惊喜,但当前工艺极其不成熟,还没有到可大规模量产的阶段。

而基于 SRAM 的 CIM 最大缺点是密度低不适合适用在超大算力 (如几十 TOPS 的 AI 应用) , 然而上述讨论音频 AI 应用并不需要超大算力 (仅 0.2-0.5TOPS), 有效规避了 SRAM 的密度相对小的弱点。、

于是在低功耗下打造音频产品算力的应用里,基于 SRAM 的 CIM 具有非常显著的技术优势包括:

1、能效比高,功耗低,读写速度快,适合低功耗高性能装置使用;

2、写次数没有限制,适用于模型反复调整的,基于自学习或者自适应的 AI 模型和算法,也便于需要经常切换模型的支持多种神经网络算法的自适应调节和分时处理;

3、工艺成熟,可大规模量产。标准 CMOS 工艺成熟,稳定,普适,所有的 FAB 都可大规模生产;

4、工艺领先,适合集成。容易采用最先进的工艺节点,方便在任何工艺节点实现单芯 SoC 集成。

周正宇博士总结: 针对低功耗的音频 SoC, 基于 SRAM 的 CIM 是目前打造低功耗音频 AI 算力的首选。

●在极低的功耗预算下达成为便携式或穿戴产品提供音频 AI 算力

基于 SRAM 的 CIM 电路实现有两种主流的实现方法,一是基于纯模拟设计的电路实现,另一种是基于模数混合设计的电路实现。它们的主要差异在于模拟 CIM 的运算单元以 ADC 和模拟乘法器和加法器实现运算单元,而模数混合的 CIM 的运算单元则是使用 custom-design 的方式来融合存储单元和实现数字的逻辑运算单元。周正宇博士提出,炬芯科技选择了基于模数混合电路的 SRAM 存内计算 (Mixed-Mode SRAM based CIM, 简称 MMSCIM) 的技术路径,它兼备模拟和数字电路各有的优势,当然设计的壁垒也相对高。

相对于模拟 CIM 的设计思路,MMSCIM 有几个明显的好处:

精度是无损的,模拟是会受电路的噪声和环境因素的干扰,每一次计算出来的结果并不完全一致,精度有损失。

数字实现运算单元具有高可靠性和高量产一致性,这是数字化天生的优势。

易于工艺升级和不同 FAB 间的设计转换。

容易提升速度,进行性能 / 功耗 / 面积 (PPA) 的优化。

资料的读取与计算在 SRAM 内部是同步的,能效比更高。

自适应模型的稀疏性易基于此提升能效比。

MMSCIM 基于已经实现的 Testchip 测试和估算结果,在 22nm 工艺下能效比能达到 7.8TOPS / W, 接近使用 7nm 先进工艺实现的传统架构 NPU;MMSCIM 预计在 16nm 下能效比能达到 15.6TOPS / W, 高于 7nm 先进工艺下传统架构的 NPU。但 10mW 以下的功耗下依然不足以打造出 200-500GOPS 算力的需求,所以技术上还需要继续创新。

周正宇博士提出,利用 AI 矩阵计算的稀疏性提升能效比将是一个重要突破口。音频算法的 AI 模型大部分具有矩阵稀疏性的特性,也就是有许多模型参数为零,遇到零可以不做运算,以便节省功耗。传统 NPU 可以通过特殊逻辑电路设计来执行 Skip-Zero 技巧以降低功耗。然而,这种 Skip-Zero 的逻辑电路对于一维 AI 算子相对容易实现,但面临 2D 算子则实现挑战较大,而且需要付出额外逻辑电路成本和功耗的代价,使得 Skip Zero 所提升的能效比有所打折。

而 MMSCIM 却拥有天生的自适应稀疏矩阵的特性,乘法运算单元遇到输入零则不耗电,无论 1D 或 2D 的算子,都能无需附加逻辑电路的帮助自然达成 Skip-Zero 的效果,使得 MMSCIM 技术浑然天成达到更好的能效比。

炬芯科技透过仿真分析,当矩阵稀疏性在 50%-80% 的范围内,MMSCIM 在 22nm 可以达成 24.5TOPS / W-70.38TOPS / W 的能效比,对应 10mW 功耗可以打造 245GOPS-704GOPS 算力。而在 12nm 的实现下,在矩阵稀疏性在 20%-50% 的范围内,能效比就达成 23.5-46.9TOPS / W, 对应 10mW 的算力可达 235GOPS-469GOPS。

所以,基于模数混合设计的 SRAM based 存内计算 (MMSCIM), 在稀疏矩阵的加持下,两者有机结合,可以在极低的功耗预算下,可达成为便携式音频或穿戴产品提供音频 AI 算力的目标,即"在 10mW 以下功耗预算打造 200-500GOPS 的音频 AI 算力",且可实现迅速的大规模量产。22nm MMSCIM 能效比就有望超过 7nm 传统冯诺依曼架构的 NPU,12nm 的情况下大幅超越 7nm 传统架构的 NPU。

●炬芯科技将推出最新基于 MMSCIM 的高端 AI 音频芯片

周正宇博士最后分享总结,音频 AI 化将再次驱动芯片技术的创新,尤其是 SoC 技术的创新,而这个创新的最主要的基础是如何在端侧便携式产品上在低功耗前提下来提供大算力,这是穿戴和便携式 SoC 以及终端产品在 AI 时代所面临的挑战,只有坚持不懈地创新,才能帮助大家突破困局,也为国产端侧 AI 音频芯片带来了巨大的市场机会。

一直以来,炬芯科技致力于打造基于 CPU+DSP 双核异构音频处理架构的低功耗下的低延迟高音质技术,炬芯科技将顺应人工智能的发展大势,从高端音频芯片入手,整合低功耗 AI 加速引擎,逐步全面升级为 CPU+DSP+NPU (based MMSCIM) 三核异构的 AI SoC 架构,为便携式产品提供更大的算力。不久将为 AI 降噪、人声分离、人声隔离等应用带来高品质的提升,也将广泛应用于智能音频、智能办公、智能教育、智能陪护等多个市场领域。

炬芯科技将推出最新一代基于 MMSCIM 的高端 AI 音频芯片 ATS286X, 预计在 2024 年开始 Sample, 敬请期待!

0