Nature全文编译:脑电波还原语音,脑机接口领域迎来重磅突破

商鹊网 2019-04-29 16:38:35

脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,目前该技术每分钟最多能打出8个单词。


来自加州大学旧金山分校的科学家创造了更接近能够恢复说话功能的脑机接口(brain–computer interface, BCI)。脑机接口旨在帮助瘫痪患者直接从大脑中“读取”他们的意图,并利用这些信息控制外部设备或移动瘫痪的肢体,目前这项技术能够使瘫痪的人每分钟最多能打出8个单词,而加州大学旧金山分校的研究人员开发的新方法,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平。这项研究发表在最新一期《自然》杂志上,作者为Anumanchipalli以及华裔科学家Edward Chang等人。

汇众医疗对该论文《通过神经解码语音合成口语语句》进行编译,邀您一同解密前沿科技的奥秘。

 

前 言

 

目前丧失语言能力的病人主要依赖可代替性交流设备或脑机接口来进行交流,但大多数病人很难每分钟输出超过10个单词,而自然交流平均每分钟输出150个单词。因此该领域最主要的问题是如何提高病人交流速度和效率。

 

直接从脑部活动中合成语言的方法很有前景。拼写是离散字母的堆积,而语音是一种高效的沟通形式,是由多关节声道移动形成。因此,以声道运动及其产生的声音为重点的仿生方法可能是实现高效交流的唯一手段。在瘫痪患者中,例如肌萎缩侧索硬化症或脑干中风,只有通过完整的皮质网络直接记录,才能获得高精度语音控制信号。

 

该研究通过以正常讲话速度将大脑信号转换成可理解的合成语音,来证明神经语言假肢的可行性。该研究要求5名受试者大声说数百句话,同时进行颅内监测,并记录高密度心电图信号。此外,研究人员设计了一个反复出现的神经网络,该网络解码皮层信号,精确表达关节动力学的中间反应,以合成语音。

 

 语言解码设计

 

图1 | 从自然解码的语句中合成语言

a. 神经解码过程从在高密度皮质中提取相关信号开始。b. LSTM 神经网络从 ECoG 信号解码关节运动学。c. 其他的bLSTM 从先前解码的运动学中解码声学,声学光谱特征从语音波形中提取。d. 解码信号被合成为声波波形。e. 频谱图显示受试者两个句子的频率内容。f. 脑信号合成语音频谱图与重复5次语句结果相似,计算原始音频和解码音频的每个句子的MCD。采用五次交叉验证法得到一致的译码。

 

图1a~1d显示了解码路径的两个阶段。第一阶段,双向长期记忆( bLSTM )循环神经网络,从连续的神经活动如在腹侧感觉运动皮层( vSMC )、上颞回( STG )和下额回( IFG )神经活动中解码关节运动特征(图1a , b )。第二阶段是一个单独的 bLSTM ,从第一阶段的解码关节特征来解码声学特征,如音调、梅尔倒频谱参数( MFCC )、发声和声门激发强度)(图1c )。然后根据解码后的声学特征合成音频信号(图1d )。为了整合解码器的两个阶段,第2阶段(发音-声学)直接以第1阶段输出结果进行训练,这样不仅可以学习从运动学到声音的转换,同时纠正第1阶段发音错误。

 

解码器的关键在于神经活动和声学之间的中间表达(图1b )。这一步是至关重要的,因为 vSMC 在语音生成过程中表现出强大的神经激活,主导编码关节动力学。由于连续语音的关节追踪在临床上是不可行的,我们使用统计方法来估计声道运动轨迹(嘴唇、舌头和下巴的运动)和其他生理特征(例如,人工合成的方式)。这些特性初始化语音编码器-解码器中的瓶颈层,该解码器被训练来重构受试者语音声学。然后,编码器被用来推断中间关节表示,及训练神经解码器。该解码策略可以准确地重构语音谱。

 

合成性能

 

 

总之,研究发现仅由神经活动合成的语音的详细重建过程。图1e,f 显示了从大脑活动解码的两个原始语句的音频光谱。解码后的 spec - trogram 保留了原始光谱中存在的显著能量模式,并正确地重建了两个语句中间的沉默。

 

扩展数据图1 |语言重建音标试验

a,b中值谱图,时间锁定到原始(a)和解码(b)音频音素起始点(/i/, n = 112; /z/, n = 115; /p/, n = 69, /ae/, n = 86)。这些音素代表了光谱的多样性特征。原始和解码的中值音素谱图相关性良好(所有音素的皮尔逊r>0.9,p=1×10-18)。

 

a,b 说明了音标方向上语音重建的质量。中位光谱图是区别两个词的声音单位,原始和合成的音素的中位光谱图表明典型的光谱模式在解码中得到保存。

 

为了了解人工合成的语音在多大程度上能被普通听众所理解,我们分别进行了单字识别和句子水平转达两个听力任务。这些任务在 AmazonMachinerTurk上进行。

 

 图2 |合成语言可理解性和特征

a.单一词汇测试(n=325)和完整句子测试(n=101)。分数表示词汇识别率,单词按照音节长度分组(n=75、158、68和24分别有1、2、3和4个音节)。听众从一组选择中选择语音(10、25或50个单词)。b .用于合成句子的闭式词汇转达的听力测试(n=101)。答案在单词选择(25或50)方面受到限制,但不是顺序长度。c. 用 MCD 测量的原始语句与神经性解码句子之间频谱畸变(较低的数值较好)(n =101、100、93、81和44分别对应受试者1-5)。标准 MCD 指的是在没有神经解码的情况下合成原始(推断)运动学。d .原始和解码的运动学和声学特征的相关性(n =101、100、93、81和44,分别对应受试者1-5)。运动学和声学数值代表相关性平均为33和32。 e. 从根据不同数量的训练数据训练的模型解码语句平均 MCD (n =101)。具有发音中间阶段(紫色)的解码器的表现优于直接 ECoG 到声学解码器(灰色)。f. 受试者1大脑的解剖重建,神经解码区域如下:腹侧感觉运动皮层(vsmc)、颞上回(stg)和额叶下回(ifg)。g,在所有区域训练的译码器和在除一个区域以外的所有区域训练的译码器之间语句(n=101)的MCD中位数的差异。所有方框图都描绘了中间值(方框内的水平线)、第25和75百分位(方框)、第25或75百分位±1.5×四分位间距(胡须)和离群值(圆)。使用双尾Wilcoxon有符号秩检验将分布与所示的分布或机会水平分布进行比较。**P<0.001。

 

对于单字识别任务,研究者评估从人工合成语言中挑选的325个单词,从量化单词长度(音节数字)效果和单词数量(10、25和50个单词)对语音理解性的影响lianggefangmia你进行评估,因为这些因素有助于优化语音接口的设计。总之,研究结果发现音节长度的增加,单词量减少(图2a),受试者识别单词能力越强。

 

对于句子层次的可理解性,研究者设计了一个封闭的词汇,自由转录任务。听众听到整个合成的句子,并从一个包括目标词和随机词的单词库(25或50个单词)中选择所听到的单词。封闭的词汇设置是必要的,因为测试集是 MOCHA-TIMBIT的子集,MOCHA-TIMBIT包含高度不可预测的句子结构和低频单词。

 

试验结果显示受试者可以正确转达合成语言。图2b 显示了每个句子的平均单词错误率( WER )的分布。中级水平的转述-脚本仍然提供了准确且合法的转述。

 

研究者量化了所有参与者在特征级别的解码性能。在语音合成中,通常使用平均美-塞普勒失真( MCD )来反应合成语音的光谱畸变。研究者将自然合成语言的MCD与标准关节运动学和机会级解码获得的神经合成语音的 MCD进行比较 。标准合成模拟了运动学的完美神经解码.五个受试者解码语音的 MCD 分数中值为5.14dB 到6.58dB。

 

研究人员计算了原始声学特征和解码声学特征之间的相关性。对于每个句子和特征, Pearson 的校正系数是用每个样本(200赫兹)计算出来的。图2d 描绘了平均解码声学特征(包括音调、MFCC 、发声和声门激发强度)与推断的运动学之间的语句关联性。

 

解码器特性

 

接下来的分析是基于参与者1的数据。在为临床应用设计神经解码器时,有几个关键因素可以决定模型的表现。首先,在严重瘫痪或言语能力有限的病人中,训练数据很难获得。因此,我们评估了实现好的表现所需的数据量。我们发现将明确的建模关节运动学作为一个中间步骤比直接从ECoG信号中解码声学要好很多。直接解码器是一个bLSTM循环神经网络,它被优化为直接从相同的 ECoG 信号中解码声学( MFCCs ),例如如发音解码器。我们发现,最少25分钟的说话,才能实现稳健的性能,但随着数据的添加,性能不断提高(图2e )。在没有发音中间步骤的情况下,使用全部数据量 (图3a; n = 101, P = 1 × 10−17, Wilcoxon符号秩检验).直接的ECoG 对声学解码MCD的偏移量为0.54 dB (0.2dB是可以被感知的)。

 

这两种方法之间的表现的不同随着数据大小的增加而持续存在。一种解释是,运动学的各个方面比声学更倾向于用皮质活动来表示,因此在有限的数据下学习起来更快。构成这一差异的另一个原因是声音运动学位于低维度的流形上,该流形限制了声音信号的潜在高维度声音信号(扩展数据图5)。因此,就像我们解码器第2阶段所做的那样,分离出高维翻译的发音到说话,可能对性能至关重要。对于足够大的数据集,两种解码方法可能会趋于一致。

 

扩展数据图5 | 运动学和声学状态空间中累积方差的比较。对每一种语音表示,包括运动学和声学进行了主成分分析计算,并对每一附加主成分的解释方差进行了累计总结。运动学和声学表征分别有33和32个特征。

 

其次,我们想要理解合成语音中保留的语音特征。我们使用 Kullback-Leibler 分集来比较每个解码的音位的光谱特征与每个基真音素的光谱特征的分布,以确定它们的相似程度(扩展数据图6)。我们希望除了相同的解码和地面真值音素彼此相似之外,具有共同声学特性的音素也彼此相似。

 

 

扩展数据图6  |  解码后的音素声学相似度矩阵。

声学相似度矩阵对解码后的声学特性音素和原始语音音素进行对比。首先计算相似度估计每个音素的高斯核密度(两者都被解码然后计算一对解码和原始音素分布之间的Kullback-Leibler(KL)偏差。每一行表示解码音素的声学特性与原始音质口音比较,最后执行分层聚类后得到相似度矩阵。根据参与者1的数据,计算出Kullback-Leibler(KL)散度。

 

基于每个音素对的Kullback-Leibler散度的聚类分析表明,音素被分为四大类。第一组包括有一个齿槽收缩部位的辅音(例如/ s /和/ t /)。第2组包含几乎所有其他辅音(例如/ f /和/ g /)。第三组主要包含高元音(例如/ i /和/ u /)。第4组主要包含中元音和低元音(例如/α/ 和 /æ/)。两组之间的差异往往与声学上的显著维度(辅音的光谱能量频率范围和元音的共振峰)的变化相对应。事实上,这些分组解释了在这些促进因素的听者转录中反映出的一些困惑。这种聚类分析方法也与地面真音素对的声学相似矩阵相一致。(扩展数据图7;共轭相关0.71, P =1*10^(-10))。

 

 

扩展数据图7 | 正确标记数据的声学相似度矩阵。

比较正确标记的口音音素声学特性,首先通过估计a来计算相似度即每个音素的高斯核密度,然后计算一对音素分布之间的Kullback-Leibler散度。每一行比较两个正确标记数据的声学特性音素。 对结果执行分层聚类相似矩阵。 数据采用参与者1的参数。

 

第三,由于解码器的成功取决于初始的electrode放置,我们量化了几个解剖区域(vSMC、STG和IFG)的贡献,这些区域参与了连续的语音制作。译码器被训练成“离开一个区域”的方式,所有来自特定区域的电极都被伸出(图2f)。删除任何区域都会导致解码器性能有所下降(图2g;n=101,p=3×10−4,Wilcoxon符号秩检验)。但是排除VSMC导致性能下降最大(mcd增加1.13 db)。

 

第四,我们研究了译码器是否能推广到实验数据中从未见过的新句子。由于参与者1多次生成一些句子,我们比较了两个译码器:一个是对所有句子进行训练的(而不是测试集中的特定实例),另一个是被训练排除测试集中的每个句子的实例。我们发现, MCD 和光谱特征校正的句子解码性能没有显著差异 (P分别等于0.36和0.75, n = 51, Wilcoxon符号秩检验; 扩展数据图 8)值得注意的是,这表明解码器可以运用到解码器从未训练过的任意单词和句子。

 

 

扩展数据图8 | 比对解码后的新语句和重复句子。

a,b比较指标包括频谱失真(a)和原始频谱之间的相关性特征(b)。 这两类句子的解码器性能并没有显著差异(P = 0.36(a)和P = 0.75(b),n = 51句)。新语句由单词或单词序列组成,重复的句子是至少有一个句子匹配训练数据中的单词序列。两个解码器分别对参与者1进行测试,测试句子排除重复测试集中的句子。最终结果P> 0.05。如图2所示。

 

合成模拟语音

 

为了排除解码器依赖参与者发声的听觉反馈的可能性,并模拟受试者不公开发声的环境,我们对解码器进行了无声模拟语音测试。我们测试了一组58个句子,参与者1听到每个句子,然后模仿同一句话,做相同的发音动作,但不发出声音。即使解码器没有接受模拟句子的训练,合成的无声语音的特殊图也显示出类似于合成同一句子的可听语音的光谱拍子(图3a-c )。在没有原始音频可供比较的情况下,我们将合成的模仿句与口语测试的音频进行了量化。我们通过对合成的模仿语音的光谱图进行第一次动态时间整合,以匹配可听见句子的时间分布,从而计算光谱畸变和光谱特征的相关性(图 3d, e) ,然后比较性能。虽然模仿语音的合成性能不如声音语音的性能(可能是由于模仿过程中没有语音信号),但这表明有可能去解码从未发出声音的语音的重要光谱 (P < 1 × 10−11 和机会相比, n = 58; Wilcoxon符号秩检验)并且该解码器不依赖于听觉反馈。

 

 

图3|无声模仿语句的神经解码语音合成

a是原始口语句子谱图,b是声音产生的神经解码,c是无声模仿产生的神经解码(重复5次,结果相似),d是MCD。e是原始谱特征和解码谱特征的相关性(n = 58 句话)。两种情况下,解码后的句子都明显优于机会级解码,n = 58; 可听的, P = 3 × 10−11; 模拟的, P = 5 × 10−11, Wilcoxon符号秩检验 方框图如图2所示,***P < 0.001。

 

状态-解码语音表达空间

 

 

我们的研究结果表明,模拟潜在的运动学增强了解码性能,因此我们接下来想更好地了解解码运动学与群体神经活动的本质。我们通过对关节运动特征的主成分分析计算状态空间投影,研究低维运动学状态——空间轨迹。前十个主要组件(总共33个组件)获得85%的方差,前两个主要组件获得了35%。(扩展数据图5)

 

 

图4 | 动态状态–语音产生的空间表示

a,b是从一次试验(参与者1)得到的运动学轨迹(灰色-蓝色),投影到运动学状态的前两个主要部件,即状态空间主部件(PC)1 (a)和2 (b)。两条虚线是解码的可听和混合运动轨迹图。皮尔逊相关系数r, n = 510 个样本。混合语音的发展轨迹在更快的时间尺度上被均匀地拉伸至与可听语音轨迹相一致,以便进行可视化比对。

c, d,主成分1( c )和2( d )的平均轨迹,分别对应从a和b转换为元音(黑色,n=22,453)和从辅音转换为元音(白色,n=22,453)。时间长度为500毫秒。

e .原始运动状态和解码运动状态之间的相关性分布----空间轨迹(主要部件1和2之间的平均值)(n = 101 ; 100 ; 93 ; 81 ; 44句,分别适用于参与者1-5)。皮尔逊通过对模拟轨迹的相关性计算得出动态时间规整到同一句子的可听性结果。然后比较这一结果随机选择的句子轨迹。n = 58 sentences; ***P = 1 × 10−5。

f .同一句话在不同参与者之间的状态空间轨迹的相关性分布。通过动态时间翘曲和不匹配句子对动态时间翘曲的相关性进行了参与者间的匹配。n = 92; ****P = 1 × 10−16 and n = 44; ***P = 1 × 10−8。

g.声学解码器之间的比较(stage 2) (n = 101 句)。“目标”是指与运动学解码器(阶段1)相同的参与者对数据进行训练的声学解码器受过(参与者1)培训。“传输”指的是来自不同参与者(参与者2)的运动学和声学训练的声学解码器。如图2所示的框图。

 

我们将一个例子句的运动轨迹投影到前两个主要部分(图4a,b )。这些轨迹被很好地解码,如示例所示(皮尔逊相关系数: r = 0.91 和 r = 0.91,主成分分别是1和2,图4a,b),总结所有测试句和参与者(除参与者5外,所有参与者的中位数 r 均大于0.72,其中r代表前两个主要成分的平均数, 图4e )。此外,我们对混合语音的状态空间轨迹也进行了解码(中位数 r =0.6, P = 1 × 10−5, n = 38, 图4e)。

 

状态-空间轨迹似乎表现了连续语音中音节模式的动态变化。辅音和元音的时间序列分别绘制在状态-空间轨迹上,并与轨迹的波谷和波峰相对应(图4a,b)。接下来,我们在每个元音到辅音转换(n=22,453)以及辅音到元音的转换(n=22,453)中进行取样,并绘制了以过渡时为中心的主成分1和2的500-ms 平均轨迹图(图4c,d)。这两种轨迹本质上都是两相的,从元音的“高”状态过渡到辅音的“低”状态,反之亦然。在检查特定音素的转换时,我们发现主要成分1和2保留了元音或辅音的两相轨迹,但对特定音素表现出特异性:主要成分1和2不一定只描述颚开口和关闭的情况,而是描述声道的整体结构的开口和关闭(扩展数据图9)。这些发现与人类言语行为理论的解释相一致,该理论认为,高维语音声学可以处于低维状态表述空间。

 

 

扩展数据图9 | 动态状态–音素特定元音和辅音转换的空间轨迹。主成分1 (PC1) 和 2 (PC2)从辅音或元音转换为特定音素的平均轨迹。轨迹是500毫秒,集中在音素之间的转换。

a .辅音对角元音(n = 1,387 ; 1,964 ; 2,259 ; 894, 分别表示aa, ae, iy ,uw)。PC1表示前元音(iy, ae)和后元音(uw, aa)之间所有角元音和PC2的分离。

b .元音到清音的爆破声(n = 2,071 ; 4,107 和1,441, 分别表示k, p和t)。PC1对双侧收缩(k)和PC2的选择性更强。

c .元音到肺泡(n = 3,919 ; 3,010 和4,107, 分别表示n,s和t)。PC1表现以发音方式(鼻腔、爆发性或摩擦性)分离,而PC2则不那么区分。

d .PC1和 PC2在声带和非声带肺泡摩擦(= 3,010和1,855,分别表示s和z)

 

为了评估解码后的状态——空间轨迹的相似性,我们将同一句话在不同的参与者之间的表述进行了关联,这些参与者被投射到各自的运动状态空间上(只有参与者1、2和4有可比较的句子)。我们看到状态空间轨迹非常相似(r>0.8; 图4f),这是泛化概念的关键:解码器很可能基于扬声器之间的共享模式。

 

对于不能说话的人来说基于共享模式的运动学表达将更为有利,他们学习并使用运动学解码器(这是第一阶段),同时使用现有的运动学-声学解码器(这是第二阶段),对独立收集的语音数据进行训练。在将阶段2从最初的参与者(参与者1)转移到目标参与者(参与者2)时,我们展示了最终的合成性能(图4g)。可能因为MCD度量对说话者身份的敏感性,虽然最终合成的语音片段不如第一阶段和第二阶段均对目标参与者(参与者2)进行训练时达到的状态,但每个声音的传输效果已经达到了我们的理想状态。

 

讨论

 

在这里,我们演示记录的皮质神经信号直接解码并合成语音。之前的神经解码侧重于语音片段的直接分类,如音素或单词;然而,当这些方法扩展到更大的语音空间和更快速的通信速率时常常受限。因为频谱信息的听觉编码与重构谱图之间具有直接关系,所以听觉皮层的感官解码对于语音声音或听觉图像的应用前景广阔。但是一个显而易见的问题是语音产生过程中声道运动的解码是否可以用于产生高保真度的语音输出。以前的工作集中于理解在单个电极上编码的运动;然而,解码处理声道运动和声音之间复杂映射的群体活动才是语音合成过程中最大挑战。自然语言的产生会涉及100多个肌肉,从运动到声音的映射并不是一对一的关系。我们的解码器明确地结合了这些知识,简化了神经活动转化为声音的过程,首先解码了神经活动的基本生理相关性,然后转化为语音声学。

 

这种统计映射允许在有限的训练范围内推广。直接语音合成比基于拼写的方法有几个主要优点。除了能够以自然语速表达不受限制的词汇外,它还实现了在文本输出中不具备的韵律元素,如音调语调。对于正常人来讲,BCI 脑机接口是很容易理解和使用的,但是对于患者而言就需要不断地提高对机器的认知和学习能力。

 

 

BCI 脑机接口正迅速成为临床上可行的恢复语言功能的一种手段。神经假体控制首先表现在无残疾的特发性人群,然后将技术转化为有四肢瘫痪的人群。本文的最终结果表明,说话者具有相似的运动学状态,并且有可能将关于运动学与声音的映射模型知识传递给不同的主体。在完整的大脑皮层中,协调一致的群体可以获得这种新生的、低维的神经活动表达,这对于引导解码器以及促进 BCI 学习来说是关键的一步。我们的结果可能是实现瘫痪患者语音恢复的重要里程碑。

 


 

该编译版权为汇众研究院(investank.com)所有,未经授权严禁转载。转载请联系:yintanbb(微信)