最强读心术!脑波直接转语音,你的秘密已无处藏身

图片来源:视觉中国

  注:本文来源于微信公众号量子位(ID:QbitAI),作者:晓查、安妮。

  不动口也不动手,该怎样与人交流?

  靠眼神吧略显暧昧,靠第六感吧又不太靠谱,这道题有解么?

  有,用万能的AI啊。最近,Nature子刊Scientific Reports上报道了一项新技术进展:监测一下脑电波,AI就能还原你听到的声音。

  研究披露,普通人理解并重复这些AI还原后的声音的准确率达到了75%,效果远超以往同类研究。

  把大脑活动直接转化成语音,这项研究潜力炸了。

  目前,系统只能恢复人类听觉区信号的简单词汇,但研究者最终想找到脑电波与语音的关联,让失去语言能力的人重新开口说话。

  想象一下,失语的渐冻人或中风患者只要头戴脑机接口设备,就能将所思所想直接转化为文字语音。

  不过,所有秘密也会随之暴露,谁让这是当代版最强“读心术”呢。

  AI“读心”

  这项研究来自哥伦比亚大学电气工程学院副教授Nima Mesgarani团队。他们在一系列实验的基础上,完成了这一研究。

  实验开始前,研究人员选择了五名接受癫痫治疗的患者作为实验对象。研究人员采用植入性脑皮层电图(ECoG)方法进行测试。所以实验第一步就是,保证每个人脑中都已嵌入电极。

  随后,5位受试者开启了听音测试状态,如同大学英语考试,两位女考官开始读单个数字。

  这份“听力材料”的难度不大,内容范围就是从0~9这10个数字。女考官随机读出,前后共读了40个数。

  受试者只需要坐在那里,通过脑机接口用模型重建语言信息,最后由电脑读出来。

  那么问题就是,整个重建流程是怎样的?

最强读心术!脑波直接转语音,你的秘密已无处藏身

  在这个过程中,受试者接受到声音,经过耳蜗时声波信号被转化成了神经电信号,经过前庭神经传递给大脑处理。

  大脑听觉皮层的神经网络此时开始活跃,神经电信号同时也被电极所接收。

  研究人员收集这些不断变化的信号,提取其中的有效信息,也就是高γ包络(HG)+低频(LF)信号。随后,就该根据这些信号重建声音了。

  研究人员用两种回归方法与两种重建的语音表示,探究两两组合情况下哪种重建方法效果最好。这样一来,整个重建过程就分成了四种不同的方法,分别是:

  (浅蓝)线性回归+听觉图谱(Aud Spec),简称LAS

  (紫色)线性回归+声码器,简称LV

  (粉色)非线性深度神经网络(DNN)+(Aud Spec),简称DAS

  (红色)非线性深度神经网络(DNN)+声码器,简称DV

  这里的DNN架构由两个模块构成,即特征提取网络和特征求和网络。前者由全连接神经网络(FCN)与局部连接网络(LCN)构成,后者为一个双层全连接神经网络(FCN)。

  DNN架构示意图

  在评估测试结果时,研究人员找来了11位听力正常的志愿者,随机收听用四种模型组合重建的音频效果。如同大学英语4级听力一样,每个句子只读一遍。

  最后,志愿者理解与复述所听内容,研究人员统计平均结果及平均意见得分(MOS)。

最强读心术!脑波直接转语音,你的秘密已无处藏身

  结果显示,非线性深度神经网络(DNN)+声码器组合(红色,DV)的还原度最高,志愿者的正确还原率达到了75%,且MOS得分最高,达到了3.4分。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

关闭