首页 > 系统集成 > 正文

读心术成真?脑波直接转语音,脑机接口新突破
2019-04-27 16:39:41   来源:麦姆斯咨询   评论:0   点击:

据麦姆斯咨询报道,近日,在《Nature》杂志上,来自加州大学旧金山分校的科学家们发表了一篇论文,该论文中提出了一种由神经网络驱动的新型BCI,它可使瘫痪或中风患者以平均每分钟约150个单词的语速进行自然语音交流,接近正常人水平!

记录运动皮层信号的脑机接口(brain-computer interface,BCI)可根据患者大脑活动来合成语音。

两年前,一名因脊髓损伤瘫痪的64岁男子通过脑机接口以每分钟8个单词的打字速度在当时创下了纪录。

据麦姆斯咨询报道,近日,在《Nature》杂志上,来自加州大学旧金山分校(University of California, San Francisco,简称UCSF)的科学家们发表了一篇论文,该论文中提出了一种由神经网络驱动的新型BCI,它可使瘫痪或中风患者以平均每分钟约150个单词的语速进行自然语音交流,接近正常人水平!

该项技术的工作原理主要分为两步:首先,它将大脑信号转换成声道运动,主要的发音器官包括下颌、喉部、嘴唇和舌头;接着,将这些动作合成为语音。该论文的作者提到,这项技术需要将手掌大小的电极阵列直接放置在大脑表面,这为从大脑活动中重建自然语音提供了有力的概念验证。

加州大学旧金山分校的研究人员使用了与上图类似的颅内电极阵列来记录参与此项研究的受试者的大脑活动

加州大学旧金山分校的研究人员使用了与上图类似的颅内电极阵列来记录参与此项研究的受试者的大脑活动

该项目研究负责人和UCSF神经外科医生Edward Chang在新闻发布会上表示,目前市面上许多研究都侧重于从大脑活动中解码声音或整个单词,但是解码思想“异常困难”。“我们的此次研究非常明确地试图通过解码动作来创造声音,而不是直接解码声音。”

“这是一项设计巧妙、运行良好的研究,可以了解如何直接从大脑信号中解码语音。”来自美国西北大学(Northwestern University)神经修复实验室负责人Marc Slutzky说道(并未参与此项研究)。

然而,将该技术转化为临床实验仍具有挑战性,Slutzky补充道:“目前为止,FDA(Food and Drug Administration,食品药品监督管理局)还没有批准在高信道容量中使用的电极类型(他们在此项研究中运用了256个通道)的设备,因此这仍然是发展障碍。但我相信最终会克服的。”

神经网络是一套对人类大脑不精确建模的算法,常用于深度学习,以解释来自大脑活动的声音,Chang的论文是目前神经研究的最新成果。上周,两个独立的团队:来自美国西北大学Slutzky的实验室和哥伦比亚大学Nima Mesgarani的实验室,分别在《Journal of Neural Engineering》和《Scientific Reports》杂志上发表论文,利用神经网络算法重建大脑活动中的语音。Chang的研究与这两者的不同之处在于,他分析的是运动皮层下的大脑活动。

Mesgarani说道:“最终哪种方法能更好地解码想象中的交流情境还有待观察,但将两种方法结合起来可能会达到最好的效果。”

近期的每项研究,包括Chang的研究,都依赖于通过手术在大脑中或大脑上直接放置电极。尽管Facebook声称他们也在开发一种非侵入性技术,能够从用户的大脑中每分钟读出100个单词,但目前还没有发布关于这一说法的任何成果。专家们一致认为,外部电极根本无法提供来自小脑区足够精确的数据。于2017年发表了关于瘫痪男子利用BCI实现每分钟打字8个单词的研究的BrainGate联盟,近期又发表了一篇关于瘫痪者利用BCI以“意念”操控平板电脑的论文,也都是依赖于植入大脑的芯片。

在目前的研究中,Chang和他的同事们在5名接受癫痫治疗的受试者的言语运动皮层植入了电极阵列,然后从这些电极阵列收集数据。研究人员记录下了患者大声说出几百句话时的大脑信号。这些句子包括“这个跷跷板安全吗?”、“在第12天黄昏时分,我们相约一起喝夏布利葡萄酒。”等,它们是被特别挑选出来,囊括了英语的所有音标。

接下来,研究人员利用第一个神经网络将这些高分辨率的大脑信号解码成声道运动,其本质上是将脑电波转换成能够产生声音的物理运动模型,例如嘴唇、舌头或下颌的运动。这项研究基于该团队去年在《Neuron》期刊上发表的模型。

最后,他们使用第二个神经网络将这些声道运动的数字化合成音频信号,并让志愿者听。在对101个句子的测试中,受试者可以在词库的帮助下很好地识别并记录合成的语音:在25个单词的词库中,受试者完美地记录了43%的句子;在50个单词的词库中,记录了21%的句子。总的来说,大约70%的单词被正确记录。Chang说,该研究的后续工作包括让音频信号更加自然和易懂。

这项研究还有一个有趣的发现,一名受试者被要求在不发出声音的情况下用其声道模仿单词的发音动作。BCI能够从这些发音动作中合成出可理解的语音,这表明该系统还可以应用于不能发出声音的人。

解码出来的声道运动在人与人之间大同小异,这表明有可能创建一种“通用”解码器在不同的人之间共享。“模仿一个人声音的人造声道可以根据另一个人的大脑活动来合成语音。”Chang说道。

该研究的主要限制是它的受试者都是没有语言障碍的人。Chang说,该团队希望未来能够在不能说话的患者身上进行临床试验,测试这项新技术。

延伸阅读:

《神经技术和脑机接口-2018版》

《生物MEMS和非侵入式传感器-2018版》

相关热词搜索:脑机接口 神经网络

上一篇:通用子公司Cruise加注激光雷达商业化,自动驾驶云端虚拟测试如火如荼
下一篇:最后一页