24 小时销售热线13826273425
技术文章

articles

当前位置:首页  /  技术文章  /  基于肌电图的静默语音接口电极设置:一项初步研究

基于肌电图的静默语音接口电极设置:一项初步研究

更新时间:2026-03-17

浏览次数:89

背景介绍

    言语产生是人类交流的核心过程,涉及肺部气流、声带振动以及面部、口腔和舌头肌肉的协调运动。然而,对于接受全喉切除手术的患者来说,由于声带被切除,他们失去了发声能力。现有的替代发声方式,如食管语、电子喉或气管食管假体,虽然在临床上有所应用,但存在语音可懂度低、声音个性丧失等问题,限制了患者的社交沟通。

    为了帮助喉切除患者恢复自然语音交流,研究者提出了“无声语音接口"这一技术路径。SSI通过采集与发音相关的生物信号(如肌肉活动、舌位、脑电等),将其转换为合成语音。其中,表面肌电信号因其非侵入性和与发音肌肉活动的强相关性,成为研究热点。然而,如何选择合适的电极类型、数量与放置位置,是构建高效SSI系统的关键问题。

    本研究作为ReSSInt项目的一部分,旨在通过一系列实验,确定适合用于西班牙语喉切除患者的sEMG电极配置,为后续构建大规模EMG-语音数据库奠定基础。

论文摘要

     本文旨在探索用于开发无声语音接口的表面肌电信号电极配置方案。研究通过一系列实验,比较了不同类型的双极电极(同心电极与单配对电极)以及多个面部和颈部肌肉的信号贡献,最终确定了一套适用的电极布局方案。

实验分为三个阶段:一阶段比较了两种电极类型在五个通道下的表现;第二阶段扩展至14个通道,覆盖多个面部与颈部肌肉,评估各通道在音素分类任务中的表现;第三阶段基于前两阶段结果,优化出10个通道进行验证。

    实验结果表明,单配对电极在分类准确率上显著优于同心电极。通过对各通道的逐一分析与对比,研究最终筛选出八个电极通道,分别对应八个与发音密切相关的肌肉:二腹肌前腹、降口角肌、笑肌、上唇提肌、咬肌、颧大肌、下唇降肌和茎突舌骨肌。该配置已被用于ReSSInt数据库的正式录制。


研究方法


    本研究采用OT Bioelettronica公司生产的Quattrocento生物电放大器采集sEMG信号,采样频率为2048 Hz,同时使用Neumann TLM103麦克风录制语音信号,采样频率为16 kHz。为确保EMG与音频信号同步,研究中使用同步信号进行时间对齐。

    实验分为三个主要阶段:

阶段一:比较两种电极类型——同心电极与单配对电极,均以双极配置采集。实验使用五个通道,参与者朗读250句音素平衡的西班牙语句子。

639093380086892510153.webp

阶段二:扩展至14个通道,覆盖更多面部和颈部肌肉(如图2所示),采集105个西班牙语音节的CV组合,用于评估各通道的独立贡献。

639093380086423779662.webp

阶段三:基于前两阶段结果,优化出10个通道(如图3所示),再次录制句子以验证最终配置。

639093380086892510153.webp

    信号处理方面,研究提取了五类时域特征,并通过LDA降维,输入GMM、决策树和神经网络三种分类器进行音素分类任务。分类结果用于评估各通道的有效性。


实验结果

电极类型比较:阶段一实验结果显示,单配对电极在所有三种分类器中均显著优于同心电极(p < 0.001),其平均验证准确率更高(如图5所示)。这表明固定间距的同心电极可能因尺寸较大而引入更多交叉干扰。

639093381227867978276.webp

 通道选择分析:阶段二实验对各通道逐一进行音素分类。结果显示,OBO、STR、SCM等通道分类准确率低,且OBO电极因位置靠近嘴唇易受汗水和气流影响,信号稳定性差(如图6所示)。而SLH、PBD等颈部肌肉通道表现中下,因其位置接近,信号重叠度高,最终仅保留SLH。

639093381228180461756.webp

最终验证:阶段三实验中,FRT(额肌)通道作为对照,其分类准确率接近基线,验证了其他通道的发音相关性。最终,八个通道(ABD、DAO、RIS、LLS、MAS、ZYG、DLI、SLH)被选为优配置(如图7所示),在NN分类器中达到48.42%的测试准确率。

639093381228024296469.webp

总结与展望

本研究通过系统实验确定了一套适用于无声语音接口的sEMG电极配置方案,最终选定的八个通道覆盖了面部与颈部多个关键发音肌肉,具有较高的音素分类能力和实用性。该配置已被用于ReSSInt数据库的正式录制,未来将为喉切除患者的语音恢复研究提供数据支持。

    尽管研究结果具有指导意义,但也存在一定局限性。首先,实验仅基于一名参与者,肌肉活动的个体差异可能影响电极配置的普适性。其次,电极放置为不对称布局,虽基于面部对称性假设,但仍需进一步验证其对不同人群的适用性。

    未来,团队计划引入更多参与者,分析跨个体与跨会话的信号稳定性。同时,将探索基于SFS算法的通道优化方法,以进一步精简电极数量。ReSSInt数据库完成后,将通过ELRA公开,供研究者使用,推动无声语音接口技术的发展。

本研究团队来自西班牙巴斯克大学HiTZ语言技术中心,该中心是西班牙的自然语言处理和语音技术研究机构。团队由Inma Hernáez教授和Eva Navas教授,专注于语音技术、生物信号处理和辅助沟通系统的开发。

    一作者Inge Salomons和共同作者Eder del Blanco均为该中心的博士生,主要负责实验设计、数据采集与算法实现。团队长期从事无声语音接口研究,其主导的ReSSInt项目旨在为西班牙语喉切除患者开发基于表面肌电信号的语音恢复系统,获西班牙国家研究署资助。

    该团队在肌电信号处理、语音识别和多模态生物信号分析方面具有丰富经验,致力于将学术研究成果转化为实际临床应用,改善言语障碍人士的沟通能力。


原文链doi.org/10.3390/s25030781


分享到

全国咨询热线:13826273425

地址:广东省广州市越秀区金汇大厦9楼

邮箱:tinalg77@126.com

传真:

微信公众号

版权所有 © 2026 瑞鸿安(广东)科学设备有限公司    备案号:粤ICP备2025416469号

技术支持:化工仪器网    sitemap.xml

TEL:13826273425

微信公众号