四川大学华西医院耳鼻咽喉头颈外科 Department of Otolaryngology-Head and Neck Surgery at West China Hospital, Sichuan University.

华西耳鼻喉学术前沿速递——文献精读（第63期）

发布时间：2025-03-31

原创李娅妮华西医院耳鼻喉科

华西耳鼻喉学术前沿速递——文献精读（第63期）

精读分享│【Nature Communications】：人工耳蜗使用者实时言语识别的核心机制

英文题目：Underlying dimensions of real-time word recognition in cochlear implant users

中文题目：人工耳蜗使用者实时言语识别的核心机制

期刊：Nature Communications（IF=14.7）

单位：美国爱荷华大学听觉与语言认知研究团队

发表时间：2024-08

摘要

词汇识别是连接读音与词义的语言桥梁。既往研究将其认知机制视作相似读音词汇之间的竞争过程，但尚未明确这种竞争在不同人群个体间差异的维度特征。因此，本研究在不同背景与听力学特征的人工耳蜗使用者群体及全年龄段正常听力人群中，探究在实时听觉言语识别过程中表现的认知机制差异。研究通过视觉世界范式解析词汇竞争过程。主成分分析与既往小规模研究相呼应，揭示了个体在三个维度上解决词汇竞争的能力差异。这三个维度分别反映词汇提取的延迟程度（"延迟激活"）、竞争完全解决的效率（"持续激活"）以及总体激活速率。每个维度受不同听觉技能与人口学因素（耳聋发生时间、年龄、人工耳蜗使用经验）的独立预测，且均能超越听觉保真度指标预测临床结局（安静/噪声环境言语感知、主观聆听成功率）。值得注意的是，"延迟激活"与"持续激活"程度越高，临床结局越差。这些发现表明，词汇识别机制存在若干基础性差异维度，可解释听力受损个体言语感知表现的异质性。

研究思路与方法

研究背景

语言理解是听力功能的核心产出，而词汇识别作为语言理解的基石，通过将声音与意义相连接实现这一过程。先前研究将词汇识别的认知机制描述为相似发音词汇之间的竞争过程，但尚未明确这种竞争在不同人群中的变化维度。本研究旨在通过人工耳蜗（Cochlear Implant, CI）使用者这一具有高度异质性听力背景的群体，以及无听力损失的全年龄段样本，揭示词汇竞争机制的基本维度。

1 听力损失与认知衰退

随着全球人口老龄化，听力损失与认知衰退已成为重要公共卫生议题。大量证据表明，听力损失（及其导致的语音理解能力下降）是认知衰退的关键可干预因素。尽管语音理解能力的重要性已被广泛认可，现有关于语音理解认知机制的研究仍缺乏能够统一解释听力损失、年龄或其他人口学因素差异的普适理论。这一理论空白在重度耳聋且依赖人工耳蜗的群体中尤为显著。人工耳蜗将自然声学输入转化为耳蜗上有限电极的电刺激模式，这种输入方式与正常听觉系统接收的信号存在本质差异，需要中枢神经系统进行适应性调整。本研究通过人工耳蜗使用者这一高度异质化样本，结合新方法探索语言处理关键维度的本质。

2 词汇识别的研究挑战

本研究聚焦孤立词汇的识别过程。词汇是语言的核心单元，其识别涉及语音、句法和语义等多层次信息的提取。孤立词汇识别不仅是临床听力测试和词汇评估的常用范式，还能剥离句子或语篇等上下文信息的补偿作用，直接观测词汇处理的瓶颈环节。尽管词汇识别受多种因素影响（如词汇属性、听者特征），认知科学领域数十年的研究集中于一个核心问题：听者在实时语音输入中如何从候选词汇中锁定目标词。针对正常听力成年人的研究已建立了“词汇即时竞争”的理论框架——听者通过持续激活与输入部分匹配的候选词，并逐步排除竞争词。然而，针对特殊人群（如语言障碍患者、儿童）或特殊听觉环境（噪声、语音失真）的小规模研究表明，这一机制可能存在系统性差异。例如，人工耳蜗使用者可能因输入信号质量下降而表现出不同的竞争解决策略。但现有研究尚未明确这些差异的本质维度，也未建立其与临床结局的关联。

3视觉世界范式 (VWP)的应用

本研究采用视觉世界范式量化实时词汇竞争的动态过程。在该范式中，听者在听到目标词（如“篮子”）的同时，需从包含目标词、语音竞争词（如“球棒”）、韵脚竞争词（如“棺材”）及无关词的图片阵列中选择对应项。通过眼动追踪技术，研究者可精确刻画听者在词汇识别过程中对不同类型竞争词的激活与抑制时程（图1A）。该范式已广泛应用于儿童、老年人群、多语者及听力障碍群体，被视为了解词汇竞争机制的重要工具。针对人工耳蜗使用者的小规模研究发现两种典型加工模式：

(1) 持续激活（Sustained Activation）：常见于语后聋成人使用者，表现为词汇激活速率减缓，竞争词抑制不完全（图1B）。

(2)延迟激活（Wait-and-See）：多见于语前聋青少年使用者，表现为词汇识别启动延迟，竞争词激活程度降低（图1C-D）。

这些模式在噪声环境下的正常听力人群中也存在类似表现，提示其可能是听觉挑战下的通用适应机制。然而，现有研究受限于样本量，未能系统解析个体差异的驱动因素及其功能意义。

4 待解问题与研究目标

本研究通过大样本人工耳蜗使用者（N=101）和正常听力人群（N=107）的对比分析，旨在解决以下关键问题：

(1)维度性：词汇竞争机制的个体差异是否可归纳为有限维度？不同加工模式（如持续激活与观望）是单一连续谱的两端，还是独立维度？

(2)普适性：正常听力人群是否表现出与人工耳蜗使用者相同的加工维度？

(3)预测因素：人口学特征（耳聋发病年龄、年龄、设备使用经验）和听觉功能（频谱/时间分辨率）如何影响个体在加工维度上的位置？

(4)功能意义：特定加工模式是适应性的代偿策略，还是听觉输入质量下降的被动反映？其能否独立于外周听觉功能预测临床结局？

通过回答这些问题，本研究将为构建包容性语言处理理论、优化人工耳蜗康复策略提供新见解。

研究方法

1 研究对象

人工耳蜗植入者（CI植入者）：样本量为101人，包括语前聋、语后聋和失聪时间介于两者之间的个体（参见表1）。

听力正常个体（NH组）：样本量为107人，作为对照组。

2 研究任务

2.1 听觉精度任务

2.1.1 频谱精度

使用频谱波动任务（Spectral Ripple Task），评估人工耳蜗用户在频率维度上区分频带的能力。受试者需辨别频谱波动模式的变化，如频率间隔差异。

2.1.2 时间调制精度

使用时间包络任务（Envelope Task），评估参与者对语音信号中快速和慢速时间变化的处理能力。

2.2 语音感知任务

2.2.1 安静环境下的单词识别

使用辅音-元音-辅音词表（CNC），参与者在安静环境下听到60 dB SPL的单音节单词，并重复这些单词。

2.2.2 噪声环境中的句子识别

使用噪音中句子识别（AzBio）测试，在噪声背景中播放语义不可预测的句子，受试者需重复完整句子。

2.2.3 真实场景中的语音感知回顾性评估

通过语音-空间-质量量表（SSQ）问卷调查，评估参与者对语音清晰度、空间感知和质量的主观反馈。

2.3 视觉世界（VWP）任务

2.3.1 词汇竞争视觉世界范式（VWP）

参与者听到目标单词（如“rocket”），屏幕上显示目标图片、竞争图片（如音节相似的“rocker”或押韵的“pocket”）以及无关图片。通过眼动追踪记录目光轨迹，揭示实时词汇竞争的动态过程。

2.3.2 非语言视觉世界范式（nIVWP）

改良的非语言版本任务，通过视觉匹配任务评估参与者的视觉搜索和认知控制能力，例如从四个可能的形状中找到与目标形状匹配的图片。

3 统计分析：

3.1 主成分分析（PCA）：

从眼动数据提取13个参数（如目标词激活斜率、竞争词抑制峰值时间）。

结果验证：通过蒙特卡洛模拟验证维度的可靠性。

3.2 回归分析：

评估词汇竞争维度与个体特征（如年龄、性别、植入经验）及听觉特性（如FAH状态、声学保真度）的关系。

研究结果

1 VWP结果概述

图2A展示了CI使用者在VWP任务中对四种不同类型竞争词的注视分布随时间的变化情况。

1）总体模式：早期注视主要集中于目标词（如basket）及其同类竞争词（如batter），两类注视曲线约在600毫秒时分离。考虑到眼动计划与执行需200毫秒，且试验开始至刺激呈现间隔为100毫秒，该分离实际发生于词语呈现后300毫秒。押韵竞争词（如casket）的注视峰值较低，且升降速率均较缓慢。总体而言，人工耳蜗使用者的词汇竞争模式与正常听力者的渐进式加工具有质性相似，但个体差异显著（图2下图）。例如：

受试者699表现出强烈的同类词注视及早期目标词注视，提示即时性（类正常听力）竞争；

受试者592显示目标词注视延迟且几乎无竞争激活（"延迟激活"典型特征）；

受试者1517在加工后期呈现目标词注视减少而竞争词注视增加（"持续激活"典型特征）。

2 个体差异的维度

2.1 视觉世界范式结果的主成分分析（PCA）

从目标单词、竞争者和无关项的注视轨迹中提取了13个参数，通过PCA提取出3个主要维度，总体解释了62.1%的数据方差：

1）延迟激活（Wait-and-See，28.6%）：表现为词汇识别启动延迟（约一个单词时长），竞争词（如首音重叠词）激活峰值降低（图3A）。语前聋CI使用者在此维度得分显著高于语后聋者（图4A）。

2）持续激活（Sustained Activation，21.5%）：表现为词汇激活速率减缓，目标词与竞争词在后期注视比例未完全分离（图3B），且与年龄呈正相关（图7B）。

3）慢激活速率（Slow Activation Rate，11.9%）：反映词汇激活与抑制的整体速率降低，与年龄呈二次曲线关系（青年期提升，中年后下降），且在正常听力人群（ATH）中同样显著（图5B）。

3 非重度听力损失群体是否也表现出相同的维度特征？

分析CI群体的语言加工特征是否同样适用于正常听力群体（ATH），发现：

1）延迟激活和持续激活维度（图5A）：正常听力群体（ATH）在这两个维度上的数值显著低于CI群体，且变异性更小，表明其词汇竞争处理更高效且个体差异较小。

2）慢激活速率维度（图5B）：分析发现，ATH群体与CI群体在此维度上的表现没有显著差异。其与年龄呈显著相关，且存在一个二次效应（非线性模式），如图6。与听众的听力状态（CI群体与NH听众）间无显著交互作用，年龄相关的处理变化模式在两组中一致。

4 词汇竞争指标的预测因素

通过回归分析基于人口统计和外周听觉因素的影响预测每位个体在词汇竞争维度上的分布。

4.1 “延迟激活”

1）与失聪起始时间显著相关。语前失聪个体表现出更高的延迟激活指数，但随着设备使用经验的增加，逐渐向语后失聪个体靠拢（图7A）。

2）双耳FAH个体的延迟激活指数显著低于单耳FAH或无FAH个体（图4B）。

4.2 “持续激活”

几乎完全由年龄驱动，年龄越大，持续激活特性越显著（图7B）。失聪起始时间对持续激活的影响较小。

4.3 “慢激活速率”

1）设备使用经验与失聪起始时间的交互作用显著：语前失聪个体随经验积累速率加快，而语后失聪个体受设备经验影响小且速率略有下降（图7C）。

2）年龄表现出二次效应：年轻阶段速率较快，中年达到峰值，老年逐渐减缓。

4.4听觉外周因素的作用

仅有两种听觉外周因素能够预测实时词汇竞争维度：

1）频谱精度与慢激活速率：频谱精度较低的CI群体，其激活速率显著减缓。

2）双耳FAH与延迟激活：拥有双耳FAH的CI群体表现出更少的延迟激活。

5 词汇竞争维度与语音感知结局的关系

探讨词汇竞争的不同维度是否能够预测语音感知的结果。在控制听觉外周功能（频谱/时间分辨率）和人口学因素后，发现：

1）辅音-元音-辅音词表（CNC）：单词识别的准确性显著受到延迟激活、持续激活和慢激活速率的影响。这些维度的高值与更低的单词识别能力相关。

2）噪音中句子识别（AzBio）：所有三个维度（延迟激活、持续激活、慢激活速率）均与句子识别能力呈负相关。这表明，当个体在词汇竞争中表现出更强的延迟激活、持续激活或慢激活特性时，他们的句子理解能力较低。

3）主观听力体验（SSQ）：现实生活中的语音感知表现同时受到功能性声学听觉（FAH）和持续激活维度的影响。这表明听觉输入质量和竞争解决效率是影响现实环境中听觉成功的关键因素。

6 延迟激活、持续激活和慢激活速率对听众是否有益？

探讨了词汇竞争的三大维度是否具有适应性作用。回归分析表明，与适应性假说相反，在所有情况下，更高的词汇竞争维度（即更偏离正常听力的处理方式）均与更差的语音感知结果相关。词汇竞争维度反映的是听觉挑战下的非优化处理模式，而非适应性策略。其独立于外周听觉功能预测临床结局，提示语言处理效率是听力康复的关键靶点。

结论

本研究通过主成分分析揭示了人工耳蜗使用者实时语言处理中的三个关键维度：延迟激活、持续激活和缓慢激活速率。这些维度独立存在，分别反映词汇竞争中的延迟、竞争抑制和激活速率变化，每个维度均与不同的人口学、听觉和认知因素相关，并能够独立预测临床听力结局。

延迟激活主要与语前/后聋相关，持续激活与年龄密切相关，而慢激活速率更多反映年龄带来的自然变化。这些维度体现了独特的认知差异，而非单纯由听觉外周因素决定。意外的是，这些特征并未表现出积极的适应性，较高的维度值反而与较差的语音感知结果相关，如单词和句子识别能力降低。

本研究发现，词汇竞争维度能够解释传统听力测试无法捕捉的临床变异。控制听觉外周功能后，增加词汇竞争维度可使噪音中句子识别的解释方差从21%提升至41%，凸显语言处理效率对复杂听觉场景的重要性。延迟激活与持续激活维度的高得分者表现出更差的日常听力体验，提示针对性的认知干预（如加速词汇激活训练或竞争抑制增强）可能改善其功能结局。该项研究强调，实时语言处理能力在人工耳蜗用户的语言感知中起关键作用，建议在临床评估中引入相关测试，以优化干预策略和语言康复效果。

汇报人：李娅妮

导师：郑芸

审核：王欣怡、向琳、任建君

上一篇：华西耳鼻喉前沿学术速递——文献导读（第63期）

下一篇：华西耳鼻喉前沿学术速递——文献导读（第62期）

科研工作

科研工作

Research

新闻和动态

联系我们

前沿速递

科研工作

科研工作 Research

新闻和动态

联系我们

前沿速递

微信公众号扫码关注我们

科研工作

Research