首页 新闻 政务 图片 要闻 聚焦 县域 专题 文娱 科教 旅游 财经 论坛 名医 招聘 数字报 新媒体 返回
首页 >> 财经 >> IT产业 >> 正文

国际最大规模的多模态同步语言神经影像数据集发布

来源:央广网 时间:2022-10-09 11:14

央广网北京10月9日消息 大脑加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于研究大脑的语言加工机制至关重要。

近期,中国科学院自动化研究所自然语言处理研究组历时近两年,采集处理完成了目前为止国际上规模最大、包括信息最丰富的汉语同步多模态神经影像数据集,并正式对外发布。相关论文发表于Nature子刊Scientific Data

当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,如高空间分辨率的功能核磁共振(fMRI)或高时间分辨率的脑磁图(MEG),并且大多使用1小时以内的实验材料,数据规模有限,无法借助数据需求量大的计算模型进行更全面、更深入的大脑语言加工机制探索。

该数据集是国际上最大规模的用于脑语言处理机制研究的多模态同步神经影像数据集,针对12个被试收听约6个小时故事时的fMRI、MEG、每个被试的T1/T2加权结构像、扩散磁共振成像和静息态核磁共振数据采集整理而成。为了便于利用计算模型进行脑语言处理机制的研究,所有故事材料都由人工标注了句法结构树,计算了文本中每个词汇对应的音频时间点、词频以及多种不同字和词汇的向量。所有测试指标均超越或可比于已有的同类数据集,具有充分的质量保证。

该数据集的公开发布可以为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区以及不同脑区之间如何协同工作等科学问题提供重要支撑。特别值得注意的是,该数据集覆盖近万个汉语词汇,这不仅对于研究大脑理解汉语的认知机理具有重要意义,而且将在探索自然语言计算模型与人脑语言处理机制之间的关系,研究如何利用神经影像数据提升现有语言计算模型的性能,从而构建新一代受脑启发的神经语言模型等一系列工作中发挥显著作用。


编辑:trsadmin

上一篇: 世界最高海拔特高压交流输变电工程开工
下一篇: 国家知识产权局:截至2022年9月我国发明专利有效量为408.1万件

相关新闻

7708.com版权与免责声明:
  ① 凡本网注明"来源:7708.com"的所有作品,版权均属于7708.com,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明"来源:7708.com"。违反上述声明者,本网将追究其相关法律责任。
  ② 凡本网注明"来源:xxx(非7708.com)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
  ③ 如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

新媒体

  • 打好组合拳,跑出加速度!​咸宁工业经济奋战开
    打好组合拳,跑出加速度!​咸宁工业经济奋战开门红
  • 喜讯!咸宁多了一个“中国天然氧吧”
    喜讯!咸宁多了一个“中国天然氧吧”
  • 投资26亿元!嘉鱼县官桥八组把大学办到家门口
    投资26亿元!嘉鱼县官桥八组把大学办到家门口
  • 咸宁一地入选中国美丽休闲乡村
    咸宁一地入选中国美丽休闲乡村
  • 省级名单揭晓,咸宁这户家庭上榜!
    省级名单揭晓,咸宁这户家庭上榜!
Baidu
sogou