机器学习系统同时处理语音和对象识别
麻省理工学院的计算机科学家已经开发出一种系统,该系统基于对图像的口头描述来学习识别图像内的物体。给定图像和音频标题,模型将实时突出显示所描述图像的相关区域。
与当前的语音识别技术不同,该模型不需要手动转录和对其训练的示例进行注释。相反,它直接从原始图像中记录的语音剪辑和对象中学习单词,并将它们相互关联。
该模型目前只能识别几百种不同的单词和对象类型。但研究人员希望有一天,他们的语音对象识别技术可以节省大量的手工劳动时间,并在语音和图像识别方面打开新的大门。
例如,Siri和Google Voice等语音识别系统需要转录数千小时的语音录音。使用这些数据,系统学习用特定单词映射语音信号。当新术语进入我们的词典时,这种方法尤其成问题,并且系统必须重新训练。
“我们希望以更自然的方式进行语音识别,利用人类可以使用的其他信号和信息,但机器学习算法通常无法访问。我们有一个培训模型的想法这种方式类似于让孩子走遍世界并叙述你所看到的东西,“计算机科学与人工智能实验室(CSAIL)和口语系统小组的研究员David Harwath说。Harwath与人合着了一篇论文,描述了最近在欧洲计算机视觉会议上提出的模型。
在论文中,研究人员在一个金发和蓝眼睛的年轻女孩的图像上展示了他们的模型,穿着一件蓝色的连衣裙,背景是一个带有红色屋顶的白色灯塔。该模型学会了将图像中的哪些像素与“女孩”,“金发”,“蓝眼睛”,“蓝色礼服”,“白光屋”和“红色屋顶”相对应。当叙述音频标题时,模型然后突出显示图像中的每个对象。
一个有希望的应用是学习不同语言之间的翻译,而不需要双语注释器。在全世界估计的7,000种语言中,只有100种具有足够的语音识别转录数据。然而,考虑两种不同语言的说话者描述相同图像的情况。如果模型从语言A学习对应于图像中的对象的语音信号,并且学习语言B中对应于那些相同对象的信号,则可以假设这两个信号 - 和匹配的词 - 是彼此的翻译。
“有一种Babel Fish型机制的潜力,”Harwath说,指的是“银河系漫游指南”中的虚构生活耳机,它将不同的语言翻译成佩戴者。
CSAIL的共同作者是:研究生Adria Recasens;访问学生Didac Suris;前研究员Galen Chuang;Antonio Torralba,电气工程和计算机科学教授,也是MIT-IBM Watson AI Lab的负责人;和高级研究科学家詹姆斯·格拉斯一起领导CSAIL的语言系统组。
视听协会
这项工作扩展了Harwath,Glass和Torralba开发的早期模型,该模型将语音与主题相关图像组相关联。在早期的研究中,他们将分类数据库中的场景图像放在众包Mechanical Turk平台上。然后他们让人们将这些图像描述为对孩子进行叙述,大约10秒钟。他们汇集了20多万对图像和音频字幕,分为数百种不同的类别,如海滩,商场,城市街道和卧室。
然后他们设计了一个由两个独立的卷积神经网络(CNN)组成的模型。一个处理图像,一个处理频谱图,音频信号随时间变化的视觉表示。模型的最高层计算两个网络的输出,并将语音模式与图像数据进行映射。
例如,研究人员将提供模型标题A和图像A,这是正确的。然后,他们会用图像A给它一个随机标题B,这是一个不正确的配对。在将数千个错误字幕与图像A进行比较之后,模型学习与图像A对应的语音信号,并将这些信号与字幕中的字相关联。如2016年的一项研究所述,该模型学会了例如挑选出与“水”相对应的信号,并用水体检索图像。
“但它没有提供一种说法,'这是一个确切的时间点,有人说一个特定的词,指的是那个特定的像素片,'”哈瓦斯说。
制作匹配图
在新论文中,研究人员修改了模型,将特定单词与特定的像素块相关联。研究人员在相同的数据库上训练了该模型,但总共有400,000个图像标题对。他们提供了1000个随机对进行测试。
在训练中,模型同样给出了正确和不正确的图像和标题。但这次,图像分析CNN将图像划分为由像素块组成的单元网格。音频分析CNN将频谱图划分为例如一秒的段以捕获一个或两个字。
使用正确的图像和标题对,模型将网格的第一个单元格与第一个音频段匹配,然后将相同的单元格与第二个音频段匹配,依此类推,直到每个网格单元格和所有网格单元格时间段。对于每个单元和音频片段,它提供相似性分数,具体取决于信号与对象的对应程度。
挑战在于,在训练期间,模型无法访问语音和图像之间的任何真实对齐信息。“该论文的最大贡献,”Harwath说,“证明这些跨模式[音频和视觉]对齐可以通过简单地教导网络哪些图像和字幕属于一起而哪些对不能自动推断。”
作者将这种自动学习关联称为语音标题的波形与图像像素之间的“匹配图”。在对数千个图像标题对进行训练之后,网络将这些对齐缩小到表示该匹配图中特定对象的特定单词。
“这有点像大爆炸,物质真正分散,然后合并成行星和恒星,”哈瓦斯说。“预测开始分散在各处,但是,当你进行训练时,它们会聚合成一个对齐,代表口语和视觉对象之间有意义的语义基础。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
传祺GS3试驾:线上+线下全攻略广汽传祺GS3凭借时尚设计与强劲性能,成为SUV市场中的热门车型。无论是线上了解...浏览全文>>
-
2024款安徽淮南威然的最新价格已经公布,各配置车型的售价信息如下:2024款威然330TSI商务版指导价:28 68万...浏览全文>>
-
淮南途锐新能源车的落地价分析如下:途锐新能源作为大众旗下的高端插电混动SUV,以其强劲的动力和豪华配置吸引...浏览全文>>
-
2023款大众探影在安徽阜阳地区的最新报价现已出炉,为计划购车的朋友带来实惠。作为一款小型SUV,探影凭借时尚...浏览全文>>
-
近日,滁州地区2025款高尔夫的市场价格吸引了众多消费者的关注。根据最新数据显示,近一个月以来,该款车型的...浏览全文>>
-
QQ多米落地价:各配置车型售价一览奇瑞QQ多米作为一款备受关注的小型电动车,凭借其亲民的价格和实用的配置,...浏览全文>>
-
2025款途锐作为大众旗下的豪华SUV,以其强劲的动力、卓越的性能和高端配置吸引了众多消费者的目光。目前市场上...浏览全文>>
-
淮南途锐新能源2024款即将上市,作为大众旗下的高端SUV车型,途锐新能源以其卓越的性能和豪华配置赢得了广泛好...浏览全文>>
-
近日,阜阳地区传来好消息,2025款途锐正式到店,最低售价仅为55 88万元起。作为大众旗下的豪华SUV车型,途锐...浏览全文>>
-
近期,安徽淮南地区的探影车型迎来了一波购车优惠,最低售价仅需11 59万元起,对于预算有限但又想拥有一辆高...浏览全文>>
- 安徽淮南威然最新价格2024款,各配置车型售价全知晓
- 滁州高尔夫 2025新款价格走势,近一个月最低售价10.68万起,性价比凸显
- 滁州途锐新款价格2025款多少钱?买车攻略一网打尽
- 安徽淮南探影落地价,最低售价11.59万起,入手正当时
- 安徽淮北高尔夫多少钱 2025款落地价限时特惠,最低售价12.99万起,错过不再有
- 安徽阜阳途昂最新价格2025款,各配置车型售价全知晓
- QQ多米价格,最低售价5.99万起,入手正当时
- 安徽淮南高尔夫多少钱 2025款落地价大起底,买车超详细
- 安徽淮南ID.4 X最新价格2025款全解买车必看
- 阜阳途锐新能源多少钱?报价解析,配置全面升级
- 比亚迪唐新能源预约试驾,如何在4S店快速预约?
- 安徽阜阳途观L落地价全解,买车必看的省钱秘籍
- 阜阳ID.4 X多少钱?最低售价13.99万起,性价比大揭秘
- 领克900试驾怎么预约
- 试驾本田CR-V,如何享受4S店的专业服务?
- 池州ID.6 X新款价格2023款多少钱?买车攻略一网打尽
- 生活家PHEV落地价,各配置车型售价一目了然
- 亳州大众CC价格,换代前的购车良机,不容错过
- 蚌埠途安L新车报价2022款大起底,买车超详细
- 奥迪e-tron GT试驾,如何享受4S店的专业服务?