您的位置首页 >企业 >

Facebook人工智能研究应用Transformer架构简化了对象检测模型

给大家分享一篇关于互联网和手机的文章。相信很多朋友对互联网和手机还是不太了解,所以边肖也在网上搜集了一些关于手机和互联网的相关知识与大家分享。希望大家看完之后会喜欢。

脸书人工智能研究(FAIR)的六名成员使用流行的Transformer神经网络架构来创建端到端的对象检测人工智能,声称这种方法简化了对象检测模型的创建,并减少了对手动组件的需求。该模型被称为检测变压器(DETR),可以识别图像中的物体一次。

FAIR在博文中表示,DETR是第一个成功将Transformer架构作为核心组件集成到检测管道中的对象检测框架。作者补充说,变形金刚可以彻底改变计算机视觉,或者缩小NLP和计算机视觉之间的差距,就像近年来的自然语言处理一样。

“通过结合通用CNN和Transformer架构,DETR可以直接(并行)预测最终检测结果,”周三发表的FAIR论文与开源版本的DETR一起阅读。“与许多其他现代探测器不同,新模型概念简单,不需要特殊的库。”

变压器网络架构由谷歌研究人员于2017年创建。它最初是作为一种改进机器翻译的方法,但它已经发展成为机器学习的基石,用于制作一些最流行的预先训练的最新语言模型,如谷歌的BERT、脸书的RoBERTa等。在与VentureBeat的对话中,谷歌AI负责人Jeff Dean等AI知名人士宣布,基于Transformer的语言模型是2019年的主要趋势,他们预计2020年会继续发展。

Transformer使用注意函数代替递归神经网络来预测序列中的下一步。当应用于对象检测时,Transformer可以减少构建模型的步骤,例如创建空间锚点和自定义图层。

根据arXiv的说法,DETR的结果与fast R-CNN的结果相当,fast R-CNN是微软研究公司创建的一个物体检测模型,自2015年推出以来,被引用了近1万次。DETR的研究人员使用COCO对象检测数据集和其他与全景分割相关的数据集进行了实验,全景分割是一种绘制图像区域而不是使用包围盒的对象检测类型。

作者说,他们遇到的主要问题之一是,DETR在大对象上比在小对象上工作得更好。“目前的探测器需要几年的改进来处理类似的问题,我们预计未来的工作将为DETR成功解决这些问题,”作者写道。

DETR是最新的脸书人工智能项目,旨在找到解决计算机视觉挑战的语言模型解决方案。本月早些时候,脸书引入了仇恨模因数据集和挑战,以支持创建多模态人工智能,能够识别模因中的图像和伴随文本何时违反脸书政策。在相关新闻中,本周早些时候,《华尔街日报》报道称,一项内部调查在2018年得出结论,脸书的推荐算法“利用了人脑对部门的吸引力”,但高管们基本上忽略了这一分析。

本文就为大家讲解到这里了。

标签:

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!