2021年12月30日最新消息:新AI技术加速边缘设备上的语言模型

导读来自麻省理工学院计算机科学与人工智能实验室(CSAIL)和MIT-IBM Watson AI实验室的研究人员最近提出了硬件感知转换器(HAT)，这是一种

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)和MIT-IBM Watson AI实验室的研究人员最近提出了硬件感知转换器(HAT)，这是一种结合谷歌Transformer架构的AI模型训练技术。他们声称，hat可以在树莓Pi 4等设备上实现3倍的推理速度，与基准相比，模型尺寸缩小了3.7倍。

谷歌Transformer以其先进的性能被广泛应用于自然语言处理(甚至一些计算机视觉)任务。然而，由于其计算成本，在变压器上部署变压器仍然具有挑战性。在树莓Pi上，只翻译30个单词的句子需要13gb(每秒10亿次浮点运算)，翻译时间为20秒。这显然限制了这种架构对于开发人员和公司将语言AI与移动应用和服务相集成的有用性。

研究人员的解决方案采用了神经架构搜索，这是一种用于自动人工智能模型设计的方法。HAT通过首先训练一个具有许多子变压器的“超级变压器”来搜索由边缘设备优化的变压器。然后，同时训练这些子变压器，使得一个子变压器的性能可以为从头开始训练的不同架构提供相对性能近似。最后一步，在硬件延迟的限制下，HAT进行进化搜索，寻找最佳子变压器。

为了测试HAT的效率，共同作者在4个机器翻译任务上进行了实验，其中包括160万到4300万对训练句子。对于每种型号，他们测量延迟300次，去除最快和最慢的10%，然后平均剩余的80%，然后在树莓Pi 4、英特尔至强E2-2640和英伟达Titan XP显卡上运行该卡。

该团队表示，HAT识别的模型不仅在所有硬件上的延迟比常规训练的Transformer低，而且在单个Nvidia V100显卡上训练184到200小时后，在BLEU语言的流行基准测试中得分更高。与谷歌最近提出的Evolved Transformer相比，这个模型小了3.6倍，但计算成本低了12041倍，没有性能损失。

合著者写道：“为了在资源有限的硬件平台上实现低延迟推理，我们建议使用神经架构搜索设计[HAT]。”他指出，HAT可以在GitHub上开源获得。“我们希望HAT能够为实际应用中有效部署变压器开辟道路。”

标签：

猜你喜欢

最新文章