Facebook用AI看图识菜谱是怎么实现的？

本文主要是介绍Facebook用AI看图识菜谱是怎么实现的？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

640?wx_fmt=gif

硅谷Live / 实地探访 / 热点探秘 / 深度探讨

还记得上周我们说的Facebook的AI识菜谱，把皮卡丘认成了煎蛋吗？硅谷洞察专门翻译了 Facebook AI 的官方说法，看看它的工作原理是什么，到底重要性又如何。

研究内容是什么：

根据人类的判断，一种直接从食物图像中生成菜谱的新方法，可以生成比基于检索的方法更吸引人的菜谱。通过在大规模菜谱数据集上进行的评估，该方法提高了与以前的成分预测方法基线相比的性能。通过这项工作,我们旨在通过输入食物图像来提供准备一顿饭的途径。（简单说就是：你不再需要搜做什么的菜谱如何，给 AI 一张食物图片，它就能给你判断食材和制作过程有哪些，然后生成菜谱）

工作原理：

从图像生成菜谱需要同时了解构成菜谱的配料以及它们所经过的任何加工，例如切片或与其他配料混合。传统上，图像到菜谱的问题被表述为一个检索任务，菜谱是根据嵌入空间中的图像相似度评分从一个固定的数据集检索出来的。这些系统的性能在很大程度上取决于数据集的大小和多样性，以及所学的嵌入的质量。毫不奇怪，当静态数据集中不存在用于图像查询的匹配菜谱时，这些系统就会失效。

克服检索系统数据集约束的另一种方法是将图像到菜谱的问题表示为条件生成问题。我们认为，与直接从图像中获取菜谱不同，生成菜谱的管道将受益于中间步骤：预测配料列表。然后根据图像及其对应的配料列表将会生成指令序列，其中图像和配料之间的相互作用可以提供关于后者是如何加工成最终菜肴的额外见解。

我们的图像到菜谱的生成系统将食物图像作为输入，并输出包含标题、配料和烹饪说明的配方。我们的方法首先对图像编码器和成分解码器进行预训练，它们利用从输入图像和成分共现中提取的视觉特征来预测一组成分。

然后，我们训练成分编码器和指令解码器，它们通过提取图像的视觉特征和预测的成分，并将它们输入一个最先进的序列生成模型，从而生成标题和指令。

为什么重要：

食品识别挑战了当前的计算机视觉系统，使其不仅仅是可见的。与自然图像理解相比，视觉成分预测需要高级推理和先验知识（例如，羊角面包可能含有黄油）。这带来了额外的挑战，因为食物成分具有很高的类内变异性，在烹饪过程中会发生严重的变形，而且成分经常在烹饪的菜肴中被掩盖。我们的系统是迈向更广泛的食品理解系统的第一步，如卡路里估算和菜谱创建。

此外，此类培训可用于需要从图像和预测关键字预测长结构化文本的任何问题。管道的第一部分（成分预测）可用于解决更广泛的问题，如图像到集合预测。

感兴趣的可以点击官方原文阅读：

https://ai.facebook.com/blog/inverse-cooking/

此前硅谷洞察的文章：

Facebook的AI识菜谱，把皮卡丘认成了煎蛋……|技术前沿洞察