Facebook用AI看图识菜谱是怎么实现的?

2023-10-18 19:59

本文主要是介绍Facebook用AI看图识菜谱是怎么实现的?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif


硅谷Live / 实地探访 / 热点探秘 / 深度探讨



还记得上周我们说的Facebook的AI识菜谱,把皮卡丘认成了煎蛋吗?硅谷洞察专门翻译了 Facebook AI 的官方说法,看看它的工作原理是什么,到底重要性又如何。




研究内容是什么:


根据人类的判断,一种直接从食物图像中生成菜谱的新方法,可以生成比基于检索的方法更吸引人的菜谱。通过在大规模菜谱数据集上进行的评估,该方法提高了与以前的成分预测方法基线相比的性能。通过这项工作,我们旨在通过输入食物图像来提供准备一顿饭的途径。(简单说就是:你不再需要搜做什么的菜谱如何,给 AI 一张食物图片,它就能给你判断食材和制作过程有哪些,然后生成菜谱)


工作原理:


从图像生成菜谱需要同时了解构成菜谱的配料以及它们所经过的任何加工,例如切片或与其他配料混合。传统上,图像到菜谱的问题被表述为一个检索任务,菜谱是根据嵌入空间中的图像相似度评分从一个固定的数据集检索出来的。这些系统的性能在很大程度上取决于数据集的大小和多样性,以及所学的嵌入的质量。毫不奇怪,当静态数据集中不存在用于图像查询的匹配菜谱时,这些系统就会失效。


克服检索系统数据集约束的另一种方法是将图像到菜谱的问题表示为条件生成问题。我们认为,与直接从图像中获取菜谱不同,生成菜谱的管道将受益于中间步骤:预测配料列表。然后根据图像及其对应的配料列表将会生成指令序列,其中图像和配料之间的相互作用可以提供关于后者是如何加工成最终菜肴的额外见解。


我们的图像到菜谱的生成系统将食物图像作为输入,并输出包含标题、配料和烹饪说明的配方。我们的方法首先对图像编码器和成分解码器进行预训练,它们利用从输入图像和成分共现中提取的视觉特征来预测一组成分。


然后,我们训练成分编码器和指令解码器,它们通过提取图像的视觉特征和预测的成分,并将它们输入一个最先进的序列生成模型,从而生成标题和指令。


为什么重要:


食品识别挑战了当前的计算机视觉系统,使其不仅仅是可见的。与自然图像理解相比,视觉成分预测需要高级推理和先验知识(例如,羊角面包可能含有黄油)。这带来了额外的挑战,因为食物成分具有很高的类内变异性,在烹饪过程中会发生严重的变形,而且成分经常在烹饪的菜肴中被掩盖。我们的系统是迈向更广泛的食品理解系统的第一步,如卡路里估算和菜谱创建。


此外,此类培训可用于需要从图像和预测关键字预测长结构化文本的任何问题。管道的第一部分(成分预测)可用于解决更广泛的问题,如图像到集合预测。


感兴趣的可以点击官方原文阅读:

https://ai.facebook.com/blog/inverse-cooking/


此前硅谷洞察的文章:

Facebook的AI识菜谱,把皮卡丘认成了煎蛋……|技术前沿洞察



推荐阅读

640?wx_fmt=jpeg

区块链报告 | 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童 



640?wx_fmt=jpeg


这篇关于Facebook用AI看图识菜谱是怎么实现的?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/234829

相关文章

python使用Akshare与Streamlit实现股票估值分析教程(图文代码)

《python使用Akshare与Streamlit实现股票估值分析教程(图文代码)》入职测试中的一道题,要求:从Akshare下载某一个股票近十年的财务报表包括,资产负债表,利润表,现金流量表,保存... 目录一、前言二、核心知识点梳理1、Akshare数据获取2、Pandas数据处理3、Matplotl

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q