Facebook用AI看图识菜谱是怎么实现的?

2023-10-18 19:59

本文主要是介绍Facebook用AI看图识菜谱是怎么实现的?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif


硅谷Live / 实地探访 / 热点探秘 / 深度探讨



还记得上周我们说的Facebook的AI识菜谱,把皮卡丘认成了煎蛋吗?硅谷洞察专门翻译了 Facebook AI 的官方说法,看看它的工作原理是什么,到底重要性又如何。




研究内容是什么:


根据人类的判断,一种直接从食物图像中生成菜谱的新方法,可以生成比基于检索的方法更吸引人的菜谱。通过在大规模菜谱数据集上进行的评估,该方法提高了与以前的成分预测方法基线相比的性能。通过这项工作,我们旨在通过输入食物图像来提供准备一顿饭的途径。(简单说就是:你不再需要搜做什么的菜谱如何,给 AI 一张食物图片,它就能给你判断食材和制作过程有哪些,然后生成菜谱)


工作原理:


从图像生成菜谱需要同时了解构成菜谱的配料以及它们所经过的任何加工,例如切片或与其他配料混合。传统上,图像到菜谱的问题被表述为一个检索任务,菜谱是根据嵌入空间中的图像相似度评分从一个固定的数据集检索出来的。这些系统的性能在很大程度上取决于数据集的大小和多样性,以及所学的嵌入的质量。毫不奇怪,当静态数据集中不存在用于图像查询的匹配菜谱时,这些系统就会失效。


克服检索系统数据集约束的另一种方法是将图像到菜谱的问题表示为条件生成问题。我们认为,与直接从图像中获取菜谱不同,生成菜谱的管道将受益于中间步骤:预测配料列表。然后根据图像及其对应的配料列表将会生成指令序列,其中图像和配料之间的相互作用可以提供关于后者是如何加工成最终菜肴的额外见解。


我们的图像到菜谱的生成系统将食物图像作为输入,并输出包含标题、配料和烹饪说明的配方。我们的方法首先对图像编码器和成分解码器进行预训练,它们利用从输入图像和成分共现中提取的视觉特征来预测一组成分。


然后,我们训练成分编码器和指令解码器,它们通过提取图像的视觉特征和预测的成分,并将它们输入一个最先进的序列生成模型,从而生成标题和指令。


为什么重要:


食品识别挑战了当前的计算机视觉系统,使其不仅仅是可见的。与自然图像理解相比,视觉成分预测需要高级推理和先验知识(例如,羊角面包可能含有黄油)。这带来了额外的挑战,因为食物成分具有很高的类内变异性,在烹饪过程中会发生严重的变形,而且成分经常在烹饪的菜肴中被掩盖。我们的系统是迈向更广泛的食品理解系统的第一步,如卡路里估算和菜谱创建。


此外,此类培训可用于需要从图像和预测关键字预测长结构化文本的任何问题。管道的第一部分(成分预测)可用于解决更广泛的问题,如图像到集合预测。


感兴趣的可以点击官方原文阅读:

https://ai.facebook.com/blog/inverse-cooking/


此前硅谷洞察的文章:

Facebook的AI识菜谱,把皮卡丘认成了煎蛋……|技术前沿洞察



推荐阅读

640?wx_fmt=jpeg

区块链报告 | 脑机接口报告 

硅谷人工智能 | 斯坦福校长

卫哲 | 姚劲波 | 胡海泉 

垂直种植 | 无人车

王者荣耀 | 返老还童 



640?wx_fmt=jpeg


这篇关于Facebook用AI看图识菜谱是怎么实现的?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/kXYOnA63Ag9zqtXx0/article/details/95265888
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/234829

相关文章

C/C++中OpenCV 矩阵运算的实现

《C/C++中OpenCV矩阵运算的实现》本文主要介绍了C/C++中OpenCV矩阵运算的实现,包括基本算术运算(标量与矩阵)、矩阵乘法、转置、逆矩阵、行列式、迹、范数等操作,感兴趣的可以了解一下... 目录矩阵的创建与初始化创建矩阵访问矩阵元素基本的算术运算 ➕➖✖️➗矩阵与标量运算矩阵与矩阵运算 (逐元

C/C++的OpenCV 进行图像梯度提取的几种实现

《C/C++的OpenCV进行图像梯度提取的几种实现》本文主要介绍了C/C++的OpenCV进行图像梯度提取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录预www.chinasem.cn备知识1. 图像加载与预处理2. Sobel 算子计算 X 和 Y

C/C++和OpenCV实现调用摄像头

《C/C++和OpenCV实现调用摄像头》本文主要介绍了C/C++和OpenCV实现调用摄像头,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录准备工作1. 打开摄像头2. 读取视频帧3. 显示视频帧4. 释放资源5. 获取和设置摄像头属性

c/c++的opencv图像金字塔缩放实现

《c/c++的opencv图像金字塔缩放实现》本文主要介绍了c/c++的opencv图像金字塔缩放实现,通过对原始图像进行连续的下采样或上采样操作,生成一系列不同分辨率的图像,具有一定的参考价值,感兴... 目录图像金字塔简介图像下采样 (cv::pyrDown)图像上采样 (cv::pyrUp)C++ O

c/c++的opencv实现图片膨胀

《c/c++的opencv实现图片膨胀》图像膨胀是形态学操作,通过结构元素扩张亮区填充孔洞、连接断开部分、加粗物体,OpenCV的cv::dilate函数实现该操作,本文就来介绍一下opencv图片... 目录什么是图像膨胀?结构元素 (KerChina编程nel)OpenCV 中的 cv::dilate() 函

Python使用FFmpeg实现高效音频格式转换工具

《Python使用FFmpeg实现高效音频格式转换工具》在数字音频处理领域,音频格式转换是一项基础但至关重要的功能,本文主要为大家介绍了Python如何使用FFmpeg实现强大功能的图形化音频转换工具... 目录概述功能详解软件效果展示主界面布局转换过程截图完成提示开发步骤详解1. 环境准备2. 项目功能结

SpringBoot使用ffmpeg实现视频压缩

《SpringBoot使用ffmpeg实现视频压缩》FFmpeg是一个开源的跨平台多媒体处理工具集,用于录制,转换,编辑和流式传输音频和视频,本文将使用ffmpeg实现视频压缩功能,有需要的可以参考... 目录核心功能1.格式转换2.编解码3.音视频处理4.流媒体支持5.滤镜(Filter)安装配置linu

在Spring Boot中实现HTTPS加密通信及常见问题排查

《在SpringBoot中实现HTTPS加密通信及常见问题排查》HTTPS是HTTP的安全版本,通过SSL/TLS协议为通讯提供加密、身份验证和数据完整性保护,下面通过本文给大家介绍在SpringB... 目录一、HTTPS核心原理1.加密流程概述2.加密技术组合二、证书体系详解1、证书类型对比2. 证书获

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

使用Python实现Windows系统垃圾清理

《使用Python实现Windows系统垃圾清理》Windows自带的磁盘清理工具功能有限,无法深度清理各类垃圾文件,所以本文为大家介绍了如何使用Python+PyQt5开发一个Windows系统垃圾... 目录一、开发背景与工具概述1.1 为什么需要专业清理工具1.2 工具设计理念二、工具核心功能解析2.