为什么自然语言转SQL(text to sql)在企业中较难落地

2024-01-04 11:52

本文主要是介绍为什么自然语言转SQL(text to sql)在企业中较难落地,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“BI 的未来是对话式的。” 这是多年来行业分析师的预测。 然而,尽管去年基于 LLM 的对话式应用程序(例如 ChatGPT + Bard)和新的强大模型(例如 GPT-4)取得了惊人的进步,但大多数公司仍然没有部署对话式 BI。 业务用户仍在寻找 BI 仪表板中的见解,数据分析师仍在打开连接到数据仓库的 SQL 引擎并手写 SQL 查询来回答临时业务问题。 为什么对话式 BI 还没有出现?

虽然结构化数据仅占全球数据的 20% 左右,但大多数企业数据仍然存储在结构化数据存储中,并且主要通过 SQL 查询进行访问。 因此,为了实现对话式 BI,需要设计一种解决方案,将自然语言业务问题转换为有效的 SQL 查询,然后针对企业数据仓库执行这些查询。 自 70 年代以来,工程师们一直尝试构建“自然语言到 SQL”(NL2SQL) 引擎(使用基于规则的技术),但很快就会变得过于复杂而无法使用。 但是随着像GitHub CoPilot和OpenAI Code Interpreter这样的转换器的进步,这似乎应该是一个微不足道的问题来解决。 但事实并非如此。

企业可以通过(至少)两种方式构建基于 LLM 的 NL2SQL 引擎来支持会话式 BI:

  • 微调自己的 LLM — 这种方法需要采用现有的 LLM,然后使用与公司结构化数据相关的 NL与SQL 对进一步对LLM进行训练。这种方法面临的一些挑战是:a) 提供训练数据集既困难又昂贵,b) 最强大的 LLM 模型 (GPT-4) 无法进行微调(截至撰写本文时)。

  • 利用上下文学习——最新的 LLM 模型(如 GPT-4-32K)可以很好地开箱即用地编写SQL,并且有足够的上下文窗口来进行一些小样本训练,并让代理尝试通过使用思维链技术执行后续操作来从错误中恢复过来。这里的想法是在GPT-4之上构建一个LLM代理,它可以通过很少的学习来实现NL2SQL。

那么部署解决方案#2 面临哪些挑战? 以下是我们遇到的六种情况:

  1. 表和列描述——即使是最好的数据团队通常也没有关于表、列和元数据的清晰文档。 随着 ELT
    的兴起,数据只是从各种来源转储到仓库中并根据查询进行转换,情况变得更糟。 因此,表和列的名称可能是唯一有用的信息。
  2. 缺少上下文和元数据——业务定义通常存在于数据分析师的头脑中,而不是在底层数据中。
  3. 信息不完整,缺乏“常识”——“2023 年 5 月洛杉矶的平均租金是多少?” 一个理性的人收到这个问题时会简单地假设该问题是关于加利福尼亚州洛杉矶的,或者会在后续中与提问者确认。然而,LLM通常会将其转换为从rent_prices中选择价格,其中城市=“洛杉矶” AND月份=“05” AND年份=“2023”,而这会提取加利福尼亚州洛杉矶和德克萨斯州洛杉矶的数据。
  4. 速度——为了使引擎能够“对话”,响应时间必须很快(不到 30 秒)。 这通常很难实现,特别是当代理尝试从错误中恢复或通过后续 LLM 调用评估生成的响应时。
  5. 复杂查询——虽然 GPT-4 可以很好地编写简单的 SQL 查询,但它经常会遇到需要聚合和连接的复杂查询。 如果列名包含可以在 SQL中完成的操作(例如 Average 或SUM)以及在数据仓库的联接操作中,其中外键没有像在关系型数据库中那样明确,则这种情况会加剧。
  6. 隐私和数据泄露——许多组织不希望将他们的数据库数据或模式发送给 OpenAI 这样的公司,因为它可能会泄露到他们的训练语料库中。
  7. 验证 – 没有简便的已知的方法来识别系统返回语法是有效但不正确的情况。 例如,如果用户询问“平均”值,但系统运行 AVG而不是选择名为“average_price”的列。

这篇关于为什么自然语言转SQL(text to sql)在企业中较难落地的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/569248

相关文章

Mybatis嵌套子查询动态SQL编写实践

《Mybatis嵌套子查询动态SQL编写实践》:本文主要介绍Mybatis嵌套子查询动态SQL编写方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、实体类1、主类2、子类二、Mapper三、XML四、详解总结前言MyBATis的xml文件编写动态SQL

解决mysql插入数据锁等待超时报错:Lock wait timeout exceeded;try restarting transaction

《解决mysql插入数据锁等待超时报错:Lockwaittimeoutexceeded;tryrestartingtransaction》:本文主要介绍解决mysql插入数据锁等待超时报... 目录报错信息解决办法1、数据库中执行如下sql2、再到 INNODB_TRX 事务表中查看总结报错信息Lock

MySQL启动报错:InnoDB表空间丢失问题及解决方法

《MySQL启动报错:InnoDB表空间丢失问题及解决方法》在启动MySQL时,遇到了InnoDB:Tablespace5975wasnotfound,该错误表明MySQL在启动过程中无法找到指定的s... 目录mysql 启动报错:InnoDB 表空间丢失问题及解决方法错误分析解决方案1. 启用 inno

MySQL 安装配置超完整教程

《MySQL安装配置超完整教程》MySQL是一款广泛使用的开源关系型数据库管理系统(RDBMS),由瑞典MySQLAB公司开发,目前属于Oracle公司旗下产品,:本文主要介绍MySQL安装配置... 目录一、mysql 简介二、下载 MySQL三、安装 MySQL四、配置环境变量五、配置 MySQL5.1

MySQL 添加索引5种方式示例详解(实用sql代码)

《MySQL添加索引5种方式示例详解(实用sql代码)》在MySQL数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中,下面给大家分享MySQL添加索引5种方式示例详解(实用sql代码),... 在mysql数据库中添加索引可以帮助提高查询性能,尤其是在数据量大的表中。索引可以在创建表时定义,也可

Mybatis Plus JSqlParser解析sql语句及JSqlParser安装步骤

《MybatisPlusJSqlParser解析sql语句及JSqlParser安装步骤》JSqlParser是一个用于解析SQL语句的Java库,它可以将SQL语句解析为一个Java对象树,允许... 目录【一】jsqlParser 是什么【二】JSqlParser 的安装步骤【三】使用场景【1】sql语

MySQL 存储引擎 MyISAM详解(最新推荐)

《MySQL存储引擎MyISAM详解(最新推荐)》使用MyISAM存储引擎的表占用空间很小,但是由于使用表级锁定,所以限制了读/写操作的性能,通常用于中小型的Web应用和数据仓库配置中的只读或主要... 目录mysql 5.5 之前默认的存储引擎️‍一、MyISAM 存储引擎的特性️‍二、MyISAM 的主

Linux lvm实例之如何创建一个专用于MySQL数据存储的LVM卷组

《Linuxlvm实例之如何创建一个专用于MySQL数据存储的LVM卷组》:本文主要介绍使用Linux创建一个专用于MySQL数据存储的LVM卷组的实例,具有很好的参考价值,希望对大家有所帮助,... 目录在Centos 7上创建卷China编程组并配置mysql数据目录1. 检查现有磁盘2. 创建物理卷3. 创

MySQL 事务的概念及ACID属性和使用详解

《MySQL事务的概念及ACID属性和使用详解》MySQL通过多线程实现存储工作,因此在并发访问场景中,事务确保了数据操作的一致性和可靠性,下面通过本文给大家介绍MySQL事务的概念及ACID属性和... 目录一、什么是事务二、事务的属性及使用2.1 事务的 ACID 属性2.2 为什么存在事务2.3 事务

Mysql中的用户管理实践

《Mysql中的用户管理实践》:本文主要介绍Mysql中的用户管理实践,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录13. 用户管理13.1 用户 13.1.1 用户信息 13.1.2 创建用户 13.1.3 删除用户 13.1.4 修改用户