为什么自然语言转SQL(text to sql)在企业中较难落地

2024-01-04 11:52

本文主要是介绍为什么自然语言转SQL(text to sql)在企业中较难落地,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“BI 的未来是对话式的。” 这是多年来行业分析师的预测。 然而,尽管去年基于 LLM 的对话式应用程序(例如 ChatGPT + Bard)和新的强大模型(例如 GPT-4)取得了惊人的进步,但大多数公司仍然没有部署对话式 BI。 业务用户仍在寻找 BI 仪表板中的见解,数据分析师仍在打开连接到数据仓库的 SQL 引擎并手写 SQL 查询来回答临时业务问题。 为什么对话式 BI 还没有出现?

虽然结构化数据仅占全球数据的 20% 左右,但大多数企业数据仍然存储在结构化数据存储中,并且主要通过 SQL 查询进行访问。 因此,为了实现对话式 BI,需要设计一种解决方案,将自然语言业务问题转换为有效的 SQL 查询,然后针对企业数据仓库执行这些查询。 自 70 年代以来,工程师们一直尝试构建“自然语言到 SQL”(NL2SQL) 引擎(使用基于规则的技术),但很快就会变得过于复杂而无法使用。 但是随着像GitHub CoPilot和OpenAI Code Interpreter这样的转换器的进步,这似乎应该是一个微不足道的问题来解决。 但事实并非如此。

企业可以通过(至少)两种方式构建基于 LLM 的 NL2SQL 引擎来支持会话式 BI:

  • 微调自己的 LLM — 这种方法需要采用现有的 LLM,然后使用与公司结构化数据相关的 NL与SQL 对进一步对LLM进行训练。这种方法面临的一些挑战是:a) 提供训练数据集既困难又昂贵,b) 最强大的 LLM 模型 (GPT-4) 无法进行微调(截至撰写本文时)。

  • 利用上下文学习——最新的 LLM 模型(如 GPT-4-32K)可以很好地开箱即用地编写SQL,并且有足够的上下文窗口来进行一些小样本训练,并让代理尝试通过使用思维链技术执行后续操作来从错误中恢复过来。这里的想法是在GPT-4之上构建一个LLM代理,它可以通过很少的学习来实现NL2SQL。

那么部署解决方案#2 面临哪些挑战? 以下是我们遇到的六种情况:

  1. 表和列描述——即使是最好的数据团队通常也没有关于表、列和元数据的清晰文档。 随着 ELT
    的兴起,数据只是从各种来源转储到仓库中并根据查询进行转换,情况变得更糟。 因此,表和列的名称可能是唯一有用的信息。
  2. 缺少上下文和元数据——业务定义通常存在于数据分析师的头脑中,而不是在底层数据中。
  3. 信息不完整,缺乏“常识”——“2023 年 5 月洛杉矶的平均租金是多少?” 一个理性的人收到这个问题时会简单地假设该问题是关于加利福尼亚州洛杉矶的,或者会在后续中与提问者确认。然而,LLM通常会将其转换为从rent_prices中选择价格,其中城市=“洛杉矶” AND月份=“05” AND年份=“2023”,而这会提取加利福尼亚州洛杉矶和德克萨斯州洛杉矶的数据。
  4. 速度——为了使引擎能够“对话”,响应时间必须很快(不到 30 秒)。 这通常很难实现,特别是当代理尝试从错误中恢复或通过后续 LLM 调用评估生成的响应时。
  5. 复杂查询——虽然 GPT-4 可以很好地编写简单的 SQL 查询,但它经常会遇到需要聚合和连接的复杂查询。 如果列名包含可以在 SQL中完成的操作(例如 Average 或SUM)以及在数据仓库的联接操作中,其中外键没有像在关系型数据库中那样明确,则这种情况会加剧。
  6. 隐私和数据泄露——许多组织不希望将他们的数据库数据或模式发送给 OpenAI 这样的公司,因为它可能会泄露到他们的训练语料库中。
  7. 验证 – 没有简便的已知的方法来识别系统返回语法是有效但不正确的情况。 例如,如果用户询问“平均”值,但系统运行 AVG而不是选择名为“average_price”的列。

这篇关于为什么自然语言转SQL(text to sql)在企业中较难落地的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/569248

相关文章

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

MySQL中On duplicate key update的实现示例

《MySQL中Onduplicatekeyupdate的实现示例》ONDUPLICATEKEYUPDATE是一种MySQL的语法,它在插入新数据时,如果遇到唯一键冲突,则会执行更新操作,而不是抛... 目录1/ ON DUPLICATE KEY UPDATE的简介2/ ON DUPLICATE KEY UP

MySQL分库分表的实践示例

《MySQL分库分表的实践示例》MySQL分库分表适用于数据量大或并发压力高的场景,核心技术包括水平/垂直分片和分库,需应对分布式事务、跨库查询等挑战,通过中间件和解决方案实现,最佳实践为合理策略、备... 目录一、分库分表的触发条件1.1 数据量阈值1.2 并发压力二、分库分表的核心技术模块2.1 水平分

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

使用shardingsphere实现mysql数据库分片方式

《使用shardingsphere实现mysql数据库分片方式》本文介绍如何使用ShardingSphere-JDBC在SpringBoot中实现MySQL水平分库,涵盖分片策略、路由算法及零侵入配置... 目录一、ShardingSphere 简介1.1 对比1.2 核心概念1.3 Sharding-Sp

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据

Mac电脑如何通过 IntelliJ IDEA 远程连接 MySQL

《Mac电脑如何通过IntelliJIDEA远程连接MySQL》本文详解Mac通过IntelliJIDEA远程连接MySQL的步骤,本文通过图文并茂的形式给大家介绍的非常详细,感兴趣的朋友跟... 目录MAC电脑通过 IntelliJ IDEA 远程连接 mysql 的详细教程一、前缀条件确认二、打开 ID

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面:本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum