数据蒋堂 | 大清单报表应当怎么做？

本文主要是介绍数据蒋堂 | 大清单报表应当怎么做？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

640?wx_fmt=png

作者：蒋步星

来源：数据蒋堂

本文共1200字，建议阅读9分钟。在数据查询时，有时会碰到数据量很大的清单报表。

在数据查询时，有时会碰到数据量很大的清单报表。用户输入的查询条件很宽泛，可能会从数据库中查出几百上千万行甚至过亿的记录。如果等着把这些记录全部检索出来再生成报表呈现，那需要很长时间，用户体验恶劣；而且报表一般采用内存运算机制，大多数情况下也装不下这么多数据。所以，我们一般都是使用分页呈现的方式，尽量快速地呈现出第一页，然后可以随意翻页显示，每次只显示一页，也不会造成内存溢出。

那么，一般的报表工具或BI系统都是怎么实现这一机制的呢？

绝大多数产品都是使用数据库分页的方法来做的。

具体来讲，就是利用数据库提供的返回指定行号范围内记录的语法。界面端根据当前页号计算出行号范围（每页显示固定行数）作为参数拼入SQL中，数据库就会只返回当前页的记录，从而实现分页呈现的效果。

这样做，会有两个问题：

1. 翻页时效率较差

用这种办法呈现出第一页来一般都会比较快，但如果向后翻页时，这个原始取数的SQL会被再次执行，并且将前面页涉及的记录跳过。有些数据库没有OFFSET关键字，就只能由界面端自行跳过这些数据（取出后丢弃），像ORACLE还需要用子查询产生一个序号才能再用序号做过滤，这些动作都会浪费时间，前几页还感觉不明显，但如果翻到的页号比较大时，就会有等待感了。

2. 可能出现数据不一致

一般来说，每次按页取数时发出的SQL是独立的。这样，如果在两页取数之间数据库又有了插入删除动作，这时取出来的数据将是最新的，很可能和原来的页号匹配不上了。比如第1页取出20行记录后，在取第2页前，第1页的20行记录中被删除了1行，那么这时候取出来的第2页的第1行就会是原来的第22行记录，原来的第21行会落到第1页去了，要再倒翻页才能看到。如果基于这些数据做汇总统计，那会出现错误的结果。

还有一种不常用的方法。向数据库发出取数SQL生成游标，从中取出一页后呈现，但并不终止这个游标，要取下一页的时候再继续取数。这种方法能克服上述两个问题，不会发生不一致的现象，但绝大多数的数据库游标只能向后取数而不是倒回去，这样在界面上的表现就是只能向后翻页了，这一点很难向业务用户解释，所以很少用这种办法。

也可以是两种办法的结合，向后翻页时用后一种办法，一旦发生向前翻页时，则重新执行取数SQL。这样比每次分页取数的体验略好一些，但并没有根本上解决问题。

还有什么好办法呢？

把取数和呈现做成两个异步线程，取数线程发出SQL后就不断取出数据并缓存到本地存储中，呈现线程根据页数计算出行数到本地缓存中去获取数据显示。这样，只要已经取过的数据就能快速呈现，不会有等待感，还没取到的数据需要等待一下也是正常可理解的；而取数线程只涉及一句SQL，在数据库中是同一个事务，也不会有不一致的问题。这样，两个问题都能得到解决。不过这需要设计一种可以按行号随机访问记录的存储格式，不然要靠遍历把记录数出来，那反应仍然会很迟钝。

在当前数据库系统不直接支持这种机制时，只能是报表工具或BI系统受累自己写这些程序了，对于有大清单报表呈现需求的用户，就要认真考察这些功能点了。

专栏作者简介

640?

润乾软件创始人、首席科学家

清华大学计算机硕士，中国大数据产业生态联盟专家委员，著有《非线性报表模型原理》等，1989年，中国首个国际奥林匹克数学竞赛团体冠军成员，个人金牌；2000年，创立润乾公司；2004年，首次在润乾报表中提出非线性报表模型，完美解决了中国式复杂报表制表难题，目前该模型已经成为报表行业的标准；2014年，经过7年开发，润乾软件发布不依赖关系代数模型的计算引擎——集算器，有效地提高了复杂结构化大数据计算的开发和运算效率；2015年，润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”；2016、2017年，荣获中国电子信息产业发展研究院评选的“中国软件和信息服务业十大领军人物”；2017年度中国数据大工匠、数据领域专业技术讲堂《数据蒋堂》创办者。

数据蒋堂

《数据蒋堂》的作者蒋步星，从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞，虚拟与现实的相互交织，产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点，站在研发人员的角度从浅入深，进行全方位、360度无死角深度剖析；对于一些业内观点，站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展，站在业内专家角度给予预测和推断。静下心来认真研读你会发现，《数据蒋堂》的文章，有的会让用户避免重复前人走过的弯路，有的会让攻城狮面对扎心的难题茅塞顿开，有的会为初入行业的读者提供一把开启数据世界的钥匙，有的甚至会让业内专家大跌眼镜，产生思想交锋。

数据蒋堂第二年往期回顾：

这篇关于数据蒋堂 | 大清单报表应当怎么做？的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！