DolphinDB与pandas读取csv文件速度对比测试

2024-03-30 09:38

本文主要是介绍DolphinDB与pandas读取csv文件速度对比测试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 速度

    DolphinDB一直说自己速度快,前面使用中并没有遇到实际场景,今天需要读取一个800M的csv文件,特地测试一下。

  • 测试方式有三种

    1. pandas的pd.read_csv()
    2. DolphinDB的loadText()
    3. DolphinDB的ploadText()
  • 测试文件

    1990年到2018年的所有A股日K线数据,总共840M。数据格式为[9930906 rows x 13 columns]

    在这里插入图片描述

    在这里插入图片描述

  • pandas.read_csv()

    >> t = datetime.now()
    >> trade = pd.read_csv('D:\DolphinDB\Python\CHstock1990_2018.csv')
    >> print(datetime.now() - t)
    
    次数时间
    125.765263
    221.028936
    320.476992
    421.289992
    520.709985
    621.352990

    去除第一次的异常值,取剩余五次计算平均值:20.971779

  • loadText()

    >> t = datetime.now()
    >> trade = s.loadText('D:/DolphinDB/Python/CHstock1990_2018.csv')
    >> print(datetime.now() - t)
    
    次数时间
    133.008495
    232.152022
    333.735014
    431.155987
    533.996996
    632.901004

    取六次均值:32.824919

  • ploadText()

    >> t = datetime.now()
    >> trade = s.ploadText('D:/DolphinDB/Python/CHstock1990_2018.csv')
    >> print(datetime.now() - t)
    
    次数时间
    118.863003
    219.764002
    318.942235
    419.214004
    519.554998
    619.845996

    取六次均值:19.364106

  • 结果分析

    用电脑在常规工作环境中载入,先载入六次read_csv,再载入六次ploadText,再载入六次loadText,得到上述结果。

    我不是专业测试,不清楚业内正经测试应该是怎么个流程与环境,然,这就是我正常使用时候得到的结果。

    ploadText() > pd.read_csv() > loadText()

    但是有几个要点:

    1. 首次使用read_csv,经常是比较慢的;
    2. 对于他们各自的底层逻辑并不清楚,所以这个测试可能缺乏理论依据,等后续懂的更多之后再来修补

这篇关于DolphinDB与pandas读取csv文件速度对比测试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/861140

相关文章

Python pandas库自学超详细教程

《Pythonpandas库自学超详细教程》文章介绍了Pandas库的基本功能、安装方法及核心操作,涵盖数据导入(CSV/Excel等)、数据结构(Series、DataFrame)、数据清洗、转换... 目录一、什么是Pandas库(1)、Pandas 应用(2)、Pandas 功能(3)、数据结构二、安

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

SpringBoot多环境配置数据读取方式

《SpringBoot多环境配置数据读取方式》SpringBoot通过环境隔离机制,支持properties/yaml/yml多格式配置,结合@Value、Environment和@Configura... 目录一、多环境配置的核心思路二、3种配置文件格式详解2.1 properties格式(传统格式)1.

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

详解MySQL中JSON数据类型用法及与传统JSON字符串对比

《详解MySQL中JSON数据类型用法及与传统JSON字符串对比》MySQL从5.7版本开始引入了JSON数据类型,专门用于存储JSON格式的数据,本文将为大家简单介绍一下MySQL中JSON数据类型... 目录前言基本用法jsON数据类型 vs 传统JSON字符串1. 存储方式2. 查询方式对比3. 索引

Python使用openpyxl读取Excel的操作详解

《Python使用openpyxl读取Excel的操作详解》本文介绍了使用Python的openpyxl库进行Excel文件的创建、读写、数据操作、工作簿与工作表管理,包括创建工作簿、加载工作簿、操作... 目录1 概述1.1 图示1.2 安装第三方库2 工作簿 workbook2.1 创建:Workboo

SpringBoot中六种批量更新Mysql的方式效率对比分析

《SpringBoot中六种批量更新Mysql的方式效率对比分析》文章比较了MySQL大数据量批量更新的多种方法,指出REPLACEINTO和ONDUPLICATEKEY效率最高但存在数据风险,MyB... 目录效率比较测试结构数据库初始化测试数据批量修改方案第一种 for第二种 case when第三种

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

使用Python进行GRPC和Dubbo协议的高级测试

《使用Python进行GRPC和Dubbo协议的高级测试》GRPC(GoogleRemoteProcedureCall)是一种高性能、开源的远程过程调用(RPC)框架,Dubbo是一种高性能的分布式服... 目录01 GRPC测试安装gRPC编写.proto文件实现服务02 Dubbo测试1. 安装Dubb