2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑

本文主要是介绍2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、和星期一上午一样的问题,就是精神不好,打瞌睡,我后面的主要工作就是把注册信息变量提取整理做到建模表中,上午还日常看了下股票,亏得他妈一塌糊涂

2、下午一来就是继续v7的开发,关于上一个工作日的两个list合成dataframe的方法,我觉得是存在问题,感觉到太繁琐了,我于是查了下资料,我震惊了,原来那么简单,我并且根据这个总结了三种不同的构造dataframe的方法

#三种构造dataframe的方法
import pandas as pdds1 = [{'a':1,'b':2},{'a':3,'b':4},{'a':5,'b':6}]
df1 = pd.DataFrame(ds1)
print 'method 1:'
print df1ds2 = [[1,2],[3,4],[5,6]]
df2 = pd.DataFrame(ds2,columns=['a','b'])
print 'method 2:'
print df2a = [1,3,5]
b = [2,4,6]
df3 = pd.DataFrame({'a':a,'b':b})
print 'method 3:'
print df3

3、把模型序列化到硬盘这种说法没有,这个存储过程就叫做序列化,自信

4、然后根据两个list的组合方法,重新组合了dataframe,然后进行了排序,IV大小,一目了然,但是这种方法我发现一个小问题,就是组成的dataframe的变量顺序可能不是dict里面的书写顺序

5、我嫌WOE的值的输出,肉眼非常不好看,我尝试进行格式化输出,格式化输出第一个遇到的问题就是类型存储问题,需要用numpy的格式转换方法进行转换,x_copy.astype(np.str_),我看到网上的示例,变量类型也是写的numpy的类型,这个转换需要重新赋值,然后就可以赋值字符串了,开始的字符串格式化方式,不方便按key进行排序,最后我想了个办法,在格式化字符串前面加标号,这样就方便对key值进行排序

6、外部首先把column_name和woe存储到一个dict中

woe_list = list(res_woe)
woe_dict = dict(zip(name_list, woe_list))
zip两个list,然后用dict进行类型转换

7、为了方便观看对dict按key进行排序,方法是

sorted(woe_dict['ANTI_FRD_SCORE'].items(),key = lambda item:item[0])
这里woe_dict['ANTI_FRD_SCORE']也是一个dict,最后输出的时候循环输出,可视化效果更佳

8、我开始研究新的变量,但是发现有个产品已经停用很久了

9、我灵机一动,想到查看一下同盾欺诈分和多头次数的关系,真的是不查不知道,一查吓一跳,0.93的相关系数 ,高度相关,然后要下班的时候就和Simon讨论这个强相关的问题,其实这里就有一个坑,我对多重共线性对于logistic regression的影响理解其实并不充分,主要没从数学推倒的角度去理解过,也没从实验的角度去理解过,然后晚上的时间我主要都是尝试去了解多重共线性对于logistic regression的影响,那看了这么多,我自己来复述一下,多重共线性对于逻辑回归有哪些影响?

  • 使得系数不稳定,增减样本,或者增减变量,都会使得系数发生很大的变化,甚至负号反向
  • 解释性上受到影响,这个主要场景就是医学上那种,比如吸烟人群是不吸烟人群患肺癌概率的两倍
  • 参数估计不准确,如果参数不准,那最后输出的结果就不准确,其实这点我自己都没能理解,按照最小化损失函数,算出参数,是什么就是什么,为什么会不准呢?
感觉网上的人也有点嘴炮,没的数学证明,没得实验过程说明,就一条一条摆出来,向是文科考试一样,这个问题,我后面还要深入研究,我一定要把多头次数的信息干掉,没用的信息!
10、晚上就放开可以W,但是运动和12点前睡觉一定要坚持,还要轻轨上的碎片时间,一定用来解决一些生活中的问题!





这篇关于2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/689789

相关文章

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Linux系统中查询JDK安装目录的几种常用方法

《Linux系统中查询JDK安装目录的几种常用方法》:本文主要介绍Linux系统中查询JDK安装目录的几种常用方法,方法分别是通过update-alternatives、Java命令、环境变量及目... 目录方法 1:通过update-alternatives查询(推荐)方法 2:检查所有已安装的 JDK方

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

Java Thread中join方法使用举例详解

《JavaThread中join方法使用举例详解》JavaThread中join()方法主要是让调用改方法的thread完成run方法里面的东西后,在执行join()方法后面的代码,这篇文章主要介绍... 目录前言1.join()方法的定义和作用2.join()方法的三个重载版本3.join()方法的工作原

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

Spring Boot从main方法到内嵌Tomcat的全过程(自动化流程)

《SpringBoot从main方法到内嵌Tomcat的全过程(自动化流程)》SpringBoot启动始于main方法,创建SpringApplication实例,初始化上下文,准备环境,刷新容器并... 目录1. 入口:main方法2. SpringApplication初始化2.1 构造阶段3. 运行阶

Olingo分析和实践之ODataImpl详细分析(重要方法详解)

《Olingo分析和实践之ODataImpl详细分析(重要方法详解)》ODataImpl.java是ApacheOlingoOData框架的核心工厂类,负责创建序列化器、反序列化器和处理器等组件,... 目录概述主要职责类结构与继承关系核心功能分析1. 序列化器管理2. 反序列化器管理3. 处理器管理重要方

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

Java中Arrays类和Collections类常用方法示例详解

《Java中Arrays类和Collections类常用方法示例详解》本文总结了Java中Arrays和Collections类的常用方法,涵盖数组填充、排序、搜索、复制、列表转换等操作,帮助开发者高... 目录Arrays.fill()相关用法Arrays.toString()Arrays.sort()A