Python 数据分析微专业课程--项目实战13 婚恋配对实验

本文主要是介绍Python 数据分析微专业课程--项目实战13 婚恋配对实验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.项目说明

创建模型模拟1万男性和1万女性的婚恋配对实验,男性和女性都有财富、内涵、外貌三个属性的得分,并根据不同的择偶策略选择对象。

2.项目具体要求

1、样本数据处理①样本要求:按照一定规则生成了1万男性+1万女性样本:在配对实验中,这2万个样本具有各自不同的个人属性(财富、内涵、外貌),每项属性都有一个得分财富值符合指数分布,内涵和颜值符合正态分布三项的平均值都为60分,标准差都为15分②构建函数实现样本数据生成模型,函数参数之一为“样本数量”,并用该模型生成1万男性+1万女性数据样本2、生成99个男性、99个女性样本数据,分别针对三种策略构建算法函数策略:择偶策略1:门当户对,要求双方三项指标加和的总分接近,差值不超过20分;择偶策略2:男才女貌,男性要求女性的外貌分比自己高出至少10分,女性要求男性的财富分比自己高出至少10分;择偶策略3:志趣相投、适度引领,要求对方的内涵得分在比自己低10分~高10分的区间内,且外貌和财富两项与自己的得分差值都在5分以内要求:① 生成样本数据② 给男性样本数据,随机分配策略选择 → 这里以男性为出发作为策略选择方③ 尝试做第一轮匹配,记录成功的匹配对象,并筛选出失败的男女性进入下一轮匹配④ 构建模型,并模拟1万男性+1万女性的配对实验3、以99男+99女的样本数据,绘制匹配折线图要求:① 生成样本数据,模拟匹配实验② 生成绘制数据表格4、生成“不同类型男女配对成功率”矩阵图要求:① 以之前1万男+1万女实验的结果为数据② 按照财富值、内涵值、外貌值分别给三个区间,以区间来评判“男女类型”③ 绘图查看不同类型的配对成对率

3.实现思路:

1.生成男女样本数据,根据样本要求可以使用随机数方法生成财富、内涵、外貌三个属性数据,用索引来标记男女,
可以创建函数来生成样本数据,输入性别和数量参数即可。
2.创建完成的算法函数,最关键的是对最基本的情景的模拟,这里最重要的模拟第一轮的配对。第一轮的配对要模拟一下几个步骤:a.生成男女样本b.对男性样本随机分配策略,然后进行第一轮的随机配对。c.根据策略要求,将配对成功的男性样本和女性样本从总样本中移除,可以创建一个表格用于存放成功配对样本d.剩余样本进入下一轮配对。然后根据基本模型进行扩展,创建完整的算法函数,通过输入样本量参数,来模拟不同样本量的配对,并返回样本数据和配对成功样本数据。
用于之后的统计分析。可以用男性和女性样本ID作为x轴和y轴,绘制折线图来模拟每一轮的男女配对情况。
3.分析不通过男女类型的配对成功率,首先需要对原始样本做类别划分,然后将成功配对的数据连接类别,然后根据男女类别分组计数,就可以
计算得到不同男女类别的成功率,已男女类别分别为X,Y 轴绘制散点图,用成功率设置透明度,则可以看到那些不同类别的成功率分布情况。

4.实现过程:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inlinefrom bokeh.io import output_notebook
output_notebook()from bokeh.plotting import figure,show
from bokeh.models import ColumnDataSourceimport warnings
warnings.filterwarnings('ignore')#构建生成样本数据函数
def samples(gender,n):    sample = pd.DataFrame({'fortune':np.random.exponential(15,size = n)+45,#生成呈指数分布随机数--财富'charactor':np.random.normal(60,15,size = n),  #生成正太分布随机数--内涵'appearance':np.random.normal(60,15,size = n)}, #生成正太分布随机数--外貌index = [gender+str(i) for i in range(1,n+1)])sample.index.name = 'Id'sample['score'] = sample.sum(axis = 1)/3 #指标平均数作为综合指标return sample#生成10000男性 +10000女性样本
male_samples = samples('m',10000)
female_samples = samples('f',10000)#对男性样本数据绘制堆叠柱状图
male_samples.iloc[:50,:3].plot(kind = 'bar',figsize = (14,5),stacked = True,legend =True,colormap = 'Blues_r',edgecolor = 'black')
plt.grid(linestyle = '--')
#对女性样本数据绘制堆叠柱状图
female_samples.iloc[:50,:3].plot(kind = 'bar',figsize = (14,5),stacked = True,legend =True,colormap = 'Reds_r',edgecolor = 'black')
plt.grid(linestyle = '--')print(male_samples.head(20))

这里写图片描述
这里写图片描述

说明:
1.这里创建函数来生成样本数据,输入性别和数量参数,即可生成指定性别和样本量的的数据。
2.使用两个随机数生成方法来生成数据,指数分布随机数np.random.exponential(),正态分布随机数np.random.normal(),输入均值,标准差,样本量参数,就可以生成满足要求的随机数样本。财富属性需符合指数分布,内涵和外貌需符合正态分布。dataframe的索引作为样本身份id.
3.创建样本之后根据三个属性绘制堆叠柱状图来了解男女样本的属性得分情况。

#生成99个男性和99个女性样本数据
male_sample_test = samples('m',99)
female_sample_test = samples('f',99)#为男性样本随机分配择偶策略
male_sample_test['strategy'] = np.random.choice([1,2,3],99)#创建一个表格用于存放配对成功的样本
match_succeed = pd.DataFrame(data = None,index = None,columns = ['f','m','round_n','strategy_type'])#模拟第一轮配对
round1_m = male_sample_test.copy()  #第一轮可配对男性
round1_f = female_sample_test.copy() #第一轮可配对女性
round1_m['choice'] = np.random.choice(round1_f.index,len(round1_m))  #进行男女随机配对
round1_match = pd.merge(round1_m,round1_f,left_on = 'choice',right_index = True) #连接配对成功的男女数据
round1_match['appearance_dif'] =np.abs(round1_match['appearance_x'

这篇关于Python 数据分析微专业课程--项目实战13 婚恋配对实验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/197119

相关文章

sky-take-out项目中Redis的使用示例详解

《sky-take-out项目中Redis的使用示例详解》SpringCache是Spring的缓存抽象层,通过注解简化缓存管理,支持Redis等提供者,适用于方法结果缓存、更新和删除操作,但无法实现... 目录Spring Cache主要特性核心注解1.@Cacheable2.@CachePut3.@Ca

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

Python中Json和其他类型相互转换的实现示例

《Python中Json和其他类型相互转换的实现示例》本文介绍了在Python中使用json模块实现json数据与dict、object之间的高效转换,包括loads(),load(),dumps()... 项目中经常会用到json格式转为object对象、dict字典格式等。在此做个记录,方便后续用到该方

从基础到高级详解Python数值格式化输出的完全指南

《从基础到高级详解Python数值格式化输出的完全指南》在数据分析、金融计算和科学报告领域,数值格式化是提升可读性和专业性的关键技术,本文将深入解析Python中数值格式化输出的相关方法,感兴趣的小伙... 目录引言:数值格式化的核心价值一、基础格式化方法1.1 三种核心格式化方式对比1.2 基础格式化示例

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

Python ORM神器之SQLAlchemy基本使用完全指南

《PythonORM神器之SQLAlchemy基本使用完全指南》SQLAlchemy是Python主流ORM框架,通过对象化方式简化数据库操作,支持多数据库,提供引擎、会话、模型等核心组件,实现事务... 目录一、什么是SQLAlchemy?二、安装SQLAlchemy三、核心概念1. Engine(引擎)

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Ubuntu如何升级Python版本

《Ubuntu如何升级Python版本》Ubuntu22.04Docker中,安装Python3.11后,使用update-alternatives设置为默认版本,最后用python3-V验证... 目China编程录问题描述前提环境解决方法总结问题描述Ubuntu22.04系统自带python3.10,想升级

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶