【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数

本文主要是介绍【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如模型结果等封装json格式、根据经纬度计算距离udf、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf、函数注册与使用。
2.欢迎批评指正,跪谢一键三连!

文章目录

    • 1.参考代码
      • 1.1 模型结果等封装`json`格式`udf`函数
      • 1.2 根据经纬度计算距离`udf`函数
      • 1.3 根据证件号提取年龄段信息`udtf`函数
      • 1.4 判断是否在外包多边形内`udf`函数

1.参考代码

1.1 模型结果等封装json格式udf函数

  • format_all_cols_json_youli,可变参数
    #coding:utf-8import json
    # import sys
    from odps.udf import annotate@annotate("*->string")
    class format_all_cols_json_youli(object):def evaluate(self, *eles):p_dic,keys,dic_keys,result = {},[],[],''if eles is not None and len(eles)>1:keys = eles[-2].split(',')dic_keys = eles[-1].split(',')inx = 0for ky in keys:if ky in dic_keys:# if eles[inx] is not None:# try:p_dic[ky] = eval(eles[inx]) if eles[inx] is not None else []# except Exception as e:#     print(eles[inx],p_dic[ky], eles)#     raise# else:#     p_dic[ky] = else:p_dic[ky] = eles[inx]inx+=1# result = json.dumps(p_dic, sort_keys=True, indent=True)# result = json.dumps(p_dic)result = json.dumps(p_dic, sort_keys=True, indent=True, ensure_ascii=False)return result
    

1.2 根据经纬度计算距离udf函数

  • lnglat_distance_youli
    #coding:utf-8
    #lnglat_distance_youli.pyfrom odps.udf import annotate
    from math import sin,cos,radians,fabs,sqrt,asin'''
    function: 根据经纬度计算距离,单位m
    input:  lng1,lat1,lng2,lat2
    parms:  lng1:点1经度 doublelat1:点1纬度 doublelng2:点2经度 doublelat2:点2纬度 double
    output:distance: 距离,单位m
    '''
    @annotate("double,double,double,double->double")
    class lnglat_distance_youli(object):def evaluate(self,lng1,lat1,lng2,lat2):ER=6378245hav=lambda x:sin(x/2)*sin(x/2)lng11=radians(float(lng1))lat11=radians(float(lat1))lng22=radians(float(lng2))lat22=radians(float(lat2))dlng=fabs(lng11-lng22)dlat=fabs(lat11-lat22)h=hav(dlat)+cos(lat11)*cos(lat22)*hav(dlng)distance=2 * ER * asin(sqrt(h))return distance
    

1.3 根据证件号提取年龄段信息udtf函数

  • age_info_extract_youli

    #coding:utf-8
    #info_extract.pyfrom odps.udf import annotate
    from odps.udf import BaseUDTF
    from odps.distcache import get_cache_table
    @annotate('string->string,string,string')
    class age_info_extract_youli(BaseUDTF):def __init__ (self):self.data = []self.age_num = [0,0,0,0,0] #ageRange : [0,18,35,60]self.age_range = ['18岁以下','19~35岁','36~60岁','60岁以上','数据缺失']def process(self, arg):if arg is not None and arg <> '':age = 2024 - int(arg[6:10])if age <= 18:self.age_num[0] += 1age_tag = 0elif age <=35 and age >18:self.age_num[1] += 1age_tag = 1elif age <= 60 and age >35:self.age_num[2] += 1age_tag = 2else:self.age_num[3] += 1age_tag = 3else :self .age_num[4] += 1age_tag = 4age = '缺失'self.data.append([age,age_tag])def close(self):for i in self.data:age = str(i[0]) tag_index = i[1]ageRange = self.age_range[tag_index]agePrecent = round(float(self.age_num[tag_index])/float(len(self.data)),2)self.forward(age,ageRange,str(agePrecent))
    

1.4 判断是否在外包多边形内udf函数

  • isin_xquyu_youli
    # coding: utf-8
    # 判断是否在外包多边形内,不在,返回0;在,返回1from odps.udf import annotate
    @annotate("string,string->bigint")
    class isin_xquyu_youli(object):# 替换区域边界经纬度点位数组huzbj_lis = [[119.920013, 31.170916], ... ]def evaluate(self, lng, lat):lat2, lng2 = float(lat), float(lng)lnglist = []latlist = []for i in range(len(isin_xquyu_youli.huzbj_lis)-1):lnglist.append(isin_xquyu_youli.huzbj_lis[i][0])latlist.append(isin_xquyu_youli.huzbj_lis[i][1])maxlng,minlng = max(lnglist),min(lnglist)maxlat,minlat = max(latlist),min(latlist)if (lng2 > maxlng or lng2 < minlng or lat2 > maxlat or lat2 < minlat):return 0# return '0, 111,%s,%s,%s,%s' % (str(maxlng),str(minlng),str(maxlat),str(minlat))cnt = 0point1 = isin_xquyu_youli.huzbj_lis[0]for i in range(1, len(isin_xquyu_youli.huzbj_lis)):point2 = isin_xquyu_youli.huzbj_lis[i]# 点与多边形顶点重合if (lat2 == point1[0] and lng2 == point1[1]) or (lat2 == point2[0] and lng2 == point2[1]):return 0# return '0, 112'# 判断线段两端点是否在射线两侧 不在肯定不相交 射线(-∞,lat)(lng,lat)if (point1[1] < lng2 and point2[1] >= lng2) or (point1[1] >= lng2 and point2[1] < lng2):# 求线段与射线交点 再和lat比较point12lng = point2[0] - (point2[1] - lng2) * (point2[0] - point1[0])/(point2[1] - point1[1])# 点在多边形边上if (point12lng == lat2):return 0# return '0, 113'if (point12lng < lat2):cnt += 1point1 = point2# 从这个点做一条射线,计算它跟多边形边界的交点个数,如果交点个数为奇数,那么点在多边形内部,否则点在多边形外if cnt%2 == 0:return 0# return '0, 114'return 1
    

这篇关于【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032536

相关文章

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

Python进行JSON和Excel文件转换处理指南

《Python进行JSON和Excel文件转换处理指南》在数据交换与系统集成中,JSON与Excel是两种极为常见的数据格式,本文将介绍如何使用Python实现将JSON转换为格式化的Excel文件,... 目录将 jsON 导入为格式化 Excel将 Excel 导出为结构化 JSON处理嵌套 JSON:

python使用try函数详解

《python使用try函数详解》Pythontry语句用于异常处理,支持捕获特定/多种异常、else/final子句确保资源释放,结合with语句自动清理,可自定义异常及嵌套结构,灵活应对错误场景... 目录try 函数的基本语法捕获特定异常捕获多个异常使用 else 子句使用 finally 子句捕获所

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

C#监听txt文档获取新数据方式

《C#监听txt文档获取新数据方式》文章介绍通过监听txt文件获取最新数据,并实现开机自启动、禁用窗口关闭按钮、阻止Ctrl+C中断及防止程序退出等功能,代码整合于主函数中,供参考学习... 目录前言一、监听txt文档增加数据二、其他功能1. 设置开机自启动2. 禁止控制台窗口关闭按钮3. 阻止Ctrl +

java如何实现高并发场景下三级缓存的数据一致性

《java如何实现高并发场景下三级缓存的数据一致性》这篇文章主要为大家详细介绍了java如何实现高并发场景下三级缓存的数据一致性,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 下面代码是一个使用Java和Redisson实现的三级缓存服务,主要功能包括:1.缓存结构:本地缓存:使

详解MySQL中JSON数据类型用法及与传统JSON字符串对比

《详解MySQL中JSON数据类型用法及与传统JSON字符串对比》MySQL从5.7版本开始引入了JSON数据类型,专门用于存储JSON格式的数据,本文将为大家简单介绍一下MySQL中JSON数据类型... 目录前言基本用法jsON数据类型 vs 传统JSON字符串1. 存储方式2. 查询方式对比3. 索引

在MySQL中实现冷热数据分离的方法及使用场景底层原理解析

《在MySQL中实现冷热数据分离的方法及使用场景底层原理解析》MySQL冷热数据分离通过分表/分区策略、数据归档和索引优化,将频繁访问的热数据与冷数据分开存储,提升查询效率并降低存储成本,适用于高并发... 目录实现冷热数据分离1. 分表策略2. 使用分区表3. 数据归档与迁移在mysql中实现冷热数据分

C#解析JSON数据全攻略指南

《C#解析JSON数据全攻略指南》这篇文章主要为大家详细介绍了使用C#解析JSON数据全攻略指南,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、为什么jsON是C#开发必修课?二、四步搞定网络JSON数据1. 获取数据 - HttpClient最佳实践2. 动态解析 - 快速

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要