阿里笔试--智能对话简化版之query指令槽位识别

2024-06-21 23:58

本文主要是介绍阿里笔试--智能对话简化版之query指令槽位识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

头天贴主参加了阿里的笔试,第一道编程题就够做了。不是时间短,是脑子不够用。好了,不废话了,上干货。

题目介绍

现下互联网AI战争以智能音箱为切入口,敲开市场大门,抢夺市场用户。智能音箱需要语音交互,这就涉及到query指令的语义理解。例如:"我要看章子怡的一代宗师",这里边需要识别出来:动作“看”,“章子怡”,“一代宗师”。一般都会建立一个知识库:名词标注各种标签,这里边可能会有:章子怡是演员,一代宗师是电影。另外有的名词可能会有包含关系,例如,“周杰”,“周杰伦”,这个采用从左到右最长字符串优选匹配原则。

输入格式:

       第一行是简化版知识库:<标签1>_<名词1>|<名词2>|<名词3>;<标签2>_<名词2>|<名词4>|<名词5>;.....

       第二行是query指令。

输出格式:

       **** <名词1>/<标签1> **** <名词2>/<标签1>,<标签2> ****

范例:      

  输入:

      singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪

      请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

  输出:

      请播放 周杰伦/singer,actor 的 七里香/song 给 周杰伦/singer,actor 周杰/singer 孙俪/actor 听 周杰/singer 王力宏/singer

思路

由于有从左到右优先的匹配的选择,所以考虑把输入的知识库转换成名词映射多个标签:{"<名词2>": ["<标签1>", "<标签2>"], ....},并且按key=<名词k>倒序;之后按排序后的key依次遍历匹配query,匹配成功,则替换query中名词为带编号的特殊标识(为了不让后边短的子字符串覆盖长的父字符串),并且记录这个名词,遍历完之后,得到一个有序的名词列表,最后遍历有序的名词列表,替换query中的特殊标识得到最终的输出结果。

代码

#!/usr/bin/env python
# -*-encoding=utf8-*-import redef match_process():row1 = raw_input()datas = {}entity_str_list = row1.split(";")for entity_str in entity_str_list:entity_name, entity_values = entity_str.split("_")entity_value_list = entity_values.split("|")for entity_value in entity_value_list:if datas.has_key(entity_value):datas[entity_value].append(entity_name)else:datas[entity_value] = [entity_name]entity_list = sorted(datas.keys(), reverse=True)row2 = raw_input()words = row2result = []tmp_words = wordstemp_entity = ""count = 1for entity_value in entity_list:if entity_value in tmp_words:if temp_entity == "":temp_entity = entity_valueelse:resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = entity_valueelse:if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = ""if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))final_list = sorted(result, reverse=True)for index in xrange(len(final_list)):st = ",".join(datas[final_list[index]])new_str = " " + final_list[index] + "/" + st + " "tmp_words = tmp_words.replace("|&{}&|".format(index + 1), new_str)print " ".join(tmp_words.split())if __name__ == '__main__':match_process()#singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪
# 请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

运行截图:

这篇关于阿里笔试--智能对话简化版之query指令槽位识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082703

相关文章

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重