张民博士讲座感想简历信息抽取paper(ACL2005)小结

2024-02-12 05:50

本文主要是介绍张民博士讲座感想简历信息抽取paper(ACL2005)小结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座

张民简短介绍:

张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).

毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。

他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)

关于他的学术成就我们可以在google做如下搜索

DBLP Min zhang

获得一下连接: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/z/Zhang:Min.html

可以简单看出发表(包含非第一作者)的有影响的论文现在为20篇。

特别是ACL2004上有一篇关于音译的文章。

因为还没拿到slide,所以下面只是简要的记录些自己新获得的知识点:(有些术语可能不太准确)

1 .NLP 研究中可分为三种问题: 点(point),序列(sequence),结构化(structured)

    各种模型分别适合不同类型的问题:

    比如: HMM ,ME 等适合于解决序列问题。而classifier(SVM等)当然是适合于解决点的问题。

   这一点可以在ACL2005中的周老师的学生kun yu的关于简历信息抽取的文章(<<Resume Information Extraction with Cascaded Hybrid Model>>)得到印证。

  此文中,对简历作两遍pass,第一遍划分各个信息块(blocks)也就是general info,blocks之间的次序性较强所以文章采用HMM,第二遍在第一遍的基础上,在划定的各个块中抽取出detailed信息。

 因为personal detailed infos相互之间比较独立所以考虑采用classification based model.(SVM)

  原文论述如下:

In the first pass, the general information
is extracted by segmenting the entire resume into
consecutive blocks and each block is annotated
with a label indicating its category. In the second
pass, detailed information pieces are further
extracted within the boundary of certain blocks.
Moreover, for different types of information, the
most appropriate extraction method is selected
through experiments. For the first pass, since there
exists a strong sequence among blocks, a HMM
model is applied to segment a resume and each
block is labelled with a category of general
information. We also apply HMM for the
educational detailed information extraction for the
same reason. In addition, classification based
method is selected for the personal detailed
information extraction where information items
appear relatively independently

但是要注意一点: 同一个实际问题即可以看作是点问题,也可以看作是序列问题,不是绝对的。

比如:NER问题,如果看作是点问题就可以用SVM等classification based model  来解决,如果看作是

sequence,那么HMM等无疑就是选择。

2. Kernel methods 不仅仅可用于SVM中,虽然目前的谈论总是SVM伴随kernel methods的。

  只要是从低维不可分为向高维可分问题进行映射的,所有用点积计算相似度的地方都可以用到kernel methods

3. 如果映射不是kernel function那么SVM将不会收敛。(~sigh! 不懂。)

4. kernel methods的好处:

  <1> 可以(不是绝对可以,有时是一种缓解,有时甚至不能缓解????)低维不可分转化为向高维可分问题。

 <2> 不需明显的特征抽取.

 <3> 有快速的算法,效率高。

 <4>隐含映射????(不懂)

5. kernel methods 缺点:

  <1> 映射过程是盲目的,后验性的,in other words ,不一定保证能转化为高维可分.

 <2> .......

6. 指数模型的好处:

  <1> 数据稀疏,归一化问题无需考虑.

  <2>想到的features便可以很容易地加进去.

7. CRF 可以集成HMM和ME的好处

    HMM,ME,CRF的那三张图没看懂。(以后向师兄请教)

这些是随便记在本子上的,拿到ppt后要好好读一下。

这篇关于张民博士讲座感想简历信息抽取paper(ACL2005)小结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701795

相关文章

Android 12解决push framework.jar无法开机的方法小结

《Android12解决pushframework.jar无法开机的方法小结》:本文主要介绍在Android12中解决pushframework.jar无法开机的方法,包括编译指令、框架层和s... 目录1. android 编译指令1.1 framework层的编译指令1.2 替换framework.ja

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Redis 热 key 和大 key 问题小结

《Redis热key和大key问题小结》:本文主要介绍Redis热key和大key问题小结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、什么是 Redis 热 key?热 key(Hot Key)定义: 热 key 常见表现:热 key 的风险:二、

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

Spring Boot读取配置文件的五种方式小结

《SpringBoot读取配置文件的五种方式小结》SpringBoot提供了灵活多样的方式来读取配置文件,这篇文章为大家介绍了5种常见的读取方式,文中的示例代码简洁易懂,大家可以根据自己的需要进... 目录1. 配置文件位置与加载顺序2. 读取配置文件的方式汇总方式一:使用 @Value 注解读取配置方式二

Python中的getopt模块用法小结

《Python中的getopt模块用法小结》getopt.getopt()函数是Python中用于解析命令行参数的标准库函数,该函数可以从命令行中提取选项和参数,并对它们进行处理,本文详细介绍了Pyt... 目录getopt模块介绍getopt.getopt函数的介绍getopt模块的常用用法getopt模

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Java中的Lambda表达式及其应用小结

《Java中的Lambda表达式及其应用小结》Java中的Lambda表达式是一项极具创新性的特性,它使得Java代码更加简洁和高效,尤其是在集合操作和并行处理方面,:本文主要介绍Java中的La... 目录前言1. 什么是Lambda表达式?2. Lambda表达式的基本语法例子1:最简单的Lambda表

Java中Scanner的用法示例小结

《Java中Scanner的用法示例小结》有时候我们在编写代码的时候可能会使用输入和输出,那Java也有自己的输入和输出,今天我们来探究一下,对JavaScanner用法相关知识感兴趣的朋友一起看看吧... 目录前言一 输出二 输入Scanner的使用多组输入三 综合练习:猜数字游戏猜数字前言有时候我们在