张民博士讲座感想简历信息抽取paper(ACL2005)小结

2024-02-12 05:50

本文主要是介绍张民博士讲座感想简历信息抽取paper(ACL2005)小结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座

张民简短介绍:

张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).

毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。

他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)

关于他的学术成就我们可以在google做如下搜索

DBLP Min zhang

获得一下连接: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/z/Zhang:Min.html

可以简单看出发表(包含非第一作者)的有影响的论文现在为20篇。

特别是ACL2004上有一篇关于音译的文章。

因为还没拿到slide,所以下面只是简要的记录些自己新获得的知识点:(有些术语可能不太准确)

1 .NLP 研究中可分为三种问题: 点(point),序列(sequence),结构化(structured)

    各种模型分别适合不同类型的问题:

    比如: HMM ,ME 等适合于解决序列问题。而classifier(SVM等)当然是适合于解决点的问题。

   这一点可以在ACL2005中的周老师的学生kun yu的关于简历信息抽取的文章(<<Resume Information Extraction with Cascaded Hybrid Model>>)得到印证。

  此文中,对简历作两遍pass,第一遍划分各个信息块(blocks)也就是general info,blocks之间的次序性较强所以文章采用HMM,第二遍在第一遍的基础上,在划定的各个块中抽取出detailed信息。

 因为personal detailed infos相互之间比较独立所以考虑采用classification based model.(SVM)

  原文论述如下:

In the first pass, the general information
is extracted by segmenting the entire resume into
consecutive blocks and each block is annotated
with a label indicating its category. In the second
pass, detailed information pieces are further
extracted within the boundary of certain blocks.
Moreover, for different types of information, the
most appropriate extraction method is selected
through experiments. For the first pass, since there
exists a strong sequence among blocks, a HMM
model is applied to segment a resume and each
block is labelled with a category of general
information. We also apply HMM for the
educational detailed information extraction for the
same reason. In addition, classification based
method is selected for the personal detailed
information extraction where information items
appear relatively independently

但是要注意一点: 同一个实际问题即可以看作是点问题,也可以看作是序列问题,不是绝对的。

比如:NER问题,如果看作是点问题就可以用SVM等classification based model  来解决,如果看作是

sequence,那么HMM等无疑就是选择。

2. Kernel methods 不仅仅可用于SVM中,虽然目前的谈论总是SVM伴随kernel methods的。

  只要是从低维不可分为向高维可分问题进行映射的,所有用点积计算相似度的地方都可以用到kernel methods

3. 如果映射不是kernel function那么SVM将不会收敛。(~sigh! 不懂。)

4. kernel methods的好处:

  <1> 可以(不是绝对可以,有时是一种缓解,有时甚至不能缓解????)低维不可分转化为向高维可分问题。

 <2> 不需明显的特征抽取.

 <3> 有快速的算法,效率高。

 <4>隐含映射????(不懂)

5. kernel methods 缺点:

  <1> 映射过程是盲目的,后验性的,in other words ,不一定保证能转化为高维可分.

 <2> .......

6. 指数模型的好处:

  <1> 数据稀疏,归一化问题无需考虑.

  <2>想到的features便可以很容易地加进去.

7. CRF 可以集成HMM和ME的好处

    HMM,ME,CRF的那三张图没看懂。(以后向师兄请教)

这些是随便记在本子上的,拿到ppt后要好好读一下。

这篇关于张民博士讲座感想简历信息抽取paper(ACL2005)小结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701795

相关文章

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

C#中lock关键字的使用小结

《C#中lock关键字的使用小结》在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时,其他线程无法访问同一实例的该代码块,下面就来介绍一下lock关键字的使用... 目录使用方式工作原理注意事项示例代码为什么不能lock值类型在C#中,lock关键字用于确保当一个线程位于给定实例的代码块中时

flask库中sessions.py的使用小结

《flask库中sessions.py的使用小结》在Flask中Session是一种用于在不同请求之间存储用户数据的机制,Session默认是基于客户端Cookie的,但数据会经过加密签名,防止篡改,... 目录1. Flask Session 的基本使用(1) 启用 Session(2) 存储和读取 Se

Python获取浏览器Cookies的四种方式小结

《Python获取浏览器Cookies的四种方式小结》在进行Web应用程序测试和开发时,获取浏览器Cookies是一项重要任务,本文我们介绍四种用Python获取浏览器Cookies的方式,具有一定的... 目录什么是 Cookie?1.使用Selenium库获取浏览器Cookies2.使用浏览器开发者工具

Kotlin Map映射转换问题小结

《KotlinMap映射转换问题小结》文章介绍了Kotlin集合转换的多种方法,包括map(一对一转换)、mapIndexed(带索引)、mapNotNull(过滤null)、mapKeys/map... 目录Kotlin 集合转换:map、mapIndexed、mapNotNull、mapKeys、map

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Redis中Stream详解及应用小结

《Redis中Stream详解及应用小结》RedisStreams是Redis5.0引入的新功能,提供了一种类似于传统消息队列的机制,但具有更高的灵活性和可扩展性,本文给大家介绍Redis中Strea... 目录1. Redis Stream 概述2. Redis Stream 的基本操作2.1. XADD

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

C++中NULL与nullptr的区别小结

《C++中NULL与nullptr的区别小结》本文介绍了C++编程中NULL与nullptr的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编... 目录C++98空值——NULLC++11空值——nullptr区别对比示例 C++98空值——NUL