NLP之语言词素Morpheme(形态学)

2024-05-05 14:48

本文主要是介绍NLP之语言词素Morpheme(形态学),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Morpheme (词素),人类语言中表达语义的最小单元。

举个例子:

  • Eat 表示“吃”,不能再分了,ea 或 at 在这里都没有任何意义。所以eat是一个word,也是一个Morpheme。
  • Tomcats 表示 “雄猫”的复数, (包含三个 morphemes: tom = male, cat=animal, -s = plural)

   

Morpheme词素,可以分为两类, Free Morpheme和 Bound Morpheme。

Free Morpheme,比如前面的eat,可以独立作为一个word,可以单独使用。

Bound Morpheme,比如前面的-s,必须附加到其它的Morpheme词素,和它们一起使用。

根据各个词素在word中的不同作用和位置,可以把它们进行成分式的分类/划分。下面的图描述了对kickers一词进行成分划分。

 

 

至于Stem。一般而言,给Root加一个derivational morpheme派生词素,它就变成了Stem 比如,kickers中kick就是这个词的Root,加上派生词素-er后,则kicker变成了Stem,派生词素-er负责将kick从一个动词派生(转化)为一个名词,含义相关,但已变化。

与派生词素容易混淆的是屈折词素Inflectional Morphemes,比如我们在kicker后加词素-s,

kicker的语义没有任何变化,但是在语法中人称格数发生了变化,这样的词素就被称为屈折词素Inflectional Morphemes。与派生词素-er相比,屈折词素-s可以改变时态或人称格数,不能改变含义。

 既然Base是Bound Morpheme可以附着的主体部分。那么我们再来看看可以附着在Base上的那部分Bound Morpheme,即Affixes。

 

Affixes词缀分为前缀Prefixes和后缀Suffixes两类。

举个例子:

给你一个word,把这个word分析出Base Root Stem和Affixes等词素成分的过程叫做词分析Word Analysis。

比如:

  • hospitalize - complex word, free base hospital (root) + -ize derivational suffix
  • hospitalizes = stem [hospital (root) + -ize affix] + -s

这种分析表明,单词不是一下子形成的。需要遵循顺序来构成。为了捕捉描述单词形成的过程,语言学家开发了两种表示方法。一种方法是标记包围;另一种方法是树结构。 

标记包围:表示如下 

 再来一个更复杂的标记包围的例子

 用树结构表示是什么样子的呢?

Trees can be drawn from the top-down or from the bottom-up.

Using the top down method: start with the base word label, in this case A for adjective, then split off each major division. In this case there is just one affix, Af, and an adjective, A. Once the parts are labeled, the word parts can be filled in underneath.

把rehospitalizes用树结构表示,则会是下面这个样子:

 

这篇关于NLP之语言词素Morpheme(形态学)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/961965

相关文章

GO语言短变量声明的实现示例

《GO语言短变量声明的实现示例》在Go语言中,短变量声明是一种简洁的变量声明方式,使用:=运算符,可以自动推断变量类型,下面就来具体介绍一下如何使用,感兴趣的可以了解一下... 目录基本语法功能特点与var的区别适用场景注意事项基本语法variableName := value功能特点1、自动类型推

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

Go语言网络故障诊断与调试技巧

《Go语言网络故障诊断与调试技巧》在分布式系统和微服务架构的浪潮中,网络编程成为系统性能和可靠性的核心支柱,从高并发的API服务到实时通信应用,网络的稳定性直接影响用户体验,本文面向熟悉Go基本语法和... 目录1. 引言2. Go 语言网络编程的优势与特色2.1 简洁高效的标准库2.2 强大的并发模型2.

Go语言使用sync.Mutex实现资源加锁

《Go语言使用sync.Mutex实现资源加锁》数据共享是一把双刃剑,Go语言为我们提供了sync.Mutex,一种最基础也是最常用的加锁方式,用于保证在任意时刻只有一个goroutine能访问共享... 目录一、什么是 Mutex二、为什么需要加锁三、实战案例:并发安全的计数器1. 未加锁示例(存在竞态)

C语言自定义类型之联合和枚举解读

《C语言自定义类型之联合和枚举解读》联合体共享内存,大小由最大成员决定,遵循对齐规则;枚举类型列举可能值,提升可读性和类型安全性,两者在C语言中用于优化内存和程序效率... 目录一、联合体1.1 联合体类型的声明1.2 联合体的特点1.2.1 特点11.2.2 特点21.2.3 特点31.3 联合体的大小1

Go语言使用select监听多个channel的示例详解

《Go语言使用select监听多个channel的示例详解》本文将聚焦Go并发中的一个强力工具,select,这篇文章将通过实际案例学习如何优雅地监听多个Channel,实现多任务处理、超时控制和非阻... 目录一、前言:为什么要使用select二、实战目标三、案例代码:监听两个任务结果和超时四、运行示例五

C语言中%zu的用法解读

《C语言中%zu的用法解读》size_t是无符号整数类型,用于表示对象大小或内存操作结果,%zu是C99标准中专为size_t设计的printf占位符,避免因类型不匹配导致错误,使用%u或%d可能引发... 目录size_t 类型与 %zu 占位符%zu 的用途替代占位符的风险兼容性说明其他相关占位符验证示