SMS垃圾短信集F1指标分析

本文主要是介绍SMS垃圾短信集F1指标分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、任务

SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合，每条短信有两个信息，分别是标签信息label，其中spam为垃圾短信，ham为正常短信。以及message信息为短信内容。现在有训练集，训练集保存在E:\自然语言处理\train.csv和测试集，测试集保存在E:\自然语言处理\test.csv。现在综合利用所学的文本预处理、特征提取、文本向量化等技术对其进行分析。建立机器学习模型，计算测试集上的F1指标，希望F1指标达到非常好的效果。

二、代码

使用SVC机器学习模型，Tfidf特征处理。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import re
import string# 1. 数据加载与预处理
train_data = pd.read_csv("E:\\自然语言处理\\train.csv")
test_data = pd.read_csv("E:\\自然语言处理\\test.csv")# 定义文本预处理函数
def preprocess_text(text):# 将文本转换为小写text = text.lower()# 去除标点符号text = text.translate(str.maketrans('', '', string.punctuation))# 去除数字text = re.sub(r'\d+', '', text)# 返回处理后的文本return text# 对训练集和测试集的文本进行预处理
train_data['message'] = train_data['message'].apply(preprocess_text)
test_data['message'] = test_data['message'].apply(preprocess_text)# 2. 特征提取与文本向量化
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train_data['message'])
X_test = vectorizer.transform(test_data['message'])# 对标签进行编码
label_encoder = LabelEncoder()
y_train = label_encoder.fit_transform(train_data['label'])
y_test = label_encoder.transform(test_data['label'])# 3. 建立机器学习模型
classifier = SVC(kernel='linear')# 4. 模型训练与评估
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)# 计算F1指标
f1 = f1_score(y_test, y_pred)print("F1 Score:", f1)