大规模数据的PCA降维

本文主要是介绍大规模数据的PCA降维，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

20200810 -

0. 引言

最近在做的文本可视化的内容，文本处理的方法是利用sklearn的CountVer+Tf-idf，这样处理数据之后，一方面数据的维度比较高，另一方面呢，本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维，会很慢，而且pca也没有n_jobs来支持多线程工作。不过，我看到spark中已经支持的pca了，所以希望通过spark来实现这部分内容。

1. spark的PCA算法

1.1 官方使用示例

>>> from pyspark.ml.linalg import Vectors
>>> data = [(Vectors.sparse(5, [(1, 1.0), (3, 7.0)]),),
...     (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),
...     (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]
>>> df = spark.createDataFrame(data,["features"])
>>> pca = PCA(k=2, inputCol="features", outputCol="pca_features")
>>> model = pca.fit(df)
>>> model.transform(df).collect()[0].pca_features
DenseVector([1.648..., -4.013...])
>>> model.explainedVariance
DenseVector([0.794..., 0.205...])
>>> pcaPath = temp_path + "/pca"
>>> pca.save(pcaPath)
>>> loadedPca = PCA.load(pcaPath)
>>> loadedPca.getK() == pca.getK()
True
>>> modelPath = temp_path + "/pca-model"
>>> model.save(modelPath)
>>> loadedModel = PCAModel.load(modelPath)
>>> loadedModel.pc == model.pc
True
>>> loadedModel.explainedVariance == model.explainedVariance
True

上面的代码是spark的官方文档（2.4.4版本）的实例介绍；从中可以看出，对于PCA使用过程来说，没有什么不一样的。
其实我比较关注的是，假设，我开始的数据，更直接点说就是已经经过预处理的数据，他们现在是一个高维的向量，他们的数据类型是numpy.narray，这种形式的数据怎么传递到spark中，然后应用上面部分的代码。那么，比较关键的地方就是上面的data部分，这部分应该怎么处理。

1.2 个人使用方式

在谷歌搜索的时候，发现了某个代码[1]；他利用iris数据作为示例来进行讲解，下面来看看他具体的步骤。

1.2.1 加载数据

iris = load_iris()
X = iris['data']
y = iris['target']data = pd.DataFrame(X, columns = iris.feature_names)
dataset = spark.createDataFrame(data, iris.feature_names)
dataset.show(6)

上述代码的步骤如下：
1）加载iris数据
2）创建pandas的DF
3）创建spark的DF
也就是说，这个时候就创建了numpy与spark中df的联系。

1.2.2 将向量集中于一列

# specify the input columns' name and
# the combined output column's name
assembler = VectorAssembler(inputCols = iris.feature_names, outputCol = 'features')# use it to transform the dataset and select just
# the output column
df = assembler.transform(dataset).select('features')
df.show(6)
# output :
'''
+-----------------+
|         features|
+-----------------+
|[5.1,3.5,1.4,0.2]|
|[4.9,3.0,1.4,0.2]|
|[4.7,3.2,1.3,0.2]|
|[4.6,3.1,1.5,0.2]|
|[5.0,3.6,1.4,0.2]|
|[5.4,3.9,1.7,0.4]|
+-----------------+
only showing top 6 rows
'''

在之前的一篇文章《Spark机器学习实例》中也有这部分的操作，不过当时代码是这样的：

from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.linalg import Vectors
data = iris_data.rdd.map(lambda row: LabeledPoint(row[-1], Vectors.dense(row[:-1])))

本质上是一个道理，都是讲特征部分汇总到一个向量中。

1.2.3 向量归一化

scaler = StandardScaler(inputCol = 'features', outputCol = 'scaledFeatures',withMean = True,withStd = True
).fit(df)# when we transform the dataframe, the old
# feature will still remain in it
df_scaled = scaler.transform(df)
df_scaled.show(6)

这部分没什么可说的，就是归一化向量，然后应用于PCA。

1.2.4 使用PCA

n_components = 2
pca = PCA(k = n_components, inputCol = 'scaledFeatures', outputCol = 'pcaFeatures'
).fit(df_scaled)df_pca = pca.transform(df_scaled)
print('Explained Variance Ratio', pca.explainedVariance.toArray())
df_pca.show(6)

上面部分代码是做PCA的核心部分，通过这部分内容就可以得到相应的降维数据了。

1.2.5 取出降维后的数据

# not sure if this is the best way to do it
X_pca = df_pca.rdd.map(lambda row: row.pcaFeatures).collect()
X_pca = np.array(X_pca)

这部分代码应该可以直接使用key来获取某一列，不需要再用RDD

1.3 小节

关于这部分内容，关于PCA的使用没有什么多说的，只需要按照其接口说明传递参数然后获取相应的内容即可。关键部分是前期的预处理，怎么将数据弄成满足后续PCA处理形式的数据。
前面的代码应该就足够了，后续针对自己的数据来实践以下。

参考文章

[1]spark pca

这篇关于大规模数据的PCA降维的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

大规模数据的PCA降维

0. 引言

1. spark的PCA算法

1.1 官方使用示例

1.2 个人使用方式

1.2.1 加载数据

1.2.2 将向量集中于一列

1.2.3 向量归一化

1.2.4 使用PCA

1.2.5 取出降维后的数据

1.3 小节

参考文章

相关文章

Linux下利用select实现串口数据读取过程

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

python库pydantic数据验证和设置管理库的用途

JAVA实现亿级千万级数据顺序导出的示例代码

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解

C#实现千万数据秒级导入的代码

MyBatis-plus处理存储json数据过程