隐私计算关键技术：隐私集合求交（PSI）原理介绍

本文主要是介绍隐私计算关键技术：隐私集合求交（PSI）原理介绍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考连接：隐私计算关键技术：隐私集合求交（PSI）原理介绍 - 知乎

隐私集合求交（Private Set Intersection，PSI）

PSI是指，参与双方在不泄露任何额外信息的情况下，得到双方持有数据的交集。在这里，额外的信息指的是除了双方的数据交集以外的任何信息。

隐私集合求交在现实场景中非常有用，比如在纵向联邦学习中做数据对齐，或是在社交软件中，通过通讯录做好友发现。因此，一个安全、快速的隐私集合求交的算法是十分重要的。

我们可以用一种非常直观的方法来进行隐私集合求交，也就是朴素哈希的方法。参与双方A、B，使用同一个哈希函数H，计算他们数据的哈希值，再将哈希过的数据互相发送给对方，然后就能求得交集了。

这种方法看起来非常简单、快速，但是，它是不安全的，有可能会泄露额外的信息。如果参与双方需要求交集的数据本身，数据空间比较小，比如说手机号、身份证号等，那么，一个恶意的参与方，就可以通过哈希碰撞的方式，在有限的时间内，碰撞出对方传过来的哈希值，从而窃取到额外的信息。因此，我们需要设计出更加安全的隐私集合求交的方法。

现在已经有了很多种不同的方法来实现隐私集合求交，比如基于Diffie-Hellman密钥交换的方法、基于不经意传输的方法等等。而截至目前，最快速的隐私集合求交方法，是基于不经意传输的。下面，我们介绍如何使用不经意传输，来实现一个隐私集合求交算法。

不经意传输（Oblivious Transfer，OT）

不经意传输是一种密码学协议，实现了发送将将潜在的许多信息中的一个传递给接收方，但是对接收方所接收的信息保持未知。

一种比较实用的不经意传输方案，被称为1-2不经意传输。在1-2不经意传输中，发送方持有两个数据，接收方可以选择获取其中的一个，但是发送方并不知道接收方选择了哪一个数据。形式化描述如下：

发送方A持有数据和 $m_1$ ，接收方B持有一个比特 $b$ ， $b \in \{0, 1\}$ ，则1-2不经意传输可以描述为：

其中，B只知道，不知道 $m_{1-b}$ ，而A也不知道 $b$ 。

我们也可以将1-2不经意传输扩展为1-n不经意传输，即接收方能从n个数据中选择获取一个，且对发送方保密。

不经意传输也有很多种实现方式，不过一般都需要实用公私钥加密的方式来实现，比如RSA、椭圆曲线加密等。在本篇文章中，我们不介绍具体的不经意传输协议，读者们可以把不经意传输当作是一个黑盒子，我们接下来详细介绍如何实用不经意传输，来构造一个隐私集合求交的方法。

隐私比较

我们先从最简单的情况开始。假设参与双方A、B，都只有一个元素，这时隐私集合求交，就退化成了隐私比较，即A、B比较持有的元素是否相等，同时不泄露自己持有的元素。

我们假设A持有数据x，B持有数据x。不失一般性，我们假设x与y的字节长度相等，长度为，即 $|x| = |y| = l$ 。现在，A为数据x的每一位，都生成两个随机的二进制串（服从均匀分布），长度为 $n$ ，即 $K_{i,0}, K_{i,1}$ ， $i \in \{0, 1, 2, ..., l - 1\}$ ， $|K_{i,0}| = |K_{i,1}| = n$ 。

现在，B作为接收方，A作为发送方，开始执行1-2不经意传输协议。B根据y的每一位，选择A持有的 $K_{i,0}, K_{i,1}$ 中的一个，即 $OT((K_{i,0}, K_{i,1}), y_i) = K_{i, y_i}$ ， $i \in \{0, 1, 2, ..., l - 1\}$ 。B将接收到的 $l$ 个二进制串进行异或，得到一个二进制串 $K_y$ ，即 $K_y = \bigoplus K_{i,y_i}$ ， $i \in \{0, 1, 2, ..., l - 1\}$ ，其中 $\bigoplus$ 表示异或。

发送方A也可以跟B一样，根据x的每一位，选择一个二进制串 $K_{i, x_i}$ ，将这 $l$ 个二进制串进行异或，得到一个二进制串 $K_x$ 。当然，A生成 $K_x$ 的过程不需要使用不经意传输，因为x与K都在A的手中。

之后，A将发送给B，B即可判断x与y是否相等。

这个隐私比较的方法，显然是安全的。B使用不经意传输获得的过程中，由于不经意传输的特性，A不会知道B的数据y；使用异或得到的 $K_x$ 与 $K_y$ ，与一个随机的n位二进制串是无法区分的，所以A和B也无法通过 $K_x$ 或 $K_y$ 反推出x或y。A作为发送方，不经意传输保证了A无法得到B的数据y（除非 $x=y$ ）；只要B是诚实的，即不能通过不断执行这个协议来碰撞A的数据，那么B也无法得到A的数据x（除非 $x=y$ ）。

由隐私比较到不经意伪随机函数

观察隐私比较，我们可以发现，发送方A持有一组二进制串，我们可以将这些二进制串整体当作一个随机种子 $K$ ，由A持有。从B的角度来看，隐私比较的过程，就是B输入数据y，得到一个随机二进制串 $K_y$ ，这个二进制串由A持有的随机种子 $K$ 与输入y来决定，同时A无法得知B的输入y。这一过程，就可以看作是不经意伪随机函数（Oblivious Pseudorandom Function， OPRF）。

不经意伪随机函数是一种密码学协议[3]，发送方可以选择一个随机种子，接收方可以选择一个输入 $r$ 并得到一个伪随机函数 $F(s,r)$ 的输出，同时发送方不知道 $r$ 。那么，隐私比较中，接收方B就是执行了一个不经意伪随机函数 $F(K,y) = K_y$ ，发送方A可以执行一个普通的伪随机函数 $F(K,x) = K_x$ ，通过比较 $K_x$ 和 $K_y$ ，即可实现隐私比较。

这样来看，我们就是使用不经意伪随机函数，来构建了一个隐私比较算法。接下来，我们要更进一步，看看如何使用不经意伪随机函数，来构建隐私集合求交。

使用不经意伪随机函数构建隐私集合求交

假设A持有一组输入X，B持有一组输入Y，。通过不经意伪随机函数，我们可以构造出一个非常朴素的隐私集合求交算法：

A构造个不经意伪随机函数的种子 $k_i$ ， $i \in \{0,1,2, ..., n-1\}$
B为Y中的每一个元素y，执行一个对应不经意伪随机函数，得到集合
A为X中的每一个元素x，执行每一个不经意伪随机函数，得到集合
A将集合发送给B，B求交集 $H_A \bigcap H_B$ ，再将交集映射回Y，即可得到X与Y的交集

这种方法简单来讲，就是B将每一个Y中的每一个元素，都与A的X中的每一个元素，通过不经意伪随机函数进行隐私比较，进而得到X与Y的交集。

这种方法虽然直观，但是开销很大，因为集合的大小是 $O(n^2)$ ，当集合大小n增长时，传输量增长很快。

那么，我们有没有办法将集合大小限制在呢？答案是可以的。这需要使用到哈希表的思想。这里，我们使用布谷鸟哈希（Cuckoo hashing）来解决这个问题。

我们首先简单介绍一下布谷鸟哈希。假设我们想要使用布谷鸟哈希，将n条数据放入个桶中，则我们首先选择3个哈希函数 $h_1, h_2, h_3: \{0, 1\} ^ * \rightarrow [b]$ ，以及b个空的桶 $B[1...b]$ 。要放入一条数据 $x$ ，首先查看3个桶 $B[h_1(x)]$ ， $B[h_2(x)]$ ， $B[h_3(x)]$ 是否有空的，如果有空的，则将 $x$ 放入空桶。如果没有空桶，则从这三个桶中随机选择一个桶 $B[h_i(x)]$ ， $i \in \{1,2,3\}$ ，踢出原来在这个桶中的元素 $x'$ ，并将x放进这个桶中，然后再继续尝试插入被踢出的元素 $x'$ 。递归地执行这一过程，直到元素被放入一个空桶中。如果经过一定轮次后，仍然找不到空桶放入元素，那么就将被踢出的元素放到一个特殊的桶中，这个桶被称为储藏桶。

现在回到隐私集合求交的构建中，让我们看看如何在隐私集合求交中使用布谷鸟哈希。首先，A、B双方共同选择三个哈希函数。然后，B将其持有的 $n$ 个元素Y，使用布谷鸟哈希，放入 $1.2n$ 个桶与一个储藏桶中，储藏桶的大小为 $s$ 。对B来说，现在每个桶中最多只有一个元素，并且储藏桶的中，最多有 $s$ 个元素。现在B可以构造假数据，将这些桶和储藏桶都填满，使每个桶中都有一个元素，且储藏同中正好有 $s$ 个元素。

然后，A可以生成个随机种子 $k_{i}, i \in \{1,2,...,1.2n+s\}$ ，用作 $1.2n+s$ 个不经意伪随机函数的随机种子。B作为接收方，为其桶中的每一个元素 $y$ ，计算不经意伪随机函数。如果 $y$ 被放在 $i$ 号桶中，则计算 $F(k_i, y)$ ，如果 $y$ 被放在了储藏桶中的第 $j$ 个位置，则计算 $F(k_{1.2n+j},y)$ 。

另一边，A作为发送方，可以任意地计算伪随机函数，那么，A可以为其输入X计算以下两个集合：

$S = \{F(k_{1.2n+j},x) | x \in X, j \in \{1,2,...,s\}\} \\$

A将集合和集合 $S$ 中的元素打乱，并将这两个集合发送给B。对于B来说，如果一个元素 $y$ 被放到储藏桶中，则B可以在集合 $S$ 中查找 $y$ 对应的不经意伪随机函数输出；否则，就在集合 $H$ 中查找。通过查找，就可以得到X与Y的交集。

通过计算，我们可以发现，集合的大小为 $3n$ ，集合 $S$ 的大小为 $s$ ， $s$ 是一个常数，因此A需要传输的数据量为 $(s+3)*n$ ，是 $O(n)$ 的。通过结合布谷鸟哈希，我们减少了协议所需要传输的数据量，加快了协议的执行速度。

显然，使用不经意伪随机函数构造的隐私集合求交算法，是安全的。由于不经意伪随机函数的特性，发送方A无法得知接收方B的输入。同时，对于集合中的元素，其经过伪随机函数的输出，与一个随机的二进制串无法区分，因此B也无法从伪随机函数的输出中反推出输入。在B是诚实的条件下（不能无限次地执行不经意伪随机函数来进行碰撞），这个协议是安全的。

这篇关于隐私计算关键技术：隐私集合求交（PSI）原理介绍的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！