开源情报之领英人脸情报收集,如何快速收集上亿张人脸情报

2023-10-19 20:37

本文主要是介绍开源情报之领英人脸情报收集,如何快速收集上亿张人脸情报,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.前言
先看应用例子:
残忍至极!乌克兰用人脸识别战死俄军,联系母亲打“心理战”
情报机构,所掌握的数据,可以是市面上流出的任何数据,比如市面上泄露的领英数据,facebook,twitter,这些数据可以作为开源情报的基础数据之一,用来将互联网与个人实体联系起来
所有的技术,第一服务目标是暴力,如果你是一个程序员,如何构建一个能联系起现实的庞大数据库,通过触手可及的互联网内容。先展示我的成果,再来讲述技术:
已经成功收集了几千万张这类头像

二.技术实现
SeetaFace6,爬虫
领英已经实现了严格的反爬措施,要爬取6亿条用户的头像,那就要找一个相对于好的弱项进行攻破;已知领英开发团队来之meta,meta程序员好给每个用户搞多个接口返回用户信息,例如badges页面,可以通过该页面,获取无穷无尽的用户头像
1.实现第一步,获取领英的账号地址,如果你是出色的情报人员,你手上应该有已经有了上亿的领英用户主页地址了,如果没有,你可以自己使用程序进行爬取,或者通过灰色渠道,这里写如何通过爬虫爬取:
爬虫实现技术,java selenium,使用现成领英账号登录后进行爬取
如何实现selenium的登录控制与特征抹除:

package com.util;
import org.openqa.selenium.Dimension;
import org.openqa.selenium.PageLoadStrategy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
import org.openqa.selenium.logging.LogType;
import org.openqa.selenium.logging.LoggingPreferences;
import org.openqa.selenium.net.ChromeDriverProxy;
public class WebDriverTool {/*** 获取web驱动* * @return 浏览器驱动*/public ChromeDriver getWebDriver(String username) {System.setProperty("webdriver.chrome.driver", com.util.PropertyUtil.getvalue("chromedriver"));// 指定驱动路径// 设置浏览器参数ChromeOptions options = new ChromeOptions();Map<String, Object> prefs = new HashMap<String, Object>();prefs.put("credentials_enable_service", false);prefs.put("profile.password_manager_enabled", false);prefs.put("profile.password_manager_enabled", false);options.addArguments("user-data-dir=C:\\chrome\\"+username);//指定浏览器的运行文件存储地,领英账号登录后就可以保持长久的会话了/**excludeSwitches", Arrays.asList("enable-automation")在高版本的谷歌浏览器是无法屏蔽window.navigator.webdriver 为false 的特征,这里写出来是为了配合其他参数来关闭浏览器上显示"正在收到自动测试软件控制"的提示**/options.setExperimentalOption("excludeSwitches", Arrays.asList("enable-automation"));options.addArguments("--disable-blink-features");options.addArguments("--disable-blink-features=AutomationControlled");options.setExperimentalOption("useAutomationExtension", false);//options.addArguments("blink-settings=imagesEnabled=false");options.setExperimentalOption("prefs", prefs);// 创建驱动对象ChromeDriver driver = new ChromeDriver(options);//ChromeDriverProxy driver=new ChromeDriverProxy(options);driver.manage().window().setSize(new Dimension(1280, 1024));// 去除seleium全部指纹特征FileReader fileReader = new FileReader("C:\\lurk.js");String js = fileReader.readString();// MapBuilder是依赖hutool工具包的apiMap<String, Object> commandMap = MapBuilder.create(new LinkedHashMap<String, Object>()).put("source", js).build();// executeCdpCommand这个api在selenium3中是没有的,请使用selenium4才能使用此api((ChromeDriver) driver).executeCdpCommand("Page.addScriptToEvaluateOnNewDocument", commandMap);return driver ;}}

lurk.js 文件是控制特征去除的js片段,下载地址:https://download.csdn.net/download/qq_19383667/88444628
使用selenium进行账号登录后,找到:https://sg.linkedin.com/in/li-hao-74581548 这个页面,你会发现,只需要知道领英用户主页地址,即可快速批量的获得用户的头像文件,而且访问一个地址,你就能获取几十张额外的头像与用户主页地址

同名推荐
url对应的正主
同公司地域行业的推荐
到这里基本上能完成很多头像的收集

2.SeetaFace6实现头像切割与特征收集
该项目java版地址:https://gitee.com/cnsugar/seetaface6JNI,特征识别方法为:

try {BufferedImage user = ImageIO.read(new File(downpath));if (user != null) {float[] s = FaceHelper.extractMaxFace(user);ArrayList<Float> list = new ArrayList<Float>();if (s != null) {for (int i = 0; i < s.length; i++) {list.add(s[i]);}JSONArray maxfacecode = JSONArray.fromObject(list);maxfacecode_str = maxfacecode.toString();//数字化的人脸特征值,后期直接可用用作人脸对比}}} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}

这里已经能收集很多人脸的数据了,领英的价值在于可以将该处人脸特征作为基础数据,与推特,facebook社交内容做交互,快速识别人员身份

这篇关于开源情报之领英人脸情报收集,如何快速收集上亿张人脸情报的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/242211

相关文章

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

一文教你Java如何快速构建项目骨架

《一文教你Java如何快速构建项目骨架》在Java项目开发过程中,构建项目骨架是一项繁琐但又基础重要的工作,Java领域有许多代码生成工具可以帮助我们快速完成这一任务,下面就跟随小编一起来了解下... 目录一、代码生成工具概述常用 Java 代码生成工具简介代码生成工具的优势二、使用 MyBATis Gen

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

SpringBoot快速搭建TCP服务端和客户端全过程

《SpringBoot快速搭建TCP服务端和客户端全过程》:本文主要介绍SpringBoot快速搭建TCP服务端和客户端全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录TCPServerTCPClient总结由于工作需要,研究了SpringBoot搭建TCP通信的过程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

快速修复一个Panic的Linux内核的技巧

《快速修复一个Panic的Linux内核的技巧》Linux系统中运行了不当的mkinitcpio操作导致内核文件不能正常工作,重启的时候,内核启动中止于Panic状态,该怎么解决这个问题呢?下面我们就... 感谢China编程(www.chinasem.cn)网友 鸢一雨音 的投稿写这篇文章是有原因的。为了配置完

Python利用ElementTree实现快速解析XML文件

《Python利用ElementTree实现快速解析XML文件》ElementTree是Python标准库的一部分,而且是Python标准库中用于解析和操作XML数据的模块,下面小编就来和大家详细讲讲... 目录一、XML文件解析到底有多重要二、ElementTree快速入门1. 加载XML的两种方式2.

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s