【情报心路】数据源的搜索渠道和搜索技巧

2023-11-06 13:20

本文主要是介绍【情报心路】数据源的搜索渠道和搜索技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

图源:摄图网可商用图片

我们在往期分享了很多类型的数据源,但是很多小伙伴都会问,这些数据源是从哪些渠道搜集到的,该如何去搜索和积累数据源?特别是一些正在为写论文发愁的毕业党们,不知道论文数据从何找起。接下来,小福妹就掏出一生所学的家底儿(夸张了哈,小福妹的干货还多着呢,以后慢慢跟你们分享)。

图片

有些小伙伴在查找某种类型的数据源的时候,只会在搜索引擎的搜索框中输入某个关键词甚至是一段很长的句子,但是这种方式搜索出来的结果还是很局限的,那么,我们情报分析师在平时的调查中是如何既迅速又精准地找到我们想要的数据源呢?看小福妹来教你几招:

图片

数据源从哪找?

首先,数据源主要分为两大类即官方数据源和非官方数据源(在调查中我们一般倾向于使用官方数据源),官方数据源主要来自各国家政府部门官网,如国内的诉讼司法数据就来自裁判文书网,国内的数据源我们都分享了很多,今天我们主要讲数据源的搜集方法。非官方数据源则主要来自一些第三方机构,此外还有非营利组织的数据,或者是由一些记者或者新闻机构建立的“民间数据库”等。

其次,数据源还可以根据其适用范围分类,比如经济类数据、环境类数据、某公司相关的数据等。我们就需要通过在搜索引擎设置关键词进行搜索。此外,还有一些学术期刊的网站也能找到某些领域的大量数据。后面,小福妹会陆续为大家放送各种不同类型的数据库资源,一定要持续关注我们的公众号哦!

数据源的积累和保存方法可以点下方链接,看小福妹给大家介绍的OSINT数据库的创建方法。

【情报心路】创建自己的 OSINT 数据库

2021-11-16

图片

图片

如何准确搜索?

我们在搜索引擎进行搜索的时候,都知道把关键词加上引号以精确搜索,但是这种搜索方法看似是更加精确,其实会出现结果范围缩小。我们可以在我们要调查的两个关键词对象之间加上“AROUND”,然后添加模糊词数,即可扩大搜索范围,从而避免出现漏网之鱼。

开源调查专家范埃斯(Henk van Ess)曾提出一种“可视化思维”的搜索技巧,即灵活运用谷歌内置的一些搜索术语,结合反图像搜索以及可视化思维,便可以加快调查进展,提高工作效率。他认为虽然大部分都精通于概念思维,但是当我们试图讲一次搜索分解到最基本要素时,可视化思维往往能取得更好的效果。

其实,范埃斯提出的分解基本要素与我们情报分析师工作流程中分解任务这一环节不谋而合。当我们面对一个庞大的调查主题时,我们可以尝试将它分解成若干个小的对象,这个时候就会更容易开始调查。

除了选对关键词来找到你想要的东西以外,范埃斯表示,可视化思维方法包括确定你想要的东西,排除你已经知道的东西,并使用最合理的方法找到你需要的数据

其实,范埃斯提到的“可视化思维”应用到我们的调查当中就是要大胆猜测,小心验证,即在调查开始之前根据现拥有的数据去大胆猜测可能存在的证据,然后进行小心验证环节,最后得出合理的结果;如果猜测出现错误,即不断循环调查流程,不断循环往复,考验的是分析师的耐心和细心程度。

关于如何可视化搜索,他还给出以下建议:

 1 将“对象+动作”作为关键词进行搜索

一般来说,如果我们在搜索引擎中直接输入关键词“采访”,可能出现很多采访相关的内容,但是过于庞杂的信息会掩盖我们真正想要的东西。比如,我们想要找一个名为 Anna Kog 的受访人采访,想象一下在采访中可能会出现的词语,一定会有人名还有“说”这个动作。此时,我们通过“人物对象+动作”作为关键词进行搜索,在采访中我们就可以用 ”Kog says “作为关键词搜索。

 2 将关键词“细节化”以缩小搜索范围

例如,在搜索某张特定的地图之前,我们需要先思考一下一般地图上通常会用到的常用术语。你会发现“地图(map)”这个词过于笼统,但是如果我们搜索跟地图相关的一些元素,比如“比例尺(scale)”,再加上一些其他细节关键词来进一步缩小搜索范围,就可以快速准确地达到我们想要的搜索结果。

 3 用“关键词*”“-排除内容”搜索

范埃斯在一次交流会上向在场的人提出一个问题,让他们当场利用网络检索找出除了众所周知的美国学者 Francis Boyle 外,另外 4 位声称新冠病毒是生物武器的科学家的名字。

大约有一半的与会者在谷歌上进行搜索时,使用的关键词都类似于“声称新冠病毒是生物武器的科学家”,但没有人能够基于这样的搜索词成功找到另外4名科学家。

范埃斯解释说,提出这种说法的科学家不太可能在他们的原帖中使用“科学家”或“说法”等字眼。相反,他建议用 Dr. * *来搜索科学家——其中的星号*为通配符,允许 Google 呈现该位置上为任意名字的结果——并用减号过滤掉那些关于 Francis Boyle 的结果:-boyle。

 4 使用搜索运算符来寻找两者间的联系

操作符(Operators)是指某些可以对在线文本搜索进行精确与优化的特殊的字符和指令。我们可以试试使用运算符,大写的 AROUND,然后在后面添加一个括号,括号中填写你试图联系的两个目标在文本之间的大致字符数。

我们可以根据其他语言中的平均句子和标题的长度进行调整,但一定要确保 AROUND 和括号之间不留空格。范埃斯用以下搜索指令找到了另外四位科学家:“Dr. * *” AROUND(7) “coronavirus is a bioweapon” -boyle。

 5 利用“图片+site国家标识符”寻找目标人物

选取你要调查的对象的资料照片,点击 Google 搜索框的相机图标后,上传到 Google Images 中。在 JPEG 图片 旁边的搜索框中用国家标识符代替人名。

例如,如果是伊朗,则使用 site:ir 的指令代码。范埃斯表示,你甚至不需要知道如何用外语(例如波斯语)拼写他们的名字,就可以在网络上找到伊朗媒体发布的关于他的文稿。

但你用来进行搜索的照片必须要非常简单——选择此人最常用的资料照片,例如其 Twitter 等社交媒体账号的头像,或是 Google 图片搜索出来的第一张照片。

图片

即使记者不知道一个人的名字在外语中是如何拼写的,范埃斯表示也可以在 Google 图片中搜索此人的照片,再结合其国家的标识符,便能帮你找到在以该种外语发表的文稿中此人名字的拼写方式。


 

 6 利用 Who Posted What? 

对于那些使用传统的反向图像搜索很难找到的图片,可以在 Instagram 中输入一个地名,以此抓取一个地理位置链接,并将其与目标日期一起粘贴到 Who Posted What? 中。你也可以据此确定发布照片的人,再通过 Google 搜索找到他们的 Twitter 账号,然后联系他们,再进一步询问图片的相关情况。

图片

当使用反向图片搜索难以找到想要的图时,可以试试在 Who Posted What? 中输入地理位置代码链接以及具体日期。这种方法不仅可以帮助你找到要找的照片,还可以找到图片来源的线索。

 7 以“-site:平台”为关键词寻找视频在其他平台发布情况

如果你只知道一则被疯狂转发的视频被发布在 YouTube 上,试着在 Google 中粘贴链接,并用减号指令将该平台从搜索结果中排除,如: -site:youtube.com。你也可以试着用同样的排除法来寻找被删除的 Instagram 账号图片:将已被删除的 Instagram 链接粘贴到 Google 中,但要加上指令:-site:Instagram.com你也许就会发现该链接已经被第三方网站复制并存档了。

 8 思考其他可视化线索

商标是可视化思维的一个很好的例子。如果你的调查目标是一家公司,而其官方网站提供的信息很少,但包含了公司的商标,你便可以据此在网上搜索该标志可能出现的其他地方。

例如企业网站上常设的客户商标列表,如此一来便可找到与其有业务往来的其他公司。你可以在 Google Images 中使用目标公司的商标进行正常的反向图像搜索,并将该公司的网站过滤在外,方法是在搜索框内使用 -site: 指令,再在后面输入该公司官网网址。

 9 当以上这些高级工具都不起作用时,可以尝试单纯的文字搜索

当我们试图寻找一个疑似恐怖分子在机场拍摄的图像时,无论 TinEye 还是 Yandex 这样强大的反向图像工具都无法找到。但一篇现场的文字报道提到了一条不同寻常的可视化线索——嫌疑人身后有一只黄色的大泰迪熊。

于是,其实我们只需在谷歌图片中输入“机场黄熊(airport yellow bear)”,就能找到这张图片。范埃斯提醒大家,如果想使用图片主体颜色作为关键词在 Google Image 中进行搜索,只有用英语拼出这些颜色术语时才有效,如“green’’或“blue’’等。

本篇文章为福韵原创内容,未经授权禁止转载

封面来源:摄图网可商用图片

END

这篇关于【情报心路】数据源的搜索渠道和搜索技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/fydata/article/details/121691535
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/356868

相关文章

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

MySQL JSON 查询中的对象与数组技巧及查询示例

《MySQLJSON查询中的对象与数组技巧及查询示例》MySQL中JSON对象和JSON数组查询的详细介绍及带有WHERE条件的查询示例,本文给大家介绍的非常详细,mysqljson查询示例相关知... 目录jsON 对象查询1. JSON_CONTAINS2. JSON_EXTRACT3. JSON_TA

Spring @RequestMapping 注解及使用技巧详解

《Spring@RequestMapping注解及使用技巧详解》@RequestMapping是SpringMVC中定义请求映射规则的核心注解,用于将HTTP请求映射到Controller处理方法... 目录一、核心作用二、关键参数说明三、快捷组合注解四、动态路径参数(@PathVariable)五、匹配请

如何确定哪些软件是Mac系统自带的? Mac系统内置应用查看技巧

《如何确定哪些软件是Mac系统自带的?Mac系统内置应用查看技巧》如何确定哪些软件是Mac系统自带的?mac系统中有很多自带的应用,想要看看哪些是系统自带,该怎么查看呢?下面我们就来看看Mac系统内... 在MAC电脑上,可以使用以下方法来确定哪些软件是系统自带的:1.应用程序文件夹打开应用程序文件夹

Mac备忘录怎么导出/备份和云同步? Mac备忘录使用技巧

《Mac备忘录怎么导出/备份和云同步?Mac备忘录使用技巧》备忘录作为iOS里简单而又不可或缺的一个系统应用,上手容易,可以满足我们日常生活中各种记录的需求,今天我们就来看看Mac备忘录的导出、... 「备忘录」是 MAC 上的一款常用应用,它可以帮助我们捕捉灵感、记录待办事项或保存重要信息。为了便于在不同

电脑蓝牙连不上怎么办? 5 招教你轻松修复Mac蓝牙连接问题的技巧

《电脑蓝牙连不上怎么办?5招教你轻松修复Mac蓝牙连接问题的技巧》蓝牙连接问题是一些Mac用户经常遇到的常见问题之一,在本文章中,我们将提供一些有用的提示和技巧,帮助您解决可能出现的蓝牙连接问... 蓝牙作为一种流行的无线技术,已经成为我们连接各种设备的重要工具。在 MAC 上,你可以根据自己的需求,轻松地

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

如何关闭Mac的Safari通知? 3招教你关闭Safari浏览器网站通知的技巧

《如何关闭Mac的Safari通知?3招教你关闭Safari浏览器网站通知的技巧》当我们在使用Mac电脑专注做一件事情的时候,总是会被一些消息推送通知所打扰,这时候,我们就希望关闭这些烦人的Mac通... Safari 浏览器的「通知」功能本意是为了方便用户及时获取最新资讯,但很容易被一些网站滥用,导致我们

电脑提示Winmm.dll缺失怎么办? Winmm.dll文件丢失的多种修复技巧

《电脑提示Winmm.dll缺失怎么办?Winmm.dll文件丢失的多种修复技巧》有时电脑会出现无法启动程序,因为计算机中丢失winmm.dll的情况,其实,winmm.dll丢失是一个比较常见的问... 在大部分情况下出现我们运行或安装软件,游戏出现提示丢失某些DLL文件或OCX文件的原因可能是原始安装包

ubuntu16.04如何部署dify? 在Linux上安装部署Dify的技巧

《ubuntu16.04如何部署dify?在Linux上安装部署Dify的技巧》随着云计算和容器技术的快速发展,Docker已经成为现代软件开发和部署的重要工具之一,Dify作为一款优秀的云原生应用... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。它