Google speech command 数据集获取

本文主要是介绍Google speech command 数据集获取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

🏆本文收录于「Bug调优」专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！

问题描述

在关键字检测领域，一个比较流行的数据集就是Google Speech Commands，但是目前根据链接或者是在pytorch中直接下载，都是下载的30类别+background_noise。如何找到它的V1-12,V2-12等其他版本的数据集？

如上问题有来自我自身项目开发，有的收集网站，有的来自读者，如有侵权，立马删除。

解决方案

如下是上述问题的解决方案，仅供参考：

该回答引用ChatGPT，望对题主有所帮助/启发；若有帮助，还望采纳🤝🤝🤝

Google Speech Commands 数据集是一个广泛使用的语音识别数据集，它专门设计用于训练和评估关键词检测系统。此数据集包含数千个不同的人说的30个类别的短单词，每个类别有65000个长度为1秒的发音样本。这些样本在训练和验证集中，背景噪声或无关语音的标签"unknown"比目标单词或背景噪声的标签更为普遍。

要获取 Google Speech Commands 数据集的不同版本，如 V1-12 和 V2-12，您可以尝试以下方法：

官方链接：
- 根据 [¹³] 文章，Google 提供了数据集的官方下载链接，例如：
  - 第一版数据集：http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
  - 第二版数据集：http://download.tensorflow.org/data/speech_commands_v0.02.tar.gz
- 您可以通过这些链接下载不同版本的数据集。
TensorFlow Datasets：
- TensorFlow Datasets（TFDS）提供了一个方便的方式来加载和使用数据集。您可以使用以下命令来加载 Speech Commands 数据集：
```
import tensorflow_datasets as tfds
dataset, info = tfds.load('speech_commands', with_info=True)
```
- TFDS 还允许您指定数据集的版本，如果可用的话。
研究论文：
- 有时候，研究论文会提供数据集的链接或者相关信息。根据 [¹³] 文章，您可以访问以下链接获取更多信息：
  - 数据集主页：https://arxiv.org/abs/1804.03209
社区和论坛：
- 加入机器学习和深度学习的社区和论坛，如 Reddit、Stack Overflow 或专门的深度学习社区，询问其他研究人员或开发者是否有不同版本的数据集。
直接联系作者：
- 如果上述方法都无法找到所需的版本，您可以尝试直接联系数据集的作者或维护者，询问是否可以提供或指导您获取特定版本的数据集。

请注意，数据集的使用应遵守相应的许可协议和使用条款。在使用数据集之前，请确保您了解并遵守了相关的规定。

希望能够帮到有需要的你。

PS：如若遇到采纳如下方案还是未解决的同学，希望不要抱怨&&急躁，毕竟影响因素众多，我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴，即把你未解决或者产生新Bug黏贴在评论区，我们大家一起来努力，一起帮你看看，可以不咯。

若有对当前Bug有与如下提供的方法不一致，有个不情之请，希望你能把你的新思路或新方法分享到评论区，一起学习，目的就是帮助更多所需要的同学，正所谓「赠人玫瑰，手留余香」。

☀️写在最后

ok，以上就是我这期的Bug修复内容啦，如果还想查找更多解决方案，你可以看看我专门收集Bug及提供解决方案的专栏「Bug调优」，都是实战中碰到的Bug，希望对你有所帮助。到此，咱们下期拜拜。

码字不易，如果这篇文章对你有所帮助，帮忙给bugj菌来个一键三连(关注、点赞、收藏) ，您的支持就是我坚持写作分享知识点传播技术的最大动力。

同时也推荐大家关注我的硬核公众号:「猿圈奇妙屋」 ；以第一手学习bug菌的首发干货，不仅能学习更多技术硬货，还可白嫖最新BAT大厂面试真题、4000G Pdf技术书籍、万份简历/PPT模板、技术文章Markdown文档等海量资料，你想要的我都有！

📣关于我

我是bug菌，CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云等社区博客专家，C站博客之星Top30，华为云2023年度十佳博主，掘金多年度人气作者Top40，51CTO年度博主Top12，掘金/InfoQ/51CTO等社区优质创作者；全网粉丝合计 20w+；硬核微信公众号「猿圈奇妙屋」，欢迎你的加入！免费白嫖最新BAT互联网公司面试真题、4000G PDF电子书籍、简历模板等海量资料，你想要的我都有，关键是你不来拿。