独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接)

本文主要是介绍独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png

作者:PRANAV DAR

翻译:蒋雨畅

校对:丁楠雅

本文约2400字,建议阅读10分钟。

本文总结今年7月以来Github和Reddit上涉及AI、ML的重要内容。


介绍


你有没有想过不懂画画甚至不知道如何拿画笔也能成为一名艺术家?借助计算机视觉技术,您现在可以做到这一点。更妙的是,机器学习社区非常棒,以至于执行此操作的代码已经开源了!这就是GitHub的强大功能,以及为什么我鼓励所有有抱负或成熟的数据科学家定期使用它。


GitHub一直是开源数据科学和机器学习的核心。无论您是为现有存储库做贡献还是构建自己的存储库,您都可以获得大量的知识。


640?wx_fmt=png


下面有一些非常酷的存储库 - 深度学习,GAN特定,自然语言处理(NLP)相关的文本匹配,以及用于扩展和重新构想现有图像的计算机视觉(如上所述)。这里有适合每个人的东西!


来到Reddit,我们选择了深度学习和人工智能相关的讨论。这些将帮助您评估和了解行业中某些技术的现状以及将来的方向。


您可以查看以下前6个月的顶级GitHub存储库和热门Reddit讨论(从4月开始):


  • 一月:

    https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/ 

  • 二月:

    https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018/ 

  • 三月:

    https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018/ 

  • 四月 :

    https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/ 

  • 五月:

    https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/ 

  • 六月:

    https://www.analyticsvidhya.com/blog/2018/07/top-github-reddit-data-science-machine-learning-june-2018/ 


GitHub存储库

 

  • 图像修复


Github地址:

https://github.com/bendangnuksung/Image-OutPainting


640?wx_fmt=jpeg


这是本系列中最酷的存储库之一。“修复”最近一直是一个趋势概念,但这项由斯坦福大学的几位研究人员设计的技术,却运用了相反的概念。“Outpainting” 这个概念扩展了GAN用于修复的用途,来估计和想象现有图像在超出可见范围后,可能看起来的模样。然后运用算法将图像扩展到现有边界之外。正如您在上图所示,结果非常出色。


此存储库使用Python中的Keras的开源实现。您可以从头开始构建模型,也可以使用此存储库作者提供的模型。无论哪种方式,试试吧!


关于这个方法的详细文章:


Become a Computer Vision Artist with Stanford’s Game Changing ‘Outpainting’ Algorithm (with GitHub link):

https://www.analyticsvidhya.com/blog/2018/07/become-computer-vision-artist-stanfords-outpainting-algorithm-github-keras/ 

 

  • 使用TensorFlow的文本分类模型


Github地址:

https://github.com/dongjun-Lee/text-classification-models-tf


640?wx_fmt=png


这个存储库实现了它所说的 - 各种文本分类模型的TensorFlow实现。我喜欢这个存储库的是它包含已经讨论过的每个模型的链接。这样可以了解您正在做的事情,这非常有用。这里实现的模型是:


  • 字级CNN

  • 字符级CNN

  • 非常深的CNN

  • 字级双向RNN

  • 基于注意的双向RNN

  • R-CNN

 

  • MatchZoo


Github地址:

https://github.com/faneshion/MatchZoo


640?wx_fmt=png


虽然不是严格意义的上个月创建的库,但最近这个存储库得到了一个重大更新。MatchZoo基本上是一个文本匹配工具包。它的创建是为了设计,比较和分享各种深层文本匹配模型。MatchZoo可以做的潜在任务包括文档检索,会话响应排名,问题回答和释义识别等。


一些深度匹配方法有DRMM,MatchPyramid,MV-LSTM,aNMM,DUET等。你可以查看存储库以获取有关如何安装和利用这个库的详细信息。

 

  • GANimation


Github地址:

https://github.com/faneshion/MatchZoo


640?wx_fmt=png


以上的面孔集合让你对这个存储库感到兴奋吗?绿色边框内是原始图像,其余图像使用GANimation在解剖学上改变主体的面部表情。这是一种稍微复杂的方法,但如果您对深度学习感兴趣,则可以进行探索。


作者提供了入门所需的一切 - 初学者指南,先决条件,数据准备资源,当然还有Python代码。你在等什么?快进来!

 

  • GAN稳定性


Github地址:

https://github.com/LMescheder/GAN_stability


640?wx_fmt=png


这个Python项目是这篇上个月在2018年国际机器学习会议上提出的论文的部分实验代码:


Which Training Methods for GANs do actually Converge?

https://avg.is.tuebingen.mpg.de/publications/meschedericml2018 


对于任何对深度学习尤其是GAN感兴趣的人来说,这是一个引人入胜的案例研究。


这个存储库入选的原因是它能让您对在顶级机器学习会议中接受和呈现的论文中的研究和思考水平有了一个很好的了解。您还可以在下面链接中查看ICML 2018中的最佳论文


The Best Research Papers from ICML 2018 – A Must-Read for Data Scientists

https://www.analyticsvidhya.com/blog/2018/06/best-research-papers-icml-2018/ 

 

Reddit讨论

 

640?wx_fmt=png

Source: Wikipedia 

 

  • 我应该实施哪些深度学习论文?


Reddit相关链接:

https://old.reddit.com/r/MachineLearning/comments/8vmuet/d_what_deep_learning_papers_should_i_implement_to/


如果您是深度学习的新手,这将成为您必读的讨论。许多深度学习专家在最近发表的论文中提供了他们的观点(以及大量的链接),您应该阅读并实践这些论文。这将加强您所学到的知识,并使您具有与最新技术保持同步的额外优势。


如果你是一个深度学习的老手,这将刷新你的概念或告诉你在这个多元化领域发生的所有事情。您永远无法获得足够的知识,因此我建议您查看所提供的所有资源。您还应该阅读其他数据科学家提供的所有意见,这些意见将完善您自己的观点。

 

  • 在Google Brain / FAIR / DeepMind等组织对科技的使用


Reddit相关链接:

https://old.reddit.com/r/MachineLearning/comments/8yvlzy/d_debate_about_science_at_organizations_like/


这个标题足以引起数据科学家的注意。这个讨论产生于Twitter关于科技如何被大型技术组织使用的辩论。虽然辩论从悲观的观点开始,但它却从那些与这些公司合作过的人那里获得了更多积极或自信的观点。


您不仅要了解Google Brain等人的科学定义和使用方式,还要了解数据科学人员对行业当前科学状况的看法。

 

  • 加深理论理解的一些好书


Reddit相关链接:

https://old.reddit.com/r/MachineLearning/comments/8wcjcm/d_what_are_some_good_books_to_get_more/


如果你想进入机器学习的研究方面,你需要了解事物如何运作的理论。Thin包括核心数学,概率等主题。该主题列出了一些关于各种机器学习概念的更高级的书籍。


这里有大量的建议(几乎100条评论!)和链接,所以你不能抱怨缺乏资源。从高级机器学习到强化学习的介绍,这个讨论是顶级资源的金矿。

 

  • 讨论人工智能将如何影响当前和未来的工作


Reddit相关链接:

https://www.reddit.com/r/artificial/comments/8zx2mx/artificial_intelligence_will_create_as_many_jobs/


这是几十年来一直在进行的讨论,并且随着最近机器学习和AI的兴起而变得更加突出。尽管专家竭尽全力减轻恐惧,但这种担忧仍然存在。请完整的阅读这篇讨论 - 它包含了来自AI爱好者和专家的意见,包括他们如何看待AI影响不同国家的工作。


还有大量的统计数据和链接共享,有助于衡量人工智能的发展方向。请您也对整体讨论提出宝贵的意见。你自己参与得越多,你对数据科学的信心就越大。

 

  • 人们在数据可视化中犯的常见错误


Reddit相关链接:

https://www.reddit.com/r/datascience/comments/8wj1nr/play_your_charts_right_an_illustrated_collection/


数据可视化是任何机器学习项目的关键方面。但它也有它自己的独立应用程序,如仪表板,报告等。商业智能如今是一个蓬勃发展的领域,随着越来越多的人进入它,他们需要意识到人们犯下的一些最常见的错误。给定的图像很好地说明了这一点。


这是您将在数据科学之旅中遇到的一个有趣但重要的主题。你不需要虔诚地坚持已经展示过的每一个观点,但是了解整个领域的领导者如何思考这个观点是一件好事。

 

结束笔记


这个月的文章更倾向于深度学习,但我试图通过分享一些适合初学者的Reddit讨论来保持平衡。我再说一遍——请尝试为GitHub存储库和Reddit讨论做出贡献,因为这些将对您的职业生涯有很大的帮助。您阅读和分享的越多,您自己的知识就越好。

 

作者简介:

Pranav Dar,Analytics Vidhya的编辑。数据可视化和Six Sigma从业者,他喜欢阅读和深入研究数据科学和机器学习艺术。一直在寻找使用机器学习和AI改进流程的新方法。


博客链接:

https://www.analyticsvidhya.com/blog/author/datascience22/


原文标题: 

The Best Machine Learning GitHub Repositories & Reddit Threads from July 2018

原文链接: 

https://www.analyticsvidhya.com/blog/2018/08/best-machine-learning-github-repositories-reddit-threads-july-2018/  


译者简介

640?wx_fmt=png

蒋雨畅,香港理工大学大三在读,主修地理信息,辅修计算机科学,目前在研究学习通过数据科学等方法探索城市与人类活动的关系。希望能认识更多对数据科学感兴趣的朋友,了解更多前沿知识,开拓自己的眼界。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。


640?wx_fmt=png

640?wx_fmt=jpeg

点击“阅读原文”拥抱组织

这篇关于独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901643

相关文章

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

pycharm跑python项目易出错的问题总结

《pycharm跑python项目易出错的问题总结》:本文主要介绍pycharm跑python项目易出错问题的相关资料,当你在PyCharm中运行Python程序时遇到报错,可以按照以下步骤进行排... 1. 一定不要在pycharm终端里面创建环境安装别人的项目子模块等,有可能出现的问题就是你不报错都安装

在Ubuntu上打不开GitHub的完整解决方法

《在Ubuntu上打不开GitHub的完整解决方法》当你满心欢喜打开Ubuntu准备推送代码时,突然发现终端里的gitpush卡成狗,浏览器里的GitHub页面直接变成Whoathere!警告页面... 目录一、那些年我们遇到的"红色惊叹号"二、三大症状快速诊断症状1:浏览器直接无法访问症状2:终端操作异常

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

MyCat分库分表的项目实践

《MyCat分库分表的项目实践》分库分表解决大数据量和高并发性能瓶颈,MyCat作为中间件支持分片、读写分离与事务处理,本文就来介绍一下MyCat分库分表的实践,感兴趣的可以了解一下... 目录一、为什么要分库分表?二、分库分表的常见方案三、MyCat简介四、MyCat分库分表深度解析1. 架构原理2. 分

linux查找java项目日志查找报错信息方式

《linux查找java项目日志查找报错信息方式》日志查找定位步骤:进入项目,用tail-f实时跟踪日志,tail-n1000查看末尾1000行,grep搜索关键词或时间,vim内精准查找并高亮定位,... 目录日志查找定位在当前文件里找到报错消息总结日志查找定位1.cd 进入项目2.正常日志 和错误日

在.NET项目中嵌入Python代码的实践指南

《在.NET项目中嵌入Python代码的实践指南》在现代开发中,.NET与Python的协作需求日益增长,从机器学习模型集成到科学计算,从脚本自动化到数据分析,然而,传统的解决方案(如HTTPAPI或... 目录一、CSnakes vs python.NET:为何选择 CSnakes?二、环境准备:从 Py

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可