datawhale专题

datawhale——EDA

EDA目标 EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。 这次学

Datawhale ChatGPT基础科普

根据课程GitHub - datawhalechina/hugging-llm: HuggingLLM, Hugging Future. 摘写自己不懂得一些地方,具体可以再到以上项目地址 LM:这是ChatGPT的基石的基石。 Transformer:这是ChatGPT的基石,准确来说它的一部分是基石。 GPT:本体,从GPT-1,一直到现在的GPT-4,按OpenAI自己的说法,模型还是

使用LLM-API开发应用-DataWhale笔记

调用API 先使用一个例子 from openai import OpenAI​client = OpenAI(# This is the default and can be omittedapi_key=os.environ.get("OPENAI_API_KEY"), //这个在环境env中)​completion = client.chat.completions.creat

llm-universe 提示词工程 api开发 打卡笔记1 —— (datawhale)

llm-universe 提示词工程 api开发 打卡笔记1 —— (datawhale) 项目目标 1.熟悉 LangChain,Rag等大模型开发开源知识, 2.了解llm开发的全部流程,独立开发个人的小助手。 环境配置 使用conda 独立分配一个环境 conda create -n llm-universe conda activate llm-universe cd 项目

datawhale动手学大模型应用开发-第一章-大模型简介

一. 常见的大模型简介 1.1 常见闭源大模型简介 名称简介地址  ChatGPT ChatGPT是OpenAI推出的基于GPT-3.5和GPT-4的聊天机器人,擅长对话、编程、解答等,具有丰富的知识基础和上下文理解能力。https://chat.openai.com/ GPT-4 GPT-4是OpenAI推出的多模态大型语言模型,具有更高的参数量和性能,支持长上下文,提供安全响应,需付费使用

Datawhale-爬虫-Task7(实战大项目)

实战大项目 模拟登录丁香园,并抓取论坛所有的人员的基本信息与回复帖子的内容。 丁香园论坛:论坛登录链接 首先使用Selenium模拟登录丁香园论坛。这里模拟点击登录后若要使用账号密码登录还需要模拟点击返回电脑登录 登录代码如下: def login_zhihu(browser):try:#点击登录browser.find_element_by_xpath('//div[@class="na

Datawhale-爬虫-Task4(学习xpath)

学习内容 XPath简介lxml简介实例:使用xpath提取丁香园论坛的回复内容。 XPath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 什么是XPath? XPath 使用路径表达式在 XML 文档中进行导航 XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规

Datawhale-MySQL-任务六(复杂项目)

项目列表 项目十:行程和用户(难度:困难)项目十一:各部门前3高工资的员工(难度:中等)项目十二:分数排名(难度:中等) 项目十:行程和用户(难度:困难) Trips 表中存所有出租车的行程信息。每段行程有唯一键 Id,Client_Id 和 Driver_Id 是 Users 表中 Users_Id 的外键。Status 是枚举类型,枚举成员为 (‘completed’, ‘

Datawhale-爬虫-Task3(beautifulsoup)

Beautiful Soup Beautiful Soup是一个非常流行的Python模块。该模块可以解析网页,并提供定位内容的便捷接口。使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。由于大多数网页都不具备良好的HTML格式,因此Beautiful Soup需要对其实际格式进行确定。 例如,在下面这个简单的网页列表中,存在属性值两侧引号缺失和标签未闭合的问

Datawhale-MySQL-任务五

学习内容 数据导入导出将Excel文件导入MySQL表MySQL导出表到Excel文件 作业项目七:各部门工资最高的员工(难度:中等)项目八: 换座位(难度:中等)项目九: 分数排名(难度:中等) 数据导入导出 将Excel文件导入MySQL表 首先根据我们需要的字段在MySQL中创建出表employees 在可视化界面Navicat for MySQL中操作,鼠标右键

Datawhale-爬虫-Task2(正则表达式)

学习内容 什么是正则表达式案例 什么是正则表达式 定义:一套规则,可以在字符串文本中进行搜查替换等使用步骤: 1.使用 compile() 函数将正则表达式的字符串编译成一个 pattern 对象2.通过 pattern 对象的一些方法对文本进行匹配,匹配结果是一个 match对象3.用 match 对象的方法,对结果进行操作 常用方法: match:从开始位置开始查找,一次匹

Datawhale-MySQL-任务四(表联结)

学习内容 MySQL别名INNER JOINLEFT JOINCROSS JOIN自连接UNION区别作业项目五:组合两张表 (难度:简单)项目六:删除重复的邮箱(难度:简单) MySQL别名 为表取别名:查询数据时,如果表名很长,使用起来不方便,此时,就可以为表取一个别名,用这个别名来代替表的名称 SELECT * FROM 表名 [AS] 别名;为字段取别名:在查询数据时

DataWhale集成学习【中】:(三)Boosting

这篇博文是 DataWhale集成学习【中】 的第二部分,主要是介绍Boosting的思想原理以及其衍生的各种算法参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 Boosting原理分类AdaBoost原理方法示例 前向分步算法梯度提升决策树(GBDT)XGBo

DataWhale集成学习【中】:(二)Bagging

这篇博文是 DataWhale集成学习【中】 的第二部分,主要是介绍Bagging参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 原理案例 原理 在DataWhale集成学习【中】:(一)投票法我们提到过:要想让整体模型取得更好的效果,应该增加模型之

DataWhale集成学习【中】:(一)投票法

这篇博文是 DataWhale集成学习【中】 的第一部分,主要是介绍投票法参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 原理案例 原理 投票法是集成学习中的常用方法,通过集成多个模型,可以提高模型的泛化能力,减少错误率其思路在于一个假定,即一般情况

DataWhale集成学习【上】:(三)回归模型优化

这篇博文是DataWhale集成学习【上】的第三部分,主要是介绍机器学习里常用的回归模型的评判优化部分参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 均方误差偏差-方差的权衡特征提取训练误差修正交叉验证 正则化(压缩估计)降维调参 均方误差 回归中,

DataWhale集成学习【上】:(二)基本回归模型

这篇博文是DataWhale集成学习【上】的第二部分,主要是介绍机器学习里常用的回归模型参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 前言数据集准备模型评价指标常用回归模型线性回归模型线性回归模型推广多项式回归模型广义可加模型 回归树支持向量回归

DataWhale集成学习【上】:(一)机器学习的三大主要任务

这篇博文是DataWhale集成学习【上】的第一部分,主要是介绍机器学习的三大主要任务参考资料为DataWhale开源项目:机器学习集成学习与模型融合(基于python)和scikit-learn官网学习交流欢迎联系 obito0401@163.com 文章目录 任务一:回归任务二:分类任务三:无监督学习 任务一:回归 回归分析(regression analysis)指的是确

Datawhale--SQL基础--Day01

Day-01: 官网下载并安装MySQL配置环境和密码权限用Navicat连接local的MySQL创建后续课程要用到的表检查一下表是否建立好了,randomly checked. /* SQL脚本的一些要点:0.存储引擎使用 InnoDB, 字符集改为 utf8mb4 以更好地支持中文.1.所有表名所使用的英文字母都改为小写(后续章节中,SQL查询中的表名也需要相应修改为小写)2.

【DataWhale】灵境Agent开发——低代码创建AI智能体

灵境Agent开发——低代码创建AI智能体 3 灵境 Agent 低代码开发 ​ 低代码模式支持开发者通过编排工作流的方式快速构建智能体,您可以通过拖拽和组合模型、提示词、代码等模块,实现准确的、复杂的业务流程。 ​ 个人体验下来,目前这个低代码开发功能还不是很完善,许多组件功能都十分有限,没法增加更多自定义的功能。可以说,体验效果并不是很好,不如零代码开发方便,灵活。 参考:快速入门

【DataWhale学习】用免费GPU线上跑chatGLM、SD项目实践

用免费GPU线上跑chatGLM、SD项目实践 ​ DataWhale组织了一个线上白嫖GPU跑chatGLM与SD的项目活动,我很感兴趣就参加啦。之前就对chatGLM有所耳闻,是去年清华联合发布的开源大语言模型,可以用来打造个人知识库什么的,一直没有尝试。而SD我前两天刚跟着B站秋叶大佬和Nenly大佬的视频学习过,但是生成某些图片显存吃紧,想线上部署尝试一下。 参考:DataWhale

Datawhale x OpenMMLab:共建国际一流开源项目!

CV 技术盛事 超级视客营 你的热门活动小助手已上线 百万算力支持,100+ 实战项目任你挑选! 欢迎来到由 OpenMMLab 联合北京超级云计算中心主办、Datawhale 社区及上海市人工智能行业协会协办的计算机视觉任务实战活动——【超级视客营】第一期。 我们诚邀全球开发者参与这场 CV 界的技术盛事,体验国家级超算设施,共建国际一流开源项目。 你将收获 百万算力支持,

【Datawhale组队学习:Sora原理与技术实战】使用KAN-TTS合成女生沪语音频

Sambert-Hifigan模型介绍 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两大模块:前端和后端。 前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块,它的功能是把输入文本进行解析,获得音素、音调、停顿和位置等语言学特征。 后端包含时长模型、声学模型和声码器,它的功能是将

【Datawhale组队学习:Sora原理与技术实战】训练一个 sora 模型的准备工作,video caption 和算力评估

训练 Sora 模型 在 Sora 的技术报告中,Sora 使用视频压缩网络将各种大小的视频压缩为潜在空间中的时空 patches sequence,然后使用 Diffusion Transformer 进行去噪,最后解码生成视频。 Open-Sora 在下图中总结了 Sora 可能使用的训练流程。 训练链路: 数据准备 开源数据集: VideoInstruct

datawhale组队学习——Python基础——类与对象、魔法方法

下内容来自datawhale组队学习——Python基础,供自己学习记录,转载还请附上博客链接! 目录 类与对象知识点1. 对象 = 属性 + 方法2. self 是什么?3. Python 的魔法方法4. 公有和私有5. 继承6. 组合7. 类、类对象和实例对象8. 什么是绑定?9. 一些相关的内置函数(BIF) 练习题 魔法方法知识点1. 基本的魔法方法2. 算术运算符3. 反算术运算符

datawhale组队学习——Python基础——函数与Lambda表达式

下内容来自datawhale组队学习——Python基础,供自己学习记录,转载还请附上博客链接! 目录 函数与Lambda表达式知识点1. 函数1. 位置参数2. 默认参数3. 可变参数4. 关键字参数5. 命名关键字参数6. 参数组合 2. Lambda 表达式 函数与Lambda表达式 知识点 1. 函数 还记得 Python 里面“万物皆对象”么?Python