huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件

2024-01-21 09:04

本文主要是介绍huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

huggingface学习 | 云服务器使用git-lfs下载huggingface上的模型文件


文章目录

  • 系列文章目录
  • 一、hf_hub_download介绍
  • 二、找到需要下载的huggingface文件
  • 三、准备工作及下载过程
  • 四、全部代码


一、hf_hub_download介绍

hf_hub_download是huggingface官方支持(Downloading files/hf_hub_download)的下载模型或数据集的方法。该方法涉及的参数如下:
在这里插入图片描述实际上用到的参数并不多,一般情况下只需设置repo_id,filename,subfolder,local_dir,token参数即可

  • repo_id:仓库名称
  • filename:需要下载的文件名
  • subfolder:需要下载的文件在仓库中的哪一个文件夹(可选)
  • repo_type:仓库类型(可选),如果不填写就默认下载的是model,否则需要设置对应值(如下载数据集就设为datase)
    在这里插入图片描述
  • revision:指定Git的修订版本(可选)
  • library_name:对象对应的库的名称(可选)
  • library_version:库的版本号(可选)
  • cache_dir:缓存文件存储的文件夹路径(可选)
  • local_dir:下载的文件存放的目录(可选)
  • local_dir_use_symlinks:与 local_dir 参数一起使用的选项。如果设置为 “auto”,则会使用缓存目录,并根据文件大小将文件复制或创建符号链接到本地目录。如果设置为 True,则无论文件大小如何,都将创建符号链接。如果设置为 False,则文件将从缓存中复制(如果已存在),或者从Hub下载而不缓存。
  • user_agent:指定用户代理信息,可以是一个字典或一个字符串(可选)
  • force_download:如果该文件已经在本地缓存中存在,是否强制性下载文件(可选)
  • proxies: 设置代理服务器(可选)
  • etag_timeout:当获取ETag时,等待服务器发送数据的最长时间(以秒为单位)。如果服务器在这段时间内没有响应,将放弃请求(可选)
  • resume_download:如果设置为 True,可以继续之前中断的下载操作,即继续下载先前未完成的文件(可选)
  • token:用于下载的身份验证令牌,如果设置为 True,则从HuggingFace配置文件夹中读取令牌。如果是一个字符串,它将被用作身份验证令牌。(可选)
  • local_files_only:如果设置为 True,则避免下载文件,如果本地缓存中存在文件,则返回本地缓存文件的路径(可选)
  • legacy_cache_layout:如果设置为 True,则使用旧的文件缓存布局,即只需调用 hf_hub_url() 然后进行缓存下载。这已经不推荐使用,因为新的缓存布局更强大。(可选)

二、找到需要下载的huggingface文件

huggingface官网链接:https://huggingface.co/

以stable-diffusion-xl-base-1.0中unet文件夹里的diffusion_flax_model.msgpack文件为例:链接为stable-diffusion-xl-base-1.0。该文件大小为10.3G,如果采用官网直接下载的方法,会耗费较长的时间,采用git-lfs的方法在运行过程中容易自动跳过部分大文件,因此可以采用官网提供的hf_hub_download函数进行下载。
在这里插入图片描述

三、准备工作及下载过程

  1. 安装huggingface_hub包
pip install huggingface_hub
  1. 导入相关包,并使用hf-mirror.com镜像进行下载
import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
  1. 确定身份验证令牌token
    在注册完成huggingface账户后,访问huggingface个人主页(profile)里的settings:https://huggingface.co/settings/profile
    在这里插入图片描述
    点击左侧:SSH AND GPG keys
    在这里插入图片描述
    如果已有token,复制即可,如果没有则点击new token设置完毕后再进行复制
    在这里插入图片描述

  2. 确定相关参数
    local_dir:你想要将文件保存到的地址
    repo_id:想要下载的文件所在的仓库
    filename:文件名
    subfolder:如果文件不是直接在仓库里,而是在仓库的文件夹里,需要指定文件夹
    token:身份验证令牌

repo_id=‘stabilityai/stable-diffusion-xl-base-1.0’
filename=‘diffusion_pytorch_model.safetensors’
subfolder=‘unet’
token=‘第三步中复制得到的’
local_dir = r’models\sdxl’

  1. 定义下载函数
    这个函数可以将下载的进程呈现出来,只需要输入local_dir,repo_id,filename,subfolder,token参数即可完成下载。(参考自【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由))
def download_model(local_dir,repo_id,filename,subfolder,token):print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')while True:   try:hf_hub_download(local_dir=local_dir,repo_id=repo_id,token=token,filename=filename,subfolder=subfolder,local_dir_use_symlinks=False,resume_download=True,etag_timeout=100)except Exception as e :print(e)else:print(f'下载完成,大模型保存在:{local_dir}\{filename}')break
  1. 运行代码进行下载
if __name__ == '__main__':repo_id='stabilityai/stable-diffusion-xl-base-1.0'filename='diffusion_pytorch_model.safetensors'subfolder='unet'token='第三步复制得到'local_dir = r'models'download_model(local_dir,repo_id,filename,subfolder,token)

开始下载:
在这里插入图片描述
如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载;

最终下载完成界面:
在这里插入图片描述

四、全部代码

import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_downloaddef download_model(local_dir,repo_id,filename,subfolder,token):print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')while True:   try:hf_hub_download(local_dir=local_dir,repo_id=repo_id,token=token,filename=filename,subfolder=subfolder,local_dir_use_symlinks=False,resume_download=True,etag_timeout=100)except Exception as e :print(e)else:print(f'下载完成,大模型保存在:{local_dir}\{filename}')breakif __name__ == '__main__':repo_id='stabilityai/stable-diffusion-xl-base-1.0'filename='diffusion_pytorch_model.safetensors'subfolder='unet'token='复制得到'local_dir = r'models'download_model(local_dir,repo_id,filename,subfolder,token)

参考:
如何快速下载huggingface模型——全方法总结
【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由)

这篇关于huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/629006

相关文章

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Python pip下载包及所有依赖到指定文件夹的步骤说明

《Pythonpip下载包及所有依赖到指定文件夹的步骤说明》为了方便开发和部署,我们常常需要将Python项目所依赖的第三方包导出到本地文件夹中,:本文主要介绍Pythonpip下载包及所有依... 目录步骤说明命令格式示例参数说明离线安装方法注意事项总结要使用pip下载包及其所有依赖到指定文件夹,请按照以

Java使用HttpClient实现图片下载与本地保存功能

《Java使用HttpClient实现图片下载与本地保存功能》在当今数字化时代,网络资源的获取与处理已成为软件开发中的常见需求,其中,图片作为网络上最常见的资源之一,其下载与保存功能在许多应用场景中都... 目录引言一、Apache HttpClient简介二、技术栈与环境准备三、实现图片下载与保存功能1.

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

使用Python开发一个现代化屏幕取色器

《使用Python开发一个现代化屏幕取色器》在UI设计、网页开发等场景中,颜色拾取是高频需求,:本文主要介绍如何使用Python开发一个现代化屏幕取色器,有需要的小伙伴可以参考一下... 目录一、项目概述二、核心功能解析2.1 实时颜色追踪2.2 智能颜色显示三、效果展示四、实现步骤详解4.1 环境配置4.

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔