triton inference server翻译之user guide

2024-01-23 17:32

本文主要是介绍triton inference server翻译之user guide,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

link

NVIDIA Triton Inference Server提供了针对NVIDIA GPU优化的云推理解决方案。 服务器通过HTTP或GRPC端点提供推理服务,从而允许远程客户端为服务器管理的任何模型请求推理。 对于边缘部署,Triton Server也可以作为带有API的共享库使用,该API允许将服务器的全部功能直接包含在应用程序中。

最新版是1.13.0

  • 更新KFserving HTTP/REST,GRPC协议和相应的python和c++的客户端库,参见Roadmap部分;
  • GRPC版本更新到1.24.0;
  • 解决部分s3存储问题;
  • 修复每个模型的last_inference_timestamp值;
  • 后续会移除对Caffe2模型的支持,所以不推荐使用;

特征

  • 多框架支持(Multiple framework support)
    • 管理任意数量和混合方式的模型;(受系统磁盘和内存资源限制)
    • 支持TensorRT, TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch,Caffe2 NetDef模型;
    • 支持TensorFlow-TensorRT 和 ONNX-TensorRT整合模型;
    • 在框架和模型支持下,server同时支持可变大小的输入和输出;
    • 参见Capabilities模块
  • 模型并行支持(Concurrent model execution support)
    • 多模型可同时在一块GPU运行;
    • 单模型的多实例可在同一块GPU运行;
  • 支持批处理(Batching support)
    • 若模型支持批处理,server可接受批次请求并返回批次响应;
    • Server还支持多种调度和批处理算法,这些算法将单个推理请求组合在一起以提高推理吞吐量,且调度和批处理对客户端是透明的;
  • 一般后端支持(Custom backend support)
    • 支持单个模型可以有除了dl框架之外的其他普通后端处理;
    • 一般后端可以是任意逻辑,同时会受益于GPU的支持,并行,动态组批次和server所有的其他特性;
  • 支持集成(Ensemble support)
    • 一个管线(pipeline)可以是一个或多个模型的输入输出之间联结组合;
    • 单个请求会触发整个管线的执行;
  • 多GPU支持(Multi-GPU support)
    • 可以部署在系统所有的GPU上;
  • 多模型管理(multiple modes for model management)
    • 允许隐式和显式地加载和卸载模型,而无需重新启动服务器;
  • 模型仓库
    • 可以驻留在本地可访问文件系统(例如NFS),Google Cloud Storage或Amazon S3中;
  • 部署
    • 可用于任何编排或部署框架(例如Kubernetes)的就绪和活跃性健康端点;
  • 指标计算
    • GPU利用率,服务的吞吐和延迟;
  • c/c++部署
    • Triton Server的所有功能可包含在某个应用中;

这篇关于triton inference server翻译之user guide的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/637000

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

Windows Server 2025 搭建NPS-Radius服务器的步骤

《WindowsServer2025搭建NPS-Radius服务器的步骤》本文主要介绍了通过微软的NPS角色实现一个Radius服务器,身份验证和证书使用微软ADCS、ADDS,具有一定的参考价... 目录简介示意图什么是 802.1X?核心作用802.1X的组成角色工作流程简述802.1X常见应用802.

SQL Server身份验证模式步骤和示例代码

《SQLServer身份验证模式步骤和示例代码》SQLServer是一个广泛使用的关系数据库管理系统,通常使用两种身份验证模式:Windows身份验证和SQLServer身份验证,本文将详细介绍身份... 目录身份验证方式的概念更改身份验证方式的步骤方法一:使用SQL Server Management S

Spring AI 实现 STDIO和SSE MCP Server的过程详解

《SpringAI实现STDIO和SSEMCPServer的过程详解》STDIO方式是基于进程间通信,MCPClient和MCPServer运行在同一主机,主要用于本地集成、命令行工具等场景... 目录Spring AI 实现 STDIO和SSE MCP Server1.新建Spring Boot项目2.a

SQL Server中的PIVOT与UNPIVOT用法具体示例详解

《SQLServer中的PIVOT与UNPIVOT用法具体示例详解》这篇文章主要给大家介绍了关于SQLServer中的PIVOT与UNPIVOT用法的具体示例,SQLServer中PIVOT和U... 目录引言一、PIVOT:将行转换为列核心作用语法结构实战示例二、UNPIVOT:将列编程转换为行核心作用语

Spring Boot 整合 SSE的高级实践(Server-Sent Events)

《SpringBoot整合SSE的高级实践(Server-SentEvents)》SSE(Server-SentEvents)是一种基于HTTP协议的单向通信机制,允许服务器向浏览器持续发送实... 目录1、简述2、Spring Boot 中的SSE实现2.1 添加依赖2.2 实现后端接口2.3 配置超时时

SQL server配置管理器找不到如何打开它

《SQLserver配置管理器找不到如何打开它》最近遇到了SQLserver配置管理器打不开的问题,尝试在开始菜单栏搜SQLServerManager无果,于是将自己找到的方法总结分享给大家,对SQ... 目录方法一:桌面图标进入方法二:运行窗口进入方法三:查找文件路径方法四:检查 SQL Server 安

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.