人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信

本文主要是介绍人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人类视觉神经科学助力音视频产业革命-弱网下的极限实时通信

一、什么是弱网?
1.1 弱网概念

弱网从字面意思看就是网络比较弱, 我们通称为信号差, 网速慢, 随着移动互联网火热发展的这些年, 大量用户会在地铁, 隧道, 电梯和车库等特殊场景下使用移动端 APP 。这些场景下, 网络会出现延迟、中断、抖动、超时等情况。

1.2 网络形态

网络形态包含有线连接, 2G/3G/4G/5G/Edge/Wifi 等多种网络连接形式, 从测试的角度说, 也包含断网, 网络故障等情况, 对于弱网的数据定义, 不同的应用所界定的含义也是不一样且不清晰的, 一般来说低于 2G 速率的都属于弱网, 也可以将 3G 划分为弱网, 除此之外, 极低宽带 < 50kbps, 弱信号的 Wifi 等也是弱网。

1.3 研究背景

有一些特殊场景, 例如 : 森林救灾, 边防监控, 等场景, 这些场景往往关乎国家安全与生命安全, 更加需要严苛的实时通信, 但是这些场景依赖的基站往往会受到自然因素的干扰, 例如地震等自然灾害。

二、尝试了哪些技术尝试?
2.1 AI 控制

在观看直播过程中听到马老师提出了一个新的概念, 人眼在感知图像的时候, 处理大概是 100B/s, 然后通过视网膜上的细胞进行分离之后, 大概压缩了 100 倍, 然后经过一系列的细胞处理, 最后只有大约 40b/s, 并且人眼关注的区域分辨率相对高一点, 人眼不关注的区域相对分辨率就低一点. 并且人眼对于某些区域, 某些颜色特别的敏感, 叫做注意力机制。

传统的流控技术在进行音视频编码和传输的过程中往往无法根据具体的网络环境选择适合的算法和码率控制, AI 控制模块(相当于人脑)会收集视频会话经验(人眼关注的东西), 包括视频编码器、接收端的编码状态、网络、播放状态, 根据这些特征, 对抗网络波动, 作出编码参数的设置决策。

2.2 强化网络主动决策(压缩和融合)

根据不同用户, 也就是播放端进行一种个性化的丢帧, 但整体感观并不会有大差异, 这项技术利用的是多帧视频时空一致性原理, 基于人的细胞对于不同的图像的特征敏感度不一样这一现象, 有些细胞对于颜色敏感, 有些细胞对于运动敏感, 有的细胞对于方向性比较敏感, 有些细胞对于纹理比较敏感, 所以人的大脑对所感知到的音视频信息并不是像解码器一样一个 bit, 一个 bit 来解码的, 而是部分解码的, 所以, 对于任何一个视频输入结构, 主要拆分成两部分, 一部分用来存储空间上纹理细节的保留, 另一部分对于运动的细节不是那么敏感, 所以另外一路空间就可以不用占用那么高了。当然在融合和重建的过程中, 还需要智能学习进行补偿和转化。所以最后输出的音视频感觉才不会有很大差异。

2.3 基于强化学习的视频码率自适应

根据视频分类, 网络分类进行在线学习模型训练, 例如, 大部分男生喜欢游戏类视频, 大部分女生喜欢淘宝购物类视频, 不同分类视频所返回的视频码率和精度不同, 基于此提出, 能否对不同类型的视频进行模型训练, 用户端在播放不同类型的视频时会选择不同的算法。基于在线学习平台相对于离线模型效率有一定的提升。

三、个人感悟
3.1 有哪些具体的弱网环境应用落地场景(1 药网/重庆 120 急救)

1 药网是在疫情期间紧急开辟了面向武汉的免费线上问诊通道, 并以将范围扩展至湖北省全境, 视频问诊, 电子处方和远程买药功能采用了声网 Agora 的实时音视频技术,在视频问诊的场景中, 由于医生与患者处于不同的网络环境, 以上所说的弱网环境均有可能出现, 在这些环境下, 声网 Agora 具备优秀的弱网传输和抗丢包算法, 依然可在 60%的丢包情况下保障音视频流畅, 70%的丢包网络环境下保障语音的流畅。

120 急救则是通过视频远程指导+急救教学视频指导, 真正做到了为生命争取机会和时间。但是同样患者有可能处于弱网环境中, 如何保证音视频传输质量, 依然尤为重要。并且, 急救更讲究争分夺秒, 并且要保证连通率, 接通失败则可能意味着耽误急救, 根据官网数据资料显示声网在全球有超过 200 个数据中心, 基于此搭建的软件定义实时网, 在网络较差的环境下, 也能保证稳定可靠, 高质量的传输和 99.9%的高连通率。

3.2 心得体会

业务形态在变, 技术必须跟上, 原本以为, 随着技术的不断发展与进步, 例如 5G, GPU, 芯片等硬件设备的更新升级, 对于软件研发人员来说, 可以忽略网络抖动或者硬件环境的制约, 更加不会想到, 是否会有一天自己开发的软件可能需要运行在一个比较苛刻的环境之中, 或者, 所提供的服务, 用户用用的设备太老不兼容等情况, 所以, 平时很不注重代码的健壮性, 能用就行, 凑合用着, 这些习惯竟然已经不知不觉潜移默化影响了我, 不知道有没有同学是像我一样, 有则改之, 无则加勉。

之前对于音视频的概念一直停留在比较传统的编解码, 直播拉流, 视频点播等常见应用之中, 并没有深思, 每一个用户所在网络环境的差异化; 所以说研究 弱网下的极限视频通信 并非吹毛求疵, 其有很重要的现实意义, 大到国防安全, 小到人民生活的方方面面。

人工智能风口下, 结合 AI, 以及人类视觉神经科学, 音视频领域也可借一把东风, 寻求技术的突破与革新。除此以外, 个人认为, 如边缘计算, 雾计算等概念的兴起与应用, 缩短了用户与服务之间的距离, 以前多在中心节点部署服务, 现在以微服务的方式部署会更加高效, 比如 WebRTC 的服务到边缘节点。除此之外, 边缘节点部署服务成本更低, 节省带宽。

这篇关于人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/293899

相关文章

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

OpenCV实现实时颜色检测的示例

《OpenCV实现实时颜色检测的示例》本文主要介绍了OpenCV实现实时颜色检测的示例,通过HSV色彩空间转换和色调范围判断实现红黄绿蓝颜色检测,包含视频捕捉、区域标记、颜色分析等功能,具有一定的参考... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间

RabbitMQ工作模式中的RPC通信模式详解

《RabbitMQ工作模式中的RPC通信模式详解》在RabbitMQ中,RPC模式通过消息队列实现远程调用功能,这篇文章给大家介绍RabbitMQ工作模式之RPC通信模式,感兴趣的朋友一起看看吧... 目录RPC通信模式概述工作流程代码案例引入依赖常量类编写客户端代码编写服务端代码RPC通信模式概述在R

在Spring Boot中实现HTTPS加密通信及常见问题排查

《在SpringBoot中实现HTTPS加密通信及常见问题排查》HTTPS是HTTP的安全版本,通过SSL/TLS协议为通讯提供加密、身份验证和数据完整性保护,下面通过本文给大家介绍在SpringB... 目录一、HTTPS核心原理1.加密流程概述2.加密技术组合二、证书体系详解1、证书类型对比2. 证书获

golang float和科学计数法转字符串的实现方式

《golangfloat和科学计数法转字符串的实现方式》:本文主要介绍golangfloat和科学计数法转字符串的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望... 目录golang float和科学计数法转字符串需要对float转字符串做处理总结golang float

Python模拟串口通信的示例详解

《Python模拟串口通信的示例详解》pySerial是Python中用于操作串口的第三方模块,它支持Windows、Linux、OSX、BSD等多个平台,下面我们就来看看Python如何使用pySe... 目录1.win 下载虚www.chinasem.cn拟串口2、确定串口号3、配置串口4、串口通信示例5

基于C#实现MQTT通信实战

《基于C#实现MQTT通信实战》MQTT消息队列遥测传输,在物联网领域应用的很广泛,它是基于Publish/Subscribe模式,具有简单易用,支持QoS,传输效率高的特点,下面我们就来看看C#实现... 目录1、连接主机2、订阅消息3、发布消息MQTT(Message Queueing Telemetr

使用Python实现实时金价监控并自动提醒功能

《使用Python实现实时金价监控并自动提醒功能》在日常投资中,很多朋友喜欢在一些平台买点黄金,低买高卖赚点小差价,但黄金价格实时波动频繁,总是盯着手机太累了,于是我用Python写了一个实时金价监控... 目录工具能干啥?手把手教你用1、先装好这些"食材"2、代码实现讲解1. 用户输入参数2. 设置无头浏

通过C#和RTSPClient实现简易音视频解码功能

《通过C#和RTSPClient实现简易音视频解码功能》在多媒体应用中,实时传输协议(RTSP)用于流媒体服务,特别是音视频监控系统,通过C#和RTSPClient库,可以轻松实现简易的音视... 目录前言正文关键特性解决方案实现步骤示例代码总结最后前言在多媒体应用中,实时传输协议(RTSP)用于流媒体服

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount