涌现科技

为全面数字化赋能的国民科技企业

Emergence of science and technologyNational science and technology enterprises enabling comprehensive digitalization

人才为本、崇尚科学

无界创新、自驱担当

Boundless innovation and self driven responsibility

涌现科技与艾瑞咨询联合发布2023年中国智能视频编码行业白皮书!

2023-04-27 18:30:45

随着AI技术向视频生产、传输和消费环节的渗透,AI技术在视频分析中的应用逐渐常态化,智能视频编码技术的发展路径将会决定未来智能视频的趋势变革。

为了更好地认识智能编码,促进智能视频编码产业发展和生态建设,涌现科技联合艾瑞咨询,在2023第六届中国信息技术应用创新大会智能视频编码行业专题论坛上共同发布了2023年《中国智能视频编码行业白皮书》,就智能视频编码行业的标准发展、产业动态、市场情况进行深入介绍,希望为智能视频编码行业的发展提供有益的思路和建议。


以下为2023《中国智能视频编码行业白皮书内容节选,关注“涌现科技”公众号并回复“智能视频编码”联系我们,可获取高清完整版报告。


智能视频编码行业的发展演进和概念界定

视频产业活跃发展,催生对视频编码技术迭代的迫切需要


多视角全景视频使得视频编码技术趋于复杂多元

视频技术演进出现多路和全景视频,视频的角度和覆盖范围不断扩展。多路视频是多路摄像头对应多个视频画面,每个摄像头安装广角镜头,形成多个大于90度的广角画面,而全景视频则是广角镜头和多路视频拼接系统技术的延伸,实时获取周围360°视场画面的全景成像系统正逐渐成为视频领域的研究热点。多路视频拼接系统技术是从多个摄像头采集视频,在远端进行拼接,从而获得远程、高质量、大场景的沉浸式画面。全景视频应用场景涉及VR视频、机器人、全景地图、国防工业等领域。

全景视频的实现即多路视频拼接系统对于算法要求很高。在视频图像拼接过程当中,图像处理计算数据量庞大,需要短时间内完成对图像的拼接并且保证多路视频流的时间一致性,对于视频编码技术要求趋于多元化和复杂化。新型视频应用场景需求的不断增加催生了超高清视频和多视频范围的需求。

45d6bd4149b33e3fb94d140c903bf97c_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

新型应用场景涌现,在娱乐、办公、工业、安防等领域扩展深化

随着5G和AI技术的发展,视频行业商业模式重构,新型视频应用场景应时而生,广泛应用于人们的生产、生活之中。视频应用不再局限于娱乐场景,而是向工业制造、安防领域、生产办公等场景拓展。在娱乐应用场景中,短视频、云游戏等作为软件应用在人们手机、平板等终端设备中随处可见;受过去几年疫情的影响,远程办公成为强需求,云桌面和远程会议等作为新型视频应用是远程办公的重要模式;在工业、安防等领域,机器视觉和视频监控对视频形式提出了新的要求。未来随着产业整合泛化和元宇宙布局趋势加强,广电超高清、VR/AR等场景持续涌现,人们需求和视频类型将会更趋多元。

e4a09e3a4f82c44659682180a4253808_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

视频编码标准框架未脱离传统统计学范畴,亟需革新


近四十年来,尽管上述视频压缩标准持续迭代、编码效率稳步提升,但仍未脱离划分、预测、变换、量化、熵编码的技术框架。以H.26x为例,每一代新的视频编码标准都比上一代标准的编码效率提升近一倍,节省了约40%-50%的码率,但与此同时编码的复杂度却是几倍的增加。在现有的标准体系下,算力成本的“边际收益”加速递减,基于统计学原理的传统视频编码标准已经逼近了技术上限,当前的视频压缩技术难以满足下游视频应用的快速增长,亟需引入新技术以激活视频编码这一视频产业链价值裂变的关键环节,充分释放产业势能,为智能视频产业提供底层支持。

智能视频的发展需要高性能编码器的推动,应用于智能视频的编码器需具备更高的编码效率与分辨率,更多编码模式的选择与更加灵活的技术架构,便于与AI应用结合,赋能智能分析,服务于涵盖虚拟现实、游戏、数字生产视频等丰富场景。智能视频端的编码需求同步催生了智能视频编码技术的升级迭代,助力行业整体发展。

71396775f8f0c819ddc98e3d458df09d_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

人工智能赋能视频编码,端到端的智能视频重构是未来演进方向


智能视频编码同时面向人眼视觉和机器视觉,运用神经网络等人工智能技术,一方面执行信号压缩任务,对编码场景、参数、模式选择等信息进行面向应用场景和内容特征的分析,利用AI技术对去噪声、图像增强、细节改善等环节进行预处理,基于最佳模式的配置与编码,实现精准化编码控制,提高压缩效率,即“AI for Coding”;另一方面在编码过程中兼顾后续的智能分析过程,通过特征分析、特征提取,按照智能分析需求进行特征编码,优化解码应用端的智能分析过程,减少解码端重复调用AI进行特征提取分析和处理的重复过程,为后续针对性重构视频场景、执行智能分析任务奠定基础,即“Coding for AI”。智能视频编码打破了传统编码模式下压缩编码与智能分析相割裂的“1+1”分布式模式,整合了编码、重组、解码及智能应用等视频链环节,实现从视频编码到重构分析的一体化智构编码。

image.png

中国智能视频编码行业的发展现状

中国智能视频编码行业的市场规模


智能视频编码整体市场规模包括软件服务和硬件设备两部分。根据艾瑞咨询测算,2021年中国智能视频编码整体市场规模为237亿元。2020年得益于超高清视频的推广与落地应用和疫情催化下云视频会议和在线教育的快速渗透,消费端和产业侧的生活娱乐、工作交流纷纷从线下转向线上,使得2020年智能视频编码市场增速达64.5%。2021年起智能视频编码市场恢复平稳较快发展,随着智能编码技术的场景渗透和云游戏、VR/AR等下游新兴市场的增量起势,市场规模加速提升,预计2025年智能视频编码市场规模有望突破600亿元。

fd3a8c6979bfbefa9d19c3ac9661b7ea_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

中国智能视频编码产业链及竞争格局分析

中国智能视频编码产业链主要由核心硬件与编码标准、智能视频编码解决方案与细分场景应用三个部分构成。

(1)云计算、通信服务及CDN服务作为基础支持贯穿整个智能视频编码产业。

(2)智能视频编码产业链的上游由编码标准与核心硬件构成。

(3)多领域细分场景是智能视频编码产业链的终端环节。

(4)智能视频编码解决方案是产业链的核心环节。

5da286b48b8aaaabb7f4a7f37317e05f_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

中国智能视频编码应用场景分析

互联网视频场景


近二十年,随着底层基础设施和技术体系的日趋成熟,互联网视频蓬勃发展,逐渐成为了人们获取信息、交流娱乐的重要方式相比单纯的文字、图片或音频,视频以更加直观的方式聚合多维度的信息,能够带来更强的沉浸式体验和交互性。根据CNNIC第50次《中国互联网络发展状况统计报告》数据,截至2022年6月网络视频用户规模为9.95亿,占网民整体的比例高达94.6%。随着视频类应用使用体验的大幅优化,其消费时长占移动互联网应用的比例呈现上升态势,这为视频编码创造了巨大的市场空间。2025年中国互联网视频编码市场规模将达270亿元,相比2019年的爆发性增长,互联网视频行业发展趋稳,年增长率稳定在25%的水平。

d5f6b14a10944bb911332e3459c3ab0d_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

互联网视频根据服务类型主要分为点播、直播和互动直播三类。转码是点播服务的核心技术,可伸缩编码技术在互联网视频转码这一环节得到了广泛应用,具体是指事先将内容提供方上传的视频在云端解码再编码,转换为标准格式并云端存储,根据用户实际带宽情况和播放终端自动、灵活地匹配分发不同码率的视频文件,在多码流场景下提供最佳解码画质的解决方案,即兼顾清晰度和流畅度的最优观看体验。可伸缩编码技术也称为分层编码,可通过AI编码工具实现并具有鲁棒性。直播与点播相比具有实时性和突发性特征,对时延和首屏时间等指标更为敏感,对高并发和弱网环境下的稳定性也有着更高的要求。与常见的单向一对多直播不同,互动直播支持用户的双向交流。这种双向交流一方面对延时的容忍度极低,另一方面因为涉及多路视频流,带宽压力和编解码压力成倍增加。

65cc82e17d14e598bf15c95b21737a8b_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

广电超高清视频场景


5G、大数据、云计算、物联网、区块链、人工智能等技术推动广播电视发展从标清到高清、超高清,从功能业务型到智能服务型,从被动接收到主动交互迭代发展。4K/8K大型直播作为超高清视频的典型应用场景之一,对全流程制播设备和视频编码技术的编码效率和时延提出了更高要求。超高清直播与5G技术已经成为标配,基于5G网络传输下的转直播应用不断拓展。

超高清视频广播产业的高速发展,驱动以视频为核心的行业智能化转型,产业生态体系逐步完善,超高清视频智能编码市场容量日趋增长。艾瑞咨询预测2025年智能视频编码在广电超高清领域的市场规模有望突破30亿,未来增速将保持在35%以上。

e6a4a60724bb4ad85939774dc6557c6c_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

8K VR技术和360度视角拍摄将成为未来高清转播的重要技术手段。以北京2022年冬残奥会的残奥冰球项目为例,运用8K VR及自由视角的拍摄制作技术,展示了接近360度旋转的“自由视点”。通过场内布置的60台摄像机最佳机位形成真实视点,并在每两个真实视点之间插入30个“虚拟视点”画面,将虚拟视点和真实视点进行融合拼接,向观众呈现出如时间静止般、平滑的精彩回放镜头。体育赛事超高清360度新兴转播技术从现场、云服务器、5G网络再到终端实现8K VR比赛信号直播,提升赛事观赏性和临场感。360度多路视角拍摄需要实现对现场摄像机的视频内容进行AI图像稳定处理和时间同步处理,将多路视频的时间轴保持帧级同步,并处理成自由视角视频流。当需求上升到上百路4K级超高清视频时,传统的软编或者GPU编码方式将带来成本的指数级上升。亟需能够集成多路接口进行高清数字接口视频输入和对360度超高清影像进行专用处理的芯片,与智能视频编码技术结合,保障超高清广播视频的高效传输。


虚拟终端场景


高效的视频编码标准和编码器码率控制模块是虚拟终端平台的核心需求。虚拟终端市场发展处于产业起步阶段,虽然初具规模,但市场较为分散,虚拟终端作为智能视频编码技术的新型应用场景,市场规模的增长幅度和增长空间较大,艾瑞咨询预计,2025年云游戏、云桌面和云手机市场下智能视频编码的市场规模将突破50亿元,增长率保持在20%以上。

7d221d219b13cfa9a30ae4ad38d3c147_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

在云游戏传统GPU编码方案中,图形渲染和视频流编码都在GPU中进行,通常GPU在进行视频图形渲染时,视频编码能力会有所下降,并且GPU的编码性能相比专用转码芯片存在一定差距。针对此短板的智能视频编码解决方案将GPU与专用转码芯片结合,补充专项编码能力,释放CPU和GPU资源,并且支持直接从GPU图像存储中获取编码数据,免去HOST层延时,增强图片渲染能力的同时达到每帧编码超低耗时的目的。

c429ed56a06932b239b7f40f81df1d98_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png


城市安防场景


交通、公安、司法是面向政府端安防领域的核心组成部分,其中交通、公安细分场景,对于视频监控的依赖程度较高,VCM/DCM及AI辅助编码技术在视频监控的传输与展示效果中可以发挥更大价值。视频监控在司法领域承担的主要任务是庭审监测,监控视频体量与视频质量要求均远低于在公安、交通领域的应用,现阶段对助力视频分析的VCM/DCM及相关AI编码技术不存在强烈需求。安防市场的“马太效应”明显,海康威视、大华股份、宇视科技、华为等龙头企业在业内占据绝对比重。2021年智能视频编码在安防交通领域的市场规模约22亿元,伴随疫情逐渐好转大背景下整体安防市场的回暖,智能技术与视频监控场景的适配结合,智能视频编码标准的改进完善,艾瑞咨询预测2025年智能视频编码在安防交通领域的市场规模有望突破30亿。

f8d78a694c13a36ffc7c339a4f674871_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

工业制造场景


机器视觉是视频编码技术与制造业紧密连接的核心技术载体作为人工智能技术中快速发展的一个分支,自上世纪80年代,机器视觉已逐步在多个领域成功替代人眼视觉进行识别、检索、分析、判断等应用。2015年出台的《中国制造2025》强国战略行动纲领,明确了制造业智能升级任务的重要性与紧迫性,推动了企业在研发、生产、管理、服务等方面的智能化改进。机器视觉系统是综合光学、机械、电子、计算机软硬件等多维度能力的技术,依托图像处理、模式识别、信号处理、人工智能等技术在工业制造领域替代人眼执行工作。相较于人眼视觉,机器视觉在分辨率、速度、精度等方面具备绝对优势。作为机器视觉系统的前端数据采集设备,工业相机的品质优劣、相机帧率压缩效果的高低将直接决定机器视觉编码图像视频的呈现质量。

image.png

中国智能视频编码行业引领者动态

标准组织机构


“Coding for AI”是VCM与DCM技术方案的核心理念,即通过特征提取与特征编码,从视频生产环节降低数据传输与计算负载,保留价值信息,适配后续机器视觉智能分析。基于神经网络构建机器视觉模型,便于模型迭代与模块调用,优化编码测试结构,平衡编码复杂度与传输时延,让视频采集数据精准服务于最终分析任务。VCM与DCM编码标准均处于探索阶段,在下一代标准正式公布之前,面向机器视觉分析的需求仍主要依赖成熟性高,具备成本优势的传统编码器实现。

伴随服务于机器视觉的视频编码技术日趋完善,编码标准的发力方向将向第二阶段面向人机混合视觉的视频编码技术倾斜,即同一码流同时满足人眼视觉对视频质量的要求,并兼顾机器视觉需求。未来视频行业需满足泛化要求,前置应用场景,视频生产根据实际需求进行编码,适配所有类型的视觉任务,因此对结合AI算法并服务于各种应用场景的智能编码技术的研究成为趋势。

image.png

回到顶部图片