更新时间:2026-01-20 17:12 来源:牛马见闻
模型Glint-MVT v2.将Glint-MVT v2.Glint-MVT v2.
<p><font color="#a5a5a5">出品 | 网易科技《态度》栏目</font></p> <p><font color="#a5a5a5">作者 | 纪)川</font></p> <p><font color="#a5a5a5">编辑 | 定西</font></p> <p><font face="宋]体">世界不是由一张张静态图片组成的,而是连续流动的视频。</font></p> <p><font face="宋体">但在过去很长一段时间里,</font>AI <font face="宋体">处理视频的方式却显得极其</font><font face="Calibri">“</font><font face="宋体">笨拙</font><font face="Calibri">”</font><font face="宋体">:先把视频解压成一帧帧图片,再像翻连环画一样去理解。这种行业惯例带来了巨大的算力浪费</font><font face="Calibri">——</font><font face="宋体">毕竟,视频中</font><font face="Calibri">90% </font><font face="宋体">的信息都是冗余的背景。</font></p> <p><font face="宋体">既然视频本身就是被压缩过的,为什么非要把它解压成图片再分析?这种</font><font face="Calibri">“</font><font face="宋体">多此一举</font><font face="Calibri">”</font><font face="宋体">的行业惯例,是不是可以被打破?</font></p> <p><font face="宋体">带着这个</font><font face="宋体">问题</font><font face="宋体">,</font><b><font face="宋体" style="">灵感实验室</font><font face="宋体" style="">新一代视觉基础模型</font><font face="宋体" style="">Glint-</font>MVT <font face="宋体" style="">v</font>2.0</b><font face="宋体">(以下简称</font><font face="宋体">MVT v2.0)选择了一条“少有人走的路”——</font><b><font face="宋体">图像和视频统一编码,通过视频编码在压缩域进行高效分析</font><font face="宋体">——这正是MVT v2.0的核心突破。</font></b></p> <p><font face="Calibri">MVT v2.0</font><font face="宋体">利用视频编码自带的运动矢量</font><font face="宋体">(</font>Motion Vector<font face="宋体">)</font><font face="宋体">和残差(</font><font face="Calibri">Residual</font><font face="宋体">)信息,生成了一张</font><font face="宋体"><b>“信息量热图”</b></font><font face="宋体">。模型只保留那些包含关键动作或细节变化的</font><font face="Calibri">Patch</font><font face="宋体">(图像块),而将背景等低信息量的部分直接丢弃。</font></p> <p><font face="宋体">这一策略直接</font><b><font face="宋体" style="">减少了</font> 90% 的冗余 Token<font face="宋体" style="">。</font></b></p> <p><font face="宋体">“说到底,我们只是利用了视频编码的原理,不再把那些冗余找回来。”灵感实验室负责人冯子勇解释道。但这看似简单的逻辑转换,却带来极大的能力提升:</font><b><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>在全帧率分析下,</font><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>MVT v2.0 </font><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>的推理速度提升了 </font><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>5 </font><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>倍</font><font style='font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>;</font><font face="宋体" style="">任务表现方面,将</font>Glint-MVT v2.0用作VideoLLM的视觉编码器,在MVBench、VideoMME、Percepton Test等视频基准上超过Google SigLIP2<font face="宋体" style="">。</font></b></p> <section style="text-align: center;line-height: 1.75em;margin-left: 1em;margin-right: 1em;" nodeleaf="" data-mpa-action-id="mkgjxsl12173" class="f_center"></section><p><i mpa-font-style="mkgjxqdz156g" style="letter-spacing: 1.5px;"><font face="Calibri">Glint-MVT v2.0</font><font face="宋体">任务的表现</font></i></p> <p><font face="Calibri">然而,这场突围并非一蹴而就。</font></p> <p><font face="宋体">如果把时间轴拉回几年前,</font><font face="宋体">这支专注底层视觉编码的团队其实更像是一群在快车道旁默默修路的人。</font></p> <p><font face="宋体">从</font> 2023 <font face="宋体">年发布</font><font face="Calibri">Glint-MVT v1.0 </font><font face="宋体">开始,</font><font face="宋体">灵感实验室</font><font face="宋体">一直在</font><font face="宋体">探索视觉和多模态领域的技术创新</font><font face="宋体">。在</font> v1.0 <font face="宋体">阶段,为了给</font><font face="Calibri">4 </font><font face="宋体">亿张无标注图片打上伪标签,他们</font><font face="宋体">采用</font><font face="Calibri">“</font><font face="宋体">标签采样</font><font face="Calibri">”</font><font face="宋体">方法来解决噪声问题;到了</font><font face="Calibri">v1.1</font><font face="宋体">,为了突破单标签的限制,他们</font><font face="宋体">优化</font><font face="宋体">了损失函数,让模型学会</font><font face="Calibri">“</font><font face="宋体">一眼看多物</font><font face="Calibri">”</font><font face="宋体">;再到</font><font face="Calibri">v1.5 </font><font face="宋体">版本,通过引入专家模型和</font><font face="Calibri">OCR</font><font face="宋体">,把模型对局部细节和文字</font><font face="宋体">特征</font><font face="宋体">的理解能力拉到了新高度。</font></p> <p><font color="#a5a5a5">Glint-MVT系列论文:</font></p> <p><font color="#a5a5a5">1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval</font></p> <p><font color="#a5a5a5">1.1:Multi-label Cluster Discrimination for Visual Representation Learning</font></p> <p><font color="#a5a5a5">1.5:Region-based Cluster Discrimination for Visual Representation Learning</font></p> <p><font face="宋体">正是一步步的技术积累,才让他们最终在</font><font face="Calibri">MVT v2.0 </font><font face="宋体">阶段打破了图像与视频的界限,走通了这条高效分析之路。</font></p> <p><font face="宋体">以下是网易科技与灵感实验室</font><font face="宋体">团队(以下简称</font><font face="宋体">“灵感”)</font><font face="宋体">的对话,经不改变原意的编辑。</font></p> <p><font color="#c00000"><b><font face="宋体">统一图像与视频</font><font face="宋体">:</font><font face="宋体">人们看到的</font><font face="宋体">世界是视频,而不是静态图片</font></b></font></p> <p><b><font color="#00b0f0"><font face="宋体">网易科技:简单介绍一下</font>Glint-MVT<font face="宋体">,从</font><font face="Calibri">1.0</font><font face="宋体">到</font><font face="Calibri">1.5</font><font face="宋体">版本大概是一个什么样的情况?这次</font><font face="Calibri">2.0</font><font face="宋体">版本最大的升级是什么?</font></font></b></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">从</font>1.0<font face="宋体">、</font><font face="Calibri">1.1</font><font face="宋体">到</font><font face="Calibri">1.5</font><font face="宋体">版本,</font><font face="Calibri">MVT</font><font face="宋体">视觉模型基座的</font><font face="宋体">关注点都在图片上,</font>1.x<font face="宋体">系列都定义在</font><font face="宋体">图像</font><font face="宋体">领域。</font></p> <p><font face="宋体">我们在</font><font face="Calibri">v</font>1.0<font face="宋体">和</font><font face="Calibri">v</font>1.1<font face="宋体">时关注的是怎么训练一个好的图像编码器(</font><font face="Calibri">Encoder</font><font face="宋体">)。到了</font><font face="Calibri">v</font>1.5<font face="宋体">,我们的</font><font face="宋体">重点</font><font face="宋体">方向是细粒度,也就是</font><font face="宋体">提升</font><font face="宋体">局部区域的表征。结果发现到</font><font face="Calibri">2025</font><font face="宋体">年三四月份,各种各样的模型基本上都是针对这个点来做的,竞争非常激烈。再往下做,只能像大厂那样堆资源,</font><font face="宋体">这</font><font face="宋体">对我们来说相对困难。</font></p> <p><font face="宋体">所以,我们</font><font face="宋体">决定在</font><font face="Calibri">v</font>2.0<font face="宋体">做一次较大</font><font face="宋体">升级。</font><font face="Calibri">MVT v</font>2.0<font face="宋体">最大的创新</font><font face="宋体">性在于统一支持</font><font face="宋体">图像和视频,</font><font face="宋体">把视频加进来,统一在一个</font>Encoder<font face="宋体">里面</font><font face="宋体">。</font></p> <section style="text-align: center;line-height: 1.75em;margin-left: 1em;margin-right: 1em;" nodeleaf="" data-mpa-action-id="mkgjxsl21iwb" class="f_center"></section><p><i mpa-font-style="mkgjxqdzxiu" style="letter-spacing: 1.5px;"><font face="Calibri">Glint-MVT v2.0</font><font face="宋体">方法示意图</font></i></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:对于</font></b><b><font face="宋体">你们来说,</font></b><b><font face="宋体">参与</font> MVT </b><b><font face="Calibri">v</font></b><b>2.0 <font face="宋体">的过程中最兴奋的</font></b><b><font face="宋体">一个瞬间</font></b><b><font face="宋体">是什么?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">第一次听到基于</font> Codec<font face="宋体">(编解码)输入的结果还可以的时候,那个瞬间最兴奋。</font></p> <p><font face="宋体">因为</font><font face="宋体">做统一支持图</font><font face="宋体">像和视频</font><font face="宋体">的</font><font face="宋体">视觉编码器的人还是比较少的,而且我们想颠覆的是</font><font face="Calibri">“</font><font face="宋体">把视频变成图片流</font><font face="Calibri">”</font><font face="宋体">这样一种根深蒂固的观念。在这条路上,没有太多前人的工作可借鉴。当验证结果出来,说明这个路线是可行的,这给了我们很大的鼓舞。</font></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:当前主流做法仍是分别训练图像和视频模型。</font></b><b><font face="宋体">你们</font></b><b><font face="宋体">选择研发</font><font face="Calibri">“</font><font face="宋体">图像和视频统一</font><font face="Calibri">”</font><font face="宋体">的视觉编码器,这个想法是在什么契机下产生的?是为了解决业务痛点,还是纯粹的技术推演?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">这个想法是几个方向逐步凝聚在一起,慢慢萌生出来的。既有业务痛点的驱动,也有对技术本质的思考。</font></p> <p><font face="宋体">首先,</font><font face="宋体"><b>从业务痛点来看</b></font><font face="宋体">,视频分析在我们的业务(如</font><font face="宋体">泛</font><font face="宋体">安防、银行、体育动作识别</font><font face="宋体">等场景</font><font face="宋体">)中占据重要地位。</font></p> <p><font face="宋体">长期以来,行业惯例是把视频解码为一帧帧图片单独分析。但这存在一个问题:我们拿到的视频本来就是被压缩过的,压缩后的体积可能只有原来的十分之一,说明大量冗余已经被剔除了。但惯有做法是把冗余解压回来再分析,这不仅浪费算力,而且性能强依赖于解码器性能和内存带宽。既然视频本身的信息量是满的,为什么不能直接在压缩域上做分析?</font></p> <p><font face="宋体">其次,</font><font face="宋体"><b>从技术推演来看</b></font><font face="宋体">,图像编码器这个赛道已经卷到基本没有空间了,技术发展必然会转向视频分析。</font></p> <p><font face="宋体">最后,</font><font face="宋体"><b>从第一性原理来看</b></font><font face="宋体">,我们看到的世界从来都是视频,不是静态图片。我们的空间推理和事件推理都是构建在视频之上的。图片本质上是静态的视频,所以视频是可以包含图片的。</font>MVT <font face="Calibri">v</font>2.0 <font face="宋体">就是基于这样的思考。</font></p> <p><font color="#c00000"><b><font face="宋体">削减</font>90% <font face="宋体">视频</font>Token:只保留“最有信息量”的 Patch</b></font></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:我看到一个数字,</font></b>MVT <font face="Calibri">v</font>2.0<b><font face="宋体">利用视频编码信息减少了</font>90%<font face="宋体">的</font><font face="Calibri">token</font><font face="宋体">数量。这意味着什么?请用更通俗的方式解释,这是如何实现的?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">这</font>90%<font face="宋体">的减少,是通过只保留</font><font face="Calibri">“</font><font face="宋体">最有信息量</font><font face="Calibri">”</font><font face="宋体">的</font>Patch<font face="宋体">(图像块)</font><font face="宋体">实现的。</font></p> <p><font face="宋体">视频编码器在压缩视频时,会自动产生两种非常宝贵的信号:</font></p> <p><b>·MV<font style='color: rgba(0, 0, 0, 0.9); font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>(运动矢量)</font><font face="宋体">:</font></b> <font face="宋体">告诉我们哪些块在动、怎么动。</font></p> <p><b>·Residual<font style='color: rgba(0, 0, 0, 0.9); font-family: mp-quote, "PingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;'>(残差)</font><font face="宋体">:</font></b> <font face="宋体">告诉我们哪些地方预测不准、哪里有细节和边缘的变化。</font></p> <p><font face="宋体">我们将</font> MV <font face="宋体">和</font><font face="Calibri">Residual </font><font face="宋体">融合成一张</font><font face="Calibri">“</font><font face="宋体">信息量热图</font><font face="Calibri">”</font><font face="宋体">,热</font><font face="宋体">度</font><font face="宋体">越高,表示这个区域越可能包含关键动作或关键细节。然后,我们在每帧只保留一个固定预算的</font> Top-k <font face="宋体">关键</font><font face="Calibri">Patch</font><font face="宋体">,把剩余大部分低信息量的</font><font face="Calibri">Patch </font><font face="宋体">直接扔掉,不再变成</font><font face="Calibri">Token </font><font face="宋体">输入。所以,</font><font face="Calibri">Token </font><font face="宋体">从全量覆盖变成了预算可控的稀疏输入,</font><font face="Calibri">90% </font><font face="宋体">的削减就是这样来的。</font></p> <p><font face="宋体">比如固定摄像头的监控视频,很多背景是不动的。说到底,视频流在传输时,冗余部分已经被扔掉了,否则带宽扛不住。</font><font face="宋体">我们只是利用这个原理,不再把那些冗余找回来,直接对变化的部分做分析。</font></p> <p><b><font color="#00b0f0"><font face="宋体">网易科技:如此大幅度的</font> Token <font face="宋体">削减,如何保证不丢失关键信息?在实现效率提升的过程中,你们面临的最大权衡是什么?</font></font></b></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">我们能在大幅降</font> Token <font face="宋体">的同时尽量保住关键信息,核心在于两点:</font></p> <p><font face="宋体">第一,我</font><font face="宋体">们删掉的不是随机内容,而是</font><font face="Calibri">“</font><font face="宋体">低信息量内容</font><font face="Calibri">”</font><font face="宋体">。</font>MV <font face="宋体">和</font><font face="Calibri">Residual </font><font face="宋体">本身就是编码器为了压缩而标记出的</font><font face="Calibri">“</font><font face="宋体">变化</font><font face="Calibri">”</font><font face="宋体">和</font><font face="Calibri">“</font><font face="宋体">难预测细节</font><font face="Calibri">”</font><font face="宋体">。它天然在提醒我们:哪里更值得花比特,也就更值得让模型花算力。因此我们优先保留的区域,往往正是</font><font face="宋体">主体动作、交互区域这些理解视频最关键的地方。</font></p> <p><font face="宋体">第二,</font><font face="宋体">我们做了防止误选的处理。例如,我们会做全局相机运动补偿,把镜头平移或抖动造成的整体运动扣掉,避免背景因为镜头运动被误认为</font><font face="Calibri">“</font><font face="宋体">很重要</font><font face="Calibri">”</font><font face="宋体">,从而把有限的预算更集中在真实运动的主体上。同时</font><font face="Calibri">MV </font><font face="宋体">和</font><font face="Calibri">Residual </font><font face="宋体">是互补的,融合后更稳。</font></p> <section style="text-align: center;" nodeleaf="" class="f_center"></section><p>自左向右分别为:原始视频、<font face="宋体">均匀帧采样(常规用法)、时间显著性检测、类编解码器风格的块提取</font></p> <p><b><font color="#00b0f0"><font face="宋体" style="">网易科技:在大模型参数量越来越大的今天,你们似乎在追求一种更轻量、更高效的表达方式。这是否代表</font><font face="宋体">你们</font><font face="宋体">对未来视觉模型发展方向的一种不同判断?</font></font></b></p> <p><font face="宋体" style="" color="#00b0f0"><b>灵感:</b></font> <font face="宋体">我</font><font face="宋体">们</font><font face="宋体">觉得参数量扩大是否能带来更好的性能,或者说能好多少,这才是本质。我们其实是在追求</font><font face="Calibri">“</font><font face="宋体">性价比</font><font face="Calibri">”</font><font face="宋体">。</font></p> <p><font face="宋体">如果在这个规模下性能已经很不错了,再往后堆参数需要耗费巨大的资源但提升不显著,那就不值得。</font></p> <p>MVT <font face="Calibri">v</font>2.0 <font face="宋体">中视频的表达直接来源于视频</font>Codec<font face="宋体">,这是基于我们对视频本质的理解</font><font face="Calibri">——</font><font face="宋体">图片流本身就是冗余的。我们不盲目追求大参数,而是追求更本质、更高效的表达。</font></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:了解到</font> MVT </b><b><font face="Calibri">v</font></b><b>2.0 <font face="宋体">可以应用于</font><font face="Calibri">VLM</font><font face="宋体">(视觉语言模型)。这是否意味着它的目标是成为下一代</font></b><b><font face="宋体">多模态</font></b><b><font face="宋体">大模型的</font><font face="Calibri">“</font><font face="宋体">视觉编码器</font><font face="Calibri">”</font><font face="宋体">?与目前主流的</font><font face="Calibri">VLM </font><font face="宋体">视觉编码器相比,优势体现在哪里?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">是的,我们内部已经验证了它作为</font> VLM <font face="宋体">视觉底座的效果。与目前主流的模型相比,优势主要体现在:</font></p> <p><b>·<font face="宋体" style="">性能上:</font></b><font face="宋体">在全帧率分析的情况下,我们能提速</font> 5<font face="宋体">倍</font><font face="宋体">。</font></p> <p><b>·<font face="宋体">效果上:</font></b><font face="宋体">视频理解任务效果超过了</font> SigLIP2<font face="宋体">。</font></p> <p>·<font face="宋体" style=""><b>功能上:</b>它</font><font face="宋体" style="">原生支持全帧率和高速运动分析</font><font face="宋体" style="">,这是传统抽帧方案很难做到的。</font></p> <p><b><font color="#c00000"><font face="宋体">技术好奇心与野心</font><font face="宋体">:</font>探索视觉特征表达的新路径</font></b></p> <p><font face="宋体" color="#00b0f0"><b>网易科技:这项技术突破,最先会应用到哪些产品或解决方案中?</b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">像安防或银行的视频分析产品中</font><font face="宋体">,</font><font face="宋体">立刻就可以应用。因为</font> MVT <font face="Calibri">v</font>2.0 <font face="宋体">可以进行全帧率分析,像打斗、快速奔跑等这些快速动作的识别,以前因为算力限制很难做全帧率,现在都可以应用上了。</font></p> <p><font face="宋体">此外,我们认为凡是</font><b><font face="宋体">涉及快速运动、高帧率视频分析的场景</font></b><font face="宋体">都可以受益,比如具身智能(机器人需要实时</font><font face="宋体">感知和</font><font face="宋体">响应动作变化)。</font></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:回看</font></b><b><font face="Calibri">MVT</font><font face="宋体">从</font></b><b>1.0<font face="宋体">到</font><font face="Calibri">1.5</font><font face="宋体">再到现在的</font><font face="Calibri">2.0</font><font face="宋体">,这条技术路线上,有没有哪个阶段是团队感到最迷茫的?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">是在</font> 1.5 <font face="宋体">版本推出之前。</font></p> <p><font face="宋体">在</font><font face="Calibri">v</font>1.0 <font face="宋体">和</font><font face="Calibri">v</font>1.1 <font face="宋体">的时候,做这个方向的工作还不是很多,我们也就是自己探索,预期没那么高,结果出来得也快。但到了</font><font face="Calibri">1.5 </font><font face="宋体">阶段</font><font face="宋体">(大概</font>202<font face="Calibri">5</font><font face="宋体">年初)</font><font face="宋体">,我们明显感觉到同类型的工作不停地发表,竞争变得非常激烈,同时也有其他训练方法(如</font> MAE<font face="宋体">、图文对比学习)的冲击。那时候压力很大,只能一点一点往前推。</font></p> <p><font face="宋体">很幸运的是,后来</font><font face="Calibri">MVT v</font>1.5 <font face="宋体">被</font><font face="Calibri">ICCV</font> <font face="Calibri">2025</font><font face="宋体">(国际计算机视觉大会)录用了,这给了我们很大的信心,做</font><font face="Calibri">v</font>2.0 <font face="宋体">的时候底气就更足了。</font></p> <p><b><font color="#00b0f0"><font face="宋体">网易科技:现在的</font>AI<font face="宋体">人才市场非常疯狂。比较好奇灵感实验室的成员是一群什么样的人?</font></font></b></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">我们的团队成员大多觉得视觉特征表达还有其他的路径,不一定是大厂所定义的那样。大家有一种纯粹的技术好奇心,想去探索不一样的路。这有点像在</font> GPT-3 <font face="宋体">出来之前,大家主要用的还是</font><font face="Calibri">BERT</font><font face="宋体">,但最后证明</font><font face="Calibri">GPT </font><font face="宋体">这条路是对的。</font></p> <p><font face="宋体">公司也支持我们去探索这种非共识的、偏底层的研究。</font></p> <p><font face="宋体" color="#00b0f0"><b>网易科技:灵感实验室的下一步技术演进方向是什么?</b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b>2.0<font face="宋体">版本</font><font face="宋体">只是个开始,刚把这个点</font><font face="宋体">做通</font><font face="宋体">了,但离做得很好还有很长路要走。</font><font face="宋体">我们下一步的方向是:</font></p> <p>·<font face="宋体">第一,要更高效。现在虽然利用了流里的信息,但还要经过一步处理,希望能做到直接进流、直接分析。</font></p> <p>·<font face="宋体">第二,做流式(</font>Streaming<font face="宋体">)分析。</font><font face="宋体">现在很多</font>VLM<font face="宋体">是离线分析的</font><font face="宋体">,</font><font face="宋体">我们</font><font face="宋体">希望</font><font face="宋体">基于</font><font face="Calibri">2.0</font><font face="宋体">的</font><font face="Calibri">VLM</font><font face="宋体">能像看球赛解说一样,实时进流、实时分析。</font></p> <p>·<font face="宋体">第三,兼容</font>3D<font face="宋体">重建。像</font><font face="Calibri">Gaussian Splatting</font><font face="宋体">或</font><font face="Calibri">VG</font><font face="Calibri">G</font>T<font face="宋体">这种,希望能直接把视频塞进去就生成</font><font face="Calibri">3D</font><font face="宋体">场景或点云。</font></p> <p><font face="宋体">更大的野心是,视频的理解和生成能不能一体化?同一个</font>Encoder<font face="宋体">既能输出理解的特征,也能输出生成的特征。</font></p> <p><font color="#00b0f0"><b><font face="宋体">网易科技:如果用一个词来形容</font> MVT </b><b><font face="Calibri">v</font></b><b>2.0 <font face="宋体">对当前视觉领域的意义,你们会选哪个词?</font></b></font></p> <p><b><font face="宋体" color="#00b0f0">灵感:</font></b><font face="宋体">启发。</font></p> <p><font face="宋体">我们希望能对其他做视觉的研究者有更多的启发,让大家看到除了堆参数、解图片流之外,还有</font><font face="宋体">通过视频编码</font><font face="宋体">在</font><font face="宋体">压缩域进行高效分析</font><font face="宋体">这条路,欢迎大家跟我们一起探索。</font></p> <p><!--EndFragment--></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901