写点什么

优酷速看短视频自动化生产解决方案

  • 阿里巴巴文娱技术

  • 2021-03-29
  • 本文字数:2433 字

    阅读完需:约 8 分钟

优酷速看短视频自动化生产解决方案

一、简介

1.1 摘要

随着用户的时间碎片化程度加剧,视频“由长变短”成为一种趋势,信息流场景下的短视频消费需求日益增长,优酷每年为用户提供大量优质视频资源,具备天然的“由长变短”优势,并通过算法研究在速看短视频的自动化生产方面取得突破。


1.2 相关研究

学术界中将该问题命名为 text video alignment:给定 video 的剧本,基于 video shot 和 sentence 的相似度,做两个 sequence 的对齐。 涉及两个任务,第一个任务是计算文本与视频片段的相似性,第二个任务是 text sequence 与 video sequence 的对齐。


video text alignment 与 video text grounding 的区别是其对视频片段边界不敏感,不要求回归边界,只做 shot 与 text 相似度的度量。而与 video text retrieval 的的相同之处是需要计算 video clip 和 text 的特征及相似度,不同之处是 text video alignment 有时序信息,且时序是顺序的,不存在乱序。text video alignment 的相似比对只在指定的 video 当中,不存在跨 video 的检索。


视频中通常会包含多种不同模态的信息,例如光流、人脸、声音等,之前的方法仅考虑了某一模态的特征。文章[1]提出了一个相似度计算框架将所有模态特征纳入视频-文本的相似度计算中,并且可以灵活扩展到更多的模态,也可以处理某一模态特征缺失的情况。



文章[2]将视频和文本的跨模态匹配过程抽象为对视频序列栈和文本序列栈的操作过程。利用 LSTM 对视频序列和文本序列进行建模,构成视频序列栈和文本序列栈,通过循环预测不同的栈顶操作来实现序列匹配。可以满足不同类型的匹配要求。



文章[3]将文章[1]中的相似度计算框架应用在视频文本检索领域。在原有结构基础上增加了信息过滤模块,增加了不同模态之间的信息融合通道,能够更好地融合不同模态的特征。



文章[4]将图神经网络应用在了视频文本检索领域。分别在文本和视频模态提取不同层级的特征,并使用图神经网络进行模态内的特征融合,最后进行相似度计算。相较于其他方法,图结构的表示方式能够更加合理的组织信息,提升模型性能。


二、算法描述

2.1 算法框架概览

2.2 特征设计

2.2.1 视频特征

视频侧特征提取需要首先进行视频结构化(通过对视频中的图像信息进行智能分析,提取出关键信息,并进行文本的语义描述)。


2.2.2 文本特征

文本侧信息的提取包括了几个部分:文本分类、命名实体识别(Named Entity Recognition)、指代消解和依存关系分析。这些技术模块在一起组成完整的文本处理链路,提取出文本的关键特征之后供多模态匹配使用。


文本分类为匹配算法的权重提供重要依据,匹配算法将按照句子的分类结果采用合适的匹配策略。例如对于描述性的文本采用人物、场景、行为的嵌入向量匹配;对于对白的文本采用 ocr 文本匹配。


命名实体识别可以提取出文本中的命名实体,例如人物、行为、场景等关键信息,这些结构化数据可以通过相似度算法与视频的嵌入向量计算语义距离,从而为基于嵌入向量和标签的匹配算法提供重要的打分函数。采用 Bert[1]模型来进行文本分类和命名实体识别的任务,具体来讲,使用在其他的较大的中文语料库上预训练的模型,然后在自己标注的数据集上进行调优。


指代消解和依存关系分析为消除文本特征中的歧义和冗余项提供了工具。剧情文本中的句子存在很多代词指代的情形,无法用 NER 直接推理出关键的人物。例如,陈永仁听说韩琛新进了一批毒品,于是他赶快把这个消息传递给了黄志诚。第二个子句中的他,如果没有指代消解的能力,就无法准确提出。


句子的依存关系分析则在此基础之上提炼出句子中最关键的信息部分,舍弃干扰项,大大提升提取特征的质量。剧情文本当中通常会有不少定语和状语,这对于 text2video 的任务其实帮助很小,而且他们会扰乱句子主体的提取。这个时候,我们使用句子的依存关系分析,提取出最关键的主语、谓语(行为)和宾语,作为句子的主干成分,从而用作匹配的特征。

2.3 跨模态匹配

跨模态匹配解决如何对齐文本中的句子与视频片段的问题。这是一个非常困难的系统性问题。为了解决这个问题,我们设计了一个多层级的匹配算法,主要分为两个语义级别的匹配:嵌入向量级别和标签级别。


针对嵌入向量级别,我们会针对文本和视频分别训练一个语义嵌入向量提取模型,然后对每一个句子和视频的片段计算一个相应的语义嵌入向量,再用一个神经网络来学习这两个向量之间的匹配关系。这部分的数据我们采用人工标注了一部分。


嵌入向量级别可以解决广义上的语义匹配问题,然而有一些简单的逻辑可以低成本地使用标签级别的匹配算法快速、精准地完成。例如,文本中和视频中出现了对应的人物,那么我们可以使用对应的人物标签来过滤到非匹配的片段。针对这个问题,我们设计了一些有效的相似度分数评估函数,用来计算标签之间的语义距离,从而为搜索匹配进行打分排序。

2.4 文本匹配

对于文本的匹配有两种不同的需求:分别是短句级别的短文本匹配和句子级别的匹配,在此采用词向量的方式来计算文本的相似度。在公开的中文语料库(800 万中文词)上训练了词向量模型,用来计算短语的词向量。


对于短语级别的文本匹配,直接根据词向量模型所计算的词向量作为匹配的依据。对于句子级别的文本匹配,对句子中的词语单独计算词向量,然后进行加权平均作为整个句子的词向量。


有了短语和句子的词向量之后,还需要根据词向量计算文本的距离。所使用的基准方法非常简洁:在计算句子中短语的词嵌入的平均值之后计算两个句子的词嵌入的余弦相似性。这个方法虽然简洁但是在大部分场景下表现都符合预期。针对比较困难的场景,使用词移距离,计算其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离。

三、效果展示

四、参考文献及备注

[1] Learning a Text-Video Embedding from Incomplete and Heterogeneous Data


[2] A Neural Multi-sequence Alignment TeCHnique (NeuMATCH)


[3] Use What You Have: Video Retrieval Using Representations From Collaborative Experts


[4] Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning


备注:TTS 语音合成技术由阿里巴巴达摩院语音实验室提供

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-03-29 10:002099
大前端 阿里巴巴 最佳实践 性能优化 框架 生成式 AI

评论

发布
暂无评论
  • 爱奇艺视频精彩度分析算法及应用

    当大家思考内容平台的时候,会非常关注内容是否精彩。针对精彩度分析,不只是一个单一的技术,更是一个综合性的解决策略。

    架构 最佳实践 性能优化 音视频(前端) 音视频(后端) 框架
  • 20|Embedding:深入挖掘用户底层特征

    上节课我们讲解了基于协同过滤的召回算法,本节课我们来介绍另外一种召回算法:基于Embedding的召回。

    2023-05-31

  • NFT 铸造交易平台开发详情

    “NFT”一词代表“不可替代的代币”;NFT铸造交易平台开发,咨询薇芯:hkkf5566,这意味着它们具有独特的价值。换句话说,每个 NFT 代币都有一个特殊的特征,可以将它们区分开来。数字艺术、体育艺术、足球运动员、视频游戏角色等资产都可以以 NFT 代币的形式

    2022-06-30

  • 计算机操作系统最基本的特征是什么?

    计算机操作系统最基本的特征是什么?

    2022-04-24

  • 07|AIGC 的核心魔法:搞懂 Transformer

    我们只有真正理解了Transformer,才算是进入了当下AIGC世界的大门。

    2023-07-31

  • 08|巧用神经网络:如何用 UNet 预测噪声

    今天我就来为你解读UNet的核心知识。搞懂了这些,在你的日常工作中,便可以根据实际需求对预测噪声的模型做各种魔改了,也会为我们之后训练扩散模型的实战课打好基础。

    2023-08-02

  • #视频# 致创新先行者—C 位面对面

    极客邦科技创始人兼CEO霍太稳对话华为云中国区副总裁胡维琦

    架构 服务革新 软件工程 AI&大模型
  • 基于标签的实时短视频推荐系统 (三十)

    写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

    2021-07-07

  • 10|CLIP:让 AI 绘画模型乖乖听你的话

    只有真正理解了CLIP,你才能知道为什么prompt可以控制AI绘画生成的内容。

    2023-08-07

  • 多媒体内容理解在美图社区的应用实践

    移动互联网时代,图像和短视频等多媒体内容爆发,基于计算机视觉的AI算法是多媒体内容分析的基础。

    大数据 AI&大模型 最佳实践 性能优化 生成式 AI
  • 21|YouTubeDNN:召回算法的后起之秀(上)

    在前面的课程中,我们讲解了几种不同的召回算法,在这节课中,我们会继续前面的课程,学习一个新的召回算法——YouTubeDNN模型。

    2023-06-02

  • 公安合成作战指挥系统开发, 情指勤舆一体化平台建设

    公安合成作战指挥平台建设以各警种业务支撑为出发点,以大数据、云计算、视频分析等为支撑,以实现信息综合研判、多警同步上案,人案关联侦查,多手段合成作战为目标。公安合成作战指挥系统开发电微13530558032

    2021-12-20

  • 基于 Android 的特征 X 射线谱识别系统的开发,android 指纹识别

    Android 是基于Linux的操作系统,常应用于智能手机等移动设备。Android系统有着不仅免费而且开源的特点,受到了大量设备厂商的欢迎。截至2019年,Android应用的发布平台Google Play有超过300万款APP供下载使用。Android系统采用了分层的架构,分为四层,从底

    2021-11-02

  • 23|OpenClip:让我们搞清楚图片说了些什么

    OpenClip:让我们搞清楚图片说了些什么?

    2023-04-28

  • 企评家企业大数据平台,助力企业刻画企业成长性画像

    互联网新时代,不同的互联网主体对数据愈发的敏感,整个行业或者企业圈尤其是以互联网有联系的企业对信息的需求更趋向于专业化,概括化。以大数据技术为主的数据至上的互联网时代,通过大数据来刻画企业画像,了解企业的特征已不再是难事。为此许多企业开始纷

    2022-05-17

  • 英特尔举办第十四届物联网峰会,携手中国生态伙伴迈向融合边缘新时代

    2021年10月12日,银川——以“慧见 智及万物”为主题的2021第十四届英特尔物联网峰会今天在银川举行。会上,英特尔公司高级副总裁兼物联网事业部全球总经理Thomas Lantzsch通过视频连线的方式与英特尔公司物联网事业部副总裁、物联网视频事业部全球总

    2021-10-13

  • 百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

    信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一。

    文化 & 方法 最佳实践 方法论 性能优化 框架 自然语言处理 汽车 工业
  • 腾讯优图鄢科:以 AI 技术助力内容安全 促进互联网环境健康发展 | AICon2021

    腾讯优图实验室内容安全算法负责人鄢科分享了腾讯优图在内容安全领域中的研究成果和应用实例,提供了技术创新和落地实践的经验和思路。

    AI&大模型 文化 & 方法 安全 最佳实践 方法论 机器学习/深度学习 框架
  • 时序动作提名生成的融合边界内容图神经网络

    本文介绍来自爱奇艺团队一篇论文,通过图神经网络对边界和内容预测之间的关系进行建模,生成更精确的时序边界和可靠的内容置信度分数。

    AI&大模型 机器学习/深度学习 框架
  • 腾讯信息流热点挖掘技术实践

    本次分享主要介绍腾讯在热点挖掘方面的工作。基于搜索数据和自媒体文章,通过时序分析方法和内容聚类相结合的方法挖掘热点,并将热点聚类成事件和话题。

    移动 腾讯 最佳实践 框架 自然语言处理 实时计算 行业深度
发现更多内容

Spring Security系列教程02--创建SpringSecurity项目

一一哥

Java spring security springboot 安全框架 spring-boot

NFT系统:数字藏品交易平台app开发功能

开源直播系统源码

NFT 数字藏品 数字藏品软件开发 数字藏品开发 数字藏品系统

技术分享 | 被测系统架构与数据流分析

霍格沃兹测试开发学社

技术分享 | 测试平台开发-前端开发之Vue.js 框架的使用(二)

霍格沃兹测试开发学社

技术分享 | 黑盒测试方法论—等价类

霍格沃兹测试开发学社

2. 背包问题

小白钊钊

算法 8月月更

深度解析全链路压测实施过程

穿过生命散发芬芳

全链路压测 8月月更

华为云GaussDB深耕数据库根技术,助力能源行业数字化转型

IT资讯搬运工

软件测试 | 测试开发 | 接口测试之HTTP、HTTPS 抓包分析

测吧(北京)科技有限公司

HTTP

技术分享 | 测试平台开发-前端开发之Vue.js 框架(一)

霍格沃兹测试开发学社

全新EMQX Dashborad:易操作、可观测,集群数据尽在掌握

EMQ映云科技

物联网 IoT mqtt emqx 8月月更

1. 关联容器

小白钊钊

c++ 8月月更

技术分享 | 被测项目需求你理解到位了么?

霍格沃兹测试开发学社

软件测试 | 测试开发 | 接口测试价值与体系

测吧(北京)科技有限公司

接口测试

秋招如何抱佛脚?2021最新大厂Java面试真题合集(附权威答案)

收到请回复

Java 架构 语言 & 开发

兆骑科创高层次人才创新创业大赛,项目落地,云路演

兆骑科创凤阁

云聚华为伙伴暨开发者大会GaussDB专场,与客户伙伴共话金融科技新发

IT资讯搬运工

软件测试 | 测试开发 | 使用 cURL 发送请求

测吧(北京)科技有限公司

curl

BI如何配置“花生壳”,看这一篇就够了

葡萄城技术团队

内网穿透 可视化数据

排队助手:3 张图带你看懂「队伍合页」的经典案例场景

天天预约

小程序制作 SaaS应用 排队 排队工具

软件测试 | 测试开发 | 接口测试中如何使用Json 来进行数据交互 ?

测吧(北京)科技有限公司

json

华为云GaussDB践行云原生 带来极致弹性、全域可用和极简体验

IT资讯搬运工

技术分享 | 软件项目管理与跨部门沟通协作

霍格沃兹测试开发学社

Spring Security系列教程03--实现HTTP基本认证

一一哥

spring security HTTP springboot basic spring-boot

汽车制造企业如何最大化数据资产价值?

Kyligence

数据分析 智能多维数据库

技术分享 | 数据持久化技术(Java)

霍格沃兹测试开发学社

兆骑科创双创服务平台,项目对接,人才引进

兆骑科创凤阁

华为云联合信通院发布业界首个《云原生数据库白皮书》

IT资讯搬运工

软件测试 | 测试开发 | app自动化测试(Android)-- 属性获取与断言

测吧(北京)科技有限公司

自动化测试

Spring Security系列教程04--实现Form表单认证

一一哥

springboot Spring Security OAuth 表单认证

Spring Security系列教程05--实现HTTP摘要认证

一一哥

HTTP 认证 Spring Security OAuth

优酷速看短视频自动化生产解决方案_大前端_阿里巴巴文娱技术_InfoQ精选文章

玻璃钢生产厂家晋中玻璃钢家具厂家直销长春玻璃钢坐凳加工泰州玻璃钢浮雕生产厂家合肥玻璃钢坐凳制作镇江玻璃钢茶几加工福州玻璃钢摆件哪家好太原玻璃钢茶几哪家好合肥玻璃钢卡通雕塑生产厂家儋州玻璃钢树池坐凳批发厦门玻璃钢设备外壳价格盘锦商业美陈厂家北京玻璃钢休闲椅厂岳阳玻璃钢景观雕塑生产厂家石家庄玻璃钢种植池定制钦州玻璃钢卡通雕塑定制韶关玻璃钢装饰工程厂家直销铜川玻璃钢沙发厂家陕西玻璃钢树池坐凳公司伊春玻璃钢树池厂家直销清远玻璃钢雕塑百色玻璃钢浮雕制造定西玻璃钢花瓶厂家十堰玻璃钢天花吊顶制作龙岩玻璃钢医疗外壳珠海玻璃钢摆件制作忻州玻璃钢医疗外壳公司郑州玻璃钢公仔雕塑厂家玉林玻璃钢树池坐凳制作香港玻璃钢外壳厂泰安玻璃钢装饰工程价格香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化