创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
成人色站 面向视频冷启动问题的点击率预估 - 父女乱伦文学
韩国三级片
成人色站 面向视频冷启动问题的点击率预估
发布日期:2024-10-30 04:16    点击次数:104
 

跟着互联网本事和智能末端建造的快速发展, 不雅看在线视频一经成为人人共享日常生计、获取信息、文娱的蹙迫序论. 除了优酷、爱奇艺、腾讯视频等传统视频共享平台外, 抖音、快手等短视频共享平台近几年也马上崛起, 眩惑了数目浩大的用户上传和不雅看视频, 平台视频数目也快速增长. 以快手为例, 放胆到2019年1月成人色站, 快手短视频库存已达80亿个; 2018年, 快手每天上传的短视频特出1 500万个(https://www.donews.com/news/detail/2/3035932.html). 面临这些海量的视频, 如何准确而灵验地从中找到用户感景仰的视频, 是巨大的挑战. 为了缓解海量数据带来的信息过载, 视频保举系统被宽泛应用于各大视频共享平台. 保举系统通过分析用户的不雅看数据, 从海量视频中挑选用户可能感景仰的候选视频, 并将其推送给用户.

视频的点击率预估是视频保举中的主流花式之一, 其字据用户的视频不雅看记载来预估用户点击某个视频的概率(点击率). 基于视频点击率预估模子, 视频保举系统可字据预估的视频点击率对视频的保举规则进行调整, 将预估点击率高的视频进行优先保举以提高保举的恶果. 但主流的视频点击率预估模子通常依赖于用户行径数据, 无法处理视频的冷启动问题[1, 2], 即: 当有新视频被上传时, 由于该视频短少用户的交互信息, 因此无法将该新视频保举给关系用户. 关于主流的视频共享平台来说, 每天齐有海量的新视频被上传, 这也导致视频的冷启动问题愈发严重. 频年来, 深度学习本事不仅在算计机视觉和当然话语处理等鸿沟使用, 也被宽泛应用于保举鸿沟[3−7]. 诚然基于深度学习的花式进展出精湛的视频点击率预估性能, 但其仍未能很好地约束视频的冷启动问题.

为了约束视频冷启动问题, Sachdeva等东说念主独揽视频的文本标注信息, 举例视频的文本简介、标题等进行建模[8]. 但并不是统共视频齐包含文本信息, 文本信息不易获取, 东说念主工标注又费时梗阻; 另一方面, 视频的文本信息可能并不准确可靠, 一些视频上传者为了吸援用户, 可能会编写诞妄的标题和视频先容(举例标题党自得). 视频的文本信息并不行准确地响应视频的语义内容且不易获取, 独揽文本信息约束冷启动的方式不行取得令东说念主陶然的保举恶果. 另一些职责[9, 10]从视频自身包含的音频和视觉信息启程, 对视频内容进行建模分析.比较于视频的文本信息, 视频的音频和视觉信息不易被转换, 省略径直灵验地响应视频自己的信息, 进展出更好的性能. 基于音频和视觉内容的分析的花式能在一定进程缓解视频的冷启动问题, 但由于视频的音频和视觉信息无法很好地响应视频被用户喜好的进程, 其性能也受到了一定进程的制约. 因此, 本文以为, 只是独揽视频的内容信息是不够的. 筹议视频共享平台存在大批用户的视频浏览记载, 同期, 这些记载在一定进程上记载了视频被用户喜好的进程. 受无监督的当然话语处理花式的启发, 本文独揽无监督的序列建模花式, 从用户的视频浏览记载中为每个视频学习一个新的视频特征. 为了便于神气, 本文将通过该方式学到的特征称为视频的坎坷文特征. 本文瞎想了两种不同的方式学习视频的坎坷文特征, 并在所建议的模子中同期对视频的内容特征和坎坷文特征进行建模, 灵验擢升了视频点击率预估的性能.

诚然坎坷文特征可作为视频内容特征的补充, 但关于一个刚上传的新视频, 由于其莫得在职何用户的视频浏览记载中出现过, 因此无法获取新视频的坎坷文特征, 相似也无法约束视频的冷启动问题. 假如能通过某种花式获取新视频的坎坷文特征, 就不错在一定进程上缓解视频的冷启动问题. 一种径直方式是用全零的特征向量作为坎坷文特征, 但这会导致模子的西宾和预计的不一致, 影响模子对新视频的保举恶果. 针对该问题, 本文建议了一种冷启动场景的模拟西宾花式, 该花式在模子的西宾流程中, 以一定的概率速即地将旧视频视为新视频, 用全零的特征向量作为新视频的坎坷文特征, 从而使得西宾得到的模子省略更平衡地兼顾旧视频和新视频. 此外, 筹议到两个内容上接近的视频其坎坷文特征也可能相似, 本文还建议基于隔邻的替代花式来获取新视频的坎坷文特征. 该花式无需改变模子的结构和西宾战术, 只需在预计阶段用与新视频内容邻近的多少视频的坎坷文特征来替代新视频的坎坷文特征, 相似能较好地对新视频的点击率进行预估. 总的来说, 本文的主要孝敬如下:

(1) 除了视频的内容特征外, 本文稀疏使用了从用户的视频浏览记载中学习到的坎坷文特征. 瞎想了两种不同的方式学习视频的坎坷文特征, 并同期使用视频的内容特征和坎坷文特征, 灵验擢升了视频点击率预估的性能;

(2) 针对视频的冷启动问题, 本文建议两种花式: 冷启动场景的模拟西宾花式和基于隔邻的替代花式.这两种花式无需改变模子的结构, 通过新颖的西宾战术和预计花式, 权贵擢升模子针对视频冷启动问题的鲁棒性. 表面上, 这两种花式可应用到任何点击预计的模子中, 并擢升模子对新视频的点击率预估才气;

(3) 在两个着实的电视剧(Track_1_series)和电影(Track_2_movies)视频点击率预估数据集上的推行标明, 本文建议的同期独揽视频内容信息和坎坷文信息的模子不错擢升对旧视频的点击率预估. 在Track_ 1_series上, 将AUC(area under curve)性能从0.712 1擢升到0.739 5; 在Track_2_movies上, 将AUC从0.680 3提高到0.689 7; 并在两个数据集上特出了现存模子. 此外, 关于新视频的保举场景, 比较于不筹议冷启动问题的模子只可获取0.57支配的AUC性能, 本文所建议花式在两个数据集上阔别获取0.645和0.615的AUC性能, 进展出针对视频冷启动问题更好的鲁棒性.

1 关系职责

保举系统被宽泛应用于各个鸿沟, 用以约束信息过载问题. 在视频保举中, 视频的点击率预估是主流花式之一, 其字据用户的视频不雅看记载来预估用户点击某个视频的概率. 主流花式之一是基于会话(session)来预计点击率并进行保举[11−13]. 筹议到用户阴事等原因, 基于会话的花式一般只使用用户的历史行径进行建模, 比如浏览记载, 但无法获取用户的基本信息, 比如性别、年事等. Hidasi等东说念主[13]将点击率预计视为二分类问题, 其将用户的浏览数据看作序列, 使用门控轮回单位(GRU)对浏览数据进行编码, 并基于多层感知机预计浏览数据和候选视频是否关系, 从而判断用户是否会点击候选视频. He等东说念主[14]较早将着重力机制引入保举模子, 从而权贵擢升保举的性能. 基于访佛的想想, Kang等东说念主[11]独揽自着重力机制[15]来拿获序列中的浏览视频之间的关系并对其进行编码, 同期还添加了位置编码, 以弥补自着重力机制忽略时序信息的污点. 在文件[16]中, 赵等东说念主独揽词向量[17]模子分析用户浏览历史序列, 将视频映射成特定维度的特征向量, 并基于特征向量算计视频间的关系性, 最终字据与用户不雅看视频关系性坎坷来判断用户是否会点击特定视频. 为了更充分地挖掘浏览记载中数据之间的依赖关系, 图神经聚集频年来也被宽泛应用于保举中[5, 18, 19]. 其中, Wu等东说念主[5]建议用图神经聚集来处理用户的浏览记载. 更进一时势, Wei等东说念主[18]在图神经聚集上挖掘用户的隐式反馈, 从而擢升保举的性能. 诚然基于会话的花式关于旧视频保举有较好的恶果, 但其主要依赖于用户的交互数据, 无法处理莫得交互数据的新上传视频.

基于内容的花式从视频自己的内容评估不同视频之间的相似性, 该类花式在预计时不依赖于用户的交互数据, 因此在一定进程上不错缓解视频的冷启动问题. 比如, 王娜等东说念主[20]独揽视频的标签来算计视频之间的相似度, 为用户保举与其不雅看过的视频中相似度较高的视频. 但该花式依赖于标签质料, 其性能会因标签质料裁汰而受到影响. Yang等东说念主[21]独揽视频的色彩、畅通强度特征估量视频之间的关系性, 并将与用户不雅看过的视频关系的视频保举给用户. 基于访佛的想想, 在用户交互信息缺失机, Van等东说念主[22]独揽神经聚集抽取音频信号的内容特征, 来更好地对新歌曲进行保举. 正如在弁言中提到的, 每天齐会有大批的新视频被上传到视频共享平台, 因此视频保举的冷启动问题尤为严重. 针对这一问题, Hulu在国外多媒体顶级会议ACM MM 2018上举办了基于视频内容的保举挑战赛. 挑战赛提供了用预西宾过的神经聚集模子索要的视频视觉和音频特征, 让参赛者独揽这些特征来挖掘视频之间的关系性. 针对这一任务, Dong等东说念主[23]通过特征重学习的花式学习到更安妥视频保举的内容特征, 而不使用径直提供的内容特征. Chen等东说念主[24]通过挖掘视频之间的二阶关系性, 更精确地量度视频的关系性. 2019年的ACMMM会议上, Hulu再次举办了基于内容的视频点击率预估比赛[25]. 针对这个比赛, Xu等东说念主[26]建议了TSE模子, 其在视频特征向量中自顺应地引入一个时辰阑珊因子, 在算计候选视频与视频浏览历史中的视频的相似度时, 更多筹议用户最近不雅看的视频, 相对地松开较远的视频的影响. Wang等东说念主[27]则把视频点击率预估看作视频关系性问题, 建议了CMN模子, 通过算计用户浏览历史中的视频和标的视频的关系度来取代视频点击率预估的终结. 在文件[27]中, Wang等东说念主在深度景仰聚集DIN[4]的基础上建议了REDIN模子. 该模子稀疏加入一个扶持任务, 通过将关系视频之间的距离在行家空间上拉近, 从而使得视频特征更顺应点击率预估的任务. Chen等东说念主[3]建议了MMDIN模子, 该模子通过两层的着重力层来拿获用户浏览历史中的视频与标的视频之间的关系性, 通过模子的预西宾来擢升点击预估的才气.

不同于上述文件从模子结构的角度来缓解冷启动问题, 本文从模子的西宾和预计角度建议了两种新的花式, 通过新颖的西宾战术和预计花式, 权贵擢升了模子针对视频冷启动问题的鲁棒性.

2 本文花式

给定用户的视频浏览历史, 即不雅看过的n个视频序列V={v1, v2, …, vn}和候选视频vc作为输入, 视频的点击率预估任务条款字据用户浏览历史预计用户会点击给定候选视频的概率p(V, vc). 概率越高, 标明该用户对候选视频感景仰的可能更高; 反之, 则越低. 正如弁言中提到的, 视频的文本标注信息(元数据神气)容易被转换, 因此本文莫得使用视频的元数据神气, 而是独揽更可靠的视觉和音频的内容特征. 基于点击率预估的视频保举系统则会字据该预计的概率, 将概率高的多少视频保举给标的用户, 从而齐备个性化保举. 针对视频的冷启动问题, 本文瞎想了基于视频内容和坎坷文特征的视频点击率预估模子, 并建议冷启动场景的模拟西宾和基于隔邻的替代花式缓解模子处理新视频的才气. 本节接下来纪律先容如何获取视频的特征抒发、点击率预估模子的结构以及冷启动场景的模拟西宾和基于隔邻的替代花式.

2.1 视频的特征默示花式 2.1.1 视频的内容特征

关于一个视频来说, 其自己视觉内容和音频内容蕴含了视频丰富的信息, 这些信息关于视频的保举口角常有匡助的. 本文径直使用了数据集提供的视觉特征和音频特征.

视觉特征通过在ImageNet数据集事前西宾好的Inception模子进行抽取. 具体来说, 给定的一个视频v, 每隔1秒从视频中索要一个视频帧, 并将索要的视频帧送到预西宾好的Inception-v3模子, 将在分类层之前的终末一个瞒哄层的ReLU激活的输出作为视频帧的内容特征. 因此, 视频的每一帧齐默示成2048维的特征向量. 进一时势, 对视频帧的特征从时辰维度进行平均池化, 得到视频级的视觉特征向量, 并通过主身分分析(PCA)将其降维到64维.

音频特征则通过在AudioSet数据集预西宾过的VGGish模子[28]进行抽取. 具体地, 给定的一个视频v, 当先用FFmpeg多媒体处理器用索要视频中的音频, 并将其切割成0.96秒不重迭的音频片断, 然后阔别将其输入到预西宾好的VGGish抽取特征, 将在分类层前的终末一个瞒哄层的输出作为音频片断的音频特征(特征维度为512). 相似地, 音频片断的特征从时辰维度进行平均池化, 得到视频级的音频特征向量, 并通过PCA将其降维到64维.

2.1.2 视频的坎坷文特征

除了视频的内容特征外, 本文还使用视频的坎坷文特征来默示视频. 本文中的坎坷文是指视频在视频浏览记载中与其他视频的坎坷文关系. 一个用户的视频浏览记载中同期出现的视频很有可能具有一定的关系性, 比如一个用户可能会一语气看完《指环王》三部曲. 受此启发, 本文基于大批的视频浏览记载学习得到坎坷文特征, 该特征不错在一定进程上响应视频之间的关系性. 同期, 用户可能会对一部与之前看过的视频关系的视频感景仰, 因此本文以为, 坎坷文特征能增强保举恶果. 本文瞎想了基于两种当然话语处理的无监督模子来索要视频的坎坷文特征, 阔别是词向量(Word2vec)花式和基于变化的双向编码器默示(BERT)花式.

Word2vec词向量花式[17]将每一个词用一个富贵向量进行默示, 使得语义上相似的词在词向量空间中距离邻近, 反之则远隔. 字据输入输出的不同, 词向量花式不错分红两种: 跳字模子和一语气词袋模子. 跳字模子(skip-gram)是用一个词语作为输入, 来预计它周围的坎坷文; 一语气词袋模子(continuous bag of words, CBOW)则用一个词语的坎坷文作为输入, 预计这个词语自己. 在Word2vec词向量西宾中, 句子的每个单词用一个编号进行默示, 并在大批文本语料库中进行西宾. 西宾完成后, 每个单词不错默示成一个词特征向量. 访佛地, 本文把用户的视频浏览历史当成一个句子, 每个视频编号看成单词进行西宾, 并用统共的用户浏览记载西宾词向量模子. 通过大批浏览记载学习得到每个视频的坎坷文特征, 该特征不错在一定进程上响应视频之间的关系性. 在初步推行中发现, 一语气词袋模子比较于跳字模子进展出更好的性能. 因此, 本文最终使用一语气词袋模子获取视频的坎坷文特征. 鄙人文中, 通过该方式得到的特征被称为Word2vec特征.

基于变化的双向编码器默示(BERT)是频年来谷歌建议的当然话语处理模子[29], 在多个不同的当然话语处理关系的任务上齐达到了先进的水平. 不同于轮回神经聚集(recurrent neural network, RNN), BERT不错幸免词之间的互关系系随距离递减的问题, 从而进展出更好的序列学习才气. 受文件[30, 31]启发, 本文独揽BERT模子学习视频的坎坷文特征, 具体的预西宾模子如图 1所示. BERT提供了多种西宾方式, 本文用掩码的话语模子(masked LM)进行西宾, 其从输入用户浏览记载中速即去掉一个视频, 让模子通过坎坷文信息预计去掉的视频, 最终得到的视频特征省略响应其与其他视频的坎坷文关系. 具体地, 模子的输入为用户的视频浏览记载, 以概率p速即地将输入序列中的一个视频去掉并用特地标记掩码([mask])默示, 然后用一个视频镶嵌层(embedding layer)和位置镶嵌层对视频进行编码. 在图 1中, fi和pi阔别默示视频vi的视频镶嵌特征和第i个位置的位置镶嵌特征. 关于视频vi, 当先用独热编码(one-hot encoding)默示其视频id(独热编码的维度等于统共视频的数目, 每一维代表一个特定的视频), 用视频镶嵌层将其默示成d维的视频镶嵌特征向量; 视频的位置信息相似先用独热编码对进行编码, 并用位置镶嵌层将其默示成d维的位置镶嵌特征向量. 值得着重是: 本文将输入transformer的视频镶嵌特征和位置镶嵌特征的维度成就成较小的64维, 从而使得模子的复杂度不至于过于浩大. 进一时势, 两个镶嵌向量进行相加并作念L2归一化处理后输入到两层的Transformer模块, 最终通过一个全流通层和Softmax层预计被去掉视频的编号. 模子通过交叉熵亏空函数进行预计, 模子预西宾完成后, 视频镶嵌特征和位置镶嵌特征的和作为视频的坎坷文特征. 为了便于神气, 本文将该方式得到的特征称为BERT特征.

图 1 用于视频默示的BERT预西宾模子结构 2.2 模子 2.2.1 模子结构

本文模子是基于Wang等东说念主在文件[27]里建议的关系性增强的深度景仰聚集(REDIN)进行校正. 为了缓解冷启动问题, 该模子只是用视频的内容特征对视频进行抒发, 并通过稀疏的关系亏空函数络续低层特征之间的关系性. 筹议视频的坎坷文信息蕴含视频被用户喜好的进程, 本文稀疏使用视频的坎坷文特征对视频进行抒发, 并建议了两种花式以擢升模子搪塞新视频点击率预估的才气.

如图 2所示, 给定用户的视频浏览历史V={v1, v2, …, vn}和候选视频vc, 用第2.1节的视频特征默示花式得到各个视频的内容特征和坎坷文特征, 并将两种特征进行拼接输入到采蚁合. 关于输入的拼接特征, 当先独揽一个全流通层对其进行非线性变化, 使得变化后的特征更恰当于视频的点击预计任务. 与REDIN模子一样, 本文使用着重力模块来团聚用户的视频浏览记载. 关于着重力层的齐备, 当先算计候选视频与历史记载中视频的关系度, 也便是着重力权重, 然后将历史记载中统共视频的加权特征作为用户的景仰特征, 该景仰特征响应了用户关于候选视频的景仰, 同期作为着重力层的输出. 更细致地, 着重力层输出特征向量默示成:

$ A(V) = \sum\nolimits_{{v_i} \in V} {a({{v'}_i}, {{v'}_c}){{v'}_i}} $ (1) 图 2 关系性增强的深度景仰聚集

其中, $ {v'_i} $和$ {v'_c} $阔别默示vi和vc通过全流通层变换后的视频特征向量$ a({v'_i}, {v'_c}) $. 默示通过多层感知机(MLP)得到的着重力权重. 具体来说, 当先将输入的两个特征$ {v'_i} $和$ {v'_c} $进行拼接, 然后通过带两层瞒哄层的MLP预计着重力权重. 之后, 将通过着重力层的特征向量A(V)和变换后的候选视频特征进行拼接, 并将其输入到含两层瞒哄层的多层感知机进行二分类. 二分类模子中的瞒哄层后跟一个ReLU非线性激活函数和dropout, 终末的输出层通过一个Sigmoid激活函数将输出分数归一化到0~1之间, 最终的输出记为p′(V, vc). 该模子基于大批历史数据进行端到端的西宾, 通过学习使模子具备对点击概率p′(V, vc)进行预计的才气, 具体西宾方式见下节.

2.2.2 模子西宾

关于模子的西宾, 除了使用在点击率预估模子中常用的二分类交叉熵亏空函数(binary cross entropy loss), 本文还使用了在文件[23]中引入的视频关系性亏空作为稀疏的络续. 该络续作用于模子中间层的输出, 即变换后的视频特征$ {v'_*} $, 通过络续使得变换后的特征仍保留视频的拓扑属性, 使得相似的视频在变换后的特征空间具有较小的距离, 反之则具有较大的距离. 此外, 稀疏添加的亏空函数让梯度更容易传到前边的层, 同期助于后续层的西宾. 具体地, 关于一条用户的视频不雅看记载(V, vc, y), 其亏空函数界说为:

$ L(V, v_{c}, y)=−[y \log p′(V, v_{c})+(1−y)\log(1−p′(V, v_{c}))]+α[y \max(0, m_{1}−r(V, v_{c}))+(1−y)\max(0, r(V, v_{c})−m_{2})] $ (2)

公式(2)的亏空函数由两部分构成: 前半部分默示交叉熵亏空函数, 后半部分默示关系性亏空函数. 其中: y默示用户是否点击了候选视频, 其值为1默示点击, 0默示不点击; α默示平衡两个不同亏空的权重, 其取值大于等于0, α小于1代表前半部分亏空更蹙迫, 而α大于1代表后半部分亏空更蹙迫; r(V, vc)默示通盘视频记载V和候选视频vc的举座关系性, 内容使用候选视频与浏览记载V中的每一个视频关系度的平均值作为最终的举座关系性, 算计公式如下:

$ r(V, {v_c}) = \frac{1}{n}\sum\nolimits_{{v_i} \in V} {cs({{v'}_i}, {{v'}_c})} $ (3)

其中: cs(⋅, ⋅)默示特征之间的余弦相似度, 相似度越高, 标明两个视频越关系; n默示用户浏览记载中的视频个数. m1和m2为常数阈值并舒服m1 > m2, 关于用户点击了候选样本的数据(即正样本y=1), 本文以为通盘视频记载V和候选视频vc应该具有较高的关系性, 该标的通过最小化ymax(0, m1−r(V, vc))保证, 使得举座关系大于阈值m1; 不然, 产生亏空对模子进行刑事遭殃. 相似地, 对用户未点击候选样本的数据(即负样本y=0), 但愿通盘视频记载V和候选视频vc的举座关系性较小, 该标的通过最小化(1−y)max(0, r(V, vc)−m2)保证, 使得举座关系大于阈值m2. 终末, 通过最小化公式(2), 在统共西宾样本上的损构怨来西宾模子.

2.2.3 模子预计

筹议到淌若候选视频与用户不雅看过的视频序列中的视频关系性比较高, 用户很有可能对该候选视频感景仰, 因此在模子西宾完成之后, 除了筹议多层感知机的输出, 还稀疏独揽候选视频和视频浏览历史序列的关系性来预计视频被点击的概率. 具体来说, 关于不雅看过V={v1, v2, …, vn}视频序列的用户, 其点击候选视频vc的概率p(V, vc)算计如下:

$ p(V, v_{c})=βp′(V, v_{c})+(1−β)r(V, v_{c}) $ (4)

其中, β为权衡常数值.

2.3 针对视频冷启动问题的处理花式

上述先容模子以视频的内容特征和坎坷文特征作为输入, 因此需要同期获取这两种特征才气对视频的点击率进行预估. 关于一个新上传的视频, 其视觉和音频的内容特征较容易获取. 但由于该视频是新上传的, 未在职何用户的视频浏览记载中出现, 因而无法获取新视频着实的坎坷文特征, 这导致模子无法处理新上传的视频. 关于这一问题, 一种浅易的约束花式是用全零向量替代视频的坎坷文特征, 但这种方式会导致西宾和预计不一致, 从而导致模子性能马上下落. 针对该问题, 本文建议两种处理花式, 阔别是模拟冷启动场景的西宾花式和基于隔邻的替代花式, 以擢升模子对新视频点击率预估的鲁棒性.

2.3.1 模拟冷启动场景的西宾方式

视频点击率预估模子通常基于大批用户的浏览记载进行西宾, 同期浏览记载中的每个视频齐作为旧视频(旧视频的内容特征和坎坷文特征可同期获取)进行西宾. 由于这种方式未在西宾流程中筹议新上传视频的情况, 因此基于这种西宾花式得到的模子不行很好地处理新视频的点击率预估. 为了缓解这一问题, 本文建议了模拟冷启动场景的西宾花式, 该花式在西宾流程中以一定概率将出目下用户浏览记载中的终末一个视频看成新视频. 通过在西宾流程中模拟新视频出现的情况, 从而提高模子关于新视频的点击率预估才气.

具体来说, 给定一个用户浏览记载{v1, v2, …, vn, vc}, 在西宾流程中, 以概率q将视频vc看成新上传的视频, 以概率1−q仍将vc视频看成旧视频看待. 由于新视频的坎坷文特征无法获取, 因此用全零向量替代视频的坎坷文特征; 而关于旧视频, 则使用第2.1.2末节中神气的坎坷文特征. 通过这种方式西宾的模子, 省略更好地兼顾新视频和旧视频的点击率预估才气. 在预计阶段, 淌若给定的视频为新视频, 本文用全零的特征向量作为其坎坷文特征; 淌若是旧视频, 则使用着实的坎坷文特征. 值得着重的是: 在本文建议的模拟冷启动场景的西宾花式中, 概率q为超参数. 当q为0时, 模拟冷启动场景的西宾就退化成普通的西宾花式, 即西宾流程作念统共的视频齐为旧视频; 而q为1时, 将统共用户浏览记载中的候选视频齐当成新视频. 为了让模子同期兼顾新视频和旧视频, 本文将q设为0.5. 在第3.4.1末节的推行给出了具体超参数q对模子性能的影响.

2.3.2 基于隔邻的替代花式

筹议到两个内容上接近的视频, 其坎坷文特征也可能相似, 本文建议的第2种花式是独揽新视频的隔邻视频作为扶持来匡助模子对新视频进行点击率预估. 具体来说, 在预计阶段, 给定一个新视频, 字据视频的内容特征算计其和西宾集聚其他统共视频的余弦相似度, 并将相似度最高的k个视频的坎坷文特征进行平均池化, 池化后的特征作为新视频的坎坷文特征, 而保抓内容特征不变. 不同于模拟冷启动场景的西宾花式通过再行西宾模子来擢升模子关于新视频的点击率预估才气, 基于隔邻的替代花式无需再行西宾模子, 只是通过改变模子的预计方式擢升对新视频的点击率预估才气.

3 推行终结与分析

在本节中, 咱们将对本文建议花式的灵验性进行考据. 第3.1节先容推行的基本成就, 包括给与的推行数据集、性能野心以及齐备细节. 在第3.2节, 本文进行了不筹议视频冷启动的点击率预估推行, 当先对本文模子进行消融推行, 并与其他已有模子进行性能比较. 第3.3节展示了筹议视频冷启动的点击率预估推行, 即被保举的候选视频为新视频; 在推行中, 咱们当先测试了模子的超参数对性能的影响, 并与基线花式比较来解释所建议的模拟冷启动场景的西宾花式和基于隔邻的替代花式对模子冷启动问题的灵验性.

3.1 推行成就

● 数据集:

本文使用了两个着实的视频点击率预估数据集, Track_1_series和Track_2_movies[25], 前者是电视剧视频, 后者是电影视频. 两个数据集均来自HULU平台着实用户的浏览记载, 因此在这两个数据集的性能犀利也能一定进程上响应模子在着实应用中的进展. 数据集的每条序列齐所以{v1, v2, …, vn, vc, y}的方式给出, 其中: v1, v2, …, vn默示用户的视频浏览历史; vc是候选视频; y默示用户在浏览了视频浏览历史中的视频后是否点击了击候选视频, 其值为1默示点击, 0默示不点击. 由于数据集的测试集莫得公开标注信息, 本文的推行性能均在考据集上进行测试. Track_1_series数据集共有2 642个不同的视频, 每条序列的用户浏览视频数目为10个, 其中, 西宾集有5 221 221条用户历史序列, 考据集上则有931 820用户历史序列. Track_2_movies数据集共有6 283个不同的视频, 每条序列的用户浏览视频数目为5个, 其中, 西宾集和考据集的用户历史序列阔别为1 123 786条和552 577条.

● 性能野心:

与之前的文件[26, 27]一样, 本文给与AUC作为性能评价野心. AUC的数值越大, 标明模子性能越好. 此外, 仿照之前的文件[6], 本文还使用了对数亏空函数(LogLoss)作为稀疏的性能野心. Logloss越小, 标明模子性能越好.

● 齐备细节:

在用Word2vec词向量西宾视频坎坷文特征时, 本文使用了CBOW模子, 并给与负采样的花式西宾, 窗口大小为数据集序列长度, 视频坎坷文特征维度设为64维, 其他给与默许的参数. 在用BERT模子西宾坎坷文特征时, 批大小(batch size)成就为128, 视频镶嵌特征和位置镶嵌特征的维度齐是64维, Transformer层中多头着重力[15]中的头(head)数目成就为2, 特征维度为64; 在Track_1_series数据集上, 启动学习率为0.001, 速即置mask的概率p为0.1; 在Track_2_movies数据上, 启动学习率为0.000 1, 速即置mask的概率p为0.2. 关于关系增强深度景仰聚集, 单特征输入时维度为64, 双特征输入时维度为128, 两个全流通层的维度阔别为512和256; 着重力层中, MLP的两层瞒哄层维度阔别为2 048和512, 其中, 瞒哄层后的非线性激活函数是sigmod函数. 公式(2)中的m1素养性地设为0.8, m2设为0.2, 公式(4)中的β设为0.7; 在西宾时, 学习率成就为0.0001, 批大小为64. 在西宾BERT模子和关系增强景仰模子时, 使用PyTorch西宾框架, Adam梯度下落算法, 当模子性能在2个epoch莫得擢升时, 学习率变为正本的二分之一; 当一语气5个epoch性能莫得擢升时, 提前终结西宾.

3.2 不筹议视频冷启动的点击率预估推行 3.2.1 消融推行

在本推行中, 本文从视频的特征选择、着重力以及亏空函数这3个角度对模子进行了消融推行. 表 1展示了在两个数据集上, 本文模子使用不同视频特征的性能比较. 不论是ACU如故Logloss性能, 当使用单个视频特征时, 使用视频的坎坷文特征(Word2vec或BERT特征)的模子性能清爽优于使用视频内容特征的模子. 比较两个使用不同坎坷文特征的模子, 两者在两个数据集上的进展并不一致: BERT特征在Track_1_series数据集上的进展比Word2vec特征好; 而在Track_2_movies数据集上, Word2vec特征优于BERT特征. 咱们推测, 这个不一致自得是由于两个数据集聚用户浏览的历史序列长度不一样: Track_1_series数据集的序列长度是10, 而Track_2_series是5. 由于BERT比较于Word2vec具有更强的数据拟合才气, 在序列较短的Track_2_ series数据集上容易出现过拟合, 从而导致性能变差. 表 1的下半部分展示了同期使用视频内容特征和坎坷文特征的性能. 推行终结知道, 使用两种特征的模子特出其对应使用单个特征的性能. 这个终结评释, 视频内容特征与坎坷文特征关于视频的点击率预计具有精湛的互补性. 绝顶是BERT特征和音频特征的组合, 在Track_1_series上比单纯使用BERT特征性能从0.712 1的AUC性能提高到0.739 5. 因此, 本文后续推行中给与使用视频内容特征与坎坷文特征的决议.

表 1 使用不同视频特征的性能比较(AUC越高, 标明性能越好; Logloss越低, 则性能越好)

为了考据模子中着重力层的灵验性, 本文进行了有无着重力层的性能测试. 其中, 无着重力层的模子用平均池化对历史浏览视频的特征进行团聚, 即以为每一个视频的蹙迫进程是一样.

表 2展示了在Track_1_ series数据集上的性能, 其中, ×标明模子不使用着重力层, √标明模子使用着重力层. 不错发现: 不论是ACU如故Logloss性能, 使用着重力层的模子齐清爽优于不使用着重力层的模子, 标明了着重力层在模子中的蹙迫性.

表 2 着重力层的灵验性

此外, 本文还对亏空函数中关系性亏空函数的灵验性进行考据. 具体来说, 本文在Track_1_series数据集上比较了莫得关系性亏空函数(α=0)和有关系性亏空函数(α=1)的性能各异, 终结见表 3. 关于使用不同视频特征的统共模子, 有关系性亏空函数络续的模子清爽进展出更好的性能. 该推行标明了关系性亏空函数关于视频点击率预计的灵验性.

表 3 关系性亏空函数的灵验性 3.2.2 与其他模子的对比

为了考据本文建议的模子在不筹议视频冷启动情况下的灵验性, 本文和在Track_1_series和Track_2_ movies数据集上性能最佳的几个模子进行了比较. 表 4展示了本文模子和其他先进模子在两个数据集上的性能. TSE, mDIN, REDIN和MMDIN将视频的点击预计任务看作二分类问题, 字据浏览历史的视频和候选视频的关系性来判断用户是否点击候选视频. 这类模子通过端到端的方式进行西宾, 模子浅易且进展出较好的性能. 其中: TSE以为用户最近不雅看的视频比较于很早前不雅看的视频关于视频的点击率预计更具参考价值, 因此引入了时辰衰减统共来增多最近不雅看视频的权重; REDIN在DIN的基础上加入了内容特征关系性模块络续特征学习, 从而擢升了模子的性能; MMDIN通过两层着重力层来更好地拿获候选视频和视频序列视频中的关系性. 不同于上述模子基于二分类模子, CMN径直将视频点击预计问题转动成候选视频和历史视频序列中的视频的关系性算计问题, 字据视频间的关系性来推测视频的点击率. 但该模子比较依赖于西宾数据的数目, 在西宾数据更多的Track_1_series数据集上进展出比以上4个模子更好的性能; 但在Track_2_movies数据集上, 进展比DIN和REDIN差. 本文用在各个数据集上性能最佳的单模子, 即在Track_1_series数据集上为使用BERT和视觉特征的模子, 在Track_2_movies数据集上为使用Word2vec和语音特征的模子, 与以上模子进行比较. 表 4追念了在两个数据集上本文建议的花式与现存花式的性能比较(现存花式莫得论说Logloss性能, 本文稀疏论说了该野心的性能以便于后续职责比较). 如表 4所示, 本文建议的单模子在两个数据集上齐特出了已有模子. 这是因为本文建议的模子同期筹议视频的内容特征和坎坷文特征, 而对比模子主要筹议了视频的内容特征. 这个终结知道了稀疏地对视频的坎坷文特征进行建模, 对视频的点击率预估是有匡助的.

表 4 与其他先进模子的性能比较

此外, 本文还将多个不同的模子进行和会, 行将不同模子的点击预计概率取平均作为最终的概率. 在Track_1_series上, 将BERT和语音特征的模子以及BERT与视觉特征的模子进行了和会, 得到了0.742 5的AUC性能和0.372 7的Logloss性能. 在Track_2_movies上, 和会基于word2vec与语音特征、word2vec与视觉特征、BERT与语音特征和BERT与视觉特征的4个模子达到了0.699 7的AUC性能和0.636 6的Logloss性能.在两个数据集上, 和会后的模子齐进展出比单模子更好的性能, 这评释模子和会是有匡助的.

3.3 筹议视频冷启动的点击率预估推行

为了考据本文所建议的冷启动场景的模拟西宾花式和基于隔邻的替代花式关于视频冷启动问题的鲁棒性, 本推行使用BERT特征和音频特征的模子作为基准模子, 测试不同花式关于新视频的点击率预估才气. 由于Track_1_series和Track_2_movies数据集不行径直用于冷启动测试, 本文将两个数据集聚统共测试序列中的候选视频视为新视频. 针对新视频, 模子无法获取这些视频的坎坷文特征.

勾引指南 3.3.1 模子的超参数对性能的影响

图 3展示了在Track_1_series和Track_2_movies数据集上, 冷启动场景的模拟西宾花式中超参数对性能的影响. 值得着重的是: 当概率q为0时, 默示在西宾阶段不使用模拟冷启动场景的西宾花式; 大于0时, 默示使用该西宾方式. 关于新视频的保举, 不使用模拟西宾的模子在两个数据集上的性能阔别唯有0.579和0.577; 而使用该西宾方式时(q > 0), 大部分的模子的性能齐得到了擢升, 知道了模拟西宾关于新视频保举的灵验性. 然而当q取为1时, 模拟西宾花式反而起了负面影响, 此时模子性能比不使用该花式还差. 咱们推测: 当q取为1时, 模子将统共的候选视频齐看成新视频进行西宾, 在西宾流程中统统忽略了候选视频的坎坷文特征, 从而导致性能变差. 该终结也在一定进程上也评释坎坷文特征对新视频的保举是有匡助的. 当q取为0到1之间的值时, 模子在西宾流程中同期筹议新视频和旧视频; 当q < 0.5时, 更多地筹议旧视频; 当q > 0.5时, 更多地筹议新视频. 总体上, 当q取中间值0.5时, 即模子更平衡地兼顾新视频和旧视频时, 模子在两个数据集上齐进展出举座更好的性能.

图 3 不同的概率q关于模子性能的影响

此外, 图 3还展示了通过模拟西宾后的模子关于旧视频的点击率预估才气, 即模子在预计阶段不错径直使用视频的坎坷文特征. 在两个数据集上, 模子关于新视频的点击率预估性能低于旧视频的预估, 这评释保举新视频比较于旧视频更具挑战. 除此以外, 咱们还发现: 当q越小时, 模子关于旧视频的保举性能越高. 这是因为当q越小时, 模拟西宾花式会愈加的眷注旧视频, 从而有助于对旧视频的保举. 诚然通过模拟冷启动场景的西宾模子对旧视频的点击率预估性能会略略下落(q > 0的性能比q=0的差), 但关于新视频的预估比不使用该西宾花式的模子进展出清爽的上风.

图 4展示了超参数k关于基于隔邻的替代花式的性能影响. 在Track_1_series上, 该花式关于k比较明锐; 而在Track_2_movies, 该花式进展出更好的踏实性. 咱们推测, 这可能和数据集的视频数目揣度: Track_1_ series比较于Track_2_movies数据集的视频数目更少, 因此胁制易在较少的视频找到合适的隔邻视频, 从而导致对超参数更为明锐. 鄙人面推行中, 本文将性能最佳的参数作为默许参数, 即在Track_1_series上k取50, 在Track_2_movies上k取5.

图 4 不同k的关于模子性能的影响 3.3.2 性能比较

为了考据第2.3.1节和第2.3.2节中所建议的两个花式的灵验性, 本文将其与基线花式进行比较. 基线花式默示不使用模拟西宾的模子, 在预计时, 用全零的向量作为新视频的坎坷文特征. 表 5汇总了不同花式关于新视频点击率预估的性能. 推行终结知道: 在两个数据集上, 本文建议的两种花式齐清爽优于基线花式, 这标明这两种花式关于新视频点击率预估的灵验性. 比较模拟冷启动场景的西宾花式和基于隔邻的替代花式, 前者在Track_1_series上进展得更好, 尔后者则在Track_2_movies上进展出更好的性能. 咱们推测, 这不一致的性能与两个数据集视频数目揣度: 由于Track_1_series数据的视频较少, 将导致基于隔邻的替代花式不行找到合适的隔邻视频从而影响性能. 因此, 基于隔邻的替代花式在Track_1_series数据集上比模拟冷启动场景的西宾花式差.

表 5 不同花式关于新视频点击率预估的性能 4 终结语

本文通过同期使用视频的内容特征和坎坷文特征来加强视频点击率预估模子的性能, 并瞎想了两种不同获取视频坎坷文特征的花式. 在两个着实电视剧和电影保举上的推行标明: 两种特征有很好的互补性, 有助于擢升模子的性能. 针对视频的冷启动问题, 本文建议了冷启动场景的模拟西宾花式和基于隔邻的替代花式.推行标明: 这两种花式齐能清爽擢升模子关于新视频的点击率预估才气, 关于视频的冷启动问题进展出更好的鲁棒性. 此外, 当西宾视频较少时, 保举使用冷启动场景的模拟西宾花式; 反之, 则使用基于隔邻的替代花式. 目下的模子还有很大的擢起飞间, 在后续的操办中成人色站, 咱们将对视频的内容特征和坎坷文特征之间作念更深档次的和会而不是浅易的拼接; 同期独揽用户的个性化信息, 进一步擢升模子的性能.



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False