七月在线公开课笔记-三十-

龙哥盟 / 2024-11-11 / 原文

七月在线公开课笔记(三十)

人工智能—计算广告公开课(七月在线出品) - P4:Lookalike相似人群拓展项目实战 - 七月在线-julyedu - BV1SA411H7Se

OK我们现在课程开始啊,可以听到我说话吗?你今天讲的话是looklike相似人群扩展啊,这个也是在推荐广告里面是非常经典的一个业务啊。它呢是源于2018年的腾讯广告算法大赛啊,大家可其实可以看到。嗯。

其实从腾讯网算网算网大赛,从17年到2020年都是他们的赛题都是非常贴合真实业务的,也是非常经典的一个赛题。所以说我们把每个赛题进行一个复盘,进行一个拆解,就非常值得我们去深思和学习的。

同也同时也可以挖掘一些呃挖掘一些top选手,他们的一个解决方案的一个思路,和他们如何比如说提取特征工程,如何去挖掘一些强的一些信息,一些check,或者说他们使有哪些模型。

来去解决这个真实场景下的一个问题的。那么今天呢从5个部分进行呃就分享的一个赛题背景背背景,探索性数据分析特征工程CTR模型建模。扣件。以最后的模型融合。

那我们先去了解一下looklike它是具体是什么一个业务啊,场景,它是相似人群扩展。就比如说。客户的吧,客户他们会上传一部分指定的高质量的一些人群。那这个高质量人群呢就是我们的种子人群。

那么主要是去依托于种子人群,我们从里面去找到一些较为显显著的一些画像特征。然后像腾讯里面的话,他会嗯他们会在他们的大盘当中寻找一些嗯与其高度相似的人群,就扩展人群。就根据这些特征特征。

画像特征来去找到相似人群。那我们不可能说人呃依据人为的。所以说我们需要去去用建模的方式,对建模方式如何去对他进行一个扩展。那我们有了种子人群,有对他投放的一些广告。那这些种子人群。

他对应的种子包就是对应的这个广告。对,如果他点击这个广告的话,其来说我们依托这些点击和不点击,就是正向和呃负向的一些样本我们进行建模来去提取出来他一些正向的一些含义,就是说这群种子人群,对吧?

他们有哪种偏好,哪种兴趣,那我们依托依托于建模的方式来去提取。然后呢,我们再从我们的一个人群库里面,对吧?对,也给这些人群给他们推这类广告,那我们看他是否发生转化,那如果发生转化或发生点击的话。

那其他和我们种子人群就有一些相似的一些兴趣。那我们可以把它归为相似人群了。嗯嗯分为三点,他的一个业务一些作用,更好触达意向的用户。就是我们原有的人群是非常少的,所以我们需要扩展人群。

把那些具有相同意义向的用户进行扩展。第二个话就是说更高的互动转化可能性。啊,最后呢就是找到潜在的目标人群帮助拉新。那最后一个是非常关键的。因为现在来说的话,很多他们的公司都会在用户增长,就是说嗯拉新呀。

或者说就是一些对一些用户一些那种那种那种成成熟的用户吧,我们进行一唤醒。对,都会做一些用户增长相关的一些算法的啊。当然这也是其中一部分。当然我们这些就是推荐这些的,他也是也可以算为里面的一部分的。

呃,三部分种子人群,然后基于用户画像提取用户特征,然后我们再去扩大受众展示相关的一些广告。那第一个呢是先去上传,就是它这个业务背景嘛,就是说最开始他会就是在这个比如广告平台。

或者说我们这个类似一些系统平台里面提供一些上传一些种子用户啊,然后呢去筛选种子用户特征。那其实就是挖掘一些呃就有相关一些意向,相关一些兴趣,具有一些共性的一些特征。然后进行匹配。那根据上面的特征。

从全量活跃用户中筛选出另一批与种子人群最为相似用户。那就这就是整个流程了。嗯,这个赛题呢他其实是做了一个简化。对,不需要我们不需要我们从全量活跃用户里面来进行一个嗯。不需要我们去找到全量用户,对吧?

他其实已经给我们那啥了,已经给到我们这些全量用户了,对吧?给到我们这些用户不一定是全量,他给到这一部分用户了,同时也给到这个用户他对应所点击的广告了。其实就是说。嗯。就说他其实已经说给到了一个用户了。

优的ID对吧?U的 IDD然后又给到另外一个广告ID了。对,这起来说是他们本身是提供到的对,那我们需要做,就是说看这两个配合的下面,对吧?它是否发生转化,对吧?就是点击啊,或者说CVR这种的形式,对吧?

啊,有点击或者说有转化,还有正就是标为一,那反之的话就是零这样的一个一个一个形式了啊。

那赛题任务呢?赛题任务我刚才已经描述了5个月还是比较比较清楚啊。大家讲一下,本赛题呢是将为参赛选手提供几百个种子人群啊。嗯其实每个种子人群它对应的是一类广告特征。那比如说这种子人群。种子人群里面对吧?

它有很多的很多的用户ID那它对应的一个广告广告特征或者广告IDAID。啊,第二个也是一样的,很多种子人群对吧?它对应的AIDAE刚才是比如说按按按零算法账来,就这种形式嗯。然后出于业务数据安全保证考虑。

所有数据均为脱敏处理后的数据,整个数据集分为训练集和测试集。那测试集就需要我们最后要提交这个部分了,就它给到了user ID和对应的AID对吧?然后我们对它作为一个准确的一个呃预测。

那预测的话是最后给出是概率结果的啊,比如说0。760。76,就说它发生发生点击或发生转换的一个就发生点击的概率是0。0。76对就行了。不需要把它转换为一或者是零这种形式啊。呃,用户是否属于种子包用户。

那其实是否属于种子包用户,其实就是否去点击这个广告了,两个含义是一样的。所以说我们把这种是否属于可以转换成1个CTR问题。那我们知道。在广告排序里面对吧?就是说我们在做推荐的时候,对吧?一个排序环节。

那其实就是看它的1个CTICVR1个一个概率的对,然后做个排序。那其实它和经典这个问题其实说有很大的一个相似性的。所以说我们可以把它转换成CTR这个问题去解决。包括我们在高特征,还有一些用的模型。

也可以用CTR排序模型来去解决的,这是没有任何问题的。测试集将检测选手算马能否准确的。检测出用户是否属于现在种子包,训练数据有完全一致。训练数据测据总部完全一致。OK啊,这个是我们那个任务啊。

那我们来看一下评价指标啊,一般来说的话,常用的史其实这种二分类的话,包括在涉及到一些广告推荐这块的话,都是用AOC这种方式啊。对它具有那种那种。嗯,像正样本和副样本区分开来一个白一种排序能力啊。

对他不会受他前说不会受你的。他其实关注的不是咱们的一个准确率。对,不是关注准确率,而是关注的话就是一个区分性和排序性。对,我们来看一下嗯,对于扩展后的相似用户,如果在广告投放上有相关的效果行为。

就是点击或者是转换啊,则认为是正例。对,那其实点击的话就是我们对应的CTR问题,转换的话是CVR问题,其实就非常相似的啊。如果不产生效果行为,则认为是复利。呃,每个带苹果种子包会提供一个信息。

种子包对应的广告ID及其特征,以及对应的候选用户及就是用户呃用户ID及其特征。选手需要说就是针对于每个种子包,我们去计算它的AOC的啊。因为每个种子包每个广种子包里面对吧。

它起来说广告特性也是不一样的对,所以说我们为何为了更好来去有这种就是针对性,对吧?包括比较经典,就是说嗯我们现在前说很多的评估的话,其实说嗯不是来用AOC这种方式来进行评估,而是那种JAOC的方式。

对吧?啊,我们来我们具体在做精准这种推荐,精准的一些营销的时候,我们看到的不是说因为每个用户他这个行为习惯不一样。对,所以他最后得到概率结果的分布也是不一样的。所以说我们为了更好针对于某个用户。

来去看它AOC的一个效果。所以说才会有了JOC这种形式。那其实来说JOC和我们这次这个评价主要是蛮类似的。就说我们依托于按种子包,我们去分成多个,就是我们有M个种子包,对吧?

对我们看每个种子包下面它的一个嗯它这个AOC的一个效果如何,最后进行一个加权啊。这个AOC这个思想是非常类似的啊。也是现在就是说用的比较多的,而不是说不考虑种子包,它本身的一些一些数据的分布,一些效果。

一些它的一个概率情况,对吧?而是一股脑的只用1个AOC来进行评估,那肯定是不一样的。这是我们的评价指标。再往下是特征工程部分,哎,是探索性数据分析。探索性数据分析呢,这是我觉得是非常重要的环节。

因为我们最开始候对这数据完全不理解,对吧?他提供哪些数据啊,一个提供哪些数据,对吧?他给到数据对吧?有哪些数据。第二个,每个数据它大小。它大小它类型。它的分布。我们都是不不了解的。

所以说我们需要第一步就是说我们先去了解数据,读懂数据,才为了就是帮助我们更好的去开展接下来工作。不管是我们在做比赛也好,还是说在。接触到一个新项目,就工作中项目也好,都是按照流程来的。

本次竞赛呢他给到是脱敏后续,对吧?时间范围是30天,但是他没有给到每个样本的一个时间的。所以说他确实到时间这个部分了啊,所以我们不需要考虑时间相关的一些因素,因为本身没有给到这个因素的,给给到这个变量。

数据可以分为我们的训练集、测试集、用户特征以及种子包对应的广告特征四个部分啊。训练级的话就是已经给到label了,就是说AIDUIDAID的话就是用户ID。UID的话。

AID对应的是广告IDUID的话给到的是用户IDlabel的话就是嗯它是否发生是否属于这个种子包,或者它是否点击或者说是否转换啊,测级话需要我们去预测的一个一个一个pe尔队这种的嗯。

然后用户特征这块的话,他给到还是蛮多的。就是说一个用户案例的话,他给到一些filturegroup一group2group3,那这group什么意思呢?就是一个一个特征组。比如说他的一个有个兴趣啊。呃。

EREST啊兴趣一它里面对吧?也许有个125就逗号间隔这种类,然后八这种的形式,对吧?它其实是一种多值特征,就是他把这个兴趣这一类兴趣。比如说星期一的话,也许代表他嗯。嗯。

我们可以把它假设假设成一种运动的一个兴趣吧。对我们的运动兴趣其实说不止是一个的,是有很多的啊,所以我们可以假设为他运动兴趣啊那。interest二的话对。哦。

二的话对二的话我们可以把它展设成一个色彩分布,色彩兴趣对它也是分为各种的已经透明后的一个一个种数值的一个一个一个一个类别的一个多质特征了。比如说5100啊,里面也许可以代表一个颜色。

但其实他这个起来说兴趣还是蛮多的,也不确定是什么,但大致可以这样方式来进行理解。对。每个特征组里面是一个多的特征啊,我们要注意这点啊。对,就后面我们是来说关注怎么来去解决这个问题啊。

怎么来处理这个问题啊。对多的特征,我们该怎么进行一个拆开展开啊这种方式。也是在很多的一些很多业务城人中,其实见到的并不多的啊。广告特征文件对,就是对应的广告ID对吧?嗯,他的广告主ID。

他的一个什么ID啊,创建素材ID。嗯,他的一个素材大小。广告类别ID嗯。厂商生产这种ID啊,或者说生产那个类型的ID一种呢。对,大概就这样的啊,一共分为4个部分。

那么主要是围绕着围绕着呃围绕着AID和UID我们去展开来去构造我们的特征的。这基本的这个文件啊,我们一个了解啊。接下来我们来看一下,我们将这一些打开啊,就是数据打开,就说比有就是一个这是广告ID对吧?

广告ID对吧?它的一个我们直接就hard对吧?HED hardd来看它前5个对吧?前5个。前五个他的一个前五行,对他一个基本的一个数据的样子,什么样子的,我们先做初步了解啊。他其实全部做了脱明了。对。

而且已经帮我们做好了一个转换了。他不会说就是给我们那个字符串这种了,或者说object这种类型的,直接是按这种数字型的,已经给出来的啊,我们不需要再做label in的这种操作了嗯。那其实这样看的话。

其实只能看到大概的信息,我们也不了解它有个分布的啊。那我们继续往下看吧。用户的信息啊,这可能就是说给到了感觉更复杂一些哈。用户ID他的年龄。性别。嗯,婚姻状态。婚姻状态看蛮多的呀,111啊。

这也不清楚什么意思啊。我今天晚上看教育嗯他的一个。消费能力吧是消费能力吗?对,或者说这是它的一个呃LBS这个那该是个位置嘛,LBS位置什么兴趣2兴趣5,然后是KW,这也是个多日特征啊。

对我们他其实来说都是多日特征。我们端时处理方法都是一样的。直接上我们都按相同方式来进行处理就可以了啊嗯。哎,刚才几个可能说意思不太了解的,我们可以去去看一下他是什么意思啊。对。

那现在我听到就是说腾讯赛的一个官网,对已经举办了举办了四届了。对我们可以看网届赛题啊,网年赛题里面还有一些介绍的。

嗯。

18年的。

哎,直接可以看到了,它里面是可能对数据有更详细的一个描述啊嗯。婚姻消费能力,然后是地理位置兴趣。兴趣呃,它分别以12345有5个这种这种特征组,还有关键词。较兴趣类目更细力度的表示用户喜好啊。

那也是一种用户戏取兴趣,但可能说更细一些啊。还有topic就是主题。这用的是LADLDA挖掘的。LED这种这种方式,对吧?这是一种那种文本的挖掘这种方式。文本挖掘方式。对,来挖掘用户的喜好。

然后分为topic123,这应该也是都是特征了。还有APPAPP近期安装的行为。APP活跃。上网连接类型。那有不同上网方式。其实不同上网方式来说话,其说我们可能就是说我们在获取这种这种。嗯。

会理服务的时候也会有一些不一样的一些广告,或者说不一样的一些反馈啊,这可能也算差异性的。包括不同操作系统,其他系统其在也反映出。反映出人的一个。差异性对,不管你是安卓和IOS这个学说,你整体来看哈。

从宏观角度来看的话,它是存在差异性的。人的一个整体的一个兴趣呀,或者说其他的一些呃状态啊。移动运营商。移动联通电信。是否有房?

啊,这是我们的用户的信息啊。

那现在看呃,这块的话,我做了个基本统计啊。对,就是对于UID还有我们的广告ID对吧?AID我们来看这个un unique的话,就是说他在训练题里面,对吧?是里面有多少类用户有多少个用户。

多少个不同用户对吧?对啊。就是一个班有45人,他就是每个人都是不一样的。所以他按他俺有那个就45了,但在系统里面不一样,他可能有45个,但是可能。嗯,小红出现了10次,对。

那可能只是最后他Iunic只有30多。这个I的话就它唯一的一个属性有多少个,就是说唯一的这个用户,他有多少个。那就是780多万。对。那我们来看测试集,测试级的,un uniqueic的话。

它是有200多万的。嗯,总共的话是。90900多万900多万。对。啊,后面我统计一下就是说训练集和测试集对它的一个重复,就说我们的用户ID有多少重复的。我们可以发现重复的ID是非常少的啊。对,所以说你。

将AID的话,哎UID。本身不能作为特征的。怎么说呢?因为我们重复的并不多的,重复的并不多。所以说你用它的话会存在就是说你后面不存在UID的话。

对可能会出现那种呃一些一些新的一些UID就类似于感觉这种冷起的一个对用这的话是完全不起到这种泛化作用的。所以说我们在高特征的时候,我们是可以。围绕着UID去构造,而不能用UID本身的对。这一点需要注意。

先看一下我们的AIDAID的话就是我们的种子包。那每个种子包它有对应的一个广告ID那173虽然你173,测立173所以173。173百分百。啊,学习测试都是一样的啊,然后我们嗯。百分百重复啊。

这个就是说都是一样的,没有说它存在一种一定差异性的这是我们的AID的一个分布啊。是。嗯。这是其家说对我们数据基本的一个了解。Oh。那接下来我们看一下,就是我们该怎么去构造一些特征的啊。对。

这块我这块我是我当时参这个比赛,对吧?我是大概就是列举了一下。对,就是我们这块构造一个方式,对吧?第一个是。Space to, Sp, space。这种话主要就是说对那种那种那种那种那种那种多折疼。

对吧?那种多的特征对吧?我们可以用那啥用那种词频统计方式,对吧?con vectorctor那种那种方式来进行一个展开啊,还有一种的话是基础的特征,就是说原本的一些用户信息,对吧?原本的一些特征。

我们不做任何处理啊,直接把它当做一个类别特征,或者说当成一个数字特征来用。就用原本用特征,它的一个年龄呀、性别呀。对广告特征的话,它对应它一个广告位的一个广告展示的一个呃sizeize。对。

然后它的一个广告主ID这样的嗯。统计特征的话就是are unique collect的话就是说它点击,那我们可以把它看作一个就是一个count。countter类特征。theun对count就这样的。

还有一种话就是。艾ic克的话其实就说他的意思就是说。意思就是说呃比如说一个用户对吧,一个用户一个用户,他呃他那个兴趣,他的兴趣的一个一个一个范围,或者他所看到的一些。嗯。😊,看到一个呃兴趣,对不?

比如说原本的话可能说小红对吧,他可能说只有一个兴趣,对吧?一个兴趣对,一个兴趣。那小明的话他有很多兴趣,很多兴趣。对。就他按 uniqueic就高一些,它一个整体的一个兴趣的范围就更更广一些。对。

就可以描述出两个用户一个性别的兴趣的一个差异啊。点击的话就是说如果小红他可能就点击了一次呃,就护他的一个整体行为一次。那小明的话可能100次。啊,那其实也可以反映出用户他经常会登录。

我就很少登录这个平台使用我们这个产品。那这个话就很经常登录我们平台去点击我们广告,使用我们这个产品的啊,这也是从不通。角度统计来去反映出用户的一个信息的。再往下的话。

就是我们对于这种特征组这这种这种多轴特征对吧?我们也可以统计它的一个长度的啊长度,其实中反映它的一个信息的一个范围了哈,就和刚才那个unic蛮像的对。这种还有一种比例特征就是。组合交叉。

别特通话是刻画某类用户的一个偏好的对。哦。根据各类偏好更好区分区分用户。别听的话就是retail这种。啊,比如说我们来统计说嗯统计统计呃。AID对吧。AID和其他的一些。和其他一些ID啊。

其他一些呃比如说一些广告类的ID对吧?广告的对,就是UID对吧?UID啊。那这时候呃我可以不用UID,我用其他的吧,就是弄弄种其他的来看,我找一个吧。

有对应素材ID吧。是啥ID。素材ID对吧?素材ID对,我们来看可能这个广告对吧?这个用户对吧?用户对吧?他可能对应素材素材A的话啊,点了一次,素材B的话点了10次。点了。谁的话哎,点了5次。

他总共点多少次呢?总共点了有16次,那就一除以16。10除以16。5除以16。那最后这个这个这这个比例的一个大小就反映出他对这个这类ID的一个兴趣的一个。偏好重要性能。

其count本身的话是反映不出来的,反映不出来它对于具体的一个ID的吧一个一个程度,只是始能只能反映出这个广这个用户他整体的一个整体一个活跃度这样的一个信息的。再往下就是交叉组合特征啊。

这块对应的是转化率特征,这块后面会详细介绍,因为这是非常重要的一部分啊,在很多的场景下都会去用到的。下面我们来看就是我们对于多种特征,我们如何进行一个处理啊。对,就这种话应趣呃兴趣的话。

interest它里面很多这种这种这种数值,对吧?我们最简单方式的话是扎它展开,这种灵异这种形式进行一个展开,对吧?展开。对,就是其实oneho和因为它里面不存在重复的。所以说你不管是做oneho也好。

还是做那种那种那种那种词屏这种。统计也好,对吧?啊,它起来说都是一样的,都是这种0101的。因为里面不存在重复,所以不存在对哪个兴趣。可能比如不存在对兴趣其实,可能说它会出现二的。

因为本身都是不重复的啊。另外一种话是TFIDF啊。这话题来说就是说我们不仅统计说他在一个这个我们每个看成一个。看这个文本嘛,对吧?我把每一个好像看这个文本,那我把整个in一,我们看这个文档。对。

就是他不仅是看说在这个文本里面的一个出现频次,对吧?他还要考虑到在这个文档里面出现了一个频次。对,然后最后的话是上面统计结果。对,除以下面统计结果。对,一个是它这个文本里面的。另外他的文档里面的。啊。

是这种方式来进行来进行一个获取的。就TFITFIDF。同时呢它里面有一些参数,我们可以过滤,就说把一些出现比较少的,他们参就是me count,对吧?me count这种这种这种参数。对。

如果说我们等于5的话。等于我话,那我们就设定说在这些兴趣的一个属性里面,对吧?最少那个兴趣,比如说其实他在所的文档里面,他可能出现了出现了嗯4次。对。那我们可以看到它出现的频次哎。

小于我们这个最小的一个设定值,那我们会直接把70给过滤掉的。那这个意思就是说我们把那些非常稀疏非常稀疏的兴趣ID,对吧?我们直接过滤掉了,因为它不具备不具备统计意义,不好的去构造,去反映出用户兴趣。

因为它只针对于极少数些用户才具有一定区分性的啊。然后的话这样构的话之后,我们可以用种剧类的方式,对吧?一种就降维的方式对吧?这种话看IID啊NMF这种话,IIC的话,这种它是这种文本挖掘这种算法。对。

或者说我们也可以用PCA这种方式,对吧?啊,都可以说我们先展开这种高维稀数的,然后再经过再经过我们这种这种这种这种降维的方式,对吧?因为来说的话,它可能就维度非常高,就是这种这种上千上万。

可能还更高的对吧?所以我们经过降维方式处理的话,可能会。更友好一些啊,就是对多个特征我们如何处理啊?那家下去看。CTR目标编码就我们刚才讲的就是说转化率这种特征。嗯,因为它和我们的目标,对吧?

就是我们它是否属于或者是否点击有直接的关系的啊,但本次赛题它是没有给出时间相关特征的。我们如何去衡量这个特征,软如核量这个特征,它的一个转化率,我们是不是可以直接说,比如说我们衡量呃衡量AID吧。

我们可以用转化率直接描述AID它对待事物的一个。对待15个态度啊。比如说我们求的他,就是说他的他可能就行为非常多,对吧?有上百次对吧?上百滋张行为。最后它的转化率是。嗯,0点。七八对。这是AID1。

然后AID2的话。啊,也差不多就50次吧。转化率0。27。嗯。那其实可看出来。呃,UI啊抱歉,UID用户ID对吧?用户ID这可以看到。UID的话,它更容易去接受一个事物,对?他可能兴趣范围更广一些啊。

那UID2的话对他可能对这些事物可能接触比较缓一些,所以说造成他对它的一个转化率非常低,所以短时间内不可能去对它进行点击的,或对它进行一个转化。啊,这是对于两种事物的一个一个区别。

那因为它直接和label有直接关系,所以说我们不能直接。不能直接对他求命。命的话就是说我们领域的占比啊,就它的一个转化率。所以我们考虑就是说这是一个真实业务中的一个问题,就是说我们如何。

因为如果我们用全局刚开的命的话,我们用全局方式,对吧?全局方式来构造。那如果说这个用户他只在前面这段时间段,我们把它看成一个5个时间段吧,他是在第一个时间段出现了。但是你用。呃,他只在嗯。啊,怎么说啊。

我想想。呃,如果他只是在某个时间段用上,对吧?但是你在统计的时候,比如它只是用在时间段出现,对吧?你在统计的时候,你把哎券一也考虑进来了。对,但是我要统计这部分特征啊,你不要考虑对它了。

它是本身就有个结果,就属于说我们我们未来信,我们可以把它当做一个未来信息,对吧?未来信息我们要统计得到这部分信息,所以说我们就不能用这部分信息做统计。不然的话,你是数据穿越了,你要统计它。

你要又要去用它那两个是有矛盾的对吧?所以说我们在构造的时候一种很好方法。如果说这里面因为它不包含时间,对吧?和时间哎没有联系,所以我们用五指交叉方式。

我们可以去思考一下西瓜书里面呢还会讲到keyflow,为什么要用keyflow,我们来去做线下验证。对吧我们不可能说我们。要去得到train一对吧?它的一个结果。然后我们在训练的时候。

把 train一的数据我们也用上了。那这样的话。是不是出现了数据泄漏了?对。这也是K for的它的一个原本的一个其他验证原本的一个。意图吧,原本的一个就他的一个。目标。对,原本的一个目标。

所以说我们这时候才会用五的交叉方式。如果我们想要衬一的结果的话,另外四个做统计,那就是求它的。对,那刚再往下的话,我们要得到就是说嗯得到第二部分,就是说我们要得到train2的话。

我们要用就是train一和Te345,对吧?就除了圈之外,其他的四个部分来做统计,这样依次去得到我们训练集里面每个模块对应的转化率,那策略集就比较方便了。我们可以直接用训练集整体来进行构造。

因为这不出现泄漏。我是用这个数据以外的数据我们做统计的啊,跟这数据没有半毛钱关系的。所以这是这种方式。但是呢。但是呢在于推荐广这块话,也会出现个问题,数据非常的稀疏啊。比如说个冷品对吧?

他只被点击了四五次,对吧?或点击两三次,那恰巧这两次全都发生转化了。对,就百分百了。就百分百了。对。那百分百的话,我们难道我真的认为它的转化率是百分百吗?是不行的,因为它太过稀疏。

就不具备那种统计意义了。所以说我们一般方式就是说我们是否可以加入一些平滑的方式,就说类似于被A平滑。对我们加一个加一个加一个底数或不是加一个在分母上。在分子上同时加一个数,对吧?我们来平滑掉它。

就说我们没有哪个没有哪个人,对吧?没有哪个人我能够打跑票。就说我们看我们在做模型训练的时候,我们用数目型也好,我用财模型也好,是不是可以发现我们不管去预测什么样样本,对吧?把预测他得到他概率结果。

我没有找到出概率结果是一的这种结果。最大也就0。99几吧。对。对对,因为事物它不具备这种绝对性啊。所以说我们预测时候发现呃概始结果最小的也有0。00000几啊。对,再少也不会直接到达零的啊哈。

所以说这时候呢我们可以用一些就是说B斯平滑的方式来解决这个问题啊。啊,这里就不做细讲,大家可以去查这些相关的资料。对如何用BS平滑方式来去辅助我们做目标编码的。对。

这是我们做目标编码的时候需要去注意的问题啊。啊,因为这种方式用的是非常多的,不然在比赛来说,还是我们在做在工业界时候也会去遇到这种方式的。接下来的话就是我们的一个。交叉特征的一个组合。对。原本来说的话。

我们想要去了解一些更细利度的信息。原本的用户年龄、用户性别、用户等级。这些来说,他可能本身来说,可能说你如果说你做推荐对吧?做推荐啊,你只是考虑到用户性别了,对吧?用户性别了。女或者男来做推荐。啊。

那是不是这个非常粗糙呀?😡,我们这时候能不能考虑其他一些信息啊?对我们将将将将性别ho面年龄做一个组合。比如1234就年龄段这种578这种的。对这时候女性年龄段一,我们做个推荐,女性年龄段二做推荐。对。

这时候来说话,他是不是信息更加的细一些了。我们推荐的时候能够是不是更加精准了?对,个性化推荐它就要达到个性化。所以它的力度一定要细一些啊,但是事也不能太细啊,你直接就是说你直接完全针对于每个哎。

其实这个广告I啊,对于这个用户ID了,我们做推荐了。对,那如果用户ID是新的,我们怎么办你去解决个问题啊,肯定不行了,对,这个就太细了。对我们要就是说嗯在它之上吧,其实在这种UID之上对吧?

就比它粗一些的对吧?性别年龄啊,职接这样的一个一个方式,看这块的话我是将可以组合这个部分的吧?就它进行一个交叉组合了。我们可以两讲调叉组合啊,也可以生层的调叉组合,也是可以的啊。

这种是我们手动的去来构造一些特征了。这种方式对,然后呢。go完之后呢,我们可以去来得到我们的一些我们想要的一些最终的一些特征,就cant。

areun就是这个的话嗯 unique的话就是是unic count对就同它一个属性的一个个数retail呃,ge呃in就是说目标编码啊等等,这样都是可以的。这个就是我们一个加哈特征这块。

我们可以用到那种方式。刚才那些都是我们的一个特征部分了。对啊,需要去注意到的一些问题啊。接下来我们来看就是说我们的1个CTR模型构建的部分了。对我们可以用哪些模型?

包括这些大赛当中大家都在用的是什么模型?啊,首当其冲的letGBM其实我们大家如果去开go,对吧?卡给一看,大部分这种结构化数据的话,大家都会用LGB的,或者说用叉GB对吧?这种数模型的话肯定要用的。

而且非常的稳定啊。那其的时候的话就是说呃可以了解一下,就是说这种模型它的一个差异性的对。啊,只是对于这块的话,我给出就是叉GB和LGB它这个差异性。嗯,叉DV的话。

它是按层级就是按每一层每一层的话进行分裂。LTB的话是按夜节点进行分裂的对。然后很好的工程有啊,但是说呃学习模型的话不是特别的高效。对,然后T历的话可能就是说更高效一些,但可能会。嗯,不行。

同时也能去避免。避免这种这种过凝合。对。然后接下来就它的一个嗯不同的一些,比如参数位置啊或者其他的一些这块咱们下面做了解可以了啊。这块会做详细的一个介绍。

我们主要想就是说对这个赛题我们可以用到哪些模型呢?嗯。这话就是说他这个分裂的过程了。对。分裂过程其先说就是说我们要了解说分类过程中,我们如何去进行一个调它的一个参数的啊。

因为调参数它也是一个非常重要的一部分了。就说我们在做比赛时候,在后期时候,我们其实说遇达到一个平静手段,遇到一个平静的时候,对吧?那个平颈时候,我们无无法进行一个突破。无法进行突破。对。

那我们如何去做呢?这时候考虑。模型融合。调仓。或其他的一些转变思路这种方式。对调三也是里面一部分,就说嗯我们我们肯定要限制,就说我们分类越深,对吧?它的含义是什么?对。

那么为什么还要去限制限制它的一个深度啊,这又是为什么?这大家可以去思考的。这个话就是一个直方图优化算法,就是对于LGB这块来做的。原本的话嗯RGB的话,它是一个嗯。预处理的过程,对吧?

预处理过程就是对于我们去进行预排序的过程,就是它主要过程嗯数模型它一个比较耗时过程就是说我们来去寻找最佳的一个分裂点,对吧?啊,呃,XGB的话,它这个并情部分话在预排序这块的。

这时候啊其实来说呃数模型做了一个优化,就是说用直光图做算法。直方图算法对。他怎么做,就是说我们把一个它因为它里面就为的这些数值特征吧,word置这些数值特征,对吧?就1到10,对吧?对。

一到适量的或者什么的,我把它离散化了,分成几份了,比如分成三份了,这第一份第二份第三份。原本来说话,我们都是哎X式量样的。现在来说的话,我们唉。切分成了三部分了。对,切分成三部分了。

这时候我们哎每个作为一个离散部分了,我们这三个部分哎在就其就找两个部分,我们来看它的一个。呃,效果怎么样了?对它的一个切分,它的一个切分之后,它的一个呃它的增益效果怎么样?对,就大大的去缩短那个时间了。

同时呢也会增加一定的泛化性的对,一来说我们没有切分时候,我们再进行划分时候,没有说划分到具体到某个值,对我们只大概哎分成3块了,哎,我们进行一个划分这样的啊,这它一个优势啊。对。泛法性效率。没有。

这块呢是FFM啊那说为什么要FFM呢?原本我们家学叫学到那个啥,就FM嘛,就上面这个式子对吧?上面式子。啊。主要就要了了解到就是VI它的一个就它的影像量段,它影像量。相信大家都了解过这些模型。

它本身的一些理论,对吧?每个影像量对应一个特征的,就是唯一对应的这种这种这种关系。对,所以说我这个XI对吧?XI。不管和。哪个X哪类特征?我们进行交叉的时候都是VI对。那这时候他就忽略一点。看下面。

男性和篮球结合和男性和化妆品结合,两种潜在含义是不一样的,重要性也是不一样的。所以说我们不应该不应。将男性这个他的影像量对吧?完全用一个影像量来去表示它应该对应不同的不同的域。

这就是FMFFM提供提到的域这个概念。fe的这个废了废了概概废了这个概念废了这个他这个意思就是说我们可以说我们可以将就是说每个特征呢它其实不同域不同含义。那其实也可以说每几类特征,对吧?

它其来说是描述一类的一个一个一个含义,就是一个fe的这种这种这种含义的对啊,所以说我们这其来说是增加参数这个过程了。对,原本来说的话,我们只用就是一哎。呃,只用确定一个可以了。对,现在来说的话。

我们不仅要圈这个影像量的一个原本参数,同时也要考虑是说这影像量对应不同的fe的它的一个参数的一个呃嗯差异。对。所以这是FFM它的一个作用了。对,考虑到不同fe它的一个影像量。对它的一个重要性呢。

同时呢复杂度也是急剧的一个提升的。嗯。这是FFMFFM的一个嗯大概的一个解释啊。大概一个解释,这件是在这个比赛当中用的是比较多的一个模型。对。FFM那再往下呢,我们看哪个模型也用的比较多。NFFM对。

因为我没有找到就是说NFMNFFM这个结构图的,我先用NFM对吧?然后做了一个呃。呃,结构做了展示对吧?前说这个是将FM。和我们的一个嗯嗯就是我们的1个DN层做了一个结合。对。那其实NFM的话。

我们其实就是说我们讲的下面这个部分,对吧?对,做者升级就由原本的FM。哎,转变到FFM了,其实就可以了啊,打这个。那NFFM对于FM它有什么的一个优势呢?对。呃,原本的FFM的话。

它是考虑到一些这种二级的一些交叉,对吧?或者说这样的一个一个组合。对,那交叉完之后呢,起来说嗯DN的话,它起来说就是说能够获得更高阶的这种这种这种隐视的这种交叉的关系的啊。

这起来说就是在于交叉这块这种这种角度去考虑这个问题的,其实我们可以看到很多的广告排序,对吧?是吧?它都是考虑的这种交叉的这种方式的。不管你是显示也好,就FM这种这种这种显示也好。

还是说到我们这种DN的对吧?这种隐视也好,对吧?显示以后他还有那些就是说那种那种内机啊,外机这种方式啊,就是DCNDCN这种方式,对吧?啊,或者就是PEN这种方式。啊。都是考这种这种这种交叉的对。

当然交叉含义就是说在这个场景下起来之后你就非常需要这样的一个信息的,就是说非常高级的一个信息,非常细腻这种信息。这种组合我们可以去辅助我们做更好的一个推荐或者是排序啊。这是模型。

它在这个业务场景下面的一个优势。下面就是我们那个切分验证部分了啊,因为怎么说呢?我们是为了我们在我在做这个赛题的时候,对吧?我是提前来说,提前我已经按AID对吧?将数据进行切分了。因为为了保证向下一致。

对吧?为了防止这种这种出现过敏和这个这个问题出现,我直接按AID的形式的AD方式。进行的一个切分,就20%。作为啊验证级。对,来进行构造了嗯。就说20%,我们做验证集段,另外的80%,另外80%。

另外80%啊,我们可以直接就进行训练,也可以。也可以用它,我其实来说,我们这个做话可能思路有些有些有常规的,可能就是说有些偏差,对吧?我用80%。在做这种物折。

或者说用其他的一些将他看成一个完整的一个训练集了。对?来做接下来一个验证,对吧?但是来说话。从始至终的从始至终,我们将切出来的20%的这种AID和测试的AID。构造方式完全一致。对。

就说我们在验证这块的话,我们考虑的更细一些了啊。如果说你不最开始你不进行切分,对吧?你对那个百分之百对吧?这个训练级对吧?我们哎一样的构造特征,一样的在构造其他的方式,最后这时候再切分。

那是不是会有些影响了?对,这是从我们和训练机构在一块儿的时候,验证级和训练机在一块的时候构要特征了。而验证级是不是这样的,而不而测试集并不是这种方式。测题是另外一部分,我们单独去构造的。

并没有和我们训练集进行一个合并的。所以说我们不能保证它更加的一致性。我们先把20%切分出来。啊,我们就把它当这个测试题,因另外80%啊,我们不管怎么来弄。总是和他没有说一些嗯就跟和测机。嗯。

相处方式是一样的哈。对对对啊,这就更加就是从绝对角度吧,更加更加更加更加准确角度吧,来保证的就是线上线下一致性。对,不过这个话就比较麻烦一些了。最后引动完之后还要将数据做个拼接。其然说我们团队的。

我们团队在这块比较好时对,因为我们最后结果的,我们最后体验结果。呃,好像都没有没有将20%对吧?拼接进来啊,所以最后的一个训练。所为我们这个数据比其他的团队少了。大概20%的一个数据了啊。

这个是我们分数最后呃没有取得特别好的一个原因啊,但是它一致性是非常非常稳定的啊对。验证方式的话,除这个话就是说我们嗯用5折的方式,对吧?当然还5折还是要用的,因为它可能得能得到5个模型啊,对吧?

5个模型它可能就是说五个模型的效果更更稳定一些,对吧?这也算一是融合的过程了,其实。啊,这个其实不做细介绍,大家都可以都了解啊,这是西瓜树上面一个图啊。对。最后呢就是我们这个融合的部分了,模型融合。

那我觉得模型融合部分也是很多很多团队的吧,他们在后期的时候对吧?后期的时候绞尽脑汁或者说考虑不同方式的一个呃。最后的一次机会了啊,就在最后模型融合的部分。那既来说就是融合可能离离离不开。

就是说它的一些融合的一些我们的些理论,对吧?就是一些比如我们融合化,考虑一个特征差异啊,样本差异,还有我们的一个模型差异。那有了这些差异之后呢,才能保证我们模型结果融合会有一定的效果的啊。

更细的话就是从不同的一个,我们又细分成了5个样本扰动,就说样就是它的一个样本差异,不同特征组输出转换。这个话输转换一般来说,对于那些回归的问题可能更多一些。嗯。

参数调整就是我们利用不同参数的一个训练模型来进行融合。los选择啊,这也是一部分。训练过程中这个就不讲了,就是说我们训练模型嘛,就是说波ss电话这种这种题提升就是说那种数模型,对吧?其实我们可以考虑。

其实可以看到数模型本身它在不断的去迭代的时候,是不是它有个参数,就是说我们对于样本采样0。8列采样,就行采阳列采样都可以去设置的啊。那其实就是说保证我们每次分裂的时候,我们选择样本和特征啊。

都去都具有一定的差异啊,也是保证保证它一个泛化性的。因为最后的话我们是将。多个模型对吧?就是我们数分列对吧?数列多个数段吧,进行一个这种商家的对吧?啊,我们每次这个选择的样本和他们都不一样啊。

这也是就是用了一个理论分析这样一个角度,对吧?啊,跟这个完全是非常的一个match的比较一致啊。最话就是我们对训练结果。主要话就是平均法就我们加权平均,就根据剩下一个概率情况,剩下个分数情况。

我们来进行一个融合。还有一个stking堆叠,这种话是一定要尝试的。stking这种方式啊也需要我们要去掌握的。它提来说就是我们用模型对吧?我们原本训练的模型对吧?然后得到一个这是我们model对吧?

model对吧?model。得到我们的一个概率结果,不仅是我们的测计概率结果,同时也包含我们每个验证级的概率结果。因为我刚刚说到50的话,我们5次验证是得到5次的一个完整的一个概率,完整的一个训练集了。

是一列的一个一个一个一个长度了,对吧?这个加测极进行拼接,它其实就是一列特征了,将这些特征就作为这个模型它去学到的信息,对吧?和其他的一些比如数据也好,模型也好,哎,特征也好呀。

或者其他的一些输出的概率结果也好,我们进行个拼接,对,就是对你的一个简单的过程,大家可以去查相关资料。这块的话就是这块给到又说。很多选手对吧?他们考虑到方式,对吧?看最开始我们做特征工程的时候。

我们有基础特征。有新的特征工同特征,对吧?就我们说了原本的一些,比如说UID相关的对吧?或AID相关的新的一些。这的话就是我们通过一些,比如说一些count。哎有那克。ho是retail。

或者ge together in这种方式的得到的。然后。未入到多个模型里边,入入多个模型里面,它里面的话用到那个啥。with子30这个不太理解啊,可能就是说只是选取了top30一个特征吧。对。

然后是letLGB叉GBFFM对。然后可以看这块,它将三个预测结构的话作为特征了,其实就是tking的一个部分了。对。对,作为特征了,然后分别只将这个部分的做特征。然后同时呢。

我们和之前的一些原始特征对啊做了一个拼接,你看看是这种拼接过程啊,这也是个拼接过程,分别为入到LGB和叉GB里面了。对。还有一部分的话,我们用加庭的方式。哎,这也是作为我们的一个一个一个一个链路了。对。

然后tickking的话。这块这块就属于stking部分了。也是一个链路。这块的话其实就是另外一些用其他的模型,对吧?用其他的模型。这也是一个新的链路,对吧?啊。

最后融合你可以看来打比赛的话其实很复杂的。但是你做基本的工业阶的话,你其实一层搞定,一个模型就搞定了。对,但是你要不断的去追赶那些分数。叉DB的话,离散特征就能里别呃。

我们需要进行完后的这样的一个处理的对,对于类别特征的话,我们需要做做处理的对,如果不用到我们的数模型里面需要这样的。但是我们未用到NN里面的话。

我们直接经过这个inbed映层转换成那种稠密的向量就可以了。one后的转换可以了啊,如果说不是特别的特别稀疏的话,one后的可以了。那如果说非常稀疏的话。

这时候我们就用那啥其来说我们在做count慢编码,count and unique retailge这种en靠这种方式。其实count和get这种方式啊,其都是对那些类背特征做编码这种方式了。对。

都是为了尽量用那种数值的特征来去描述这个类背特征啊。其实对你如果这块做的比较好的话,我们就不需要将类别特征再放进去了。对,因为我们已经可以描述到哪些信息了,没必要再重复多此一举了啊。这块又也是给个例子。

就是说嗯也是其实经过sting方式看我们有基本的一个base filter,对吧啊。然后上一个commonFFM。FFM的话,这时候我们需要那个啥呢?

它有一个inbedding层型的inbedding层。对他起来说就得到这个啥它稠命善亮了。啊。不需要我们再做这种类似的一个转换了。对于AFF的话,FFFFFM的话,对吧?我们那些内边特征?内边特征的。

哎,就数特征。呃,数特征多啊?说实的话,我们可以进行分层的这种形式,把它转换成类别特征了,对吧?类别特征。然后哎当这边成灯,然后经过in蔽一层。得到宠币商量。真死。哦。真是这种这种这种这种这种商量着。

처明的。Vor, this vector。嗯。O。用户实时特征,然后和我们经过模型得到一个预测一个新特征段得到的特征对吧拼接。其就说这是一个哎概率特征评级。继续。然后哎转化特征对吧?

加个新特征继续新特征继续就我们不断的去进行stkingstaking这种stking对吧?来得特征,然后不断再去微位入新的特征。对,这种话就是链入非常长啊,所以说在非常远古比较早的时候。对。

一般来说的话是按照呃等距和等平这两种方式啊。这块就要需要看数据分布了啊,数据分布啊。就比如说它这个属成这样的形式,就非常平缓。这种这种这种曲线的话,哎,我们使用这种等平可以了。

但是数据中可能就哎这块有一段数据,哎,突然没有了,这有段数据哎低一点的哎,又变非常高了啊。对,就说这种不规则非常不规则的时候,对吧?我非常断断断断续续的话,我们可以用等平的方式来来进行构造啊。

当然两种不确定哪种方式更好一些,需要我们去去尝试去选择。啊,这个是我们模型融合部分。OK接下来就是我们这个完整的一个呃对于这个赛题的一个解析。包括我们在遇到这个问题时,我们该如何去提取特征,对吧?

我们首先需要第一点是我们理解业务为业务上关键的,先理解业务。啊,基本的数据的一个了解,对吧?再往下的话就是我们。做一些相关的一些分析了。然后构造特征特征是非常。呃。非常重要的一个部分啊。

所以说我这块展开的也比较多的对,然后模型呢模型前面我用不同模型去保证后面的一个融合。对,叉GB。LGB。然后是FMFFM这种。对,然后最后的话就是我们如何进行融合。对。

当然呢还有一种还有一些我这块没有讲的,就是说特征我们做非常多,对吧?我们如何进行一个特征选择的对吧?对。嗯,相关性对吧?相关性选择的相关性对吧?走旋关系方式,然后。过滤过滤或者说用那种。

weper这种we这种方式,或者这有那种。弄嵌入方式的。啊,inbed这种方式。对,进程选择嗯。那先把这套这一路走下来。另外的话大家可以去关注一下,就是我呃。

代码不封化,我看看。

嗯,这是我之前参加这个比赛时候,对吧?比赛时候开源代码。对,就是我每个部分所做的一些工作啊,每个部分其实每个部分就分的非常细了,对吧?这其来说在工业界里中面。是也这样的,就是分的可能就是比我们这种。

更在的就是呃。负数更加更更加高一些。对啊。嗯,比如说我们基本的一些合并,然后系数特征我们该怎么处理,然后特征选择方式。对,然后系数特征2选择2长度retailCVR特征,我们该怎么去去进行构造的。

然后点击只是cl这种我们进行count统计,对吧?retail。我们每个部分的话,我都做了一个特征选择的。大家可以接下去下面去详细的去了解一下嗯,我建议来说对于这种经典赛事,对吧?对腾讯赛这种经典赛事。

嗯,从第一阶段,我觉得从第一阶到目前就是到第四季吧,一期到2020对吧?大家大家都可以去尝试复现一下对。复现大家复现一下思路。如果说想做,就是说做推荐广告这块的部分的话,都需要做一下呃进行一复现。

对它里面涉到业务也是非常多的,也非常经典的一些业务的啊。其实很多的一些很多一些公司,他们也会关注我关注这种比赛的,像腾讯赛这种在国内影响力比较大的对。

但都会想就是说从里面去汲取一些比较好的一些方案来运用到他们的场景里面的。来大有什么问题啊?你看三种话其来说就是经过我们已经筛选过的一个特征了,对吧?啊,因为我们在起来在提交代码的时候。

我们不需要去说再去将我们这个筛选过程再去再去跑一遍了,那非常费时间的啊,所以说我们进行这样的一个一个一个处理啊就行了。就比较简便的一个处理。啊。

啊看一下就是说CVI这我们该如何去进行构造的一个大家了解一下。大家有什么问题可以提问啊?是的是的,任何操作的吧,我觉得就是看模型线下效果了。这也是最直接的。嗯。因V来说的话,你位零特征是非常多的啊。

有时候你看似非常合理特征,但它和其他特征不兼容啊。对,没什么效果啊。你如果只是看哎特征,哎呀,很有说服力,对吧?它的解释性也非常强,但是呢但是最后放下去却没有效果,啊,这其来说就这特征。

就是我们就很难很难用啊这种这种特征。对。那其同学还有没有问题啊?乔同学。这个比赛来说话就是我看有第三名,然后第7名,然后第10名、第11名都有都有开源的对,大家下面的时候一定要去看一下。

因为他们可以用更多一些不一样的方式来解决问题啊,包括我没有讲这么说就是word director或者说deepwork这种我们从网络角度对吧?或从一些序列角度来去考虑一些特征的一些信息提取啊。

对这块是没有讲到的嗯。我们现在解决的话只是其中一一小部分了一小部分了。对,关键的话,你先考虑需要对用户一个召回的过程了啊,你的活跃用户非常非常多,也部可一块儿就是一一起建个模吧。对。

我们需要先去召回一批用户的一批感觉就是说具有一定的一定相关性的用用户用户,然后我们再进行建模,做一个嗯做一个最终的一个筛选匹配啊。同时呢就是说我们嗯要考究是说刚开始我们输的一些一些。

因为这里面也也存在个问题,就是说好像就是说这个数据里面就是说用户一个用户ID对吧?1个UID的话,它只对应1个。对应1个AID1个种子群,没有这种一对多的关系,这也是比赛当中的把他们做了一个处理,对吧?

就是简化这个比赛了,就简化这个业务了。对。全都是一对一这种关系啊,没有这种一对多的关系的这是做了一个优化的做了一个简化一个处理啊。嗯。嗯。这个661628这个提的问题非常多啊,我觉得非常好。

OK那我们今天的分享就到此结束。大家还有什么问题的话。

人工智能—计算广告公开课(七月在线出品) - P5:带你从头到尾实战广告转化率预估 - 七月在线-julyedu - BV1SA411H7Se

我们现在开始吧。嗯。好,大家好,我是邓肯,大家可以叫我邓肯老师。呃,今天是给大家分享一下关于广告的转化率预估的。嗯。相关的一些技术。然后是以2017年的腾讯的社交广告转化率预估比赛为例子来做分享。

主要这这次的公开课呢主要分成三个部分,一个是。先介绍一下转化率预估的相关的一些背景知识。然后。再介绍一下,分享一下腾讯视界广告的转化率预估比赛的一个冠军的一个解决方案。然后最后在。

再拓展一下呃多目多目标学习的相关的东西。Yes。啊,首先接看一下互联网广告的一个商业模式。对于互联网广告来说,呃,出价和计费主要包括像CPMCPCCPAAOCPC这种出价和计费的方式。像CPM的话。

就是按签字展现来去扣费。就是展现一次就收取一次费用。而对于CPC收费来说,就是按照点击来收费。点击的话就是呃每只有当用户发生了点击行为才会去扣费。而展现是展现本身是是不够不扣费的。

呃SCPA呢是按照那个呃行动来去扣费。就是说只有当用户发生了转化行为才会。才会去扣费。就是点击完了之后,比如说发生了APP的下载,或者说是呃像电商广告的购买行为,这时候才去扣费。

而OCBC呢就是根据转化率来去做智能出价,它本身是按照CPC去扣费的,但是它会去参考。它的转化的一个转化率的情况,来去智能的去调高或者调低价格,最后优化这个转化的效果。

然后下面的话就是呃一个典型的一个互联网广告的一个转化漏斗,就是发生了曝光行为之后才会有点击。点击完了之后才会有访问和咨询。然后这里的访问和咨询是可以替换成就是转化行为。比如说APP的下载。

或者说是电商的一些购买行为。然后像CBC的话,它是只是去针对点击这一层去做呃优化和和扣费。而去OCBC呢,它会参考更下层的这种呃转化和购买行为。而对于广告转化率预估来说。

像我们前面提到的像CPA和OCPOCPC来说,由于都需要去去参考它的转化效果。所以说我们要对它的转化率做一个预估,这也是广告转化率的一个应用场景。转化率预估呢就是给定一个广告的对象。

通过统计或者建模的方法来去预估它的CV啊,或者说是CTCV啊。嗯,首先我看一下CTRCTR的话就是。就是点击除以。呃,展现这就是点击率,这个是很简单的一个一个指标。然后对于CVR来说是转化出于点击。

就是在用户发生了点击之后,是否发生了购买,或者说是呃应用的这种安装下载这种行为是否发生了转化。在点击里面发生了转化的概率是是CVR。而。CTCVR呢是在是呃转化除以展现。

就是在所有的展现中发生了多少的转化。它呢其实就看上面的公式,其实这可以看出它就等于CTR乘以CVR就是说CTCVR它是一个呃可能呃数字更更小的一个可能是万分之几的一个一个数字,就是发生了呃多少点击之中。

多少的展现之中呃,才能发生几次转化。而我们呃现在的一般的预估方法都是针对这个CVR就是发生了点击之后,才会呃有多少呃概率是发生点击,发生转化行为,就是这个CVR。

然后我们这次呃对于那个呃视觉广告的一个转化率预估,也是针对这个CVR的情况。而这里的转化就是说比如说淘宝的一些下单行为,或者说是一些展现广告的一展示广告的一些APP的安装,这种都是后链路的一些转化行为。

然后我们就是要对是否会发生这些转化行为做一个预估。而这个呃问题的一个特点呢就是说数据比较海量。因为总共的呃像不管是呃像腾讯还是呃淘宝,他们的数据都是非常海量的。

然后我们要针对这些海量的数据中做一些特征设计。并且这个转化行为的数据相对于点击行为来说更为稀数。然后我们怎么去解决这个数据的稀疏性的问题。这是这次本次介绍的一个背景知识。

然后下面呢我们就看一下那个腾讯社交广告的一个转化率预估的一个赛题。好。然后。先介绍一下我们这次的呃第二部分内容就是呃腾讯视交广告转化率预估。这个这个赛题呢是2017年的一个腾讯的视觉广告大赛。

他是选取了腾讯在社交广告领域的一些真实的展示的点击的一些日志。就是呃比如说朋友圈或者说是QQ空间这种呃展示广告的一些广告日志数据,然后提供了呃1到30天的总共30天的用户的APP的安装流水。

然后另外提提供了17到30,总共大概14天的一个训练集,也就是广告的呃点击日志,这里已经把那个展现给过滤掉了,就所有的点击日志。然后从这个点击日志里面,我们拿到是第31号的这个呃数据。

广告的点击数据来去做测试,就是说预估他们会不会发生转化。这里的转化呢就是说APP的安装。呃,就是用户点击完了广告之后,是否会安装这个APP的广告,哎,会是否会会安装这个广告的APP。

所以说这个任务呢就是根据广告的日志,然后来预测给定广告,然后用户和用户的呃访问的上下文的这个情况来去预估广告被点击后发生激活的这个APP激活的这个概率。然后它的评估指标就是log loss。

然后他给到的数据信息呢,就包括呃用户的信息和APP的信息和上下文的信息。比如说user的一个user ID就是简单的ID,然后包括年龄性别、呃学历、教育和其他一些用户相关的一些信息。

然后另外是包括APP相关的信息。比如说APP的ID,然后广告广告商的就是广告商他可能会投N多个广告,然后广告商的ID广告商也会建很多个素材,然后素材的ID,然后素材可能是挂载在某一个推广计划下面。

然后包括推广计划的ID然后包括APP的类型。呃,也也有一些访问的一些上下文的信息,比如说广告位的位置和它的访问的一个呃网点,然后包括它发生这个点击行为的日志的时间。

然后包括一些联网方式是3G还是wifi这些联网方式的这些当前的访问的点击的上下文的信息。然后通过这些信息去预测点击后是否会发生转化。呃,显而易见,这是一个二分一类二分类的问题。

就是预测个零或者一转化或者或者不转不转化。啊,评估指标就是呃很常见的这个log loss,这里就对这个log loss就不多做介绍了。然后拿到这个赛题之后,一般的解题思路呢,都是大概就是这么一个流程。

先是去做一些前前面的,比如说一些数据分析,然后这里就不列出来了。然后然后再去做一些数据的一些去噪,呃,然后包括一些再根据数据去做一些特征工程,然后再再去融合尝试不同的模型。比如说GBT呃。

WDL和PN或者NFFM这样的模型。然后最后再对这些模型做一个模型融合来去提升性能。是大概的一个呃每对拿到一个任任务之后的一个解题思路。首先我们看一下这个数据去噪这部分。数据虚道的话,这个比赛的话。

它是呃因为是拿到了是17到30号这14天的一个点击日志。而最后一天的话,数据其实是异常的。因为转化行为,它的链路比较长,就是用户可能点击完了之后。

可能过了呃几个小时或者过过了一两天才会发送才会发生呃转化的数据的回流。然后这时候呢,最后一天的数据其实是有算是异常的。因为呃。就是最后一天它实际发生了转化,它但是有可能这个数据里面的level可能是0。

比就说候他这个数据还没有被被被通知到,但实际上已经发生了转化。啊后所以说对这个数据的处理呢就是直接去删除。

这一类的APP的最后一天的数据就是就是直接把日志中关于APP最后一次转化的之后的数据直接全都删除掉,这相当于去除一些造声数据。然后另外呢,对于APP的一些更新,呃,虽然说它是呃同1个APP的ID。

但是说有可能APP发生了一些呃很大的一些更新行为。然后这时候呢,我们要去把它的呃。根据它的这个转化率的一个前后的这个dF,它如果差别比较大的话,我们直接把前面的数据删除掉。

而这样的话相当于做了一个呃数据的筛选。简这里简单介绍一下,然后我们做了数据渠道之后,就是特征工程。我们都知道对于呃这种机器学习任务来说,特征其实是决定了一个上限。而模型是其实是决定了如何去逼近这个上限。

然后对于特征来说,这是呃在一般的比赛中比较重要的一部分。包括然后这里的话,对于这个赛题来说,就包括像转化率的一些相关的一些特征。啊,比如说APP的一转化率,然后它的位置的广告位置的转化率。

然后用户相关的转化率和一些组合,然后包括一些点击的特征啊,用户和APP的他们的点击的一些呃统计的一些数据,然后包括一些安装的特征。呃,也就是APP安装一般的安装时间和安装的类别。

这种安装类的特征和一些时间特征。比如说点击点击的时间就是一些。呃,点击日志发生的一些时间。然后通过基本的特征,就是前面提前面就是再去直接给到的像用户的特征APP的特征,像上下文的特征。

我们还可以去构造一些呃呃就是统计类的特征。首先我们看一下转化率相关的一些特征,主要是去挖掘呃不同的角度上历史的转化率的信息。就是说呃转化率很简单,就是从转化次数除以点击数。

然后比如说我们就去从某一天开始往前倒推,去去看之前的数据,它的它的一个转化率是什么样的情况。然后比如说我们从APP的角度去看1个APP它比如说呃20号之前就是1718193天的一个转化率的情况是多少。

然后包括这个位置上面。广告位置上面的一个转化率是什么样的?然后对于一个用户来说,用户可能有的是热衷于下载或APP有的可能不太热衷,不在对广告不太热衷。

这时候我们可以去呃从用户的角度来去看他的一个转化率的情况。啊,另外呢我们去做一些组合。比如说呃这个用户呃对于这个APP这种类型的一些组合。然后呃看一下就是点击的相关的特征。呃,第二部分就是点击相关特征。

然后可以分析一下这个赛题的数据,可以看到就是呃用户的点击次数越多,它的转化率其实是呃越低的。就是说用户可能呃有一些特别爱点,但是他的实际的下载其实并没有很多。呃APP的。

他每天的转化率和当天的点击次数是一个大概的正相关的一个关系。就是说他被点击的越多。它的转化率可能也越高,可能是他今他这天的广告创意做的比较好之类的。啊,这是一些点击相关的特征。

然后另外呢也可以去挖掘一些历史的一些对于点击行为的一些。呃,统计数据呃,这里可以从那个分钟级或者小时一天、三天、15天或者总共的这种统计日期去统计一个用户和APP和位置3个角度去做统计。

比如说用户在一分钟前一分钟内点击了多少?呃,点击了多少次。然后他在一个小时内点击了多少次。然后这个APP呢在一分钟内点了多少次,他在一天内点击多少次,3天内点击了多少次。然后包括位置。

然后另外就是一些组合。比如说这个用户在一天内点击了这个APP点击了多少次。这种组合类的特征。然后这种呃特征呢其实呃重点需要注意的一个问题就是数据泄露的问题。就是呃在构造特征的时候。

只能用当前时间之前的数据,就是像这种全局类的特征,其实是只能从当前时间往前倒推到第一天,而不能直接拿过来,直接用后面的日期的数据。所以说这是一个数据泄露的问题。呃,在构造样本的时候。

千万不能发生这种数据泄露的情况,不然会呃就是相当于制造了未来的信息。然后对对那个相应的一些预测结果,实实是很不友好的。啊,另外呢就是安装类的特征。安装类。比如说呃上次APP上次安装的时间。

然后安装这个APP点击之间的时间差,然后包括安装的个数,就是这个用户可能特别喜欢装尝试性的APP他这时候可能最近安装的个数会比较多,有的可能会比较少。然后对于呃。APP来说。

比如说上次装的1个APPID,然后两次安装的APID的这种组合,然后可以保可以保证就是说呃用户可能安装完了之后,可能下次不会再去安装同1个APP了。这种安装类的特征啊,另外也包括一些时间类的特征。

时间类的特征一般都会去做的。就是说呃在不同的时间下,其实它的转化率的情况是不一样的。到时候我们可以可以这里是把那个24小时发成呃分成了448个特征。然后就是说每半小时作为一个做为一个特征。

然后这时候的话去构造这么一个关于时间的特征。然后前面呢主要是介绍一下。关于数据去去造和特征工程相关的一些东西。然后下面呢我们重点介绍一下呃,就是在模型方面的一些工作。然后最后呃简单介绍一下模型融合。呃。

稍等一下,我看一下群里的信息。

首先这个模型呢比如说可以用到一些传统的一些模型,比如说GBDTGBDT就是一些呃数模型这种。然后对于深度学习模型的话,比如说WDL和PN和NFFM这种模型。然后前面的这种GBDT的话。

我想大家应该呃比较熟悉了,这次又不做做做介绍。然后包括WDL和PNA这种呃相对比较熟悉了。然后这次的话是呃介绍一下那个NFMFM这个这个网络。呃。

这个这个也是当时那个冠军的一个解决方案的一个呃模型方面的创新。就是说呃首先呢这个这个模型叫做nettworks onfield aware factorization machine。

就是NFFM就呃它首先呢根据不同的特征。然后做一个pae的encoding。这里可能比如说呃比如说类别类的特征,比如说呃用户这个APP的位置,就是广告位置或者APP的类型。

这种都可以用完号的编码去构造一个非常非常呃就是稀疏的这种呃encoding,就是01的呃完号的编码,做一个稀疏的encoding,然后这样得到一个非常稀疏的一个一个编码。

然后再去做一个呃inbedding。这个inbedding的话其实就是一个lookup table,然后去做呃。呃,去做不同的对于一个。呃。

对于这个sspacepas的这种编码去映射到这种呃比较稠密的特征里面。然后这样得到的一个这个呃结果呢,其实就是对于每一个对于总共得到了一个大概比如说我们有N个feature。

大概就是N乘N乘以K的这样一个一个稠密的一个特征。呃,然后其中呢就是呃这里的话,我们比如说我们先看这个模型的这个左边的这部分,左边的这部分的话,其实是相直接把那个呃。

直接把那个初始的这个比较稀疏的特征做一个线性的模型。比如说用逻辑回归,直接去做一个呃单模型的这这么一个一个渠道。然后对于右边这一部分呢,其实可以看到这这边是1个NN的一个网络。

然后这里呢下面会对这个呃不同的d词的特征做一个点击。然后这样的话就可以得到呃不同的特征之间的一个交叉的这个信息。呃,这其实也是FM的一个常规的一个操作。然后就主要区别就是上面加了1个NN的网络。嗯。

然后他的这个呃los呢,其实就是。它的一个目标函数呢其实就是E加WI乘XI,其实就是左边的这一部分,可能是一个线性模型,或者换成一个呃逻辑回归,其实都一样的。然后对于右边这部分呢其实就是一个呃一个点击。

然后不同的组合之间的一个点击,然后再去接一个比如说这边是一个两层的一个全连接。然后最后呢就是呃最后呢两边会都会去输出一个结果,输入到最后的一个sof mass。然后根据这个soft mass。

或者说我们用一个s的函数去做一个输出输出到一个联域分类的一个概率概率区间内。然,这样的话通过这么一个呃操作,其实就是一个呃FM的一个思想。

然后这里的话它是呃NFFMM呢主要就是它的创新点就是加了一个eleement wise的一个product,就是不同的不同的这个特征重密的特征之间会做一个不同的。特征之间会做一个呃点击操作。

然后这样的话会得到一个呃。每个特征的一个融合的特征。这里比如说呃。其实现大也可以看到这个从这个spa到这个dance的一个映射过程和FM的一个区别呢,其实是呃它会把一个特征会映射到呃多个呃重迷特征里面。

然后去构成不同的这种feature group。这是它跟那个FM的一个区别。对。然后呢呃通过这么一个呃模型的这么一个创新,然后可以就这个单模型的话,其实就可以达到当时的一个线上的一个第三名了。呃。

其实我觉得这一部分呢呃有一部分贡献,但是特征工程上面可能贡献也稍也比较大一点。然后前面呢主要是介绍了一下这个NFFM这个模型。然后后面介绍一下这个模型融合。模型融合的话就是两组特征。

就简单类的特征就是赛题直接给到的这39个特征,包括我们前面讲到的一些构造的一些统计类的复杂特征。呃49个复杂特征。然后融合了呃1个GBDT。

然后1个WDL再加2个PA再加4个NFFM这么这么8个模型来去做一个加强的平均。这样得到一个最终的呃做一个融合的一个模型融合的一个结果。

最后的他们达到的一个效果呢是可以达到一个呃相对于相对于单模型来说嗯,比较优的一个这么一个结果。大概提升了大概1%吧。那个老师还面听了吧。然后另外呢就是我们想扩展一下,就是因为前面前面讲到的就是呃。

转化率预估嗯,但是转化率预估呢其实本身是有两个呃很很难克服的问题的。就是说嗯我我们前面讲到的转化率预估可以看到这个下面这个图。呃,这个这个这个图里面的话,我们看到其实最外层的话是一个展示。

然后中间可能部分发生了点击行为,然后点击中间又有很小一部分发生了转化。然后我们的前面讲的东西呢,都是在在这个点击的这个圈里面去做训练的。比如说我们拿到的都是点击的日志,然后去做呃CTR的预估。呃。

这个本身呢。在我们线上应用的时候会。对。Yes。啊,因为什么是个举证,应白定为原理。哦。那我没。也可以稍微回去一下,介绍一下。就是这为什么是个矩阵?其实就是呃像那个inbedding来说的话。

它就是前面是01的一个完号的。然后为什么会映射到这边一个矩阵?其实是呃其实就是呃。每一个每一个这本身是一个呃比如说one hold的话,它是一个向量,然后它会乘以一个lookup table。

lookup table本身是一个矩阵。然后这样的话,对于呃对于这个呃这个稀疏的编码,它可能是个比如说我们用那个APPID的话,就是其实它是一个非常稀疏的一个encoding。

有可能都是呃成百上千维的这么一个特征。然后我们如果去直接去做的话,其实它是一个非常稀疏的。然后我们想in呃inbedding呢inbedding的意思就是从这个高维去降去降为到一个低维。然后。

去做降维的这个过程,其实就是直接把这个向量去乘以一个矩阵。然后这样的话相当于从这个矩阵中间去得到其中的一列,去从而就得到这么一个呃这这个这个矩阵的中间的一列,相当于比如说feature一的话。

有可能是对应前面前面第一列。这样的话其实就完成了一个从呃高维的一个比较稀疏的一个矩阵到。比高纬的比较稀疏的一个特征的表达,映射到一个比较稠密的一个特征的表达中间。这样相当于这就是做了一个inmail。

然后呢,就是对于不同的feature,它排列到一起就成了一个矩阵,就这么一回事,这样就得到了一个mtris,就是一个矩阵。然后他为什么做了这么多份儿呢?做这么多份儿。

他是为了后面做一个eleement wise的这样一个点击。这个点击操作呢,其实它是比如说不同不同的特征之间的。呃,相互的关系就可以通过这个点击去表达出来。不同的特征之间的关系可以通过表达出来之后。

就可以得到不同的。比如说这里。呃,比如说我们如果有呃四个特征的话,然后这里面可能里面每个里面只有呃三三个的两两组合。然后不同的点击会映射到这边,不同的组里面。然后这样的话会得到一个。

因为前面都是呃已经经过一个ininining的一个编码。然后这边会得到一个呃点击完了之后一个呃。productduct unit呃就是这样的话就就就得到一个比较呃稠密的呃多维的这么一个一个特征向量。

然后通过这么一个特征再去接一个两层的一个全连接。そか?然,这里相当于这边的区别就是这边是直接接个全链接。对。然后通过这么一个呃特征的表达,其实就呃两边的一个相当于呃左边是一个原始的特征。

然后右边是一个经过高维的提取的一个特征,最后再接到一个ofm上面,然后最后得到一个输出。然后这个隐白镜本身呢,其实就是一个呃就是一个成一个矩阵的一个lookup table的一个作用。

它相当于做了一个特征的降维。然后这个不管是对就是呃执行还是对特征的表达来说都是比较友好的。然后这样呢降维之后,它的呃可以看到,其实可以想一下,这里的主要的参数。

这个网络主要参数其实就是在这个隐白定制部分,这地方参数非常巨大。因为它有那个一个矩阵的一个路这里面。对,这主要是个ining的这部分。然后对于呃后面呢。就是前面是回顾了一下,然后后面我们介绍一下。

就是多目标学习。嗯,回到我们刚才讲的,就传统的CVR预估,就包括我们刚才讲的这个问题里面,传统的CVR预估模型都有两个问题,一个是样本的选择偏差,还有一个训练数据的吸出。样本的选择偏差是讲什么呢?

就是我们在训练的时候,只拿到点击日志去做去做转化率的预估。而我们在线上的应用的时候,在线inference的时候,就是投放系统在线上用的时候,它需要实时的去返回。它的呃预估的转化率是多少。

而这时候我们是不知道这个这个广告是否发生点击。然后所以说我们的预估空间就inference space是在这个大框里面,这样的话其实就是一个样本的选择偏选择偏差。就说我们在点击的广告里面做转化率预估。

而我们在做inference,就是在在做呃在做inference的时候投放的时候去做inference,其实是在一个展示的样本空间里面去做。这这中间的话会会肯定会有一定的gap。啊。

另外呢就是训练数据的稀数问题。训练数据系数是讲什么呢?就是呃因为点击率的话本身可能是4%3%这种这种数据。然后转化率的话,它相对于点击率它更小。其实相当于呃这虽然说我们的展现样本很多。

但最终的这个点转化样本其实很少的,尤其是分配到,比如说前面的APP安装,每1个APP的安装数据其实很少的。就是说我们如何在这更少的数据上去做呃转化率的预估,这里有一个数据的稀数问题。

然后这里的话就是阿里妈妈,他们是做了1个ESMM模型,它就是在提出就是在整个的空间里面去做mty task的 model。这多目标学习。就是呃来做这种对post clickcon的这种转化率的预估。

来去提出了这么一个方,提出了一个方法来去解决这两个问题。我们认为呢就是用户的行为一般会遵循一个顺序的一个决策模式。就先从就用户看到这个广告之后。先是一个展现,先是一个impression,一个展现。

然后才会去发生点击,然后最后发生一个转化这么一个顺序的决策。这个很简单。然后这里的话其实呃下面前面我们提到1个CTCVR和CVR的关系。就是说CTCVR可以看到这个条件概率它是在X发生的情况下。

Y等于一,并且Z等于一的概率。它其实是呃拆分成两部分,一部分是这次展现下发生了点击的概率,乘以这次点击下发生了转化的概率,这是一个条件概率,就是说我们前面做的预估都是在做这个PCVR。😊。

在做发生我们都是在训练这个PCVR,就是在Y等于一的时候,Y就是点击,只有在发生点击之后再去做呃是否转化的这个这个预估。然后这个这个就是我们之前说的这个样本偏差。

然后最后我们再去在实际实际的投放系统中其实是用的呃发生的CTCVR的这么一个一个一个数据出来。然后得到这个公式之后,其实我们可以看一下他们的主要的模型结构。主要模接给我们看右边这个这个图。

这个图可以分成两部分,就左边这部分和右边这部分。我们看左边这部分呢,其实是做CV尔的人物的特征,然后右边这部分是CTR的一部特征,这两边特征可能是完全一样的。然后对于呃对于它的这个网络的任务来说。

其实是呃它的是主要分成了两也是左右两部分。左边它称之为man的就主任务,右面是辅助任务,左边的这个主任务,就是去预估这个PVR就是我们所需要的这R然后右边呢就是PCTCVRPC是我们观测到的数据。

然后PCTR就是常规的一个点击率预估。然后通过呃点PCTR和PCVR的这个成绩。就是我们这边前面提到这个公式,然后最后得到PCTVR然后通过这么一个呃组合来说。

它就可以把这个PCTCVR的这个lo传到这左边来,然后同时这个网络其实还有一个特点,就是我们从下面看,最下面是一个dding的 layer,就前面我们也讲到了dding一般是怎么做的。

当然我们也有其他做法,然后这里就是说那个 table的一些dding的方法。然后通过呃inbeding呢inbedding这里我们也前面讲到两边的呃这个inbeddding操作的参数是非常巨大的。

然后通过这个CVR的任务和CTR的任务,他做了一个呃就是share的就是参数共享。两边的look table的参数是共享的,这左右两边的参数是完全嗯完全共享的,这样的话就可以有效的去降低参数的数量。

降低这个模型的复杂度。这样呢呃也是任务,也是这这这么做的一个好处也是显而易见的。就是说呃像一般的传统的CR预估,这里做这个影白店的话,只有这个在点击日志上。

只有在点击日志上才去训练这个inbedding。但是我们可以去融合这右面的辅助任务,就是CTR这个任CTR预估的任任务来去更新我的inbedding的呃参数。

这这样的话它的训练训练样本可以变得更更加充分。然后中间呢是做了一个fieldd wise的一个polling。然后最后把它的呃不同的特征过来之后,直接concca呃concca一起。

然后再分发到一个多层的一个呃多层的一个全连接,就是神经网络上面。然后这里的话,这这里的网络可以替换成其他网络,可以做自己的自由组合。然后然后再上头再去呃两两个不同的任务,一个是对CVR做移估。

一个是对CTR做异估。然后然后PCTR和PCR乘到一起,再去预估1个PCDCVR,然后通过PCDCVR的监督数据和PCTR的一个监督数据来去反反传到两个网络中间去更新参数。

然后这样的话是这样的一个整个的一个模型结构,其实就是主要分成了左边一个主任务,右边一个辅助任务。这是主要的一个模型结构。其实可以看到这里。呃,它的一个主要的特点,相对于我们之前讲的。

像在点击日志上去做去做的话,其实它的优势是很很明显的。一个是。可以在整个样本空间上做建模。就是说呃原来的呃一般的传统的这种转化率预估都是在都是在那个呃点击日上做。然后这里的话由于借助了这个辅助任务。

这个辅助任务的话,它是可以直接用到呃全样本的一个数据。然后这样的话就可以做一个监督的信息来去辅助我这边隐白定的训练,然后包括这边参数的一个更新。然后然后又由于这边的embedding的参数是共享的。

就是说我们可以去利用,就是之前呃没用过的这种展示的,就是点击点击任务里面的inbedding来去做我的呃转化率的任务的一个inbedding。这其实也是类似于一个天移学习的一个概念。像一般的los呢。

这里像像这一般的los其实就是呃我像传统任务的话,只用这个PC瓦的这个lo,就假设PCVR。呃,等于这个PCDCVR这么这么不是PC吧,就是假设我在这边的转化,等于这边的转化是传统人务。

然后这里的话是对他们两个做了一个显示的区分。然后然后这里的lo呢就就分成了这么两部分。一个是呃对于CTR本身的一个lo,像一般的CTR任务的一个本身的lo。

然后再接上一个呃两边的两边的eleement wise这呃相乘的这个这么一个。呃。相乘的这么一个los,然后把这两个los加在一起来,作为我们最终的一个训练的一个los。然后整个网络结构就是这样。

就是说主要就是两个特点,一个是。可以利用CTR的任务来去做一个辅助,从而可以在整个样本空间上去做建模。啊后另外一个呢就是在inbedding的这部分,我们做了share的lookup table。

就是说可以去一个是有效的降低模型的参数,降低模型复杂度啊,然后另外一个呢就是由于我们是在整个样本空间上去做。

所以说可以利用这个CTR任务的呃这些训练数据来去给CYR任务的inbedding提供一些额外的一些信息。这是ESESMM这个模型,它的多目标学习就解决了我们之前讲到的呃传统任务里面的一两个缺点。

然后可以看到它这个呃学习的话,其实看它的呃这个结果的话,在在不同的任务上面。呃,比如说左边CV尔的这种任务上面去做的话,其实像这个红色的虚线里面,其实它是比其他的模型都是要要要比较好一点的。

这边它评估指标是AOC。AOC的话,这边就不做展开介绍了,就是一个呃。关于转化率预估里面的续的一个一个一个一个评估指标。像传统的一些点击率股里面也会用这种评估指标。然后这里的话。

比如说让们去对比了一些嗯。其他的一些特其他的一些模型,然后去其实看到它的数据效果是比其他要好要好很多的。然后今天大概就是这样,然后下面是咱们的提问时间,提问时间可以简单提问一下。然后。好,看一下群消息。

是不是讲的有点快呀?啊,跟word to actor嗯对有一定的相似度。word to a本身也是一个。呃,也是一个呃就是in白ing的一个方法。觉得是。谢什么。😔,这代码的话,我这边是没有的。

我我可以找一下,然后找到的话,就是后面我会发到群里面。他应该都在群里面吧。然后包括这次的PPT的话,后面我也会发到群里面。整个样本空间没听懂啊,整个样本空间其实就是刚才可能讲的有点快哈。

就是我们再看一遍这个其实后面就就讲了那个模型细节。就后面的话就是这这页的话是模型细节。我们回到前一页。😊,前面的话,这这里的话是做了一个背景的输入嘛,就是还是这个图。大家记住这个图。

右边这个图就是在用户发生了点击之后,这是比如说这个点击的结,发生了展示之后,就是展示的集合,是最后面的一层展示集合。然后中间是一个。呃,点击就是用户可能有的点了,有的没点,然后中间是一个点击了的集合。

然后最后中间是一个点击里面发生了转化的集合,它是也就说是一个角色模式,就是说从广告的展现,然后到点击,然后到转化这么一个顺序。然后可以看到像传统的,像我们之前前面讲的那个腾讯的社交广告比赛。

其实他给到的数据都是点击日志,没有给到原始的展示日志。点击日志的话,它本身就是相当于对一个展示日志的一个抽样了,它本身就不是一个整个整个的样本空间。然后对于。对于前面的任务呢。

它其实是在这个点击日志里点击日志里面做了一个转化率预估,然然后来去做一个呃训练,就training space训练数据是是完全是在这里面。然后实际我们在呃在工业界在广公司里面去做这种呃转化率预估的时候。

其实我们是不会去等到发生点击行为之后才去做转化率预估的。而是。当一个广告展现过来,或者说广告展现还没过来,就是广告的发生了召回之后,我就需要给出它的PCTR它的它的点击率是多少,它的转化率是多少。

所以说我们在inference的时候,也就是在inference的时候,是在这个整个的展示空间里面去做的,就是。就有inference space。

就是传统的和这个传统的传统的工作和这个ESMM模型之间的一个主要的区别。然后所以说后面讲到那个呃全样本空间呢,其实就是在讲这个事情。就是说呃原来的像传统的,他们只用这个点击日志。

然后然后这里呢其实是我们用了impression,就是呃整个的展示日志,相当于原来的比如说是呃10万个点击日志去做训练。然后这里的话可能用到呃呃1000万的这样一个数据集去做去做训练。

就相当于他们之间是有一个数据的数据的gap的。这是一个全样本空间。就相当于因为后面是融合了这样后面这个辅助任务里面去融合了呃点击率点击预估的这个任务。

所以说这里可以去呃根据这个呃全样本空间去对那个转化率预估本身做一个修正,相当于是在一个全样本空间一个建模,不再局限于这个点击日志里面。这样的好处就是说我们在线上做inference的时候。

包就可以保证训练空间和inference空间是同一个样本空间。这样的话发生的得到的效果,肯定是更好的。群号群号,我稍等,我我问一下。其他我问一下那个助教老师吧。哦,这个你般证去得是我其实要。白?对。

就是说inbedding的话,其实是我们呃像这种做包括做点击预估,或者说做其他任务的一个呃常见的一个操作。就包括NLP里面的相关领域也都有这么一个常规的操作。就说原始特征。比如说我们对用户用户的话。

比如说呃腾讯的用户,可能有十几亿十几亿的这个一个ID。如果按照one号的去展开。大家可以想象它是一个什么样的一个情况。所以说我们要把这个原始的这个这个。呃。

原来需要做网号的这种特征去做一个inbedding。ebedding其实就一个降维的一个操作。对。降为到一个低位空间,然后它的表达更为稠密。原来可能是000001000这种这种数据,然后之后呢。

可能会是一个浮点数的一个一个向量。我可以把那个。嗯。把那个群,但会群的二维码,我展示一下,大家可以进群。稍等一下,我把群的二维码发一下。😔,这左边有个群的二维码,大家可以进群。呃,我看一下一个一个看啊。

这种方式不同的特征可能用一列向量的记数。对,是是这么就不同的特征,就是一列向量。对。比如说用户ID原来可能就是12345678这种这种ID类的特征。然后我们如果用语白点展开之后。

可能之后就是一个呃很稠密的一个一个向量。啊,最后加个全连接感觉像是分类,但是转化率转化率预估首先就是个分类问题。另外呢这里面提到加个全连接感觉像是分类。

这个其实是全连接和分类是两个完全没有关系的一个东西,就是不是就不是没有关系。就是说呃全接也可以做分类,也可以做回归,然后转化率预估本身是一个回是一个分类问题,是一个二分类问题。

就012分类就是发生转化或者不发生转化。然后最后输出的是一个概率。是一个是否发生转化的一个概率。然后全连接呢本身是呃跟是否分类是没有一个呃强相关的一个关系的。嗯。😊,样本分布不一致怎么处理?

比如在线数据拿不到离线数据。哎,对,这这是个好问题。就是说呃样本分布一致怎么处理?就是在线数据拿不到离线数据的呃,离线模型参数和预测其中的数据再训练。这个预测集中的数据在在那个训练集中没出现过。

我理解就是应该是问句,比如说呃像那个呃APP的这种转化率预估的任务来说,呃,有可能原来的呃在比如说我们刚才讲那个。那个转化率预估的那个比赛里面。有可能原来的呃。有就是有可能嗯在第31天也是在预测集里面。

就是你所谓的预测集里面会会有一个新的1个APP。这时候在之前的训练集中肯定是没有出现过的这就也其实这这不是一个样本分不一致,而是。一个冷启动的问题。

就是说对于这种新出现的APP或者说没见过的这种新用户或者新新。新APP怎么去做他们的转化率预估?然后这里是没有做特殊处理的。呃,相当于我们是因为我们之前提的特征是包括一些类别类的特征。

比如说这个APP是属于哪一类,或者说这个用户他有一些学历,或者说是年龄这种这种分类别的一些特征,就是呃比较呃比较呃。就比较呃高维的这种特征,它可以去呃在一定程度上去解决这个问题。

但是说肯定效果也不能说太好。这个这个问题是一个呃。呃,很难解决的问题。就是说一般的话都是用一些呃比较抽象的一些表达。比如说呃不用特别就是specific,就是特别。呃,具体的这种特征去解决。

而是用一些比较抽象特征。这种操作这种操作是。哦,就是inbedding的embedding的话,其实你大概搜一下,其实很常见。呃,这样叫像对,就是你看一下word vector。

对word vector其实看到word vector之后,大概就能理解这种操作的意思了。多秒训练是inbudding的参数共享,那代lookup代表是指示吗?啊。

这个inbedding感觉大家都是都是对这个ebedding很疑惑啊。啊,这个这个inbed的话,其实刚才已经讲过一遍了,就是它相当于就是呃。呃,就是一个比如说E。乘以M这么一个这么一个操作。

然后最后得到一个比如说嗯就是前面的E的话,可能就是原始的一个one号,然后再乘乘以一个M,就是一个矩阵。啊他们俩做了相乘之后,其实会对于每一个one号来说,每一个特征来说都能得到一个更为稠密的月吧。

比如说这个E的话是呃。11千维。1000,然后乘1个M的话,比如说是。第时长。以前0。然后这样的话就可以得到一个比较稠密的一个实的一个表实维的一个表达。这样的话就是说这这就相当于做了一个白领。

就是说原始的是1个1000位的这种呃完号的编码的数据,然后经过一个矩间的相乘,然后得到一个N。然后这个M的话其实就是一个一个参数。学习的参数。多明融合的怎么保证在同一个量钢下求的平均。

多模星融合在同一个亮钢,因为这里是做的二分类。这里是做的2分内。然后是呃其实是做了一个log,可以看在前面一下。把那个二维码拿出来啊,大家可以没扫码的,可以可以扫码进去。辅助。😔,可比。

辅助信息的明白你可以。平均可以解决能启动。对,这也算是一种解决办法。广告做推演差别大嘛嗯。广告和推荐的话哈,我是呃区别的话,其实。对,上把牛的话都有前途。对,是这样的,就是其实他们两个是呃很很就是呃完。

就是他们的交叉特别特别大。就是说你做,不管是做广告还是做推荐,都需要做点击率和转化率预估。然后包括你做推荐的时候呃,和做广告的时候,他们之间的呃。😊,呃。

这边的优只能说是他们的用到的一些基础基础的一些算法能力都是都是一样的。就是。呃,就是包括你基层的点击率预估的,或者说转化率预估,包括一些呃像搜索的里面,搜索里面可以去做LP的一些工作。

包括你展示之间的一些呃包括冷启动啊这种问题。其实在两边都是相通的。然后区别呢可能是两边的优化目标是不一样的。比如说做广告的话,我们是为了呃多赚钱,就是给给给公司做来更多的收益。

所以它的优化目标会对那个对那个排序的一个权重会更注重那个ECPMECPM就是会会参考广告主的出价。而做推荐的话,可能更更是呃用户侧的一些优化。其实他们他们的技术能力大多数都相同的。一般做过推荐的。

转到做广告或者做广告的,转到做推荐都是可以的。然后然后广告的话可能呃。需要的呃能力更加综合一点。因为广告还涉及到一些,比如说机制设计一些一些工作。比如说你是CPC广告还是CPA广告。

还是OCPC广告这种。他需要的能力更多一点,包括一些拍卖理论和博弈致博弈论一相关的一些东西。然后他们的交叉是很大的。然后做广告的话,可能能力要求更全面一点,更多一点。广告对啊,这个的话大家进群之后。

其实是我们后面的话会开一个课程,就是专门来讲那个广告的。就一个系列课程。一为系列课程专门就是把广告的从头到尾就是涉及到的一些东西全都全都涉及到。然后最后的话大家可以看几个重点关注的方向。因为里面的话。

大家其实是对于所有的所有的涉及到的所有的这些技术都得了解一下。然后有一个一两个一个重点的关注的方向就可以了。啊,我目前在用金G买的。对。啊,这个是很火的,最近就是像GCN。

GCN和graphbadding的话,其实是呃这段时间很火的东西。像阿里他们做那个包括腾讯做社交广告,阿里的呃做一些呃搜索广告的一些召回,其实都在用那个GCN来做。这是一个现在也是一个研究的热点。对。

有一大块是RTB相关的算法。对,是这样的,这是跟那个推荐的一个主要的区别吧。然后这里面就涉及到一些广告的机制设计相关的东西。然后后面的话,我那个PPD会会分享到群里的,会让那个助教分享到群里的。这个是。

做乖份卖点。对。其实拐粉白dding的话呃比其实是比较前沿了。像像那个左边左边微信群,像拐粉 emdding的话,是呃现在只有大公司能搞得起来。像一般的我们还是用传统的方法去做做召回。如果是。

像大公司的话,做拐粉管理也是一个尝试的阶段。因为它。嗯。对对那个计算能力要求比较高。那不只是一个没想的问题,还有一个工程时间的问题。这些效果的话,其实相对于传统方法并不一定能提升太多。

能不能用找NRP可以的,广告是是呃很多很多就是专门做NLRP的,需要需要专门做NLRP的人。比如说因为广告涉及的东西太多了。比如说搜索广告里面肯定的需要NRP,比如说宽域的一些改写。

或者说语义的一些理解啊,搜索广告,比如说就拿百度来说吧,百度你搜索广告词,广告怎么去做做通过广关键词去做去做广告的召回,这时候肯定有NLRP然后包括一些呃现在的一些呃热点是做那个智能创意。

就是说根据广告内容就不需要广告主自己去制作创意,就是可以通过一些呃NLRP的一些工作去做短标题的一些生成,这种也是涉及到NRP的一些东西。同时包括一些语义的呃相关性。

就是不同的呃广告和和query之间的相关性也需要做。其实其实大家如果是对LLP比较了解的话,可以关注那个呃就是对NLP比较了解。同时想做广告相关的工作,可以重点了解一下相关性相关的工作。

哪个方向招的人比较多?嗯。招的人比较多,我感觉是呃像其实像做那个呃点击率预估和转化率预估这种,其实是大家都比较熟悉,就是招的人大家都需每个公司都需要,但是。诶。但是就是候选人也比较多。

像但是像一些比如说机制设计,像一些广告的一些拍卖理论,了解这部分的候选人比较少。其实。呃,就是大家可能在在那个招聘的时候,就是不一定要去关心他招的多,而是。呃,就是也要考虑那个候选人的数量嘛。

就是这个比例大概有多少。其实我现在感觉下来就是关于机制策略的相关的呃相关的候选人比较少。而且是另外一个就是NLPLLP的话,其实也也是现在的一个热点。像图像领域的话,现在其实是呃有点有点饱和。

想算好好样。所以说就是如果是方向的话,我建议是一个是像拍卖理论、机制策略相关的工作。另外就是或者是就是LRP相关的一些工作。对 si位。图像的话现在。怎么说呢?就是。嗯。

至少在广告这边的话会比较比较饱和一点。机制机制设计。或者说是。呃,只能出价。因为这部分的话,其实你像学校里面出来的同学的话,其实是接触不到这这部分东西的。然后对于对于公司里面的话,就只有在做相关的工作。

大家才能有机会去接触到。所以说这部分呃圈子会比较小,就是大家做这部分工作的会比较少一点。而这个机制设计呢,其实包括呃像客户就是机制优化。哦,就是。抠车。通了机址。好吧。

python大家可以看看python这种这种工作是是在做什么内容可以简单了解一下。然后我们后面的呃正式课程会对这些东西都做一个系统的介绍,包括机制设计和LLP和召回和拍卖这些东西都会做做介绍。

然后大家听完之后可以选一一两个就是比较感兴趣,擅长的内容,然后再去做一个求职。对。好,大家嗯还有问题吗?没有问题,今天就就这样吧。好,再等再等一分钟,大家没问题,今天就这样吧。

大家可以关注一下我们后续的课程的开通。这个是视频应该是有录过的。是有录播的。关于inbedding这个其实很简单,大家不要把这件事情想的很复杂,其实就是一个把高维降降为到一个低纬的这么一个过程。

防止那个模型模型太太复杂。其实就是一个编码的一个操作。这个其实很简单,大家其实就是一个对于当然有很多种这种inbedding的这种方法。

然后这里的话其实大家了解一种就是呃像那个矩阵相城这种就可以lookup table,也就是也是这里提到lookup table。然后同时还有一些上一些哈希啊这一些东西。其实就是大家了解一下。对。

要学习一下那个water to vector,其实里面的理念是很像的。然后这里的话比w to vector更简单。好,那今天今天就这样吧,谢谢大家,今天就到这样,到这儿了。😊。

人工智能—计算广告公开课(七月在线出品) - P6:基于电商广告的点击率预估实战 - 七月在线-julyedu - BV1SA411H7Se

然后今天我们给大家讲一讲啊CTR就是我们所谓的电商,或者或说广告领域非常重要的点击率预估或者转化率预估的这样的一个问题。然后今天的话我们会先focus在比较成熟的大部分公司。呃。

没就是即使是神经网络上了,他们也不会弃用这些方法。这些一些比较传统的machine learning的一些方法去做这样的一个问题。

好,然后我们先来看一下这个问题的设定。呃,因为。

天罗上那个数据的话。对,cago上那个数据的之前cago的那个案例的话,很多同学已经看过了。但是那个案例呢可能离大家稍微有一点点远啊,毕竟是嗯海外的一个场景。然后我不知道大家有关注这个比赛嘛。

是腾讯的一个啊移动app的一个广化广广告转化率的一个预估。这个应该是这个比赛应该现在还在进行。嗯,但是已经不能报名了。

对,然后是腾讯今年举办的第一届呃算法大赛,然后针对的就是这样一个问题。所以你看呃你要知道这些大公司去举办各种各样的自己业务场景下,各种各样的比赛,一定是有原因的。这块业务对于他而言本身非常的重要。

比如说你会看到像天猫,像京东。每一年都会有一些啊类似于这个呃叫rank结果排序,或者是recommendation推荐系统的一些比赛。那腾讯呢今年的首届的呃算法大赛呢是拿出来了这样的一个问题啊。

是他社交广告上的。社交广告上的一个广告的转化率预估的这样的一个问题。啊,所以这个这个比赛大家可以去搜一下,现在应该还在进行,还唉不过应该已暂暂时已经不能再报名了。

然后背景大概是这样的,嗯,这是一种一种其实是互联网的一种形式。就是到现在这个时候呢,大家会发现。广告这个东西无处不在,而且它做的会越来越原生态。所以有时候你发现不了这个东西。它是一个广告,比如说你去。

啊,但是微博没有做的这么好做的这么好了。就是你你刷微博现在也可以看到一些广告。那你看这个今日头条,或者是有些同学用啊网网易新闻或者天天快报,那里头都会放一些。和结果非常相近的这样的一些内容啊。

就是原生态的一些内容广告。OK那所以你在很多很多的场景下都会看到是互互联网的一些应用上,都会看到这样的一种形式啊。计所以这是呃大有很多公司它的营收的一个主要来源啊,叫叫计算广告。

那么大家知道像google这样的公司,或者是像facebook,那广告的营收可能占到总体营收的百分之嗯。像google的话可能能到90%。OK所以计算广告的话是互联网重要的一个商业模式之一。那广告的话。

它投放的效果投放的效果会通过一些指标来衡量了。包括说它的一个曝光。啊,比如说大家打开微信,你看到你的朋友圈,偶尔会出现一个出现一条广告。那那这种广告的话,它是通过通过曝光来。做一个衡量指标的。

然后还有点击。对,因为发生了点击,说明用户和这个广告有交互嘛,说明他可能对他有一些呃可能感兴趣,对吧?因为然后转化转化是另外一回事了就是。大家看到电商网站上,比如说像淘宝啊,那有一些商家他是投了广告的。

所谓投了广告,就是他希望能够。通过以付费以付费的方式,让啊搜索广告的场景下,以付费的方式让自己的结果能够更。多的曝光在用户的这个呃页面上。对用户看到的这个结果上,同时呢能够呃最好是能够有一个转化。

也就是用户能够点进来去购买啊,O。所以这里头有几个环节啊,第一个环节是曝光,对吧?先要用户看到用到用户看到了以后呢,有一些广告的形式啊,嗯,它是比如说叫叫CPC,它是以以这个点击来收费的。啊。

比如说像百度的。广告像。淘宝大家打开淘宝你的这个app端,然后你随便搜一个东西,你去看你的第一位。嗯,然后每隔5个位置可能会有一个广告。对,然后这个时候呢这些广告呢,你只要发生一次点击,这些广告啊。

包括百度的话阿里的发生点击,它就会有一定会会。有一定的收入。然后转化呢是。在点击之后的一个行为,就是我点击完了之后,我可能会发生购买,我可能会发生后续的一些呃行为。所以大多数的广告系统呢。

因为它能观测到的这些信息只是要这样一些信息,所以基本上是通过曝光或者点击作为投放效果的一个衡量来展开一些优化。

然后腾讯的话,它有一个部门叫叫广点通OK然后负责的主要是广告这一块的业务。呃,然后广当然广告这个东西。本质上。这些商户或者投广告的这些这些人是这些广告主,他是希望看到收益的。所以平台侧啊。

比如说像腾讯的这个广告平台册或者是阿里或者是百度,他们会。那也会去follow一下这个呃广告主投完以后的一个转化的效果。因为广告这个广告主最终关心的是这个东西嘛,他花了钱。

他希望说我能够提高我这个东西啊。卖出去的一个概率或者怎么样OK。所以刚才我们说有点击到最后转化的这样一个步骤,它是有一定的概率的,发生了概率的。然后你可以基于广告转化数据训练去得到一个模型啊。

叫做PCVR啊,包括我们现其实在电商的话,一般情况下我们会预估几个东西啊,一个叫CTR叫click three啊,click through就是点击点击率。因为我说了,有一些广告它是以点击来计费的。

所以就是说这个结果出现的时候啊,当我搜这个ok我搜搜这个机械键盘啊,那当我这个投了广告的这些机械键盘出现在广告可以出现的位置的时候,最后会不会有人点进去会不会买买这个东西啊。

那会不会有人点进去看点到详情页,这个叫做。预估这样一个概率的话,叫做CTR叫做click through rate啊,点击率。那点到我点到这个详情页之后,我会不会下单这样一个概率叫做转叫做转化率啊,叫。

preredictive这个 conversionversion rateOK所以主要是CTR和CBR这样2个。概率我们需要去搭建一个模型去预估,从而知道说啊当一个用户来了之后,我给每一个广告。

我给出一个广告,那他。会点击一会点击进去,或者说我会会发生转化啊,不管这个转化是下单,还是说其他的一些像这个地方是一个一个下载安装。O这样的行为,它的一个概率对吧?

然后所以我可以优化我的结果去对结果做一个排序啊,或者说对它的展出去做一个形式的变更啊等等。那最终是为了提高啊,这有一些电商的一些术语啊,叫RY对。

然后这个题目这个腾讯的这个比赛呢是以它的场景是一个移动F广告。这样的一个研究对象为背景的这样一个题目。那他做的事情呢是呃大可能是像像QQ空间或者是其他的一些位置啊。大家知道腾讯有很多产品啊。

包括QQ包括微信啊,那会有这个QQ空间或者是微信的一些朋友圈。OK那你当他给你推荐一个app的时候,那大家预测大家这个app被被点击以后被激活的一个概率。

也就是说你可能会到app store去下载或者怎么样,被被被激活的一个概率。所以。对,所以这个PCDR呢在这样一个场景下,就是说当我给定一条广告,对吧?当我某一个用户来了之后。

我根据这个用户的contex contextt就是上下文嘛,我的一个之前的一些行为啊,然后去。发生这个转化的概率到底有多高啊,比如说这个时候是app被激活的概率有多高?ok好,这个是大体的一个背景。

实际上我们要做的事情,大家显而易见。可以知道是一个二分类,对吧?也就是说我在我想知道呃在点进这么多feature啊,所有这些featuread广告user以及contex。

这么一些feature的情况下,我最后去发生转换这个概率啊发生转换。或者不发生转化这样一个二分类。只不过这个二分类呢,我可能希望你以一个概率的形式给我一个结果,而不是说像一般的这个随便找一个分类器过来。

你告诉我是零或者是一啊,我想知道如果它是一的话,它是一的概率有多高啊,也就是发生转化的概率到底有多高啊,你给我一个概率。所以这显然是一个呃机器学习的一个应用的一个场景一个领域。那我们来看一下数据。

因为所有的问题,mine类的问题都是我们把它大部分情况下,我们把它叫做数据驱动的问题。所以。模型是一方面,那是本身是你是需要用数据的方式去驱动最后的这个产出最后的这个结果。那不管你是用数据分析的方式。

还是用建模的方式,其实都可以,都OK。好,所以训练数据呢是腾讯的社交广告系统。呃,连续两周的日志,他去做了一些采样。然后包括按照这个推广中的app,因为呃他可能会推广很多很多的。

app然后这些app的话。有一些量会非常大,有些量会非常少小,所以他呃推广的这个频度不太一样啊,所以他可能会对他去做一个采样。然后包括用户用户的话。

其实大家知道QQ和微信的这个用户所有的用户用户量是非常非常大的。所以他可能根据啊用他所谓的用户维度可能是一些不同的一些维度,举个例子来说,可能是不同的地区,对吧?

那可能每个省我都要采集一些ok不同的这个年龄或者是性别,对吧?那反正他有一些参考的维度,他去做了一些采样,意思就是告诉你说,这是啊腾讯的社交广告系统,网点通里头真实的数据,但是呢我两周数据太多了。

所以我我去给你做了一些采样啊,但是即使是采样之后啊,这个数据量依旧是还是挺大的。大家可以自己去试一下。但是你的。如果你自己这个啊电脑的这个内存不是太够的话,这个系这个我我给的这些代码可能跑起来。

这个速度会比较慢,可能需要等一等。OK然后这个地方的话,每一条训练的样本呢实际上是一条记录啊,就是说现在有一个有一个用户过来了,有个contact上下文,对吧?我曝光给了他一个广告,这个情况下。

他这样一条记录啊,然后会有一些信息相关的信息了。比如说这个时候点击的时间啊,叫click time啊,label当然是取零或者一了。

刚才说了这是一个很典型的一个分类的问题零就表示说啊这个用户点了这个对吧?点了这个app,让他发现说我不想安装ok那一呢表示说可能有发生转化。那如果label是一的话,它还会提供一些额外的信息啊。

比如说这个地方的这个转化回流的时间。OK啊,那做详细详细的这个特征的话,不是不能说特征啊,这个时候还没有到特征。详细的数据的话是啊下面就列了这个情况啊,这个大小大家能够看得清吗?还是有一点点小。

图片呃这个。这个对这个案例我这个ip notebook,我回头给大家吧。因为这个地方我是嵌进去了一张图片,然后我发现它的大小好像没有办法去做变更,就是原本的字体上面的字字号是可以做变更的。

但这个地方做不了变更。O我给大家讲一下吧,大家先勉强看一下啊,就是刚才大家看到了我这个概率看到了这个概率的左左右啊右侧的这个条件是什么嘛?就是有三有三部分对吧?

叫做ad广告啊user和contex上下文,所以你往下看的话,数据的话其实也是从几个维度不同的维度给出来的。比如说ad广告的话,它本身会有一些特征,对吧?

比如说这个地方这个账户I也就是所谓的这个ver的个I。那就是每个广告主会有一个一会有一个账户嘛,对,对应到一个特定的一个广告主啊,那一个广告主可能会投多个广告,这是有可能。然后对应到这样一个账户。

每一个广告主的账户底下呢会有这个广告的一些推广的一些计划啊,推广的计划呢。就是。可能是一个集合了,里头里头会包括各种各样的信息啊。你可以他这个地方做了一个小小的解释,说推广计划实际上是广告的一个集合啊。

就类似于说你有一个文件夹底下底这个文件夹底下包含的是这个这个广告主所有的。相关的一些计划一些安排,或者说他投的一些广告OK这个信息在这。

然后再往下看到的话是一个ad IDD就是一个广告本身的1个ID对吧?那那可能呃举个例子来说啊,就是呃网易的话,他可能去在在腾讯上去投广告的话,他可能可以投他的这个网易云音乐,对吧?

那也可能会投他的这个网易新闻等等啊,都有可能。所以这个同一个广告主可能会有很多个不同的这个广。广告的ID那这个地方的广告ID呢是。广告主创建的一个广告创意及广告展示的相关的一些设置。

包括啊其实就是各种各样各种各样维度的信息啊。比如说他会要求这个我说我我投放的平台,对吧?我觉得QQ空间的这个人群,大部分是小学生啊,就是还在玩QQ空间呢,ok我不想投,我想投Q那个微信的啊朋友圈等等啊。

或者是投到这个QQ空间的哪个位置。OK。然后投放的一个广告的规格,然后广告的创意啊,所谓的广告的创意就是呃类似于他的。就是会是以什么样一的形式去去做展出,然后图片的呃各种各样形态等等啊。然后广告的受众。

有时候我要求他就会有有一些广告主他会去做一些定向。比如说我可能去要求我这个广告只能投给某部分群体啊。比如说年龄段在什么年龄段的人或者是呃O怎么样的一个就会做一些相关的一些限制。然后广告的出价等等啊。

就相关的一些信息,大家大家可以理解成。然后这个地方会有素材ID啊,今天提到这个包括像腾讯的这个比赛里头这个场景呢,因为它。是一个比较垂直的一个领域。刚才我说了计算广告这块。

所以嗯可能会有很多很多的业务相关的一些东西啊。大家第一次听的话可能嗯不是太熟悉这个东西,但没有关系,我们直观的理解,就是这个地方都是我刚才的三个维度啊。

就是ad usert里头ad和广告相关的这样的一些信息,一些数据,反正提供给我们一些数据,对吧?包括素材,包括这个地方的apple这个app app IDD对吧?那你我刚才说了就是。这个呃一条广告。

它肯定要带上它对应的这个广告的一个一个内容,对吧?比如说这个地方推的是一个app,一个应用,那应用的这个ID号,对吧?它可能会对这个网易云音乐或者是网易这个云课堂或者是网易的。

新闻客户端都给一个app ID啊,然后这个app IDD呢它会包含一个app的一个分类,对吧?categoryok所以你知道说我这个是一个新闻类的一个一个内容类的这样的一个阅读的 app。

我是一个音乐类的一个app。所以这个地方的话,它也不会给出明文啊,就所有的这些数据呢,实际上都是做过脱敏处理的。所以大家拿到手里的话,都是一些编码过后的一些啊信息。比如说。这个地方的app你就看不到。

他告他不会告诉你说,okK这是一个网易语音乐的app。他会告诉你说这个网这个app它的ID是多少?比如说10001OK。然后分类也一样啊,它里面可能会有自己的一个类目体系。

那这个地方的话是一个两级的类目体系啊,就是类目有两层。那比如说呃这个大家知道这个类目体系呢是在在电商或者是在这种形态下非常非常常见的一个体系。就比如说你在嗯淘宝上的话,你可能会去搜这个呃。W。

连衣裙那连衣裙这个类目体系底下可能会有不同的子类目,对吧?哪一种的连衣裙,所以它是可以有几级的这个类目体系的那这个地方的app也一样,它分成了两级的类目体系。所以这个地方有3,他说了这个。

给你的这个app的一个分类,有总共会有3个数字。这三个数字里头呢,三位嘛,那这个百位表示一级类目,对吧?大家可以想象到百位一个一个位置嘛,它表示一级类目,说明一级类目比较粗啊。

就可能最最多就是这个0到9嘛,这10个数字O那10位和个位的话,大家可以想象,总共可以有呃10乘以10,对吧?那是啊100个最多啊可以有100个这个category,所以它是1个22级的一个类目。

更详细的一个类目。那他举一个例子说,比如说210表示说一级类目是2,那二级类目是10。那大家可以看到这个东西本身就是一个特征,对吧?一个feature啊,那他在他在告诉我们说。

一会儿我们拿到这个数据的时候,我们对于这个字段。我们需要去做一个处理啊,把至少把它拆分成一级类目和二级类目,对吧?因为这两个信息都是有用的。好,下面就是一些app的平台啊。

比如说这个用户他到底是用安卓的系统还是IOS的系统,还是说我这个时候拿不到他的系统,对吧?这都是有可能的。因为主流的两个系统啊,移动端系统就是安卓和IOS嘛,对吧?

那然后用户维度会有一些feature嘛,用户维度会有一些相关的一些信息。比如说用户的ID呀,用户的年龄呢,对吧?那但这个年龄呢可能是采集不到的。就像我们之前很多的嘛寻常令的问题一样,它可能是有缺省值的。

因为并不是说这个大家都会在QQ上填自己的年龄,对吧?然后你填的也不一定对,对吧?很多人就填个一岁啊,填个99岁O但他的取值范围啊,年龄的范围是0到80岁。对,零表示未知O。但性别也一样。

就是男女或者未知,如果你没填,我就不知道,对吧?那学历也是一样的啊,婚恋状况,然后育儿状况、家乡啊,籍贯你的籍贯你的注意这个地方的话呃,籍贯跟刚才我们说到的app的这个分类是一样的,它也是一个。

两级的一个。编码,然后千千千位和百位表示说省份。因为大家想一想,中国的省份总共有啊30多个嘛,对吧?所以你用一位一个位置肯定是没有办法做编码的。所以这个地方用了两个位置啊,就千位和百位。

那10位和个位表示说省内的城市啊,也就是具体的这个cityO。比如说1806,他举了例子,说十8表示的是某一个省,对吧?编号编编码为18的这样一个省份。那后面的06呢表示说实际上是一个城市嘛。

一个city。省内的第六号城市OK。啊,然后是居住地,就是刚才说的是它的籍惯信息,那有你现在常驻的一个地方,对吧?常驻地相关的信息,那编码的方式和上面的方式是一样的啊。

以及你之前的一个app的安装列表啊等等。所以截止到某一时间点,用户全部的app的一个安装列表,然后它会过滤到一些里面一些啊高频和低频的一些app啊,安装的流水等等啊,反正会有一些信息。

然后第三类是我们刚才说的contex上下文特征,对吧?所以上下文的特征包括说这个广告位,广告位就是具体在。呃,这个地呃广告位的话就是具体的这它会它可能会有一些广广告展出的不同的位置嘛。

比如说我我买的这个位置是QQ空间的这个faceface广告位。我可能是这个微信的朋友圈的什么位置,对吧?O那这个站点集合就是一个多个玩位的聚合了。比如说这signs science ID嘛。

所以它可能是1个QQ空间,对吧?呃,大家现在看到的这个是腾讯在这场这次比赛当中提供给大家的数据,提供给大家的数据。那在这个数据的基础上,你可以去做一些特征的处理啊。

feature engineering的事情,对吧?对,然后呃有同学问到说这里的特征有些是不是通过预测来得到的?比如性别呃,我不太清楚。但这份数据本身是腾讯官方提供的,所以我猜测是用户填了的。

就就写在上面了,没有填的,他应该没有去做任何的,他没有去先去做任何的填充。ok。呃,有人在有同学在问广告广告位的相关的事情是吗?这个和业务场景有关系,有兴趣的话,你可以去了解一下计算广告,可能会有一些。

比如说叫banner广告,或者是一些banner广告位或者是一些啊faceface face广告位呢就有点像是大家呃玩这个微博啊或者是国外的同学玩这个facebook啊,它叫face流。

就是你会不断的刷这个屏幕网上刷,然后他在这个你获取的这个信息流当中会插入一些广告,大概是这样一个意思啊是不同的啊,比如说对,比如说像百度可能它就是其他的广告显示啊,这个是不太一样的。

那大呃包括广告位这个东西其实很好理解啊。大家想一想,你你平时用百度的话,你搜一个结果,你看到的广告其实在的位置是不一样的嘛。对吧比如说它可以在这个搜索框的下方,它可以在搜索框的右方,对吧?

屏幕的这个右侧,所以它是有不同的位置的。这个就是所谓的广告位ID大家能想象得到这个东西,广告出在不同的位置的时候,它对于用户的这个吸吸引力的注意力的这个吸引其实是不一样的嘛。对吧对。

这是一些和这个业务场景相关的一些东西啊。但是大家不用其实不用特别的去care这些相关的东西,你就把它理解成说ok这是一些数据给我的给我的一些特征,给我的一些数据,我一会儿可以拿来建模就OK了。啊。

下面这个是广告位的一个类型,就是像我刚才说的,它可能是一个一个banner广告,或者是其他的一个一种类型的广告。就是它会有很多的不同的形态。那联网的方式是指的。

当前这一次嘛联网的方式可能是2G或者3G或者4G啊,或者是wifi。大家可以想象的到,你现在是要去做做一个转化。比如说下载一个appOK那呃如果在wifi的情况下。

可能是大家觉得我下一个app也不会怎么样,对吧?那如果是一个呃3G或者4G甚至2G这样的情况下话,大家想一想,现在一个app动不动就上百兆,所以呃还是要花掉一些流量的嘛。

所以这个联网方式可能会对最后的转化会有一定的影响,这个也是显而易见的。大家可以想象的到的那运营商对吧?你用的是中国移动还是联通还是电信等等。这个可能也有些潜在的一些。影响在啊。

总之这个地方呢就是我给大家大致快速的过了一下啊,但可能可能具体的有一些东西和业务场景有关联,但是没有关系,你就把它理解成说okK刚才我们给了一个公式,这个公式这个转化率的这个定义。这个概率的定义里头。

右侧有三部分,分别是来源于广告本身来源于用户本身和用户本次来到这个我的这个。不管是这个QQ空间还是我的微信的朋友圈,还是其他地方,我的一个context,我的一个上下文。所以针对这样三个东西的话。

让大家看到有三类数据,对吧?叫做广告特征,叫做用户特征和上下文的特征。所以腾讯给你整理出来一份这样的数据。当然他会分拆在几个不同的文件里头啊,那这些数据我们都会给大家,你可以自己去做一个尝试。

然后说他做了一点小小的解释,就是我刚才跟大家说的。因为这个用户的信息是不能直接曝光给大家的嘛。就是所有的这些企业都要用为即使是他现在可能做不到这个东西啊,因我们都说用户根本就没有。真正的隐私。

但是呃对外的话,其实这个事情还是很重要的。所以他如果提供了这样一份数据,用于比赛的话,他会。做一些安全方面的一些考量。比如说去做一些脱敏的一些处理啊,对于敏感的一些信息,铭文的一些信息。

所以这个地方的us IDDFID以及一些特征呢,实际上都是做过一些啊加密的一些处理的那具体加密的方式,他在底下也提了一下,这个大家有兴趣可以自己去呃看一下,好吧。

对。

对,这其实这个这个大小大家应该是可以看得到的啊。对,就是他是做了一些相关的一些处理。那优U子 IDD和appID我就不说了,这两个东西基本上是一个哈希的处理。所以保证只要保证每个用户拿到的ID不一样。

每个app拿到的ID不一样,就OK了。那这个时间的话嗯,它把它转成了这个第几天就不是实际的。

对他不是他并不是实习的呃,这个几几年几月几日。对他说的是第几天第几小时啊,第几分钟okK所以是一个距离某一个起始点一段时间的这样的一个数据啊OK。然后上面大家看到的实际上是一些什么呀?就是你可以。

想一下上面提供的这些信息本身是一些有一些是静态的信息,对吧?比如说广告本身的一些信息,用户纬度的一些信息都是静态的信息。那它实际上有没有发生交互,它也需要有文件提供出来。

所以这个地方有一个cha chain点CSV。是一个训练数据的文件,它每一行就代表了一个样本。刚才我们说的最终会不会发生点击啊。你看到是依次是这样的一个一个信息,所以是label对吧?

label就是零或者是一,刚才我们已经说过了,它是一个分类的问题,所以是点击了或者是没有点击啊我点击的时间对吧?如果它发生了点击,也就是说label是一的情况下,我有个转化的时间,对吧?

转化时间就是说我我这个安装上这个app或者怎么样的一个一个时间。O那我的呃会会有一些其他的一些I啊,可以大家可以理解成这些东西都是一些特征,对吧?一些特征position ID刚才大我已经跟大家说了。

可能是在比如说像百度的广告啊,比如说像QQ空间的广告,它可以是直接嵌在QQ空间的这个内容里头,也可以是可以在QQ空间这个页面的右侧对吧?或者某一个某一个角上或者是这个屏幕的下方等等啊,都有可能。

那么connect type connect type就是我的连接的一个方式。然后我的运营商对吧?哦。所以呃再往下的话,他这个地方其是他们给东西给的很详细了,这个地方有一个详细的一个描述。

对,这以总共会有这么几个文件,大家看到了吧?这是所有的文件。你看。

嗯,大家都学过数据库,学过数据库的同学一定知道说在学数据库的时候,老师呃如果是学计算机的同学啊,学过数据库的同学,老师会给大家介绍到第几份式,对吧?那这个地方为了节省空间。

它也不是帮你把所有的每一条记录啊,就像有很多同学这个。之前如果做过一些toy project,或者是刷过一些cago的一些很简单的比赛的话,那你的训练文件就一个对吧?所有的信息都融合到一行当中了。

但是现在他这个东西不一样啊,他给他做了一下,你可以理解成做了一下分表,或者是分到了不同的文件当中,这个能够呃能够。保证没有那么多的信息的冗余嘛。

那但是但是即使是这样,这个文件也不小啊,大家可以自己去试着加载一下,我会把数据和代码都给大家。大家可以自己去看一下。比如说这个地方它分了一个用户的基础特征。刚才我们看到的一类一类信息一类数据一类特征。

对吧?都在这个user点SV里头,然后它里头告诉你了,说字段有什么有us ID对吧?年龄啊,性别edation,就是学历状况,对吧?然后是否结婚啊等等,然后这个是不是有宝宝啊,然后家乡是哪里的呀?

现在常驻常居地在哪呀?对对,常驻地在哪,然后这个地方有一些app的安装列表啊,就是之前的相关的一些信息嘛,就是它装过装了哪些,然后安装app的一个流水啊,就是你可以认为它是一个一个顺序或者怎么样O然后。

对,然后安装流水,然后是app特征特 app的一个特征文件,就是本身这个app的一些category,对吧?一些这个category啊类别。然后广告的一个上下文,刚才大家已经看过了嘛,就是。

广告位它对应的一个文件。所以这个地方有很多个文件。一会儿我们需要把这个这些文件用一些相同的字段去做一个jo易,做一个连接起来,对吧?这才是真实的呃工业界通常情况下。

大家在做的事情就是没有现成的说我给你一个文件。OK这个文件拿过来做训练,这个是没有的。通常情况下,不同的信息都记录在不同的这个数据库当中,数据库的表当中,然后你可能需要把它们或者是不同的日志文件当中。

那你需要把它们拉出来,去做一个聚合,聚合成你最后需要的。

这个用来做训练的这个文件啊,这是真实的情况。OK所以大家看到了。然后这个地方的话,他告诉大家说测试数据啊,测试数据你可以理解成和训练数据是基本上是一样的,只不过它是没有那个。

最后的tt或最后的label的对吧?需要你去预测这个label,其他的信息可能是有的。O那评估的方式呢,这个地方用的一般是呃lock loss。就是一般情况下。

我们去评估和CTR预估或者CVR预估相关的这个问题的话,我们的评估指标都是啊log loss或者log loss或者是AUC啊,这个呃取决于你的。场景如果你是一个搜索广告,就续的问题的话。

你一般会用AOC这样一个指标。如果像腾讯的话,大部分情况下,他们是一个嗯。展示广告ok就是你你不用户不会主动发起请求,对吧?我只是来到QQ空间的页面,我只是来到微信的朋友圈。

我没有发生任任何的这个queryqueryquery,对吧?任何的请求,所以这种情况叫叫展示广告。然后他们的评估标准呢用的是lock loss。嗯,大家知道这就二分类,对吗?二分类的话。

大家都学过logistic regression啊,LR大家都知道LR里头用的损失函数los function就是一个log loss。对,OK然后底下有一个python的一个代码。

就是告诉大家怎么去求这个log loss啊,当然这个其实是不需要的。因为本实际上大家去调这个,不管是se learn还是其他的一些package,这个都是。这是非常常见的一个评估指标,所一定是会有。

底下有一个提交的格式,就是最后呢。啊,完成一个任务,你一定要以他要求的这样一个格式去。提交上来这样一份的。

结果嘛,O。所以这个是大致的一个背景,对吧?如果这个背景大家听听完之后有点晕的话,你就抓住几个重点就好了。我就说了这是一个分类的问题。但分类对问题研究的对研究的东西就是说我在给定了广告。

给定了用户给定了上下文的情况下,发生转化的概率有多高,对吧?就是会转化或者不转化,而且我想知道转化的概率有多高。所以这个地方针对ad user和context分别提供了几类信息啊。

就是在这下面大家可以之后详细的去看一下。好,现在我们直接来看一看这个地方写的官方给出来了啊,腾讯很有意思啊,他给参加同学参加这个比赛的同学呢给了一个基限的版本,basedline版本。

就是他官方给出来的。

呃,b什么叫 base爱呢?就是说如果你来参加这个比赛,你做的结果比我给你的这两个基限的版本做的还要差的话。那基本上就是。Oh。说明你没有太大的成果,对吧?这个方法肯定是没有办法上线的。

OK所以现在这个CVR预估的基线版本是腾讯官方给出来的,给了两个两个。不同的方式,一个是基于广告的统计的版本。另外一个是基于广告的logistic regression LR的一个版本啊。

然后底下给出来了结果,最后能达到的得分,大家可以看到lock loss是一个损失函数,对吗?所以这个损失函数分值这个损失函数的值越低,代表我做的越好。因为损失函数它描述是我和标准答案之间的差距嘛,对吧?

所以base line2。1是他们基于统计去做的这个东西能达到的一个结果大概是0。10988。这样的一个lock loss。那如果是用了logive regression能到0。10743。

大家可以看到这个值下降了,对吗?啊,我们先不看代码,这个值下降了,就说明说呃用用了mine learning的方式的话,其实对最后结果是有帮助的。嗯,然后这个地方的话。一般情况下。

大家去参加一个数据科学的一个比赛。我们通常的步骤都是我们先会去观察一下我们的数据啊,了解清楚他给的数据有哪些信息。然后你第一步要第一通常情况下。

你第一件做的事情是我会基于这些信息去出一个呃baseline的一个版本,就是非常非常简单的。比如说是一个统计的版本,或者是一个这个直接用均值或者其他的方式去去做最后的一个预估结果去提交一版。

先看看这个情况能到什么样一个程度,然后再去尝试模型 learning的方式。那。大家都知道转化率这样一个东西。刚才我已经说了,是根据ad和user和contexs去预估出来一个概率,对吧?会发生转化。

的这样的一个概率就是会发生转化或者不会发生转化嘛。最后的label是零或者一嘛,然后你预测的是一的概率是多少?好。所以这个地方呢基于统计的版本非常非常简单,他把用户的维度抹掉了。

他说我不管你是哪个用户过来,我也不管你这个用户的上下文是是什么,就是说有没有这个释放在QQ空间哪儿啊,或者是这个广告位在哪个位置啊,或者是之前浏览的什么信息。所有这些contex上下文的信息我都不要了。

我现在就基于每一个广告,哪个ad,基于广我这个地方。我来写一下,它是一个机。ad它只基于广告本身去做一个统计。也就是说这个广告总共曝光了多少次,在这个广告曝光的这些情况下,发生了多少次的点击。

我说清楚了吗?这个事情是一个非常非常简单的一个baseline版本。就我不管用户的信,我不管哪个用户来,我也不管你之前做了什么context,你的上下文是什么,我只关注广告本身。

我基于每一个广告的曝光和它的。sorry这个每个广告的这个要看这个地方转转化率怎么定义的,就是比如说被点击了,然后从点击到最后转化这个概率有多高,我去做一个后验的一个统计。

然后用这个统计的结果去为最后提交的一个结果。所以大家来看看这个事情就非常简单啊这个地import一下需要用到的科学计算库包这样的数据分析的库,然后指定了一下我数据存储的目录对吧?

就是当前的目录然底下有一个点和吧?我刚才说了,它只用到了ad的信息,所以你那些和这个user相关的信息tex相关的信息我就不要了,我我都没有用所以我当然要去做一个jo了吧?因为它是来源于它是不同的表嘛。

或者不同的文件嘛,所以这个地方用cative ID去做一个公共同的字段去对两个文件做一个jo对两个 frame数据去一个jo对吧。

用padaas merge merge函数就对这个chain data训练集和广告本身的信息啊,data frame and。去做一个join,基于这个creative ID做完join以后。

你就拿到了真正的这个时候啊,在它统计的你需要用到的真正的训练集和测试集。然后我做的事情是什么呀?你看我把Y chain取出来,这个就是label嘛,label就是刚才的零1字段,对吧?

表value就表示说我把这个pas的 data frame转成一个n派 non派对吧?n派的一个数组n派。Yeah。所以这个时候的key是1个FID对吧?我要基于这个。我要基于这个P看到吧?

app ID嘛,我基于每一个那广告每一个广告不就是一个一个app ID吗?你推你最后。广你的广告,你希望转化的是某一个app某一个应用嘛,所以你的应用的ID就是你的需要用来做分组的这样一个呃。

信息对以这个地方我我的训练集,根据我的appID,我的应用ID去做一个分组。在每个分组里头,你看我求了一个什么样的东西啊,求了一个min,求了一个均值而,这个地方是一个小的checks啊。

大家想一想一堆零和一在一起,你去求一个均值的话,实际上是什么呀?是不是就是一出现的概率啊?大家想一想这个事情,你有5个数,00011,然后你求平均是多少?5分之2嘛,0。4嘛。😡。

对吧所以这个地方用n派去求一个平均,实际上就是这个label的一个。label为一的一个。概率嘛。就是零和一的一个概率嘛,求均值嘛,就一的概率。哦。

resett一下indexreet index就把它拉平啊。O好,然后大家注意看到这个时候的哎这个地方我们可以给大家跑一下,但我不太清楚ok这个我看一下我的数据是存在。

啊,对,data。我看一眼啊,给大家准备好了da塔 change accessory啊,是okKO的。我们可以给大家简单的跑一下。但这个它的数据量,腾讯官方给的这个嗯。场景的数据量还不小。

我们copy过来copy过来,然后。我没吃完了也好一会儿。Oh。这样的。Yes。你执行一下。OK他在跑啊,但是这个可能会花一些时间。我这个电脑有16G的内存,唉,好像有一点小小的问题。Oh。

sorry。我的错,这个地方的根目录是点贝ta。啊,OK所以现在读进来了。然后我们可以看一下它的这个我们可以看一下它的结果啊,这个DFCCDR这是我们的转化率,它计算的这个后验转化率。

我们可以看一下head,看一下前5行,你看到这个结果结果就是针对每一个FID我去求出来它的一个转化率,这个大家能能理解吧,没有问题吧。对吧他就是做了一个pas的一个统计嘛。

然后你再把它ok把后面的粘回来。所以你的test,你test也做一样的事情,对吧?你test做一样的事情,然后。小跑一下,对test做一样的事情。所以test现在也是一个呃。对。

可以直接取出来这个averageCTR嘛。就是你刚才已经算好了每一个你每一个广告的转化率已经算好了,所以我直接去取值就好了嘛。我。

对以这个地方呢这个方式呢大概就是一个基纯基于后验统计的一个方式去计算了一下我有多少次被点击。我发现了这个点击之后,有多少次最后发生了转化。我就是去求一个统计值,对吧?我针对每一个ad。

每一个广告去求一个统计值,然后去提交,然后这个能拿到locklo大概是0。10988O所以上面这个统计的版本大概没问题吧。这是官方给出来的一个 baselineaseline的一个版本。

然后紧接着他基于ad去做了一版log regression。loggistic regression这个地方是大家可以看一下。对它在data文件夹底下这个chan点CSV。

然后test点V和ad同样去基于这个creativeID去做个merge。所以两个两份数据就合在一起了,对吧?然后我把label取出来,label就是对应的零和1OK然后我需要去做。

一些特征工程的一些事情嘛,因为数据已经啊准备好了,我的数据OK啊,比如说刚才我我因为刚才我跑过了,所以我现在可以直接看结果DEM chain就我刚才跑了一下第二colums。所以你可以看看它有哪些列啊。

这个时候有label对吧?有click time啊,conversion time creativere ID user IDposition ID啊,connection time啊啊,运营商对吧?

ad IDD啊,这个是compan IDadvertier IDFID app platform等等啊。有这么一些 column。

然后大家都知道我们要对数据去做一些feciial engineering的事情啊。如果你一定要用你要用mine learning的方式去建模的话。

那这个地方的feature engineering就包括说这里头有一些是数值型的,有一些是类别型的对吧?变量。那这个地方有一些ID的属性啊。

比如说creative IDad IDDcomp IDadvertier IDFID和啊这个 app platform。这是一些ID类的一些属性。那我需要对他做什么呀?

做一个one hot encoing,对吧?读热向量编码,所以我用cycl learn当中的one hot enr one hot en,然后去做了一个。针对所有的这些feature。

这些feature每个去做了一个one hot的一个。处理一个transformone号 encoding的一个transform,然后就把test数据按同样的transform的这个结果。

同样的这个映射的方式去做一个transform。然后你最后就拿到了训练和测试集两两部分数据,对吧?然后你就可以用一个loggistic regression去fi一下。因为现在已经全是数字了嘛。

已经全是数字。啊,这个地方如果大家为了这个怎么说,为了。更这这个训练更高效,你可以去再加一个。ga了对吧?因为我们说数值型的数值型的。对,那个因为我们数值型的数据,我们需要去。它的scale可能不一样。

它的幅度可能是不一样的。所以你用一个scaling,一个calar可以去做一下scaling,做一下幅度缩放。

保证它们的这个大幅度范围是一致的那我当然就可以去对用我的log regression或者其他的一些分类器,可以很快的去去去做一个迭代,做一个收敛了。啊。

有同学问到说为啥ID要用one hot IDD如果不用one hot的话,丢到了just regression里头是不合理的呀。

我这是我的appID我的app IDD这是一号ID2号ID如果你不把它做编码的话,它会直接当数字进去用。那说明2号ID的数值比一号ID的数值要大,这是不合理的。它们本身就是不同的app而已。

你并没有大小关系。对吗我我这么说,这个同学能明白吗?这个意思。对,所以我需要对它去做一个one hot的一个encoing。呃,有同学问到了一个问题很好啊,问到了一个问题。

说这样处理的话会不会这个维度会不会很高?你们可以自己去跑一下,确实是有点慢的。但是。这个地方的。啊,就是好好处是L2这个模型是一个平展开来的模型,所以维度高的话,它也是可以训练的,这个是不不影响的。

因为实际你在做训练的时候,你不一定要用一个你不一定要用一个。dance的一个 vectorctor嘛,仔细看仔细看代码。大家看看到这个地方有个ss吗?就这个同学有没有看到这个地方有个sse?

对pas的意思就是说我用的是一个 sign里头的一个稀疏向量。为什么我要用稀疏向量啊?因为我如果用稠密向量的话,就会出现你刚才说的问题,维度太高。所以我灌到内存里我灌不下去,我灌不进去。

这个占用内存太多了,所以特地做了一下处理,这个地方有个ss。所以我是一个稀疏的向量。因为我有这些ID我都做了one hot。所以我在训练的时候,实际上训练的时候,实际上输入无所谓的。因为来一个样本以后。

我更新的只是这个one hot里头某一个位置,某一个位置的这个wat权重。所以我这么说,能大家能明白吗?就是训练本身是可以训练下去的,但是这种方式确实不一定是最合理的方式啊,最合理的处理方式。

因为它维度确实是比较高的。当然因为它本身很稀疏,所以我们用sse用稀疏向量去做了一下呃处理。嗯。😊,什么样的是稀疏向量?有同有同学问到这样一个问题是吗?如果你有100个位置,你只有一个位置是一。

这就是一个系数向量。因为你有99个01个。OK然后这个地方用log regression去做了一下fit,在我的数据集上去做拟合。然后在我的测试集上去预测了一下。你看我不是做predt。

大家都用过cycl learn嘛,那你用cycl learn,你知道以后有几个很关键的函数叫fit叫 chance form,对吧?叫ch form,然后还有predtpredt指的是label,对吧?

它在分类问题当中,最后拿到的是一个label。但我如果想拿到这个label它的概率值,我是不是应该predict probability一个。probability对吧?一个概率。

我predict一下它的概率拿出来,然后把这个。对,然后把这个这个结果概率的值作为最后的结果的形式去。输进去。写成他需要的这个submission的这个格式。spas处理完以后会变成什么样子呢?呃。

你自己应该去试验一下啊,这个你就就很明白了。我举个例子啊,这个时候它是0000啊,sorry。两。零。一。0,这是一个稀疏向量。如果你用spas的这个方式去存储的话,它很有可能存储是什么呢?

它会存储这个地方,这个向量总共有几个位置,12345677个位置,对吧?所以它第一个元素存7就可以了。它只有一个位置为一,第几个位置为一,第六个位置对,就是这样值是多少?是一。对。

所以所以这个时候761就表示说我一个长度为7的向量,里头第六个位置是有数的,它数值是一啊,所以你看比刚才的空间要节省,对吧?比刚才要节省空间了啊,不一定是小括号,你看它具体是什么样的一个格式。

总之它需要保留这样几个维度的信息,好吧。这就是从一个dance vector转到一个se一个啊,然后大家可以想象的到,在这个问题当中呢,远比我现在给的这个例子要稀疏很多。因为ID类的嘛。

那app可能有成千上万个app,对吧?那成千上万个app里头只有一个在当前这条记录里头只会有一个app它得到了,它被点击了。

所以这一个app只在1万多个可能几万上万个app IDD的列表当中只有一个位置是一。那用这个形式显然是能够节省空间的。Oh。s learn本身就是基于n派和s派去做的。所以你你你这个同学问到这个问题。

说这种数据能放到LR中做处理,当然可以做处理了。你去看看lilib linear啊,lib linear。或者是看看三这个Scycl learn当中的。这结构当然是可以处理了,这是最最非常非常常见的。

处理形式。s learn本来是基于n派和三派去搭建起来。嗯,然后对大家如果这种问题啊,大家完全可以自己去试一下。因为你看到我我已经把数据关进去了,exject X test它是可以去做一个face的。

对吧。嗯,好像这个这个同学我不太清楚,你你你了解brareding distance的话,梯度下降的话,我在做更新的时候,实际上我只需要把对应的那个位置的只去做一个update就可以了,对吧?呃。

我没有我没明白你问的这个问题是什么什么意思啊,你有问题可我们可以我们可以下课再交流。好吧。如果这个向量本身它的填充度是可以的话,你是不需要去做spae这个处理的吸疏吸疏这个处理,好吧。对啊。

细节的问题的话,细节的问题啊就是和原理相关的和基础的知识相关的问题。大家有问题的话,课下问好吧,这个课是一个呃项目课,所以我们尽量把带着大家把项目和项目里头的一些重点完成了。

然后对基础知识有问题的同学下课来问我,好吧,或者是咱们那个你可以去看m型 learning的那个课程里头是有提到的。O所以这个这两个大家有问题吗?一个是基于ad去做一个统计做一个基线的版本。

还有另外一个是log regression。然后这里头可能有一些小细节,大家要注意啊,就包括说我的feature engineering的时候啊,特征工程的时候,我需要对one去做一个co。

对对接类别型的ature去做一个one对吧?向量的编码,包括说这个时候刚才有同学提到很好这个问题啊,说我用稀数向量去存储。因为不然的话我的我确实这个对内存的消耗会比较大,对内存消耗会比较大。

然后后面就是一个简单的log regression去做一个feat和一个对。去做一个fit和一个prod,对吧?对对对。对,这同学说的很对啊,就是SK learn呢,它本身是基于n派3派。

所以如果你传进来的是一个spa vector的话,它是会正确去去读取的对他知道会去读取下标和啊对应的值啊。

人工智能—计算广告公开课(七月在线出品) - P7:计算广告的发展和相关技术 - 七月在线-julyedu - BV1SA411H7Se

好,我们开始了。然后啊今天呢呃是跟大家分享一下计算广告的一些知识。然后我们会从四个方面去去跟大家去讨论,分别是计算广告的产品和发展简史。然后帮助大家去感知到说计算广告这个领域。

目前它这个产品是怎么一步发展过来的,以及一些比较重要的一些产品形态和一些具体的概念。这是第一部分啊,第二部分呢是计算广告的系统架构啊,我们会从整个的系统来讲。

然后呢给大家讲像一些比如说呃那个呃日志的一些东西啊,以及一些离线处理啊,在线处理啊这些一些系统基本架构啊,第三个呢是竞价广告点击的预估。这个呢应该也是大家最熟悉的部分。就是我们平常所说的CPR预估。

其实主要就是这个部分啊第四个部分呢是基于在线广告的一基于合有网告的一个在线分配啊,关于合有广告是什么?等会我们会在那个呃分享的过程当中,大家能够听到然后在线分配这个为什么重要。啊,等会大家也能明白啊。

然后我们这个公开课大概会持续80到90分钟,然后。大家如果有问题的话呢,都可以在评论区问。然后呢,我看到的以后呢,我都会呃及时的回答。好吧。嗯,好,那个那我们就开始啊。

首先呢就是嗯我们先说这这节课呢主要讲计算广告,对吧?那计算广告呢,它我们把它拆起来看,它就分为两个部分啊,一个是计算,一个是广告,对吧?那广告大家一定明白说是什么东西,那我就不再进行赘述。

那么计算它是什么呢?计算其实就是在用一些数学的一些东西啊,一些数据的一些东西啊,能够做到这些广告的一些呃精准的一些投放,能够获得说比漫天投广告,这样更大的一个收益,对吧?

那么我们首先要说你要用到数学和数据,那你一定是形式呢基本都是在线上的对吧?因此我们引出我们的第一个概念就是在线广告啊,在线广告呢是指的是什么?就是说那些在网络上呀,互联网上呀,大家所能看到的一些广告啊。

同时也指那些在在线流媒体上所投放的一些广告,对吧?打比方。说就是。大家在逛百度的时候啊,就是百度上面呢经常会有很多广告,对吧?啊,以及说大家在逛很多一些其他的一些网站。比如说逛一些CBN啊。

或者逛一些知乎啊,上面都有一些广告,对吧?那这些广告呢其实都属于在线广告以及计算广告的一个范畴啊,也是我们这节课也要讨论的东西啊,这是第一点啊,第二点呢就是说在与传统广告不同一点。

就是说在线广告在短短几线的发展过程当中呢,已经形成了自己一套特定的模式啊,这要特定的模式呢有两个特点,第一个呢就是说以人群作为投放目标。第二个呢,以产品为技术导向啊,什么意思?

等会呢我们会不止一次的看到说人群这个标的啊,就是说它的这个投放的目标是什么?在我们计算广告的一个整体的发展过程当中贯穿着一个特别重要的一个地位啊,我们从开始的静态人群到后来的动态人群。

以及说对人群打标签,对人群的精准圈人,其实也是我们啊在线广告当中一直所研究的一个特别重要的一个课题啊,这是前半部分后半部。呢就是以产品为技术为导向的技术性投放。

意思就是说我们呢中间会遇到很多很多各种各样不同的产品啊,比如说等会儿呢我们会遇到说像竞价广告、搜索广告,然后呢,以及说像什么合约广告等等之类的在。包括说在讲程序化交易的时候。

我们还会遇到说像DSPSSSPADX这些具体的一些产品啊,我们会分析说他们是基于什么样的情况下才会出现的。以及说啊他们是出现了以后带来的什么样革命性的一个进展。这是以产品为导向的技术型投放。啊。

那广告的本质是什么?这个我只是列到这里啊,大家能够看到就行。好吧。啊,这是我们的开篇。那下面呢我们就顺着刚才我们所讲的这四个部分呢,嗯去往下一个个来进行看它每一部分呢都在讲什么东西啊。

然后有同学说看不到,看不到的话,就是网页上去点击一下允许flash。嗯,然后如果是chrome的话,就是你点击你那个地址浏览栏里面选择允许flash,然后再刷新一下网页就可以了。再不行的话。

就在群里面去问一下那个相关的老师,好吧。

你们继续。

首先呢我们第一个点要讲的是什么?就是合约广告啊?合约广告呢其实是相对于而大家最容易去理解的一个东西啊,为什么这么说呢?首先合约广告它的形式呢是最简单的。

就比如说我我在youtube上直接投放了一个广告啊以及说在一些呃知识工掌直接投放一些广告等等之类的,这些呢有可能呢就属于合约网告一个范畴,但也不绝对啊啊,我们都会讲什么样是一个合约广告。

首先它的产品形式呢,就是说互联网上一个展示的一个广告的一个创意,对吧?但其实呢等会我们看到的很多广告呢都是一个展示一个广告创意,他们都是一个呃广告的一个形式好吧,产品的一个举例呢,就是视频广告。

我刚才之所以举youtube呢,其实就是说youtube的很多广告呢,它是属于合约广告的一个范畴啊,然后但是呢也不以但是这个不是判定的一个为标准。等会我们会看到说合约广告的一个具体一个特点是什么。

也就说下面的它的一个具体的需求。首先它的第第一个具体需求呢就是受众定向。受众定向呢,它在这里面。是有一个很重要的一个概念的意思就是说说可能呢我把人呢做了一个圈人,对吧嗯。

我们把这个人呢圈成了具体的几个部分啊,比如说呃我们圈成男人。啊,女人啊,这是两个具体的这是两个具体的概念,对吧?这就就在性别上啊,然后呢呃比如说我们要给男人推什么?比如说要推一个球衣球鞋。

你大概率不会给女性去推这个东西,对吧?因此而言,你去做你这个广告给谁去进行推送的时候,其实呢是有很强的一个受众的一个概念的。我们管这种方式呢,就叫做受众定向啊,这是第一点。第二点呢就是广告投放。

广告投放的意思就是说说啊我们经常呢再去投放的时候呢,很可能是说在进行系统的一些请求的时候呢,会有一些对于合有广告的一些人群的一些标签呢,做一些具体的一个替换啊,这个呢我们不详细去讲啊。

就是大家知道有这么个东西就可以了。就是但最重要的一点呢,就是说它是一个受众定向,且这个受众定向呢,是一个静态的受众定向。哦,我们一般呢这些维度呢都是很粗力度一个维维度。比如说男性哈还是女性啊。

我们就很粗略,就是说男性呢都投这一类的广告,女性呢都投另一类的广告。再比如说青年人、老年人和那个中年人,他们要又去投不同类型的广告,对吧?这些广告,他们的这些输入定向的特点,有两个,一个是静态。

一个是粗力度。OK那么下面呢我们来看第三点。第三点叫做担保式投送。担保式投送的意思呢就是说说我们一般而言在这种合约广告的范畴之内,我们认为这个广告呢它是有一个什么样的特点呢?就是说它在进行投放的时候呢。

是要保量的。保量的意思就是说很可能就比如说啊我呢要跟一个广告主呢去签订了一个协议啊,然后呢我希望是呃就是我作为一个媒体和广告主,等我们会时不时的遇到呃经常遇到说这两个名词,在这里先给大家去介绍一下。

一个叫做广告主。啊,一个叫做媒体。媒体呢我有时候可能也会以平台方的。意思去叫这个名字啊,广告主呢就是说我要去投放广告的人。然后呢,媒体呢就是指给广告提供投放媒体的投放的这样一个平台。

比如说说我的媒体呢很可能就是百度,对吧?然后上面的广告主呢很可能就是耐克啊,他想去投放自己的广告,好吧,嗯,担保是投送的意思就是说广告主会有向媒体而言,提出一个保量的诉求。

保量诉求就是比如说我今天一一天每天的范围之内,你必须要要给我投放啊100万次啊,这个呢就是指一个保量的一个诉求。那么基于这个保量的诉求呢,我们就衍生出来了我们所能看到的第一种付费方式叫做CPM。

CPM的意思呢是cost per million。啊啊大家不用管这个英文是什么东西。它的意思就是说按照我们的曝光进行付费,或者说按照展示进行付费。好吧,嗯。

他的意因为我们等会还能看到说很多其他的一种付费方式啊,等会我们会看到像CPC啊CPPS啊等等之类的,还有CPT等等,各种各样的付费方式。

我们看到第一种呢是CPMCPM的意思就是说我们是按照曝光按照展示进行付费。不管用户是否点击啊,那么我们都会作为一个呃啊媒体呢我们都会向广告主呢去收费好吧,那么他一般适用于什么样的一个情况呢?

就是说我们需要在这个用户身上呢营造一个什么,营造一个品牌效应啊,就比如说说呃我我本身不差钱,不在乎说用户是否点击我这个广告啊,但是呢我比较需要说让给用户一个很强的一个产品的一个心智。

就比如说苹果我来进行投放广告的时候呢你点不点不重要。但是呢我需要你知道说苹果我们是一个啊什么什么样的一个公司,然后。那我们这个产品呢特别的精致等等之类的这些东西。好吧。

所以说它的一个呃CPM是适用于什么的?点击的收益不大,并且说我要考虑的是一个我产品的一个长期价值。以及说我适用给我的这样个流量的时候,好吧,这是它的一个付费方式和它背后所带来的一些思考。那么说到这里呢。

我们就要说其一个它具体的一个难点了。大家可以看到说其实这个付费方式呢,它的意思就是说呃我们是对展示啊,对曝光进行付费。但是有可能会穿这样一种情况。

就是刚才我我们举出的一个说嗯特别简单的一个这样一种人群的这种分类这样的方式,比如说男女这样种,对吧?我们在这里呢还能看到说一些其他的一些啊方法。

比如像地域定向、人口属性定向、频道定向、筛亚文定向、行为定向啊等等之类的这些东西。我举几个例子来说,比如说像地域定向地域定向的话呢,就比如说我们有那个啊长三角啊。还有珠三角。啊。

比如说京津冀等等之类的这些东西,它呢属于一个地域定向,对吧?然后呢,我们现在就看这两种情况,地域定向和我这样一个性别定向啊,他们两个之间,他们两之间一定会有一个交叉,对吧?那假如说说我广告主A呢。

他想去投放说男性在珠三角的广告主B呢想去投放男性呃,男性在京津冀的广告主C呢想去投放女性在长三角的广主D呢想去投放说女性在珠三角的,每个人呢都有各自的一个保样诉求,这又会形成一个什么样的情况呢?

就是说我们这个保量呢,其实是一个有一个很强的一个交叉的属性呢,对吧?就是假如说我们这里呢说了一个。性别对吧?下面呢说地域。每一个广告主呢,他都有说自己要去哪个地方进行投放。

当这些标签呢进行交叉组合的时候呢,呃简单的假如说只有那么一两个广告主啊,我们要给他保量呢,其实是一件不是很简很困难的事情,对吧?但是呢当这个广告主的数量变多了以后啊,有很多广告主的时候。

他们呢之间交叉组合的这种可能性越来越多的时候,怎么进行保量啊,是一个特别重要的一个问题。所以说他又衍生出来了一门嗯跟它相关的啊,在我们这个计算广告这个领域所发展的比较成熟的一个学科。

就是叫做在线的一个分配,以及说一个呃具有约束的一个优化问题啊啊,在讲第四部分的时候呢,就是讲合约广告的一个啊,就我们这里所说的合约广告的在线分配的时候啊。

我们会讲到说这个我们一般怎么去构造说我们这样一个优化的一个约束。以及说我们怎么样进行一个呃在线分配的这样一个求解。好吧,啊,当然这里面还会涉及到一些流计算的一些知识。不过那些呢我不作为重点去讲啊啊。

这是第一个部分合约广告啊,那么我来看一下大家的问题。嗯。嗯,看不到的话,就用chrome浏览器。然后如果还不行的话呢,可以在手机上看啊,手机上看的话是可以看到的啊,然后呃在手机上再登录一下就可以了。

然后啊设需要设置flash。然后。对,应该其他同学没有问题是吧?说会不会发讲解的文件啊,今天这个讲解文件是不发给大家的。所以说大家如果说要计算记笔记的话呢,就呃大家我每讲完一页了以后呢。

都给大家留大概呃不到半分钟的时间,然后大家去记一下笔记,好吧。好,关于这页的知识上,大家有什么问题吗?时不时黑屏的话,就是可能你还是是不是还没有进用呃,开启启用flash是吧?嗯,你可以试一下手机啊。

那我们继续。我们讲完了刚才所说的那个竞价呃那个合约广告以后呢,我们就来到了计算广告的第二个阶段,就是竞价广告。那么竞价广告呢,它与合约广告的一个最大的一个区别呢,就是说它变得更加精细化了。

那么就要看说我们这个精细化具体是由哪些呃就是情况引发说它从合约广告走向的竞价广告的这样一种方式。首先第一点呢就是说我们这样一个市场呢变得精细化了,定向的标签呢就越来越精准了。刚才我们曾经提到过,说。

其实这里的适容定向呢,它有两个特点,一个是静态,一个是粗力度。当粗力度变成了种精细力度的时候啊,就变成了我们这里这样一个竞价广告,市场变得精细化了。但它此时这个标签呢还是静态的。细粒度啊。

就大家都知道说说我们在去做呃像CTR预估的过程当中呢,都会做很多很多的特征,对吧?这些特征呢其实呃比如说像人群画像等等这类的各方面啊,它都是从呃不同的角度呢刻画了说这个人他的各个方面的一些特征是吧?

那么与这里也相比呢,这里呢可能你只能用说一些比较简单的一些特征。比如说你是男性还是女性啊,你是说你是在呃长三角珠三角还是京津冀等等这些这些地方。这些属性呢可能就比较简单比较少。

而在这里呢当我们这个市场变得更加精细化啊,更加犀利度的时候,此时呢再用这种简单的授入镜象的时候,你就没有办法做到说像这里的这个什么呃online allocation这些问题了。

以及说会使得说你的这些进行分配的时候呢,越来越复杂,这是第一点。第二点呢,就是说你的广告主的数量呢不断膨胀啊,当广告主的数量不断膨胀的时候呢,也是跟前面所呼应。

你所要给每一个广告主进行保量的这样一个需求呢,就越来越复杂。他们呢可能也会衍生出一些呃小中小广告主。中小广告主呢有可能他们对于呃你的一个对他们内种展示啊,曝光啊不是变得特别的在意。

他们应该在意说你真正给他们带来什么样的价值,就是我们广告的第二个阶段就是点击。在这里呢给大家说一个广告,一个典型的广告,它一般都会有三个阶段。第一个阶段呢就是说曝光。第二个阶段呢是点击。

第三个阶段呢是转化。嗯,我们一般称这个部分呢。优化为CTR,这个部分的优化呢为CVR啊,全部的这个优化呢为CTCVR。啊,所以大家所经常能够听到的1个CTR预估。比如等会我们要讲的。

其实呢就是从曝光报道点击的一个优化,它呢是属于竞价广告的一个技术的范畴啊,那我们继续它的这个产品形式呢,就是说供给方呢不再给他进行一个量的保证了。他呢给他保证的是什么?是单位流量的一个成本。

这里这样一个单位流量的一个成本呢,是指说嗯我之前呢嗯给你保的是一个单位的啊,曝光量的成本。而现在呢给你保证的是什么?是一个单位的点击量的成本。好吧,也就是说只有说当用户真正的发生了点击了。

你才需要管我付给我付费。而用户不点击的情况下呢,你是不用给我付费的啊,就是产品的形式。一个产品的举例呢就是搜索广告。搜索广告呢大家一定都呃特别的熟悉了,对吧?比如说我们打开一个百度。

百度上面呢就有各种各样的一个搜索广告啊。搜索广告呢比如说这是一个网页。

啊,我们现在就打开一个百度看看。

,啊,我随便搜一个啊,这里呢你看这边呢就会有很多一些广告。像这个呢,我不知道这个是不是广告,但我觉得这个比较像广告是吧?再比如说像一些这些呢,其实也是一个广告,对吧?我们管这一部分的广告呢,叫做北区。

这部分的广告呢叫做东区,而下面呢下面这儿好像没广告,应该是没广告啊,啊,如果说的有广告呢,这边呢叫做南区,对吧?这个其实就是。嗯,上北下南左西右中在这个页面上的一个位置。

大家可以看到说其实北区的这个广告的效果呢应该一般都是最好的啊,因为它基本上能够做到出第一时间用映入用户的眼帘啊,然后像这边的广告呢,它呢就是相对北区稍微差一点,但是也还行。

而南区这里呢基本上你都要划到最后呢,才能真正能看到这个广告,对吧?这里呢就是一个搜索广告,那么它的一个具体的需求呢,就变成了一个精准的人群定向。

这里的精准镜象呢就是刚才我们这里所说的一个静态的细腻度的这样一个呃用用户特征,对用户呢进行一个更加精细的这样一个刻画啊,这是第一点。第二点呢就是竞价机制。

这里的竞价机制呢和我们等会要去讲的呃嗯城区化广告呢是有一定的区别的。因为我们知道说在我们计算广告所预估的这样一个问题呢,其实是一个叫做ECPM的问题。ECZPM它一般等于什么呢?它一般等于说啊缪。呃。

AUC乘以。a u c 啊。他们这两个值呢分别是说这个呢是指说啊你的一个啊比如说在我们这样一个精价广告里面呢,是指的你这样1个CTR,就是你的一个点击率,对吧?而这个东西呢是指你一个单位点。

就是当前广告的一个点击成本。嗯嗯打个比方,就假如说现在呢有A和B两个两家广告。A个B两家广告商A广告呢,我们预估出来的点击率呢假如说是1%。它这样一个被点击的收益呢,假如说是1000元。

B广告呢它的这样一个CTR呢是2%,它被预估出来的这样一个呃单位的点击的收益呢假如说是300。那么很难很容易就会发现说其实ECPM它求的是什么呢?就是说给你推送这个广告,它能给你带来一个期望收益,对吧?

因此而我们认为说A广告所给能给你带来的期望收益呢是10块钱,而B广告呢其实呢是6块钱。这个呢因此而我们就会去给这个用户呢推送A广告,而估计通推送B广告,对吧?

这里需要注意的呢是这个CTR和这样一个对应的这样一个priice呢priice呢是静态的CTR呢也是动态进行预估的。并且这里的这个CTR呢是由我们的媒体进行预估的。嗯,而这里这样一个priice呢。

它其实是由我们的这样一个呃广告主。去进行提供的是吧因此计算竞价广告呢,它相当于是媒体和广告主呢各自啊去做一部分的事情,他不会做全部的事情,好吧?啊。

然后它的付费方式呢是CPCPC呢是我们所能看到的第二种计算广告的付费方式,他的意思就是说说我这个广告呢不按照我们的曝光进行收费,而是按照我们的这样一个点击方式呢进行收费啊。

只有被点击了才会真正的去向你收费。他所收费的价格呢一般叫做广义第二高价。广义第二高价GSP呢 generalize price它其实是来源一个博弈顿的这样一个知识。

大家其实可以回去看一下说嗯他我直接跟大家说结论就好了。就是假如说有呃很多个广告主在于进行出价的时候,那么我们管最终呃曝就是我曝光价给了假说那个最高的那个广告主对吧?他出价最高的广告主。

但是我实际呢如果说被点击了,管他收的价格呢,其实是。排名第二的人,他所出的价格好吧,这是他的这样一个收费的具体一个价格,当然还有很多其他的这种价格的确定方式。

但是这种方式呢其实是相对而言最呃就是用酬最广,也是最优的一种方式,好吧。只是付费方式。那么它的一个难点呢,就跟我们刚才的这样一个合约网告呢形成了一个差异。

合约网告这里的主要难点呢在于说我们怎么进行说大家的这种保量需求呢啊,都直接都能够给所有人能够进行满足,对吧?但在这里竞价广告这里呢,它的这个难点呢变成了什么变成了CTR的一个预估啊。

因为我们站在媒体的这样一个视角而言呢,它呢是希望说我们最终的这样1个ECPM它这样一个收益最大,对吧?而呃。它收益最大的前提呢就是说它能够准确的预估出来什么,预估出来我们这样一个点击率CTR对吧?

因此而,它的这样一个难点呢就是CTR的一个预估啊,这里呢是竞价广告。好,大家有什么问题吗?就是有没有录播,录播应该是有的。然后但是录播在哪我不知道。

这个可以在群里面去问艾特一下说呃那个呃我们的那个7月的客服,然后让他来告诉大家啊,然后。下面是请问什么是程序化标签体系啊?我有说这句我有说这个词吗?程序化表现体系。啊,这里是吧啊。

这个词嗯城效化标签体系的意思呢,一般是说说我们呢都会说按照我们我给大家画个图吧。就说我们呢很可能会有很多个领域,对吧?比如说finance。啊,然后呢我们会有很多子领域,对吧?比如说美股啊,A股。

然后呢,港股等等之类的这些东西。再比如衍生衍生品。啊,债券等等之类这些东西对吧?然后呢,第二种呢,再比如说给大家举一个例子,比如sports。对吧再比如说举几个例子,篮球啊、足球啊、乒乓球啊,游泳。

对啊像这些呢,我们一般而言,他们之间呢是一个相对而言比较互斥的这样一个关系。finance类呢你一定不会有sports类的东西。sports类呢一定不会有finance类的这样一个东西。

这样呢就是说类类之间呢,他们之间有严格的呃层次关系。比如说在sports类呢,你有篮球、足球、乒乓球、羽毛球。羽毛球内部呢,你可能就会有说比如说什么蛙泳叠泳、自由泳和游泳等等之类的各种各样的。

他们呢是指说就是指我们这里所说的这个叫啊程序化标签体系啊啊而跟它对应的一种呢是属于偏画像类的标签体系。就是不是那么严格的一个界限。就比如你可以说这个人他是一个呃这种都市的一个白领。

然后同时呢他在什么样的公司工作啊,再同时呢他是多大的年龄这个此时呢这些标签之间呢就会有不严格的互斥,他们之间就会有交叉啊,他们呢就属于非程序化的,就是偏向于画像这种标签体系。好,是这里。好。

这样话大家有问题吗?然后可以理解为合约广告,就是把广告打在广告牌上啊,进价广告就是放在网页上啊,你可以这么理解啊,因为呃如果把广告打到广告牌上呢,这基本上都是属于合约广告啊。大家在高速公路上看到那些呢。

基本都是合约广告,反正我就立在那了。嗯列在呢,它就按呃这个其实跟合有广告还有一定区别。它的这样一种方式呢,其实不太叫CPM还有另外一种方式呢叫做CPT。啊。

这里给大家讲一下CPT就是大家所能看到的第三种的这样一付费方式。那么CPT是什么意思呢?就是说我把这个广告呢这个广告这个牌就是在高速公路上,大家所能建的广告牌。那为什呢我就承包出去了啊。

你想在上面画什么都无所谓啊,反正就是承包出去以后呢,就是按照一固定的价格去付费,因为他没有办法去统计说说有多少人去看到了,对吧?它跟互联网上还不太一样,所以说就是承包给你了,你就给我交那么多钱,然后呢。

最终有多少人看到了,这个跟我没关系啊,这个呢就是属于CPT啊,它是另外一种付费方式了啊,然后既样网告是指放在网页上,其实合约广告呢也可以放在网页上啊,因为呃呃像这种视频广告呢,很多都属于像这种合约广告。

他们直管给你曝光,然后呢,点不点击没什么关系好吧,就是这里。Yeah。下面呢GSP的好处是什么呢?一直没有太明白是吧?嗯,GSP这里呢嗯我就嗯不给大家详细的去介绍了。

如果有哪些同学比较感兴趣GSP是什么东西呢?啊,我建议大家呢能够说呃自己呢去课下去看一下,说像一些跟博弈顿呀相关的一些东西,好吧,然后呃那些东,那因为讲那个东西的话,它是涉及到一些呃呃理论推导的。

好吧啊,就是这里。好。其他的问题,那个阿拉祖creit是什么广告是吧?嗯,这两个好像是我们下面所说的那个城市化交易广告和竞价广告啊这个呃。应该是这些的部分,好吧嗯。

其实像我们马上所讲的文化交易广告和镜价广告呢,他们之间没有一个严格的隔离的范畴。很多的一些广告平台呢,他们都是这两个是结合在一起去使用的啊。然后CPM一定是合约吗?CBC一定是竞价吗?

啊CPM和CBC他们叫这个名字,不是说他们对应的是谁,只是说他们这样一种收费方式比较适用于在那种广告的体系下面。CPM指的是说说我按照曝光进行付费。而CPC呢只按点击进行付费。

那么曝光进行付费呢就比较贴近于像合约广告这种计费方式。因此而言,合网合约广告基本上都使用CPM同样的竞价广告呢基本上都使用CPC好吧。好,那下面呢我们来讲第三个部分。

第三个部分呢是城区化交易广告实时竞价。呃,实金架的产生原理呢就是说其实大家这里呢是可以看到的。我们刚才说了这样一种标签,以及说广告主所做的呢,就是说一个静态的细粒物的这样一个竞价方式,对吧?

提供这样一种标签体系。那么我们很容易就会想到这样一个问题。这个问题呢是在呃是我们今天会遇到一个问题,就叫做重定向问题。这个重叠项问题指的是什么意思呢?打比方说说啊我是一个京东的一个商铺,对吧?

我在京东上,比如说投放了我的一个广告啊,那么这个用户看到他我的这个广告以后呢,他呢选择来我这里购买,那么呢我们就有的说这个用户在我们这个广告主这里的一个交易的数据,对吧?但此时京东啊有可能是不知道的啊。

我们先假设京东不知道啊,但因为京东这个平台比较特殊。如果说一些其他平台,假如说你是一个第三方的一个呃商户的话,那么有可能说你在一个平台上面,平平台只是说给你做了一个引流过去。

但在你的这样一个平台里面发生了什么事情,其实平台本身是不知道的啊那么此时你有一个很简单的一个想法,就是说那么我知道说这一类的用户,或者说这个用户,他所代表的一个用户。

能够说给我这样一个平台能带来最终的转化价值,我因此就会说依据这样的用户呢去挖掘出一些其他的一些潜在的用户,对吧?这是一个方面,另外一个方面呢我。发言说刚才比如说一个小时前来的用户呢,对我而言都没有转化。

而这种用户呢对我而言有转化。因此而言呢,我想提高对这种用户的这样一种我那个广告的一个价格去降低说对我而言没有什么转化,去点击过来,没有转化的这样一个用户的这样一个价格,对吧?就相当于而言。

我们广告主呢想要更多的去接管说我们这里的这样一种嗯对于广告的这样一种定价权啊,开始定价权呢,只是说我提供给你了。我把我的价格呢静态的给你了,但是而言,我没有办法进行实时的一个调整,对吧?嗯,一般而言。

像金价网告这里呢,都是说我事先的把价格给设定好啊,最终呢你点击而言,就按照我事先的价格进行付费。他不可能是实时更新的。而这种程序化交易广告,这里呢,我们的定价逻辑呢变得不再封闭。我们呢开始实时出价。

并且实时的自主的选择流量啊,因为之前而言,假如说我在这一类上的人上呢进行投放了一个广告,我就把这个价格呢给确定住了啊,那么此时我就没有办法说给他进行更加经济化的一个抉择了。

这个呢就是说我们刚才所说的竞价广告。这里的程序化交易广告,最大的一个区别就是这里所说的一个叫做实时竞价的这样一个机制啊,它这样一种产品形态呢,就是说每次有广告主呃有那个媒体向我来进行寻求的时候呢。

我进行每次这样一种实时出价。那么在这里呢我就给大家简单的说一下城市化交易广告啊,它的一个具体的这样一个流程是什么样子的来帮助大家进行理解。首先假如说我作为一个用户。我呢来到了一个媒体。上面对吧?

媒体呢就是我们这样一个平台广告平台啊,跟媒体说说okK我现在需要一个我现在来看东西的那媒体呢就会给用户展示一个广告,对吧?那么媒体呢一般都会请求叫做一个什么叫做1个ADX的这样一个。

机构啊ADX这个机构呢,它指的是说说嗯或者说ADN。他们两个分别类似于像股票市场的一级市场和二级市场啊,ADN呢类似于一级市场。ADS呢类似于二级市场啊,但大家不用管几级市场。它的意思就是说说。

因为股票市场大家都知道是干什么的,是吧?股票市场就是说所有的证券交易呢都在这里。而这里呢ADXADN和ADX呢类似于说所有的股票交易呢都在我们这里啊,那么它呢就会去实时的向各个啊我们这样一个广告主。

广告主。ABC实时的进行询价,说现在呢有这个人过来了,你要给这个人是否要给这个人投放广告?如果要投放的话,你愿意出的价格是多少?那么此时ABC就能够拿到说这个人啊,那我就A呢就去查自己的数据库。

看这个人是否对我广主A有价值,对吧?同样的BC呢也会做类似的事情。因此而言,他们呢都会说有对自己有价值的,就会去参与竞价,然后呢,并且当前根据说呃之前一段时间我的这样一种这个用户此类用户的一个表现啊。

实时的计算说我要给这个用户出多少价格,就这里所说的每次展示实时出价。然后呢就把这个价格返回给ADXADX呢再把这个结果呢返馈给媒体,媒体呢去选择这里其中而言出价最高的那个,对他进行一个最终的一个展示。

好吧,所以说这里呢我们的付费方式就变成了CPM为什么这里是CPM呢,我们知道说CPM他的意思是说按照展示啊,按照曝光进行付费。因为此时我们的媒体呢不再进行CPR的预估啊。

所有的出价以及说最终的转化的这样一个预。后呢全都下放给了广告主。因此而言。广告主他本身需要承担说自己出价的这种全部的啊这样一种啊责任啊,媒体呢。不再进行任何的包括CPR或者CVR或者CDCR的一个预估。

因此而言,只要我对于给你展示了,你就需要进行付费。因此而言,这个付费方式呢就变成了CPM它的一个具体的需求呢,就是说精准的一个人群定向。因为ABC这三个广告组呢可以完全拿自己的一个数据啊。

进行说我是否要给这个用户进行曝光啊,曝光以后,我出价是多少啊,它进行动态的一个调整,一个动态的一个竞价。这里的一个难点呢是指说需求方的一个精准定价,对吧?因为此时我们看到说包括我们这个媒体啊平台啊。

他已经不再参与任何的啊这样一种广告的这样一种呃呃预估机制了。他提供的只是一个很简单的一个平台。我呢只是一个展示你最终广告的一个平台。而最终你是否愿意在我这里展示,你愿意出多少钱。

全是由广告主呢自己进行决定的啊,所以说广告主呢需要承担说自己出价的全部责任。这是这里所说的一个需求方的一个精准定价啊,需求方呢,就是我们这里所说的一个广告主。它的产品的举例呢。

我这里呃刚才有讲过ADX那SSP和DSP呢分别指的是DSP指的就是这里。SSP呢指的是这里。它呢指的是需求方平台,而这里呢指的是供给方平台。需求平台呢就是说它是代表着广告主的一个利益啊。

它呢一般而言他会去联合一些其他的一些机构啊,去收集一些数据,帮够帮助广告主呢进行一个最终的转化率的一个预估。然后呢,最终与ADX呢进行连接。而这里的SSP呢就是代表的是媒体和平台的一个利益。

它能帮助媒体和平台呢拿到最终的一个最大收益。好,这里呢是程序化交易广告。Yes。用户标签是谁获取的啊,这是一个好问题。这里呢我没有去讲,大家不知道有没有听说过这样一个产品,叫做DMP。

啊全程叫应该是daman就是呃数据挖掘平台。DMP呢它一般是一个偏向于三方的一个组织啊,他呢会去会去收集说各个的呃比如说各个广告主的一个利益啊,各个广告主的一个一些数据。

以及说可能也会有一些平台一些数据啊,他呢会去制作一些用户的一些标签啊,以及一些说啊这些呃一般我们称他们嗯这个DSP的各个的一个广告主呢,他们而言,他们作为每一个需求方。

他们呢可能会共享一些数据呢给到DMP这里。DMP呢会把这些数据呢,最终啊给他呃变现。然后呢呃去进行一些数据的一些加工啊,标签的一些加工啊等等之类的。

当然同时广告主自己呢以及说媒体自己呢也会有一些自己的一些对于标签的一些加工和一些诉求。像媒体呢比如说像在这里的这样一个精价广告这里,他可能就会根据说自己内部的一些东西啊,比如说。

很可能就会说呃他呢会根据说我用户来我这里一些信息啊,自己这样一些标签一些数据,有可能对外开放,有可能不对外开放啊,这些呢都是一些标签的一些来源。Yeah。然后实时和竞价和实时竞价呢用的更普遍。呃。

我觉得都挺普遍的。他们各自代表的不同的一些东西。嗯,这个没有说谁比谁普遍的这样一个问题。包括下面的这位同学问我说,各个占广告的一些比例是多少,其实都有吧。但现在合有广告相对占的比较少一点。

因为它的效率相对比较低。而呃程序化交易广告和竞价广告呢其实都占有的比较重要的一个地位。She。实时竞价在哪些有哪些市面上的一个应用。其实很可能你见到过的所有广告呢都有背后都有实时竞价这样一个影子。

因为很多时候呢实时竞价和竞价呢,他们是放在一起的。我这里跟大家多说两句这个SSPSSP这里呢,它很多时候的一个做法呢。就是说我作为一个平台而言。

我自身本身呢很可能就会已经有广告主在我这里呢参与了一个静态竞价,就这里所做一个竞价,对吧?我需要根据自己的CTR模型呢去把这些东西给预估出来,预估出来那些最高的ECPM啊,然后呢。这是静态定价。

同时我为了保证自己SSP的利益最大化,我呢也会向ADX呢发送一个竞价请求。它呢再会向DSP呢发送竞价请求。这些呢ABC呢在进行一个类似于招标的这种方式,对吧?最终假如说A胜出了它给的价格。

A给的价格呢就会和SSP这里自己所估算出来的,在他这里注册的这些广告主的ECPM呢,进行一个比较,哪个高呢,它就会最终把一个广告呢给到谁,所以经常而言,实时竞价和竞态竞价,他们两个呢是放在一起的。

这样才能保证说我们这样一个媒体的利益的最大化。啊。这里该还有问题吗?那没有问题的话呢我们就接着往下讲。嗯,下面呢是讲的是一个需求化的一个层级的组织啊,这个大家了解一下就可以了。就是一般我们一个广告呢。

就是当我们的广告主和媒体签合同的时候呢,都会有这样一种比如广告计划,基本上就是一次的投放合同,下面呢广告组就是一个具体的一个投放策略,对吧?比如说我要给这个人群投放广告啊,不给那个人投放广告。

就跟我们刚才的标签呢是相连的。广告创意呢就是最终我们进行投放的那个标的啊,就是说像标题啊、链接啊文字呀,就最终展现给大家的一个素材,其实呢就是一个广告的一个创意。好吧。

就是一个广告的这样一个层级的组织啊。Yeah。在这里呢多给搜索广告呢再去多提两句啊。首先第一点呢就是说搜索广告词的这样一个查询扩展啊,大家应该知道说搜索广告呢我们都是要去买很多关键词的,对吧?啊。

如果说做个搜索广告相关的同学应该都会知道,我买的光广告词呢,很可能就比如说假如说我嗯这个呃一个呃旅游产品啊,我想在啊飞猪和想在携程上呢去售卖啊,假如说呢我可能就会买说呃。

比如说那个北京或者说北京的或者说首都啊这些关键词呢都会进行购买。那么呢我们作为一个平台啊,就需要说对这个用户啊,我们的这些广告主,他所购买这个关键词呢,做一个匹配。有的时候呢精准匹配。

就是说必须要跟你这个词完全一样才能匹配到。有的时候呢不完全一样,就只要有一点不一样,就不匹配到,对吧?包括像短语匹配某匹配和否定匹配,大家看字面呢应该都能知道就种匹配呢。

它所代表的是一个什么样的一个意思。这个呢因为匹配的过程呢极大的影响了说最终你能召回出来哪些广告。因此而言,这个选择哪种匹配呢,其实也是至关重要的啊,这是第一点。第二点呢就位置投放。刚才呢。

已经给大家去演示过了,我们的北区南区和东区分别都是什么?嗯,第三个呢,ECPM呢等于CTR乘以B的。就我刚才所说的CTR和那个priice就是嗯我们这个广告的价格。好吧,这个呢我跟大家刚才都聊到过啊。

然后呢今价广告对比合约广告,这个大家也应该都明白了,我们这里呢就不再赘述。在这里呢我们再复习一下刚才我们所说的那些一些基本的概念啊,我们刚才呢其实讲到了ADX其实就是一个广告交易平台。

它其实呢是类似于二那个二级市场的广告交易平台。好吧,这是第一步对这是这这个概念DSP和SSP刚才也给大家去讲讲解了说他们分别呢都是属于需求方平台和供给方平台啊。

他们各自的作用和责任都是什么东西P呢就是数据管理平台,就刚才跟大家说过,说标签的生产组织和管理啊,就是我们的数据管理平台啊,最后呢跟大家说的是这个TB就是实时竞价啊,刚才我们一直在讲说长期化交易竞价。

然后呢呃我们这个实时竞价。那它的这样一个英文呢就是TB数语呢啊它的全称呢是就是实时竞价好吧。重定向呢,这个也跟大家刚才呢有聊到过啊,一个是网站的重定向,一个是个性化的一个重定向,对吧?

比如说个性化刚才我们举的例子呢,就是个性化的一个重定向啊,根据用户的浏览下单信息啊,然后呢给用户呢呃进行一些重新的一些定向。比如说我的一些呃提高说对这些用户的一些个价格呀。

然后使得说我这个广告更加容易出啊等等之类的,这些呢都是一些重定向的一些机制啊,包括搜索重定向,也是说根据说你刚才搜索这个东西。然后呢呃现在呢你发现你点击了以后呢就对你啊这样一种搜索这样一种关键词呀。

或者对我这给你的一些打分呀,都会有一些偏好啊,这个就是搜索一些重定向机制啊。

Yeah。在本节的最后呢,我们再来看一下我们这样一个演变图啊,我们这个演变图呢,其实就呃演变了说我们这样一个广告的这样一个历史呢是怎么进行演演变的啊。我们从最开始的这样一个线下广告。

就是我们刚才最开始所说的CPT广告,对吧?就是刚才举的例子呢,就是高速公路上那个广告牌,其实呢就是这样1个CPT广告,到了我们这样一个展示量合一广告,它是按照展示曝光次数进行付费的。然后呢。

到下面的精准定向广告,这边呢是一条路,另外一边呢就是说由搜度广告所引引发出来的上下文广告和信息流广告啊,它呢基本上都是说根据你当前一些搜索情况,或者说你些上下文的一些情况啊,对你一些精准的一些广告。

也是我们所说的这样一种竞价广告竞态竞价广告,对吧从这个静态竞价广告呢,我们最终引入到的说程序化交易广告。也是说我们的一个动态竞价的这样一个过程。这也是我们在线广告的一个整体的这样一个发展的一个示意图嗯。

好,那么这里就是这节。嗯,大家看一下有没有什么问题,嗯,给大家大概半分钟到1分钟的时间去整理一下。

能否前面几个平台的之间的关系再总结一下,你说这个平台是指这些吗?

这些呢其实大家就看我这里给大家画的这个图就可以了。用户媒体媒体呢它后来衍生出来的SSP啊,它呢是代单个媒体呢就是一个媒体。SSP呢其实服务于多个媒体的啊,一个供给方的一个平台。

然后下面呢就是我们这样1个ADX和ADN他们呢是相当于把这些媒体和广告位呢给聚合到一起,变成一个最终你去进行呃呃就是那个广告主所购买的一个物品。就类大家每次看ADN和ADX的时候呢,都去看一下。

说说我们的这些嗯呃怎么与股票市场相对应,就都能看明白了,这个DSP呢就是最终呢代表广告主的利益的,帮广告主呢进行决策呀,也就进行分发呀,以及说提供数据啊等等之类的,都是DSP所做的事情,好吧。

然后广告层级组织作用是什么?你说这个东西吗?这个东西的话呢,其实呃是涉及到说呃一个广告主和一个媒体去签订一些广告的时候呢,最开始肯定是签订的是一一次广告合同,对吧?

比如说现在呢我要去投放说啊嗯那个耐克的一双球鞋,耐耐克这个广告啊,我们就进行投放了啊,或者说啊耐克的一双具体一双球鞋,是我们具体的一个投放策略,这次投放这个球鞋,下次投放那个球鞋,对吧?

最终的广告创意呢,就是说我要投放这个球鞋了,那么我要进进行一些广告的一些最终的素材,比如说底色是什么?然后呢,上面写什么文案,以及说我最终呢是要那个投放给什么样的人,那么投放给什么样人是广告组的表,呃。

包括像最终生成这个素材,其实就是广告创意,好吧。就是这里这个呢只是想帮助大家说一个广告呢,它都包含哪几个部分,以及说我们刚才那么多广告的这样一些基本概念,在这里呢是怎么组织起来的?

是。嗯,实时竞价DSP呃注重CTR那么SSP其实是不是就不用关注CTR了?其实DSP呢它关注的不是CTRCTR是曝光点击率。而此时呢,因为点击一般而言不会对广告主呢带来什么样的收益。

它其实关注的是CTCVR最后给你带来一个转化率,好吧,是曝光转化率啊,SSP呢其实这个时候呢就不再关注CTR了,是这样的。She。广个公司一般扮演什么样的一个角色?

广告公司你指的是哪个?是指的这个东西吗?我不知道你指的是这个ADX还有SSP啊,一般而言,我们持广告公司呢都指的是这样个媒体平台啊,他一般呢就扮演说我给你在他在不同的地方扮演不同的位置嘛,对吧?嗯。

刚才我们也其实我们这堂课呢,主要都是站在那个媒体和平台的视角去讲。比如这里最开始的难点呢是一个在线的一些呃一些分配啊,其实呢就是说是一些媒体或者广告公司,他们呢所要做的事情。

下面这个CTR预估呢也是他们要做的事情。最终这个实径价呢,其实才是需求方,就是我们这样一个广告主所做的事情。好吧。

所以说广告公司呢基本上一直扮演的最重要的角色呢,就是提供一个广告的这样一个位置啊,可以来我这里投放广告啊。当然呢,根据投放广告的不同的这样一种呃付费方式呢,他自己要去做其他的一些事情。

市场上推荐和广告哪个薪资高一些,嗯,都差不多吧。我觉得嗯因为这两个地这两个呃领域很多技术站的是相通的。但是推荐呢其实你也看不到说我这里所讲的啊,实竞价竞价广告和合有广告的这些知识啊。

它推荐呢有自己的一套知识。但是呢最终涉及到一些模型的一些东西呢,有一定的相似度啊。好,那么我们继续来讲第二个部分就是计算网络的一个系统架构啊。

刚才我们说过了,说机动网络的系统架构呢,这边有一个架构图,它其实呢是分为了四个部分,分别是onlineserv。

啊,这是第一个部分。第二个部分呢是那个呃data highway。就是我们这样一个高速的日志处理平台。第三点呢是我们这样一个呃distributed的comping。She。

第四个部分呢是我们的那个streaming computing。啊,实时计算。嗯。它呢其实是偏针对实际计算而言呢,它其实是一个批处理,就是离线计算。好吧啊。

那么他们四个呢分别都代表了什么样的做了什么样的一些功能呢?我们一个来看。首先呢我们要讲的呢就是我们的第一个就是我们的那个呃onservon serving这里呢其实呢它呢是指的我们这样一个受众的一个定向的一个平台。

当一个请求过了以后呢,我们在线的请在线的服务呢要进行响应,对吧?那么响应需要做一些什么样的事情呢?比如说就是什么要生成我们的绘画日志啊啊一个在线的系统呢,它需要说把用户的请求呢都给保存下来,生成日志。

供以后呢我进行分析使用和整理数据使用,这是第一点。第二点呢就是进行行为一些定向人群的一些打标,对吧?就比如说刚才我们有一个需求说男性呢需要说啊他去投放这一类型的这样一些广告。

女性呢投放另外一个类型的广告,其实呢就是一个行为定向,对吧?我们需要在onserv端呢,把这件事情给做掉。下面呢就是说点击对建模,这里呢。点击电模特指的是我们onlineserv的时候调用这个模型。

对它进行打分。好吧,最后呢商业智能模块啊,这个呢嗯就是BI的一个模块啊,没什么可讲的,这是第一个部分。onlineserv部分其实onserv呢它所扮演的一个重要的角色呢。

就说串联整个的所有的线上系统啊,有请求过来了,我呢打分过日志做正确的路由和定向,这是onserv所做的事情。啊,然后呢当然它同时呢onserv呢也具有说我们是一个高并发的一个投放的一个系统啊。

它呢需要有广告的召回排序收益管理和重排序,其实呢都是他所需要做的事情,第二个部分呢就是数据高速公路data highwaydata highway的意思呢就是说。我们刚才所说了。

我们的onserv系统呢,它需要把用户的所有的sessionlog呢全部都给记下来。就是我们这样一个所有的日志,对吧?那么这些日志呢,它需要说给到我们的。下面的数据就是一些分析的工具呢进行消费。

我们的分析的工具呢就是我们这里所说的第三点和第四点就是tricomp和 streamingcompP计算和流计算对吧?那么呢它就需要说给计算提供一个数据一个存储啊消费的这样一个具体的这样一个工具?

就比如说我P计算去拿数据的时候呢,我需要我们呢把数据给它到离线的存储上。比如说H啊,这是一种方式。而streamingcomp呢就需要说我们在进行计算的时候呢。

有一种类似于像比如说这种呃呃数据的这样一种存在线的存储啊存缓存这一个机制助我们呢能够进行实计算。这些呢其实都是做这样一个事情。它呢进行日志的管理,然后呢保存以及说消费的这样一个源头,这是做的事情。

当然刚才呢我也说了一些。啊,他所用的一些开的一些产品,比如像卡普卡。Self flu。啊,其实都是一些看的一些产品跟日志和消息相关的,好吧。这里呢我PPT上写了两点。

第一点呢就是准时时的将日志推动到其他平台上啊,比如说推动到kaaf卡上和floom上面去,这是一点。第二点呢就是联系离在线和离线,这里是指能它既可以进行批计算的消费。

也可以进行streaming计算的一个消费。好吧,这里面就是数据高速公路。第三点呢是流式计算平台。流失计算平台呢它所对应的呢就是说呃我们呃能够说实时的做一些事情。那我们经常说需要做一些实时的什么事情呢?

一般是有两个部分。第一部分呢就是实时的受众定向啊,刚才我们说过的说,假如这个用户呢啊他对我们这样一个广告准的比有价值。那么可能我们需要说啊这个用户的信息呢给它提炼出来啊。

进行实时的一个啊重定向受众的定向。就是这个以及说实时的一个点击反馈啊,我们在模型当中呢,经常就会说啊用到一些特征啊,比如说这个特征是指说这个用户呢在过去一个小时之内,他点击了多少次。

在每一个广告上的点击多少次,分别是iteom特征和you特征,对吧?这些实时的点击反馈呢都需要说实时计算流失计算平台呢把我们这个数据呢给计算出来,这是第一点。第二点呢是计费和反作弊啊。

这个呢就是计费这个跟模型没什么关系。但然是跟我们整个一个广告体系有关系的。就比如说怎么去排除那些作弊用户怎么。去进行说当前我应该向这个广告主呢发生多少的计费。

这些呢都是流失计算平台所需要完成的一个东西啊。我这里呢应该是忘了写那个P计算平台了。那我这里呢就简单的说一下P计算平台需要做什么事情,P计算平台呢基本就是说我们要进行一线的分析一些数据啊。

同时呢进行模型的一些构建啊,这些呢都是我们的P计算平台所需要做的一些事情啊,像分析数据呢,我们可能就是说像像一些BI的这样一些岗位呢他们就需要说分析每一类用户的这样一个曝光点击的这样一个情况啊。

为其他的一些比如说呃工程团队或者说算法团队呢提供一些决策支持啊,像算法团队呢可能需要做的事情呢,就是去清理出来我们这样一个特征和最终的label啊,把它们变成样本进行模型的训练。

最终呢放到线上进行预估等等之类的。这些都是P计算平台,他所需要做的一些事情。好吧,那么讲的这些呢我们来看一下说具体有哪些相关的软件,可以帮我们做刚才所说的一些事情。

首先我们刚才说到了f这些呢都是我们这样一个d日志处理平台所做的事情。op呢其实它一般包含的东西呢是三个,一个呢是那个叫啊HDF啊,做存储用的离线了存储一个叫做那个H,一般是呃在线进行去使用的啊。

然后呢还有一个是m呢其实定义的是一种范式啊,这个大家应该也都知道啊,我也不详细的进行赘述下面呢是sk和storm他们两个呢应该再加一个flink。其实呢代表了三代的实时计算引擎啊。

sstorm呢是第一代spark呢是第二代flink呢是第三代。如果有同学对这个实计算比较了解的话呢,应该也会知道说他们这三代数据引擎都是怎么发展过来的。各自的一些优劣势是什么啊。

目前最popular的呢就是flink啊,它呢也是呃目前相对做的最完善的一个啊实时计算的一个啊框架。在下面read呢是一个缓存,好吧。

啊这个lucy呢以及说我这里没有写的ES就是elastic search,其实都是建立索引的这样一些呃工具,好吧,因为索引呢经常啊假如说我对这我这个我现在要对这个有用户搜索的这个关键词啊。

那么我需要就是对这个关键词呢去进行索引,看哪些呃广告主呢购买的这个关键词,其实呢就是索引所做的这样一个事情,好吧,等等,这是相关的一个软件。想请问这张架构图哪里来的是吧?啊。

这张架构图呢是来自于那个呃大家可以看,如果有兴趣的可以看这本书叫计算广告啊,作者呢是刘鹏。一目前已经出到的第二版啊嗯。在京东或淘宝上应该都能买到豆瓣的评论是8分多,也算一本精融广告帮助大家入门的一本书。

好吧。

好,这里有其他的问题吗?那没有问题的话呢,我们就开始讲第三部分,就是我们这样1个CTR预估。CTR预估呢可能是大家听到最多的最熟悉的这样一个过程了。

因为呃CTR预估呢其实就是纯粹的和模型比较相关的一个东西,好吧,那么CTR预估呢其实就是点击率预估。刚才呢我们已经说过的说点击率预估,它具体是个什么东西,它有多么的重要。

这里呢也是给大家呃说的一些它的具体一些背景啊,然后呢我们也不再赘述,我们具体来看它相关的一些技术啊,那么为了提升CTR预估准确率呢,其实说有很多的预估方法和技巧呢都层出不穷啊。

这里呢指的是一些模型的一些技技术。比如说我们这样一个传统的计学习算法,像逻辑回归,就大家所说的的L2对吧?这是一个部分。第二部分呢就是新一代的计学习算法。

比如深度学习基像所衍生出来的DNNN这些呢其实都在我们的计算广告里面呢都有一定的应用啊,这是第二个部分。第三个部分呢就是更加实质化计学。

算法比如说在线学习和强化学习啊,他们呢分别代表的说在线学习呢是指的是模型的迭代效率更快。而强化学习呢指的是说用户和环境呢不断的进行呃一些呃interact,就是呃一些互动啊。

能够说能够环境去和用户呢进行一个博弈啊,就是强化学习。当然呢还有一些模型融合或特征融合。当然这些呢我所列举的呢。基本上呢都是说一些像比较偏模型的一些技法啊,同时呢我们还有一些其他的一些技法。

比如说像那个最优化算法这样一个技法。嗯。这个呢我不太记得我这个幻灯片有没有写,好像是没写啊,没写好在这里跟大家说两句。最化算法呢其实也是一个比较重要的一个点。

因为我们最划算法呢像呃最开始大家所能接触到的像GDSGD。其实呢都是一些比较常的一些算法,对吧?以及说他们呢后来发展到了一些MSpro。Andam。FTL他们其实代表的也是新一代的一些算法,对吧?

比如adam呢一般是呃号称是目前最厉害的算法啊。FTL呢一般是在在学习当中用的比较多,为了去解决新中性问题的啊,以及说这些呢他们都是一些属于一阶算法啊,还有一个二阶算法。

比如叫牛牛顿算法和你牛顿算法BFGS这些算法。哦,还有LBFGS其实呢他们都代表了一些二阶的这样一种优化算法。他们的优点呢是优化的更准啊,更快。啊,缺点呢就是说二阶haen矩线不太好算。

然后呢可能会占据额外的空间和内存啊等等之类的一些问题啊,当然这三类呢,他们都属于叫那个梯度下降算法。还有一种呢叫做制拟区间算法,大家有感兴趣可以看一下叫做trust region这样一个算法。好吧。

这呢是最优化算法,可以看到说其实最优化算法和模型呢,他们之间是相辅相成啊,一起向前进行发展。这是方法。那么数化的表示呢,其实就是通过这样1个UIC去预测我们这个Y,对吧?

那么U呢代表用户物品呢就是I这里呢就是我们这样一个广告adtment,对吧?上下文呢context啊,这里呢有必要跟大家去介绍一下说什么叫做上下文啊,上文的意思呢一般都是说嗯。

只有在请求的过程当中才能看到这些东西。比如说我现在呢来去请求这个系统,那么现在是呃9点02分,那么时间呢就是9。02。假如说我用的是电脑去请求的,那么它就会记录你这个电脑的型号等等之类。

这些呢就属于上下文。你和我呢很可能这个时间呢也不一样。然后呢。咱们请求的这个设备呢也不一样啊,比如说只有在请求的那一刹呢才能来到一些信息,我们称常们没上下文,好吧。然后特征呢。

一般我们就通过离线特征和实时特征进行获取。点击结果呢,我们都会通过一些原始的买点日志,对吧?这实原始的买点日志呢,就刚才所说的那个onserv系统,他们的一些session log。

这里简单聊点句逻辑回归啊。逻辑回归的话呢,这个基本的模型呢我们大家应该都比较熟悉的,我也不再进行赘述啊。然后呢呃GRM的系列模型呢是指的是说呃逻辑回归呢,它其实是一个广义的信引回归的这样一个范畴啊。

我们在呃基本上。因为用在什么样的地方去用模型的时候呢,广义线性模型呢都属于我们呃很重要的一个模型的一个组成部分。包括这里所介绍一个LR,以及说跟博通分布相关的一些东西呢,其实都属于广义的线性模型。好吧。

那么广义线性模型它所需要注意的一点呢,就是说我们经常需要做一些特征的离散化啊,因为特征离散化呢会帮助说分担说一些模型的一些具体的一些特征的一些风险啊,使得说模型的预估效果呢更加健壮啊。

嗯并且对具体的某一个特征呢,不会变得特别的敏感啊,这里呢就是风险均摊。最后一点呢就是人工的特征组合和自动的特征组合。人工特征组合呢一般是指的是说我们根据自己的一些经验或者一些业务的知识呢。

我们会对特征当做一些什么一阶交叉呀啊二阶交叉呀等等之类这样一些东西等等啊,这些呢是人工特征组合。而自动特征组合呢,我们一般会考虑到说使用像facebook它所搞出来的GBDT。

将LR做一个自动的一个特征组合,好吧,它呢相当于GPT自动的帮我们做特征的筛选和重编码,以及特征的交叉。啊,LR呢做最终的一个学习。好吧,这个呢既帮助我们去自动的筛选的特征。

同时呢它所筛选出来这个特征的结果呢被重编码的,也是一个离散的特征,也比不好意思,现在大家能看到的吗?我也不知道为什么刚才网络卡了。可以了是吧,不好意思,刚才应该是我网络断了一下。😊,嗯。

我不知道刚才我姐姐解释到哪个问题了,我重新开始说一下嗯。首先啊最上层的数据保存是用ESFH base。我不太知道你想问的是什么。单ES呢一般是建索引用的Hb呢是在线请求的时候嗯,去查数据时候用的是吧。

嗯,HB偏在线,然后离线呢一般是像那种啊HDFS呀,像have啊这些东西啊是离线用的。Yeah。然后强化学习用的不多,大家去了解像banit,还有那UCB其实就足够了。然后一阶二阶是指多项式组合吧。啊。

对的,其实这个我说的可能不太准确啊。其实就是说二阶的特征组合,一阶呢其实就比如X呢去做一些S平方啊,logX啊这些东西啊,取相其实它是一阶的特征变换,好吧。

在下面呢是 and deep and呢其实想跟大家分享的就是一个深度学习深度学习呢其实所有深度学习呢基本上都是绕开 and deep这样一个模型啊我们看这 and呢这里给大家画了一个过官方所给出的一个示意图啊。

部分呢就是MP这里呢就是我们这样一个部分对吧?而这里呢是外部分外部分呢其实就是LR啊 and呢其实就是把外部分呢和 deep部分呢给组合到了一起啊,运用各自的这样一个优势啊。

外呢指的是说说我们呢能够学习模型的一些特别数据的一些特别特殊的一些属性啊,比较specific的一些特征啊,而像啊部分呢其实学到是一些比的一些特征,对吧?这个呢大家应该很容易的理解啊。

因为像我们的深度模型呢其实预往上的应营抽象,但创出来的呢都是说一些大部分用户所有的一些特征,对吧?但是一些少部分的一些个人啊,它的一些特性呢其实呢一般只能在我们的外部分呢。😊,才能进行学习到,好吧。

所以说就是Y and deep呢综合了这两个部分的这样一个优点。同时呢如果外的部分呢外的部分呢抢了FM,它就变成了一个depFM的这样一个模型。好吧,这个呢大家课下呢可以去看一下说DDFM这个模型呢。

它的架构呢是一个什么样的一个样子。最后呢再跟大家简单的说两句在线学习啊,在线学习这个技术呢,我觉得相对而言比那个呃强化学习呢用的要相对多一点啊,在线学习本身呢其实是可以实时的训练模型的。

并在特征的实质化基础之上呢,把模型本身也变得实质化,我们知道我们在意义当中呢,其实用到实质化的最多的两个部分呢,一个呢是特征的实质化。另外一个呢就是模型本身的一个实质化,特征的实质化呢。

其实就是说相比于离线特征。我们让特征的产生呢变得更加实时化。比如说常态实时特征呢,就是最近一小时这个ite的点击情况啊,它呢会根据一小时的时间窗口进行滚动的一个更新啊,而模型本身变得实时化呢。

相当于是指我们模型本身的一些参数呢也都变得更加的实质化,对吧?因为大家都知道说我们。模型在大厂里面呢,大部分情况下都是属于那种天级别调度中心的。这样此时呢,当你的人群分布呢发生剧烈的变化的时候。

模型本身呢是很难就是跟随着一起发生变化的。这是在你学习所发挥优势的地方。你是模型本身的参数呢,也根据你的数据呢实时的进行重新的计算啊,因采它比较依赖。第一个就是我们这样一个实时这样一个实时计算引擎啊。

它呢需要说能够帮我们去做出实时的一些特征呀,实时的一些数据呀,给到模型呢进行实时的一个训练啊,这是第一点。第二点呢就是时间窗口样本过滤样样本拼接和采样啊,因为实时它的一些特性,就导致说它的一些做法呀。

怎么进行嗯这双流照呀,大家应该可能会听说过这样一个词,以及说时间窗口这些呢会有一些区别,这是第二个部分。第三个部分呢就是适配的最优化算法。刚才也说过了。

说我们在计算呢经常会用到一个算法叫做FTRL它呢是专门为期数性啊所设计的一个算法,好吧,呃,这是这个在线学习。好。这里看大家有什么问题。deep的LR和DN是怎么组合的啊,嗯看这个图嘛。

Y的部分呢其实是1个LR它其实就是一个单层网络,对吧?dep部分呢其实就是一个啊一层一层向上堆叠这些单词层对吧?当我们把这个Y的部分呢和这个dep部分呢给揉到一起去,其实呢它们各自占一半。😊。

就是我们这样一个弯的地方,对吧?wide和的输入一样吗?啊有可能一样,有可能不一样,都有可能啊。嗯比如说假如说你都是离散特征嘛,离散特征的话呢,外本身就比较喜欢离散特征。

就是spa features是可以直接输入的。而这里呢其实你也可以直接扔进去,它也是one嘛,然后去做dding,然后再去过dense,所以说比如说你要是s features呢其两部分呢都是可以试用的。

当然同时dance features呢也是两部分都可以试用的。呢本身就比较喜欢dance features,所以直接用是可以的。而s那里呢不太适合直接用dance features。

所以呢你可以对它做一些分头啊,或者其他的一些把它变成spa这样一些操作。好,有其他的问题吗?IM和FTRL的区别。😊,啊,这个区别讲起来就久了。至少要讲一个小时。可能讲不完。

你可以理解说adam呢就是一种啊。把它运用呃冲量,以及说呃就是梯度和那个二阶梯度这样一些各自的。一些更新就是嗯explanential average的这样一种方式呢,把它们去使得你梯度的变化呢。

不像SCGD一样,每次呢都是一个重新的一个方向进行变动。它呢都会依据说你前段时间的一阶导和二阶导的变动情况呢进行这次的呃更新方向的选择。这个是ite的主题思想。

FTL呢其实它所主要关注的呢是模型的呃这样一种叫做稀数性啊,意思就是说呃当你的呃有很多特征进行更新的时候,那么什么时候对哪些特征进行更新,哪些特征直接给忽视掉啊,这个呢是FTR所主要研究的问题。

然后NFfifa和D派fa有什么区别?啊,这区别讲起来又麻烦了。嗯,这个我本节课就不讲了,感兴趣的话,自己课下去看一下,好吧,这个网上应该都有相关的资料。😊,这些技术基本上都是有开源的实现的。

大家从网上去搜那些像ideM呀FTIL啊这些最优化算法,以及wind and deep这些模型呢,其实网上呢都会有相应的代码。为什么外和dep输入不一样,是随机样本和特征吗?哎,我刚才说的好像是一样啊。

我刚才说了说spas在两个部分需要做什么样的适配,deep需要在两个部分做什么样的适配,对吧?嗯,m deep的外特征和d特征,都可以放到外部分和dep部分。举个例子。

UV context怎么输入Y and deep?嗯。Yeah。比如说年龄我就举这一个例子就可以了。其他大家应该能够理解。年龄的话呢,假如说这个人的年龄呢是30岁啊。

他呢是一个可以把它直接做一个spae特征,直接输入给这里啊。作为一个d特征,直接输入给这里啊,在这里呢把它让它进行分桶,对吧?

buucket bucketet呢意思就是说可能说0到10是一一个岁年龄段呀,11到20是一个年龄段呀,然后21到30是一个年龄段呀,buucket以后呢,放到dep部分。

三十呢直接放到啊不 bucketet以后放到外的部分,直接呢放到d部分,这是一种方式,另外一种方式呢就是把它bet以后呢,这个也是放到外的部分,但是dep部分呢不直接用30这个数字。

也是用它buucket以后的这样一个值啊,这个值呢其实相当于就是一个spa特征了,对吧?那么你s特征这里呢再去过inbedding,把它变成一个inbedding以后呢,再给到上层的d词进行消费啊。

这些呢都是可以去尝试的。H。FTL是引白领之前还是之后,对呀。这个问题问出来嗯,我有点不太知道怎么回答你,因为inbedding它本身呢指的是什么?就是一套模型的一个参数,对吧?

那个一个层的一些primeter那些参数啊,在无论是FTIL还是ideam这些最优化算法呢,他们所进行优化的时候,都是要优化这个模型的所有参数的。所以说。

这个问题我觉得你想问的是它优不优化inbdding层的参数。那答案是它会优化。然后想问一下学习模型有什么高效的方法论吗?您把您一般把so塔的论文都实现一遍吗?嗯,不太是一般而言。

在我们在实际的业务应用当中呢,都是根据实际的业务情况去选择模型。大家其实听我这节课讲的问题呢,也可以发现说说我们这个整体的这样一个模型啊,这样一个计算广告呢,它不只有模型的部分。前面我们讲了很多的部分。

以及说像在线的一些分配呀,以及说一些CTR预估啊,也就整个的这样一个系统架构的一个搭建呀,其实都是我们计算广告所研究的课题,好吧。session序列怎么用到dFM模型中?嗯。老师问一些比较大的一些问题。

这些问题都不是属于一两句话能够讲明白的。大家可以理解为session数据呢,你可以用1个RN的这样一个模型去实现进去,对吧?像这里呢你也可以去嵌套一些RSTM这样一些层啊。

这些呢就使用session数据的一个方法。同时呢你也可以去看一下阿里的一篇模型叫做DIN啊,他们也告诉你说你怎么去使使用一些session的一些呃用户行为数据进行建模。好吧。

deepinterest model。然后。user有一批特征,item有一批特征,user item有一张历史点击表,CTR需要手工提取一些特征,输入外 and deep还是如何输入呢嗯。

你可以把us色特征和ite特征呢分为不同的组,然后呢都给到Y and地这个模型里面去,对吧?然后usus item这些特征呢,其实就属于典型的U to I特征啊,他们呢也是我们特征一个源泉。

你可以把优色特征呢分成一个组ite特征呢分成一个组,然后U to I呢也分成一个组啊,这三个组呢分别代表了这个不同的这样一种特征的一些信息嘛,然后让他们分别进行学习,好吧。

时间关系呢呃我我要接着往下讲了,否则我90分钟讲完啊。最后一个部分呢呃跟大家去讲的是基于何用化的一个在线分配啊。我们呢首先呢何用告呢他所需要做的一个事情呢,就是属于流量预测啊。

流量预测这里呢其实呃大家不用看这一点,大家这一点说的比较绕啊,直接看这里就行了。其实呢就是说根据你个标签组合和1个ECPM的阈值呢去算一个流量,对吧?因为我们知道说我们广告主呢呃他所要的目标呢是流量。

但是我们平台呢一个最大的利益呢,就是ECPM是最大的,因此而言呢,我需要说在而而我我们每个广告主呢都会投多个标签,每个标签呢也都会有多个广告主进行投放,同时呢我们广告主呢也有一个量的一个诉求,对吧?

因此而言呢,我们需要说给您这些标签组合,因为每个广告主呢说给我们提供的一个价格。

最终呢进行流量的一个预估,就是我们流量预测所做的一个事情,对吧?常见的一个方法呢,就是基于实验序练呢进行一个短期预估啊,大家呢可以根据一个。时间序列呢进行一个建模啊。

建模完以后呢去预估说啊比如说昨天和今天呢,我认为说他们那个用户的行为表现呢应该比较相似啊,因此而言呢昨天是一个什么量级。我今天呢就应该是一个大大概的对应的一个量级。好吧。

就所说的基于时间序列一个短期预估。啊,频次控制呢一般指的是说说嗯我们要给用户进行曝光的时候呢,将要需要考虑说不要重复的给用户曝光同样一个东西啊,因为大家看广告的时候应该也会有这样的感受。就你看几次呢。

可能可能就烦了。因此而怎么对用户呢进行一个频次的控制,嗯,或者说叫做疲劳度的控制,其实我们也是我们在进行曝光的时候,给用户展示的时候呢,所需要讨论的一个问题啊,他一般都会有客户端和服务端两种解决方案。

这里呢我也不再进行详细的进行解释,都是怎么进行操作的。下面呢我们具体来看一下再线分配的这样一个式子长的什么样子啊。

这也是我们这样刚才所说的constraint optimization这样一个式子具体是什么样子啊?I呢是指的是那个。那个那个呃我看一下。那A呢指的是那个那个我有点忘了我这这个式子是怎么写过来的。

A呢应该指的是advertisement,就是那个广告。啊,这个呢I应该指的是供给。嗯,一个指的是说说我呢对于我这天好像又写错。嗯,我看一下啊。

这里呢其实应该指的是说说我们这个XIA呢是指的是说我这个供给呢给到这个广告啊,这个供给呢给到这个广告。所以呢我们有最重的一个式子,不是就是最底下这个式子是指的是说说每一个供给的,就是你最少只能供给零嘛。

你不可能供给是负的,所以呢是有这个最优化条件,而这样个最优化条件呢分别代表的是一个供给方的约束和这样一个需求方的一个约束,对吧?供给方的约束呢,就是说我呢这个供给方给所有的广告呢分配最多呢只能分配一。

对吧?我可能给广告主A呢分配0。2,给广告主CB呢分配0。7,给广告主C呢分配0。1,他们的加权之和呢必须是小于等于一的对吧?一般情况下都是等于一的,这样是一个供给方的一个约束。

这里呢是一个需求方的一个约束。需求方的一个约束呢有两种不同的呈现部分。我们具体它看一下。第一个部分呢就是担保问题要保证流量。我们一般呢都会保证一个下限,对吧?就是说假如说这个需求方呢。

它需要说你要给我递那么多的这样一个流量。因此而言呢,我们需要保证说给到这个他的这些所有的流量呢,都是一定要满足这么多,对吧?比如说这个供给方需要给他XIA这么多流量。

下一个供给方呢需要给他另外1个SIA这么多流量,对吧?这是指的一个担保问题,另外一种方式呢,就是说预算问题,因为每一个广告主呢等可都会有自己的预算,我这里也拼错了,是。嗯。

他指的问题呢是说有预算的出价是小预算的对吧?因此而言呢,我们是说说这里呢。这个预算呢一定要小于这个DA一个最主要的它的一个预算的一个约束。好吧。

这两个呢大家可以看到说一个是大于等于一个是小于等于也是根据我们的一个不同的这样一个约束所体现出来的。一个呢是保证流量,一个呢是不能超过你这样一个预算,好吧。这两个呢就代替的呢是我们这里这样一个式子。

此时呢我们在线的这样一个分配呢,就变成了这个这个和这个这三个不等式OK那我们现在具体来看一下怎么进行解决呢?解决的方式呢一般都会用一些优化算法。常见的一个优化算法呢,比如说线性规划和二次规划。

分别就是 linear programming和quadratic programming。第二个呢就是说我们呢还会通过一些叫做队友的一些方式。啊,队偶呢指的是说我们的拉格朗日。

拉格朗日乘子法拉没拼错拉格朗日乘词法加上拉格朗日橙子所替换出来的一些原始的那些变量所变成来的队偶问题啊,然后呢去基于队偶问题进行求解。这里呢还有一个概念叫做基于队偶的一个紧凑分配方案啊。

因为本来呢我们需求约束呢,没有很多个广告主啊,然后呢。假设有数以百万计的一个广告者啊,然后呢,他们的需求呢很可能是千奇百怪的,因此业呢就会比较多啊,然后呢把这个供给约束呢。

我们也会有很多很多的这样一个平台,这样一些媒体,对吧?因此而言,怎么能够在需求约束和工具约束之间呢进行一个转化,也是我们这个紧凑分配方案基于对我的研研究的一个问题。好吧,这是第二点。第三点呢。

就是说需要进行一些在线的实时调整和补偿。他的意思就是说很可能是说,因为我们每天都需要说给不同广告主呢保证一定的流量,对吧?很可能是说说前一段时间呢这个广告主呢,他所的目标人群呢来的比较多。

那为了完成你的全天的整体目标。那么你下个时间段呢就需要对他呢做一些流量的乘法,给他少一点的流量,保证其他的广告主的一些流量,对吧?这个呢就是指的在线的一些实时的调整和一些补偿,对吧?

这些这个呢也跟流计算去进行相关啊。也是我们实优化算法的一个组成部分嗯。好,这个呢也是呃是我们最后所讲的那个online education和constraint optimization。

今天呢想跟大家分享的基础知识呢就这么多啊,这门课呢这门公开课呢其实主要是来推广我们契约在线的一个呃两个课程。一个是我们这样一个计算广告的一个就业班啊,大家可以去看一下,应该我们马上就要上线第二期了。

我不知道有没有上线,应该是上线了。里面呢会有啊包括我在内的三位老师啊,至少一期是这样啊,另外两位大牛老师一起呢给大家去啊讲在线学习那个不在学习,是那个计算广告的这门就业课啊。

另外一个广告呢是我们马上嗯应该是机极学习及训营呃,十1应该是十一也要上线了啊,也希望大家呢能够进行报名。好吧嗯,就是最后呢打两个广告。哦。😮,去。嗯,再看一下大家的问题啊。嗯,第一个问题,在这个场景下。

时间序列模型选择哪个比较好啊,评价指标是你们自定义的吗?嗯,刚才呢我举出了两个时间序列的一个模型,一个是基于像那种RN的SPM啊这种模型啊,一个呢是基于DN的这种呃序列的这种模型。其实呢都是OK的啊。

但是嗯一般而言也是看你具体一个情况,不一定谁好谁不好,好吧,但是一般序列而言呢,STM都会相对好一点。DN呢需要说你有庞大的用户的行为习惯和数据的支撑才能比较好。

大家感兴趣可以自己课下去学一下DN这个模型是什么东西。评价指标的话呢,一般常用的呢就是像什么AUC呀呃GAUC啊这些东西。嗯。去。然后流量预测用STM吗。你论的预测STM没什么关系。一般时间序列的话呢。

大家可以看一下叫做阿玛的这样一个模型嗯。叫做auto regressionmov average对吧?呃,或说arma。嗯,这些模型都是属于时间税些模型,以及说负复离业级数。然后。3。

现在采用户买点数据合规吗?啊,这个问题不要问我,我也不知道。然后流量控制和广告排期是不是没有讲流量控制其实在这里呢就是我们在线分配呢,就是一个流量控制的这样一个呃应用的这样一个过程。

广告排期我不太记得我哪里有说我要讲广告排期了呀。对吧应该没有说要讲这个。好。😮,还有其他的问题吗?那如果没有问题的话呢,今天我们的这个讲座呢就到这里啊。公开课的视频呢是会公开的。

大家可以去跟那个在群里面去艾特我们那个呃客服,然后呢让他去呃最终去公开我那个告诉大家那个视频放在哪个位置。好吧,这个PPT呢就不发给大家了。大家如果感兴趣的话呢,再去重新听一下视频就可以了。

然后最后再回答一个问题,曝光和点击监测技术的一个方案,这个一般就是属于实时的一些监控了,对吧?也是跟我们像那些呃实data highway位,就是那个呃实时的日志的买点平台,以及说那个实时流计算相关的。

好吧?嗯,这些技术呢,大家嗯主要是这两个方面啊了解一下就可以。啊。😮,那我们今天的直播呢就到这里啊,那谢谢大家一个半小时的收听啊,那也欢迎大家呢去报名我们这门课。嗯,好,我就把直播关掉了,谢谢大家。

人工智能—计算广告公开课(七月在线出品) - P8:计算广告的核心:CTR预估 - 七月在线-julyedu - BV1SA411H7Se

好,那我们正式开始。然后这次分享的呢主要是这个CTR预估技术界景。对,好,那我们正式开始。然后这次的分享的呢主要是这个CTR预估技术介。这个分享之前呢,我又有几个点想给大家也呃来强调一下。

首先呢嗯这一次的分享呢是1个CTR预估技术的一个整体的一个阶段和梳理。但是呢在整个介绍过程中呢,我不会特别详细的去介绍一个细节的这个代码或者某一个细节的原理。因为整个这个算法比较多。

如果我去讲其中的一个一件一个这个代码或者原理的话呢,会这个这整个课程是没法把这所有的东西都ca住的。对,然后其他另一个方面呢就是说我在整个过程中呢并没有涉及这个算法背后的工程架构。那这块的话。

其实相对来说在CTR预估问题里面呢,其实是或者直整个机器学习里面都是一个非常非常非常大的一个topic。对,然后也是不包含在整个这个介绍,整个这次这个介绍这个范畴之内的对。那接下来我们就开始。

然后本次介绍呢主要其实包含以下几个几部分的内容。首先我会讲一下,就是说一个这个问题的背景。什么是CTR预估。对,接下来会讲一下CTR常见的一个应用产品和场景。

第三部分呢我会以一个机器学习经典的一个formulation来开始。来引出整个这个CTR预估的这个算法。对,第四部分呢我会详细的介绍一下常用的一些算法,以及它整个的一个发展的一个过程。第五部分呢会啊。

列举一下目前大家常用的一些工具。最后呢我会以一个经典的一个机忆学,这个C加预估的一个比赛做结束。然后这个但是这个比赛呢我会不我不会来讲这个比赛怎么做,是这个是留留给大家的一个一个练习题。对。

然后大家可以因为这是一个已经结束的比赛。大家可以去试着复现一下这个比赛的这个过程。对,看看自己能打多能得多少分。对。😊,是。好,那这节讲一下背景,什么是CTI预估。😊,那么。

CTI的全称呢是click thorough,就是叫做中文,我们它叫做点击率。这个问题呢其实一开始呢是来自于这个互联网广告。或者说在线广告。那具体的来说的话呢。

其实就是这个google搜索引擎里面的这个搜索广告。对,那就先向下面右图这个这个地方。对。然后这块呢就是你你去在无论你是去百度,然后去谷歌,你都你在搜索一些词的时候,都会出现广告。那这个广告的时候呢。

我们都要去估这个广告的这个点击率,就是这个CTR。当然不论你预估,不论你是否预估这个地方的这个。他展现了就他授给你几次,然后你点了几次,这一除的话就是这个点击率。对。那么。

我们呢这这个点击率这个问题就是为什么值得我们花一个。一个直播,然后要讲接近一个小时。其实我觉得如果想深入的去研究这个问题的话,其实一个小时都不够。对,因为呢有人把它称作镶嵌在互联网技术上的名著。

就这个技术作为机器作为整个这个大规模机器学习最典型的一个应用。它大概已经提出来到现在,从工业界的应用开始已经有接近20年了,它几乎伴随了整个搜索引擎的一个发展。整个伴随了一个互联网技术的一个发展。

那我简单的介绍一下,为什么这个技术。啊,有这么长的历史,为什么他被称作这个明著?为什么他他他他有发这么长的发展发展的这个历史?其实核心的根本原因之一呢就是这个技术的发展跟。

使用这个技术的公司的商业利益是强关联的那具体来说就是google、百度、搜索广告。嗯,我不知道大家有没有大家熟不熟悉,就是说这个搜索搜索搜搜索搜索眼擎公司的一个商业模式。大家都知道百度这个镜像排名。

那外其实。这个类似的东西。那我想讲一下这个思索广告的商业模式是这样的。大家看这个公式。差值就是这个公司的这个收入,它其实呢是等于这个PV乘以CPM我们先不看这个CPM啥PV就是这个搜索引擎的这个流量。

这个东西其实是是是是是固定的。那这个时候呢,CPM的这个。我们一般把它称作每天次展现广告的这个每天次PV的收入。那你可以把它称为一次PV也没有关系。因为我这里没有除一000。这个这个值越大。

这个公司的收入就越大。那这个值取决于什么呢?它取决于后面这个公式CTR乘以B的。你可以直接的把这个理解为这个B的,就是说。嗯,你看下面这张图,这里面有两条广告,那么它就是这下就是两个和。

CTR就是第一小广告的这个CTR乘以它的B的。😊,加上那么第二条广告的CTR乘以它是B的。对,那假设B的不变,假设两个位置的B的不变。这个时候CTR越高。是不是这个CPM就越大?😊。

对吧那怎么样找出这个CTR。高的这部分广告呢,那我们就需要CTR预估。它本质上是说我做完CTI预估之后,我用这个CTR乘以B的去排序。在很多很多的这个广告的这个候选集里面找出这个CTR乘以B的最高的。

然后呢,因为这个位置是有限的,所以这个假设是两强的话,这个值越大。那么你最终的这个CPM这个值就越高,公司的这个收入就越高。同时呢你预估的越准确,你最大化的这个后页的点击率就越高。

那这样你的remue商业上的这个收入就越高。对。所以呢。这个技术为什么能够发展这么多年的一个原因之一,就是从商业的角度来说,它跟这个搜索引擎的核心的这个商业模式是紧密关联的。后面的这个算法大家会看嗯。

😊,一些核心的一些算法,或者是一些大规模用的算法,都是一些都是googlefacebook这样的商业公司提出的对。😊,啊,B的是啥?嗯,B的其实是广告主的一个竞价。就是他大家都知道竞价排名嘛。😊。

今天排面就是说你愿意出多少钱的这个位置。对。😡,大家感兴趣这个的话,因为我这里写的这个C加乘B的相对来说是一个比较简单的这个排序的排序的这个这个逻辑。大家感兴趣的话可以去看一下什么是GSP。😊,对。

广义二就是说这个广义二级竞价就能明白,就是说这个C加2乘以B的这个这个这个东西了。对,好,那我们继续。那么刚才讲了一下,就是说CTR的这个背景。

还有它它为什么是这个被称作这个这个互联网这个技术上的一个明珠呢?接下来我们去看一下,就是CTR常见的一个应用产品和场景。最典型的场景就是广告和推荐。那么最最典型的就是百度和google的搜索广告。

大家都知道,对于百度和 Googlegle来说,搜索广告就是现金牛是它最核心的商业模式。那在这个商业在这个产品下面,商业产品下面过CTR是一个最核心的基础之一。第二个是阿里妈巴的广告。

阿里巴巴大家可能不是特别。😊,如果你不不了解互联网或者你不了解这个公司商业模式,你可能不太熟悉。就是说你在淘宝上搜索的时候,其实有些结果你看起来是商品,其实是是是广告商品。

它不是一个不是那个完全根据你的这个搜索的意图相关性来说,它就是有一些广告在里面。这里面也会用到CTR预估。那第三个大家都知道,今日头条。

就是你在那个头条APP里面那个叫信息流信息流域里面的一个核心技术之一,就是CTR。😊,C下C下C下一步电击滤一部。那么除了这三个经典场景之外,你会发现在工业界里面。C加R这个技术被大量广泛的使用。

为什么它是机器学习里面的一个最根本的问题,就是说是零域分类问题。你可以认为就是说任何的经典的灵域分类问题都可以按照CTR预估的这个思路去做。比如说CVR广告的转化率预估,比如说信用卡的这个交易。

是不是一笔诈骗交易,它就是一个是适和否?就是只要它的label是0或者1,那就是就是可以用这个CTIU的这个思路去做。好,那么在刚才讲了这个这个场产品和场景。那么接下来我们就开始讲这个详细的一些算法。

在开始这个具体的算法之前呢,我想讲一下这个机器学习的经典的一个famulation。就是怎么样来把这个旗下预估这样一个商业问题,就是你会不会点广告。这一个问题把它转化成一个机器学习问题。

并且会有提出这种算法去求解它,它其实是有一个经典的formmulation的这个过程。首先呢我们预估这个广告是不是被点击,其实是一个二分类问题。😊,那具体来看就是说你收集到的这个数据。

就是用户点点这个广告还是没点点了就是一,没点就是0,就是这个YY就是零或者1。对吧那么我大家都知道,就是说在一个继续学习一个model里面,或者一个问题里面,有了label之后,我们它得有特征,对吧?

😊,X这里我我我我我我先不说这个X是什么。对,这个X其实就是说你你你比你从数据里面抽取出来一个特征。对,好,接下来呢我们会有一个hypo。

就是一个假设我们会假设你label和X就是Y和X叫我们我们这里把这个预估的值就叫做PX。😊,和X之间存在一个哈分H这个H就是我们的算法。啊,我们各种各样的算法就是在做不同的这个hypos。

当然这个算法背后呢,它有一个参数,我在这里没有写,就是是个西塔。😊,那么我们有了数据,有了特征,有了label,有了 hypothesispo。我们就要去训练,得到一个西塔。因为不同的海per下面。

同一个的海per下面有不同的西塔的这个参数的这个值。那这个你到底选哪一个那个那个那个西塔的?😊,就是我们会有一个评估指标叫做los。训练的时候有一个loves,那这里呢作为二分类问题呢,我想问一下。

有有没有同学知道这个los是叫它的名字叫做什么?大家可以在群里看一下什么样子,就群里回答一下这个叫什么los。对,非常好。哎,这个手机用户是这个467。对对对对对对,非常好非常好。对。对。

这个直播这个形式是比较那个比较比较比较那个不是不是正式上课,大家不用那么紧张,有什么我们可以那个活跃一的吧。这样大家的这个接受会就该该听的话会非常无聊,尤其是这些全是一些技术的这种数学的问题。

听起来非常无聊。对,所以我会穿插一些。比如说题外这的方式。对对呃然后让这个这个这个这个这个这个学习课这个过程变得更轻松一些。😊,那有了lo之后呢,哎我们就可以。就可以训练这个这个H得到不同的西塔。

使这个lo最小。那这个时候呢只是修炼的过程。那我们在大家都知道,基于学习有训练集,有测试集。我们在测试集上呢,那我们当然也可以算这个los。😊,对。那这个之外呢。

其实呢对于这个二分类问题对C加预估问题呢,我们有一个offline一个很重要的指责,叫做AOC。AOC呢其实是ROC这条曲线的面积。对它是用来衡量这个排序能力。对大家对这个指标感兴趣的话可以。

自己去搜一下这个指边有大量的这种提示。那么除了这个AUC之外呢,还会有这个mapm就是是来。表示这个预估值的这个误差。EOC是用来衡量排序,然后m是用来衡量这个绝对值的误差。

那比如说那现在我们offline有一个很好的1个AOC啦。然后我说如果设计了一个新的算法,比之前这个算法AOC高m小。那这个时候呢我们要把部署的线上去,做一个AB的实验。

看一下我们这个model能不能反映到线上这个业务指标的提升。比如说在广告里面,那你的CTR。😊,你展现给用户的那个广告,他会不会有更高的这种点击率?因为只有有更高的点击率的时候。

才能带来更多的这种商业收入。😊,这是这是这是这个CTR预估这个问题。那么那么这一页我们再回顾一下,就是说它是一个我讲了一个就是说经典的一个机器学习问西的一个forulation。就是说我们有label。

有特征,有lo,有评估。对。然后呢,这个假设H接下来我们讲的所有的问题都是在讲。H不同的算算法,其实本质上是对应于不同的hypoth不同的假设。那么这些算法除了这个H之外,其他的这个Y和这个。

AOC这些都是一样的。当然特征不同的算法,这个特征是不一是你可以采用一样的特征,你可以采用不一样的特征。对,这都没有关系。好,那我们看一下这个常用的一些算法和一些发展的过程。这里呢我我列举了就是说。啊。

我觉得我基本上已经包含了这个C加预估的核心的算法。但SVM这些我就没有讲了,因为这些在工业界,你发现用的人很少,对,基本上不会有人用到的。那么这几个算法呢,其实都是在工业界大量的广泛的使用的。

无论是过去还是现在。比如说这个LR这个算法作为最经典的算法之一,用了大概我觉得有10年的这个历史。从这个2000年开200200010年开始,大家才开始哎慢慢逐渐的引入这个GBT逐逐渐的引入这个D。

然后FM这些算法才出来。这之前全是逻辑回归。对。好,那我们接下来依次看一下这个每大概整个介绍一下这个每一个算法,这第一个逻辑回归。😊,我们刚才讲了不同的算法,其实对应的这个不同的这个hypo哎。

这个H那逻辑回归的一个一个,它它这个算法相对来说比较简单直接一些。它的hypo就是说这个你这个特征X。😊,乘以这个W之后呢。它的这个我们用一个sigmoid的函数做一个变换。

这就是这个这就是这个hypothesis。对。那么我们整个这个模型的不同的模型对应于不同W这样一个参数,就是我们的西塔。那么大家很会好奇,哎,为什么逻辑回归去sigma的函数呢?对。

这是个很有问很有意思的问题。嗯,然后呢我这里列举了一个refer,在知乎上有人问过这个问题。哎,我看一下啊,这个不是知付上,应该是那个我们公司这个周里这个TAD在这个公司的有人问过这个东西。

里面有一些讨论,大家可以去看一下。如果大家想具体的知道这个就是说呃为什么要新问的话,大家可以看一下一个叫做最大自然的这个预估最大自然的一个一个一个一个top品。

它其实也是一个逻辑会率的另一个方面的一个表达。对。那么好,这是我们的这个逻辑回归,它的这个哈思就比较简单,就是说X。确定的情况下,这个Y等于一的概率是sigmoid的这个那么它Y等于0。

大然就是一减这个sigoid的。这个时候那么lo方上就是这个交叉熵。那有了这个 hypothesispothe,有了这个los,然后我们也假下我们有了数据,那么怎么样来优化这个。

这个这个模型就是选普通的这个W,使得我们这个los最小。那这个问题呢本质上其实是一个图优化问题。对,图优化就是说是又是另一个top的数优化,它里面有代表性的算法,就是说0BFGF4。然后呢。

有OWLKN那这两个呢本质上都是以这个牛动,就是这个二阶骇en症作为基础原理的。那么当然你如果这两个你可以不懂,那你SGD大家肯定懂大部分都知道随机气度下降。对,那么。

逻辑回归一开始它的整个的这个训练呢都是叫做办事了念,就是批处理学习。对,这块后面我会讲对应的一个就做艾 learning的一个概念。在训练的过程中呢,就会出现机续学习的第一个问题就是波飞行的问题。

就是这个。过你合。这个时候呢就会有两个重要的技术叫做政策化。那么L一整则和L2政则。哎,讲到这里呢,我想问一下,就是说有人有多少人了解过这个ILBFGFS。LBFGS大家听过吗?有人听过LBFGS吗?

好好好嗯,没关系。嗯,因为这个技术呢近两年已经没有人提了。近两年呢。大家提的都是这个随机梯度下降,什么这个动量就是那个at at gradient。ADMM这些算法。对哎,对对对对对,这个同学说的很好。

我这个发音不太准。对。对,但是呢如果你感兴趣的话呢,我建议你还是了解一下,就是说传统的这个优化理论。你可以不用去熟熟悉那个数学的这个原理。你可以了解一下传统的这个优化理论。

它可以帮助你认识到这个这个训练的这个过程。对,那么IBFLBFGS是一个经典的一个一个算法。除了这个之外,还有OWLQN,这是那个微软提出的一个优化算法。对。好。政则化有人了解吗?政则化。哎呀。

这研究生校同学还学过唉,好厉害。😊,你是是计计算机专业的吗?😡,我我觉得只有数值优化的课程,因为很少有人会学这个数值优化的课程,才会有这个这个问题。对。好,正在换O和乘罚系数OK。好。

OKOK明白明白明白,很好很好。😊,系。好,那我我们讲就是继续就是这个政策化呢,其实是LEL这个在后面我不会再不会再讲这个东西。因为这个整个这个LER政策是贯穿整个CTR预估的。后面无论算法怎么变。

这个LELR这个政策基本都没有变化。对。😊,好。那刚才讲就是说这是就是逻辑回归。那逻辑回归我们再看一下,就是说我们现在再回过头来看一下,就是说这个算法有什么优点,有什么缺点呢。

首先呢这个有点的这个逻辑回归的就算呢,它的可解释性很强。为啥?因为你看是W加X加一个singmon的函数,解释性非常强,对吧?W越大就说明它对这个。😊,那个对这个特征的重要性越强嘛。

对吧另外一个呢就是说它的大规模分布式实现比较容易。这因为这个这个课程里面我们有讲这个算法架构的问题。但是我想解释一下,就是说LR的这个大规模分布式实现非常容易。因为大家都知道这个梯度是很好求的。

相比于这个深度学习那种。😊,BP的一算法,这个逻辑合约这个气度是非常有委屈的对吧?😊,很多如果大家熟悉了,用公式就可以直接写出来。😊,对呀。然后呢,同时呢后面会讲它支持这种alline的更新。

就是他我们不需要就是你刚才讲是bet,后面会讲alline learning,对它是alline更新。就我每次呢只需要用最新的数据去训练它,没有必要把整个历史数据重新放进来。因为重新放进来。

算起来会非常慢。但他有个缺点就是说这个模型的这个表证能力有限。什么叫模型的表证能力有限?就是因为你的比较简单,你就是一个W乘X个线性求和加一个这个这个这个s的这个这个变换,然后就就就就就OK了。

所以它的模型的表准能力有限。😊,好,刚才我们讲了LR的这个模型的表证能力有限。😊,那我们能不能那这这时候就有人说啊,那我就沿着这个思路往下走。你不是说这个模拟表认的流线吗?我给你设计一个更复杂一点的。

😡,那我们看这个时候就有了FM和FFM这两个算法。那么FM它其实本质上就干了一件事情。我假设特征和特征之间。是有是有关系的。我有了你你不是一个XI和XG,你单独有一个权重嘛?那这两个东西放在一起的时候。

权重是多少?😡,会不会有权虫?所以呢它在这个公式的后面呢,大家可以看一下,它加了1个VI乘以VG。来表证这个XI和XJIJ的这个特征组合共线性共献共献的情况下,这个这个情况是什么样的?就这个VI和VG。

在这基础之上呢,哎有人觉得还不够,你只能表证这个XI和XG啊还不够。那我们再起一个更高阶的,我引入一个fa的概念。就说。XI呢它其实属于某一个特征的一个field。这个field你可以理解为。这个。

比如说我们有一个特征是这个搜索引擎广搜索搜索搜索广告里面,它是那个query,用户说的中键键词,关键词有很多个啊,你你搜这个T月在线是一个T月是一个。但是呢这两个呢都属于一个fil。

都属于这个query。它就引入了这个que field这个概念,就相当于你我这个特征呢,对于这个不同的fed,我都有一个响量。这样的话呢,这两个相乘呢就能表示更高级的这个呃特征组合。对。

那这个hypoH呢就比这个逻辑回归的这个hypo更更近了一步。就是它假设呢。这个FM的引入这个特征组合的这个问题。然后FFM呢在这个基础上有了field的概念,让这个特程组合做的更。😊。

更这个更更更深一层更深一层。大家如果想了解这两个算法的这个这个细节的话呢,你开龙的话可能比较比较辛苦,比较累。大家可以看一下,就是说这个深入FM原理与实践。

这个呢是美团的一个技术团队写的一个一个blog,这个blog写的非常好?他他解释了几个特别重要的点,比如说为什么有FM和FM和FM的区别在哪里?然后它的运算量是在哪里?对,为什么是这样。😊,OK好好好。

有同学提到了FTRL,待会儿后面会讲FTRL。😊,对,好,就讲到这个FTR了。😊,刚才呢我们讲了这个LR讲了AR的一个升级版FM又讲了一个FM的这个升级升级版,就是这个FFM。对,但是这两个算法呢。

我们之前讲过,就是说它都属于一种半尺了你的一个算法。或者说我之前讲的就是这个训练的过程呢,都是半扯了你的一个算法。判学热件呢有一个问题,就是说它系统无法进行增量的学习。什么叫无法经行增量的区势?

就是说你必须使用所有可用的数据进行训练。这种情况下呢就需要大量的这个时间和计算资源。所以通常情形下呢就是离线完成的。啥叫办随着你?就是假如。你要训练一个搜索广告里面的一个机学习的模型。

然后你今天就要把昨天假如设我用一个月的时间创来训练,那我就要把昨天到一个月之前,所有的数据都拿来训练。明天的时候呢,我得把今天的数据包含进来,就是31天。😊,所训练是要拜事了。

你那这样你每训练一次的这个运你的数据会越来越多,并且这个训练的用用的数据特别大,那你好计算起来就非常慢,所以都要理解完成。😊,这时候大家就想我有必要每一次都把历史数据拿来重新训练一遍吗?我能不能。

明天的时候,我把今天的这个。模型加上。作为一个初始化,再加上一小部分数据,就今天的这种小量的数据来学习。😊,能得到一个模型。那这个时候就是alline learningning的问题。

就是它可以循序渐进的给系统提供训练数据,逐步积累学习的成果。这种提供数据的方式可以是单独的,也可以是小批量的小数数据来进行训练,每一步学习都很快,并且呢便宜。所以系统可以根据飞速写作的最新数据进行学习。

对,好,我不知道大家有我刚才讲一下,大家能不能有没有这个get到这个batch learningning和阿 learning的这个区别。😊,如果如果大家没有get到这个半查拉业的区别的话。

可以在群里说一下啊,我可以再再详细的解释一下,或者大家对这个问题有什么,就这两个这个算这这个这两概念有什么有什么问题吗?😊,OK我看有人说没有。好,那就那就我默认大家都都知道什么是半生。你好,来了。😊。

好。😊,那我们再进一步,那到底这个阿来呢女?是啥?具体是什么样的?首先我们我刚才讲了,就是online learning它每次呢只是用比最近的数据训练。这个时候很自然的一个想法。

就是说online learning是不是能够得到全局最优解。😊,我怎么保证它比这个它是是不是比这个半成业的这个效果好?😡,这个时候呢我们就提到一个。reggress概念。这我觉得是啥呢?就是说。😊。

你看啊这里面有WT,这是W。我们假设右侧的这个值这个减法的这个这个右侧的这个它是我假设这这个这个T是T龙嘛。假设我我把这个把拉等性分成TTTTT的这个T垄来进行,就相当于时间大就假设你就T个小时。

我一个小时有1个WT。😊,那这个是说我我假设我我有一个上帝视角,我一下就知道7小时之后的数据了。这个时候的一个一个一个这个。😊,这个结果。对。那么。我假设右侧这个是los。

就说这个这个是最小的一个los。我说一个一个。那么。这两个之间的差呢就是我们的reg。其当于是说。那很衡量的是啥呢?衡难说我用这个WT的时候,跟我用W的时候,那我这个假设是W是理想解。

WT是我这个啊安装性这个解,它这的这个差异有差异有多大。😊,可像这个东西。那么这个东西呢,我们可以通过理论证明。这个regret呢其实是O根号T的。就是它不会随着这个时间变大。这个regt。谢谢增长。

他其实是一个这个。根号T的一个增长。那就说明就是说随着时间的这个累积呢,这个regret不会无限制的变大,就它会它变化的它的这个差距是可以控制住的。对,那具体大家想知道就是说这个东西怎么推导啊。😊。

怎么做的话,大家可以看一下,就是说。这个华盛顿大学专门对这个 online learning有一个topic,一个课程,专门讲这个 online learning。对。

因为阿拉罗尼其实是一个它跟那个多比赌博机啊,跟消化学机其实都有时候都有点关系。是一个很复杂的一个topic,就这个公式怎么推怎么优化。为什么要要要这么做?其实是有一系列这个这个这个数学与原理在里面。

大家感兴趣的话可以去去去看一下这个课程。对这个课程大概有十几节吧。对。😊,那具体到这个算法上的那这个图就是这这个因为这个FTR它其实是可以求解这个逻辑回归,也可以求解这个。😊,FM的。对。

那它这个公式其实就是说你看他每一次的这个WT呢,每一次都要更新一次。对,在更新的时候,这个这个算法就解释一下我怎么更新这个W,然后怎么更新这个七度,这就是FTR。😊,对。

这个这个算法细节我在这里就比较真,感兴趣的可以去去去看。😊,好,这块有什么问题吗?😊,好,那我继续。对,因为这个这个FTR其实我没有详细的展开来讲。我这里只讲了。

就是说首先这个FTR是可以相对来说能够比较保证一个全局最优解。并且呢大家可以详细的这个数据原理可以去看这个这个课程就可以了。😊,嗯,能不能再描述一下regt?嗯,好。嗯。你大家你我们这个同学。

你可以看一下这个公式的这个右侧这个W跟这个左侧这个WT有什么差别?你可以认为就是说我们假设有一个上帝视角,我们知道明天结束之后的数据是什么。这个时候呢我们训练出来这个模型,这个W就是右侧的这个值。

这个WT呢是说我不知道明天结束之后,这个W这个数据是多少,我只是每一步。都有一个W,那我有因为T假设我有7个小时,那我W1W2W3WT。这个时候呢我们会算出一个,比如说一个los或者一个。😊。

一个一个这个这个这个指标。那么这两个之间的这个差异呢,我们就就叫做reg。我不知道这个。这个差异肯定是越小越好。😡,对吧越小就代表你这个WT总体来看,你是接近于逼近于这个对。😊,就是首先这个气呢。

就是我们说它是一个alline learning的一个算法。这个T呢是假设我们假设有T个小时,当然这个力度可能是T分钟,也可能是这个。这个寄个样本。对吧那么假设我现在从现在这个时间点开始,到明天。

我每每个小时都有一个W,都相当于都有一个模型,要要要要作用在线上。对吧那这个时候我我们怎么样更新这个。这个WT这个I是因为不同的特征,有一个不同的权重嘛。

那这个根据的这个算法就是这个W这个公式的这个求解。就是他你按照这个公式去去去更新这个WT就行了。在更新这个WT的时候呢,你要算几个值,这个GT这gradate这个我相信大部分人都能理解,对吧?

这个跟这个普通的这个逻辑回归是一模一样的。这里呢有一个这个。这个西塔有一个Z有一个N,那这几个公式呢都是用那个它是为了解决,就是说在这个算法里面,为了解决这个regret更小正则化来引入的。

所以你可以认为这个公式其实就分两步,第一步更新这个W。那更新的就是用这个。这个这个I和这个这个这个这个这个NI和ZI和lam的I去更新的那这个值是怎么来的呢?是因为你在T时刻看到了一个数据。

就是labelYT。然后你先算这个GI这个你用别的方式算是一模一样的,然后再依次算这几个公式就行了。😊,对呃,regret跟右边的流程是什么关系?OK就是右边呢是FTRL这个算法的一个大体的一个流程。

那么regret呢是说。是为了解释为什么这个算法能够得到全局最优级。它是一个数学上的一个理论保证。就是他通过这样一个指标来证明这个这个。数学的证明是在这个这个这个课程里面,就我我这里没有解这个数学的。

因为数学证明非常复杂。你可以认为就是说这个算法可以保证这个regre趋近于欧根号T。😊,就是它不会随着时间线性增加。😊,我不知道我有没有讲明白这个。

可能可能大大家都没有没有没有之前没有接触过这个regrease这个概念。啊,那我继续对,这里可能可能就是说因为大家没有接触过这个re的概念,然后我的表达可能。大家不是容易,就是说不是容易清斜。

然后感大家感兴趣话,下面可以看一下这个这个课程,它里面有更详细的这个数学的这个解释。对。😊,好,那我们刚才讲了这个这个这个。😊,这个这个ARFM和FM,然后同时呢又引入这个FTR就在线学习的这个算法。

对,这是这是一趴,就是说这一这一趴呢都是这个你可以认为叫做蝌,就是叫做那个。或者广义下这模型,对,都是以sigma的函数这一套的这个模型。除了这之外呢,哎有另一个part呢。

就是所谓的我们经常看到这个数模型。😊,就是最具体的一擎代表性的就是这个GBT。😊,它是一个它是数模型加ensexble就是说相当于集成学习。就是说我这个。我我用多棵树来来来来来学这个模型。啊,具体来说。

你看大家看右边这个图,就是说我第一棵树我学一个模型啊,第二棵树我也学一个模型,然后两棵树做一个,比如说做一个什么加权求和。😊,然后来到一个结果。当然了,GBDT呢,它其实是这个asseemble的时候。

它不是直接说的这个过程,它是用上一棵数。算错的那一部分,在第二棵树就会被分裂的更好。所以它是一个它相当于是用多个弱分类器放在一起。然后每个人每个分类器,然后开不出一点点这个信息。

然后大家放在一起的效果更好。😊,那当然了,就是叉级bos,大家可能平时听的不是对个GPT大家听的比较少,听的都是叉级bos。那叉级bos呢是GBTG的一种工程实现。😊,当然在实现的过程中。

它其实是有一些区别的那至于这个区别呢,其实大家可以上网搜一下,有大量的这个资料来解释这个区别。这里我不再详细的介绍的。哎,好,那GPTT模型呢,它有个优点。

就是说它采用的是大部分它它也可以使用一个离离散值特征。那大部分情外呢,它对连续值特征做的比较好。那为什么说连续值特征是这个是个优点呢?是因为我们在做这个模型的时候呢,很多业务场景。

很多真实的这个这个这个产品或这个场景里面很多特征都是连续值特征。😊,对,第二个呢是它这个模型相对来说比较笼鲁比较这个鲁棒,就是他对数据的这个这个时效性要求不是那么高。对。

当然就是说它的就是它那个数的那个结构呢,它可以更新的比较慢一。它不像逻辑回归,逻辑回归,基本上要求是你二来更新。但是GPT其实它这个数的这个结构呢,它其实一周更新一直都没有问题。对。😊,嗯。

但是呢它也有一个缺点,就是说但是这个就是除了这个鲁棒之外,他就说你的参数要设计的合理。如果不合理的话,其容易过你河。😊,嗯,它的优点呢是,它的数据量较少的时候,效果比I和FM好。😊,啊数据多了之后。

它其实就算不动了。就它的缺点呢就是说数的这个结构呢无法做这个额外的更新。😊,然后超大规模的分布式实现比较困难。对,但我说这个大家可能会想说我人家博士上差级不分有分布式的。😊。

对它一部的分布式确实是分布式的。但是呢这个分布式呢比起逻辑回归和FM那种超大规模的分布式呢,还是有很大的差距的。😊,对。做的是分类问题,我们讲的都是分类问题。😊,当然就是那个GBT是可以做回归问题的对。

好,刚才呢讲的都是一个model哎IIFM然后这个X级 boost这个GPT但GPT你可以认为是这个也可以认为是这个多个模型。那其实你可以我我暂时把它分成一个模型。这页开始呢。😊。

我们的这个算法的这个名字呢都是什么和什么什么加什么,为啥是因为它整合了不同的这个hypothe,不是不同的这个算法。最具代表性的之一呢就是说wide deep。首先我问一下有没有人之前听过这个算法。

弯 deep有没有人听过?CTR是分类问题,😊,是分裂问题。啊,deepFMOO问这问题。😊,嗯嗯嗯嗯嗯。okKd FM是那个挖d的升级版。对。OK好。好。那么在很长一段时间之内呢。

其实逻辑回归统治了整个工业界的CTR果茶几呢其实大家都知道他其实在开go的比赛里面有的比。但实际在在百度和在因为我在这个BAT的这头待过那其实都没有用茶几或者都是很小的候。

大大部分都是那个我带过都是都是逻辑回归。其实你看google他发表的这个论文都是这个FTR都是在逻辑回归之上做的。对,这个时候呢哎因为google是整个这个这个行业的标杆嘛。

他很长一段时间他都研究的是这个逻辑回归。😊,当然了,后面的开始呢就是随着这个20112年开始,这个深度学习开始。在整个这个工业界开始展现出它的这个实力之后呢。

那么大家都在研究这个深度学习怎么做这个CTR预估。这个呢我知道国内的不同公司百度有自己的方案,然后搜狗有自己的方案。对,那这些方案呢都没有公布。

这个时候呢很多人都很多其他的公司做一些小的尝试都都不是很好。直到有一天,谷姑发表了这些paper完的 deep论。😊,这边路。It最要。相当于就是说让你在黑暗之中给你一个光明一样。

就像当年google发表这个FTRL这个拍per一样,大家可以看那个课程,就是就是在线学习研究了好久啊,工艺机也有好久。google这个FTR这个一出除了这个算法之外,激之起来其实有很多算法。

什么phos啊之类的,有很多算法。对google这个一出就。直接就统治这个工业级,这个挖的地也是一样的,就这个这个peop出来之后,落出来之后就出现了这个群里这个同学说的什么depFM。一系列的。这算。

好,那Y的D learning它其实。是到底是个什么样的个这个算法?你看名字wideide deep两部分很简单。

下面这个图wide就是逻辑回归deep就是deep learning加起来就叫wide deep model是不是很简单?😊,看起来很简单,但是呢。为什么要这么设计呢?为什么要这么设计?好,我问一下。

有没有人直接看我,有没有想过为什么要这么设计?哈哈这个人说跟我认识是吧?啊,那你肯定跟我认识,说说不定我们真的认识,对对对。😊,然后那个。组合特征嗯,对。这是这是一个解释,高低阶也是一个解释。对。好。

这个同学,你搜一下那个华盛顿大学on learning就可以了,基本上能搜到这个这个我说的这个topic,就是这个这个这个链接,我这往出考的时候有点问题,考不到。对。好,刚才有同学说什么组合特征高阶。

什么低阶的啊,我这个时候呢我要小小的。😊,嗯,批评一下这个大家都没有看过论文。大家没有详细看过这块paper。那我再问一下,有没有人看过这个论文的作者讲这个论文。😡。

这个论这个论文的作者有一个视频来讲这个论文,讲他的这个算法,有没有人看过?好好,那么我觉得你可以回去看一下视频,我可以大概给你介绍一下,你可以回去再看一下视频。对。好,那我们继续。这个算法为什么牛逼呢?

他其实核心回答了两个问题。一个叫做memorization,一个叫做geneization。就是所谓的记忆性和泛化性,就是做过这个。实际做过业务的人都知道。机学性模型有一个不好的点。

就是它对新的这个广告,对新的这个推荐的这个。😊,这个数据的预估其实很差的。就是他估的不那么准,因为他因为为啥,因为这个网没有展现过。😡,因为大大量的这种理散的这种ID类特征,他没有展现过。

他就学不到特征。好,这个时候呢google这个算法就说了,他说其实呢这个Y的部分,这个逻辑回归部分,它其实做的是一个memorization,因为它是大量的这种离散特征。

尤其是大量的这种IT类特征和记忆性。就它能够记住那些展现了很多次的这种广告这种样本,它的这个点击率是多少,权重是多少。😊,dep部分呢它是做genization,因为它的特征呢大部分都是那种。

叫做非ID类特征泛化性特征。比如说。query的这个贴词。这个信息流的这个内容的这个标题的这个贴词,它不会用标题的这个全文去做。因为全文是一个memberizationlation。

它有ID那其实它有有贴词之后就整个elelation泛华性。😊,这两个问题这个当然我觉得这个从我角度这个这个这个论文这个作者提出这个memorization generalization。😊。

有点把这个问题搞得有点。你可以换一个角度,有点类似于exloore和exloit。现在于就是说memorization就是你过去的东西嘛。😡,那么这就是新的东西,新的东西就是expl嘛。对。😊,好。

这个时候呢大家看一下右边这张图。他就验证了,就是这个东西的重要性。因为它这个Y的部分的这个AOC呢是0。726,但是上了D之后呢,它的AC反而降了。但是线上onlineac game它涨了2。9%。

为什么呢?因为geneization在离线的数据上是不好评估的。因为你现在你现在这个评估数据都是展现过的。就展现过的那些广告。那么诊le必须是说在候选集里面找出那些。😊。

之前没有被展现过的广告来做这个才能才能才能才能才能把这个模拟这个效果才能找出来。那么用Y在d之后呢。当然这个UC其实是比Y的高了一些,但是它这个这个这个在线的这个提高呢更更多。

所以说呢哎大家看这个论文呢,其实要核心的要关注这个这个算法。这个本身,它其实就是说一个memorization和 generalization的问题。至于这个本身这个架构呢。

其实相对来说是比较比较直接比较简单的,没有多少复杂的东西在里面。就左边一个w model的一个地方,但是它背后的思想是很重要的,并且它这个实验结果也是也是也是很很。😊,按照他的用的这个说也是很s的。

就是他这个AOC其实没有涨,但是它这个概涨,那是因为它实现了这个更多的这种诊断的人是。对泛黄性。对。O为什么生深度在新数据的表现好?嗯。

你可以认为就是说深度模型它采用的它其实它它的这个它这些维度这个特征呢,它其实相当于是一个泛化性的特征。就是比如说呃你之前展现的那些广告的,你这个外的部分呢用的都是这个IT特征。

但是呢这个d补部呢可以用一些,比如说。这个广告的这个。我一直我之前一直也没懂着我这具体是这什么。嗯,这个有点那个我有点那个嗯怎么说呢?有点training和那个t的感觉。对。就相当于就是说。😊。

那个没不。是的,是神经网络。对多层改变级MRP。对,最简单的都是这接。对。呃,因为你不懂这个mem。对对对对对对,好,你看一下那个视频就明白了。大家看一下这个视频,大家去看一下。

去去youtube上看一下,看一下那个视频,就知道什么是解释是什么是那个。😊,memorization和generalization这里我可能我我这么说,因为我没有这个没有这个例子。

就是youtu那个视频上那个它有个例子。😊,呃,地址你直接在youtube上搜,你直接去那个google里面搜那个搜就有搜这个wad。它有googleAI那它有一个blog。

里面就有这个小有一些里有那个视频。😊,低维稠密特征和高维稀数特征。对你说的也对,但这个你说的这个只是一个结果,本质上其实是memorization和 generalization的问题。对。对。

大家可以搜一下那个视频,就是搜一下这个作者讲这个洛文的一个视频。对。好,这节就过来。嗯,看这个群里还是有很多同学还是看过这个的,但是可能大家还是没有没有仔细的研究过这个经典的这个论文。

因为是视频要看一下这个人的这个作者,他这个中国人讲的非常好。其实大家可以去看一下。好,刚才讲了这个它其实是一个两阶的一个部。那其实呢除了这个之外呢。

还有一个这个这个这个算法就是GB加LR这个我相信很多人都听过这是facebook的。😊,2014年发发表的一个。罗。这个呢其实解决了一个什么样的问题,为什么要这么做?为什么我要先要用GPT器。

后面再挂一个LR呢?😊,其实呢核心点呢是解决特征工程的问题。就逻辑回归里面呢,我们要做大量的特征工程。这个时候就会遇到哎,连续变量贴分解怎么选,你这延续值变量,我怎么做贴分?当家同学说我做log个变换。

我做这个等长变换。😊,这些都是数学上的考法。😡,一定是最优的吗?😡,有没有算法模型能找出这个最由的?对吧理散化怎么搞?选择哪些特征做交叉?😊,然后到底是二阶还是三阶还是更多?这有很多人搞法,对吧?

你手动搞不就累死了吗?😊,这个时候。那个。那个这个。facebook说,那不用手头搞,我们设计1个GBTT因为GBT数模型,它其实它表证的这个这个这个。😊,这个切无论是做这个变量的这个切缝。

它就是左右切缝,还是做离散化,还是做特征交叉,其实都是能能够表证很多这种高位的这种情况的。😊,那我先用这个模型,先用这个train的 model头学一下,学完之后这个叶子节点。

相当于做了一次那个特征组合,然后再灌到1个LR里面。这样一个节thaning的这个model。对,然后来来解决这个问题。对。具体的这个算法大家可以可可以去看那个face world。

但这个东西在实际的工业界其实做的用的并不多,因为。😊,就这两阶两阶段的一个模型对工程架构来说要求比较高。你得先训练1个GPT,然后再搞1个LR。😊,你在线光预估都要做两次,那时耗时就会翻两倍吧。对吧。

对。好。刚才呢。讲了一下这个。常用的一些算法,大家看一下还有什么问题。GPG加L这个在比赛中用用的多吧,大家看开播比赛大部分都是。😊,GBG的切线吗?不是不是是叉几步子的切线吗?😊,对。

这个为什么差级开个比赛,超级比色的欠下?所以我之前刚开始讲的,就train model对那个数据量要求比较少小数据。对,因为比赛的数据一般不会特别大,不像工业键。😊,算法优化去常用FTIL还是dm。嗯。

你训练深度学习的话,用的肯定是有dm。然后你训练逻辑回归的话,肯定用的是FTR。😊,对。比如上面的对lighttGBM对对对,GBM现在来越来越来越多了。对对对对。

lighttGBM反正就是因为因为先出了X几bo嘛,GBM是后面说的出来之后,大家都跑过但求现在性能比那个叉几要要要好一些。因为我自己用的一开始用的都是叉几对。😊。

比如上面的GBTCRR连续和理散和连续到底是怎么分才合理?哦,这个问题啊,这个问题就是这个算法解决的,就是这个因为你你靠无论你靠这个靠这个什么log分筒还是这个等长风筒,还是你自己发明一个函数分筒。

这样都是一个数学上的一个搞法,只有用GBTT去学一下数的结构就是分筒的结构,我不知道我有没有回答出这个的这个这个例子,你明白我的意思了吧?比如说你这个值是从0到100,你自己分你说你说我0到10分以下。

10到20分以下。那GBTT跟model这个tra学出这个结构是是什么,就是什么。😊,这着这个结构学出来的这个。比如说他这个叶子叶绩这个一个节点,这个切缝点贴到哪里就是哪里。😊,嗯,我也想问。

之前有篇论文讲特征embedding也是没怎么看懂连旭和李s。特征画风。哦,连续和离散,你可以这么认为就是。😊,嗯,maxine scale哦,ok ok ok其实是这样的,理论上来说。

所有的特人都会做one hot。但是实际中。😊,稍等一下,我先回答这个问题啊。实际上就是说汪浩呢指的是那些。😊,没有大小关系的特征,我们怕也可以最直接就做王浩的特征。

比如说你看这个word word word vector里面那个汉语的那个词,就是那个那个语言的那个词语言词之间,你你是没有这个这个大小关系的那肯定是王浩以口ing,你连续编完你怎么编?但是像这个。😊。

老对对对,老师可以讲讲背原理嘛。嗯,原理啊,这个我一时半会这个不是有一两句话能说清楚的对对你可以去详细的看一下word to的那个那个设计一些文档。

这个我不是一两句能说清楚的对然后浩的还是max skill就还是回到那个问题,就是说到底是用的就还是看那个特征的那个本身它是不是能大小可比的,我不能大小可比,只能做号的。你强制max没有意义。😊。

比如说人的名字。对吧对吧这这群里面有好几个人,你这个名字你怎么做那个。😡,这个max mean scale对吧?但是说这个群里面每个人都有一个。😊,都有一个那个。

年龄你说这年龄肯定可以做那个mac swimminging scale对吧?😊,对,好。特征比赛特征工程和技巧。嗯。他是为了技巧的。这个我会在最后一个这个比,就是这个PPC最后面我会讲一下。😊。

大家可以去看一下那个就是负这工程没有,你可以认为就是说我说出来的技巧都不是技巧。所有的技巧都在于你练习的过程。对。你只有你亲身实际过的练习过的技巧才叫技巧,就是那些武功的独门秘技,都是是靠练习的。

不是靠说的,说的都是个纲练性的东西。对你自己你你看着那个书,你学完之后,对那些解题的那些技巧。你看你看着那个技巧的书,你看完之后,你那个那所文说的都不叫什么技巧,对不对?

那都是一些总结是大家都每个人都会的对,分这过程呢就是你要去练习。😊,对,但练习是有一些,你可以看一下,就是说别人会有一些总结,但些总结都是抽象化之后的。😊,对对对对。好,那我继续常用工具。呃。

首先呢lib本LRFMFM其实是一套一套算法,很多工具都是通用的。最简单的这个lib linear,这是单机版的。😊,对,然后sk里面呢有这个LBFGS和SGD的实现SGD这个比较简单。

airBBFGS大家。感兴趣的话可以去看一下spark里面的一个视线。😊,Mlib里面有实现。然后。对,立白FM这个是这个FM和FM的一个事情。因为。FM是FFM的一个特殊的一个一个形式。

通过给个参数就行。对。等我。接下一个分布式的实间,这个这个大家这个都知道这个呃DMLC就是。😊,陈千奇这户人啊,他们有一个这个基于pyit server的一个实现,里面有一个分布式的实现,实现了这个。

这些上面说的这些算法对吧?那么叉级bos这个群里也有很多同学都说过了,这个这个这个这个这个GPT的群里有很多同学说叉级不s这不就说了对。那么最后面呢这一页呢,我相信很多人都感兴趣,就是w了 deep。

这个呢有tenflow有一个教程,大家可以去看照着怎么做。然后呢,我不知道我问一下有多少人知道google collapsellab这个东西。😊,有人知道波补克烂吗?😡,知道okK好,不知道的同学哎。

对对,非常好非常好。对对,免费的。😊,啊,这个autoautoM2其实有点那个啥。对对,主要是就是它是免费的一个周by的 book。😊,对,好,那么大家知道这个就好办了。te测服务的一些教程啊。😊。

都是可以在googlec上直接跑的,里面连数据都给你准备好了,你跑一遍就能就知道了,就可以把这个算法把这个工具用起来。😊,那么刚才我说了。😊,除了6个拉的蒂普之外呢,有一个有一系列的什么depFFM。

😊,什么哎呀这名族都太多了,我因为这些我都没我都没用过。说句实话,我只跑过外的地,其他的太多了,这都是学术界的这些人搞的这些。但然有一些工业基点上写了一个灌水的论文。

包括这个阿里的这个什么定dep networkwork好,这个时候呢哎就有个哥们比较牛逼了。他搞了一个hub他把都实现了一遍。😊,叫做depCTR。把这些都实现了一遍。

你感兴趣的同学呢可以去把这些算法都跑一下,看看。但我觉得没有必要,大家还是把核心的几个点跑出来就行了。但然如果你想看一下fancy的各个,就是怎么把这个东西搞得很很酷,很fancy。😊。

然后当然它每一个翻译都是有一些点的,都是都是有原因的。可以看一下不同的人的想法,对这个问题这个能做。然后一些那由由此可见,这个论文这个这个这个这个这个问题有多火。你看这论文啊从16年到现在一直在发啊对。

😊,对对。好,这也有问题吗?啊,不需要用GPU用CPU就可以了。好,刚才有人说了,说我这个。😊,说这个我讲了这么多理论,那那怎么实践呢?对吧?刚才还有同学问了说这个他的问课技巧是啥?😊。

说这个我只讲了这个问题,没有讲答案。好,那这个时候呢我讲一个东西叫做经典比赛。好,有人知道这个比赛的人知道吧?有人有多少人知道这个比赛avs这个就CTI预估的这个比赛,有人知道吗?😊,好。

拉地就是在泰斯福的官网上嘛,之前在在现在被,但是那个我这里有链接,其实官网上我最近我今天刚看了一下,他那个官网上那个干掉了,对对对。😊,官网那个链接没了,但是在那个gethhb上有链接。对。

这个比赛练过非常好。对对对对,好,那这个同学你你你你列这个比赛的时候,你你你你特征工程是怎么做的?😊,你自己做的还是你有些参考,你看过冠军的解题方案吗?😡,这不是真的这个同学,你看过冠军的解题方案吗?

参考其他hub上的。OK好。啊,是的是的。对,这是因为他是4年前的,所以历经考验到现在为止,我认为是。他的这个获胜算法是力白FM。对。那个时候呢没有这种fy的这种各种d谱这种技技巧。

核心就是看你对这个问题的理解,特征工程做的怎么样。就回应着刚才这个同学问的说,这个特征工程技巧在哪里?这个比赛呢。😊,啊,大家去得这个gthhub里面。大家现在能看到我我页面上这个这个PPT嘛。

投到了一个是不是我讲的PPT,是这个这个这个这个这个比赛的这个结果的这个PPT大家能看到吗?😊,大家看一下这个side。对我本来想让大家自己去发现这个sdes。😊,那只能我来把这个star发出来。

就这个PPT。呃,不用大家不用看我的屏幕了,我把这个链接已经发到这个群里面了。😊,对。好,那我们继续讲这个比赛呢是对CTR遇估这个问题非常好的一个练习期。😊,就是我我觉得因为为什么他说是个非常好的电器。

因为他太贴近。😊,真实的互联网业务的这个广告了,广告场景来,包括数据特征都是一样的。跟我跟我做过的这个广告系统的特征基本都是一样的。为啥呢?因为L是一个D,应该我没有计算,就它就是一个广告公司。😊。

对他发布的这个数据。而且数据的质量很高。对。对。哦,这不是真的,你你你那个应该不是人家的那个官方的那个那个吉thhub,你要找官方的那个githhub。😊。

官方的个吉他话就是这个这个什么EYC卷这个歌们,这个哥们应该是他的作者之一。😊,对。OO好,对对对,就这个这只。😊,好好好,就是我我这个这个这个这个其他门它其实有很多这个这个这个东西。

但是我核心发的就是我发这个链接。这个链接是个冠军的这个作者写的,它这里面披露了大量的这个特征工程技巧。😊,但这个东西你你具体怎么做,你还是得靠实践。😊,就他写的只是一些就是这于特征过程,他只是。😊。

就你看到代码,你永远不知道他是怎么做的,或者你也想不清楚他为啥这么做。但是他既他这个PPT里面详细的介绍了介绍了他几个那个思考的方向。😊,对对,然后呢大家可以去,我觉得我建议大家呢先用这个libFM。

然后把这个算法把这个冠军的这个PPT里面的一些点复现一遍。😊,如果有些地方你看不懂的话。对你可以你可以你可以你可以,我不知道这个我们这个这个视频结束之后,有没有这个有没有这个这个这个这个这个这个什么。

She。有没有这个这个这个这个讨论组或者T阅在线,有没有讨论讨论组里面,你可以问我到时候看到我会回答,就是具体怎么做。你把这个关点的这个比赛解法敷现一遍,你能做到给他效果一模一样。我告诉你就牛逼了。

就你你但是你不能用别的算法,你就用人家的这个算法加这个数据,把那个特征的那个部分敷现一遍,能做到跟他一样的效果。😊,对,那你就知道了特征工生的技巧。就是刚才这个这个群里面这个这个同学问的。

说我不回答问题,然后说这个。没有问这个特征工程技巧。对你你把这个做一遍,你就会了。如果你还不会的话,你做的过程遇到问题的话,你可以在如果我们这个课程还有这个群的话,你可以问我,我可以告诉你。对。

但是呢如果我直接给你说的话,你你还是不懂。因为你之做完之后你遇到问题之后,在这些这些特别细节的东西你才能懂。对好,除了这个之外呢,你还可以尝试一下GBTGBTT再尝试一下地。😊,看看这些不同。

因为这个比赛刚才在群里面的同学说了,这个比赛做的时候还没有这些算法呢,没有GPT有了,但这个生度学期这一套还没有。😊,那你可以用生度学习这一套再玩一遍。

看看你看看你在几年之后能不能把人家那个冠军那个算法能够再。😊,beter过。如果你能be得过,那恭喜你。对,这是一个这个这个过程对你来说,我相信对你。😊,呃,这个比赛相也算是这个视频的一个一个课后题吧。

对对你理解这个问题,对你理解这些工具,理解这些算法,对特征工程都有非常好的帮助。对。好,最后呢有一些这个reference。对。就我讲的时候有些reference,然后。嗯。

这个这个视频过段时间会录播录播的时候,大家就可以看一下这个refer。然后的话这些东西在互联网上都能找到的。对对对,然后我我我不造笼子,我这个人不造笼子,我用的都是一些现成的一些一些参考资料。对。

保证大家就是说都能都能够在课后去去去学习。😊,行,好,我这边就讲完了,大看有什么问题。😊,啊,PPT这个PPT我不知道。老师会讲到这两天腾学宝宝大赛吗?😊,She。其实腾讯这广告大赛年年都有,我靠。😊。

Yes。但是我我今年呢我还没有来得及看。😊,之前也是搞CTIE,我觉得差不多。😊,对,主要还是特征工程。你。对。对,PPT能分享一下吗?这个PPT我不知道能不能分享。对,大家其实分享PPT没有意义。

大家还是看视频吧。我觉得这个这个这个。😊,这公司会把这个视频过段时间会会做给大家。常用到的模型有哪些呢?长的模型其实最经典的是逻辑回归。大数据是逻辑回归。FM。小数据呢。是。小数据。小数据是。

GBD叉级bo。深度学习。生度学习。说句实话。深度学习。我我我这个就是深字学习成本很高,百度在用。我说句实话,百度在用。😊,呃,这个生物学期你一般人搞不定。对。阿里应该也在用,但是成本成本代价都很高。

😊,可以用推荐系统的简历找广告笑的工作吗?没问题。第一份工作去大厂好还是初创好,必须去大厂,毫无疑问。对,除非你是大神,你去初创公司拿期权,拿创始做创始人。对。😊,大这是个人建议啊。

我下面这些都是个人建议啊,对对对,不然有人会喷我的对对对?😊,那如果你确实想去想去初创公司,那也可以,不然的话,我怕我影响了你成为下一个那个财务自由的人,就尴尬了。好,时间到了,谢谢大家。对,谢谢大家。

那个那个后面还是希望大家多继续关注这个。😊,这个这个我们公司的这个这个直播,还有一些课程。