在线AI技术在搜索与推荐场景的应用

  • 时间:
  • 浏览:0
  • 来源:彩神大发APP_神彩大发APP官方

大会系列埋点文章:

上图是基于Wide & Deep Learning for Recommender Systems的工作建立的Large Scale Sparse&Dense DNN训练体系的架构,该架构中利用Batch Learning进行Pre-Train,再换成Online数据的Retrain&fine Tuning。模型在双11当天完成一天五百万次的模型更新,什儿 模型会实时输送到在线服务引擎,完成Online的Prediction。

基于强化学习的实时搜索排序调控

总结

对于阿里巴巴电子商务平台而言,它涉及到了买家、卖家和平台三方的利益,日后 还要最大化提升消费者体验;最大化提升卖家和平台的收益。在消费者权益中,涉及到了一些人工智还可不后能 还可不后能 发力的课题,如购物券和红包的发放,根据用户的购物意图合理地控制发放速率单位单位和心奖概率,更好地刺激消费和提升购物体验;对于搜索,人工智能主要用于流量的精细化匹配以及在给定需求下实现最佳的人货匹配,以实现购物路径速率单位单位最大化。经过几年的努力,阿里研发了一套基于个性化技术的动态市场划分/匹配技术。

智能化体系中的决策环节

双11当天的成交额是是普通成交日的十到十二倍,点击量将近三十倍。在用户行为密集趋于稳定的情况下,有理由相信数据分布在一天内趋于稳定了显著的变化,基于从前 的考虑,GBDT的Training由从前 的日级别升级到小时级别(每小时进行GBDT Training),什儿 Training的模型部署到Streaming的计算体系中,对于实时引入的训练样本做实时的预测来生成对应的上面节点,什儿 上面节点和人工的社会形态并肩送入FTRL决出相应社会形态的重要性。

Streaming FTRL stacking@offline GBDT的基本理念是通过离线的训练,在批量数据上建立GBDT的模型;在线的数据通过GBDT的预测,找到相应的叶子节点作为社会形态的输入,每有五个多多社会形态的重要性由online training FTRL进行实时调整。

一些人的目标是希望搜索引擎决策体系进化为具有强化学习能力的智能化平台。过去的搜索,一些人还可不后能 还可不后能 做到遇到同样的用户购物诉求下,尽将会保证做得暂且前一天最好的土措施差,也要是 所谓的Historical Signal==Best Strategy;一切模型都是建立在优化直接收益的基础上。未来的搜索,一些人希望还可不后能 保证长期收益最大化来决定引擎的排序策略,也要是 Immediate Reward+Future Expectation=Best Strategy;未来的排序融合入模式都是建立在优化马尔科夫决策过的基础上,最大化The Discounted Reward。

大会所有资源(视频回放、PDF、文章埋点)一键下载:https://yq.aliyun.com/articles/65238

电商搜索推荐技术演变过程

搜索/推荐引擎决策体系

电商搜索和推荐的智能化演进路程还可不后能 能划分为五个阶段:人工运营和非智能时代、机器学习时代、准人工智能时代、人工智能时代。人工运营和非智能时代,主要靠领域知识人工专业运营,平台的流量投放策略是基于简单的相关性+商品轮播;在机器学习时代,利用积累的大数据分析用户购物意图,最大化消费者在整个链路中将会感兴趣的商品;准人工智能时代,将大数据处可不后能 力从批量处里升级到实时在线处里,有效地消除流量投放时的误区,有效地提高平台流量的探索能力;人工智能时代,平台不仅具有极强的学习能力,也还要具备一定的决策能力,真正地实现流量智能投放。

搜索引擎和投放页面盐晶 趋于稳定互动:搜索引擎观测消费者的交互情况;搜索引擎根据交互情况执行投放策略;投放策略前一天,呈现商品结果页,消费者在商品结果页中的操作行为反馈给搜索引擎。引擎决策实际还可不后能 能改变投放环境,进而影响消费者的交互,改变消费者的情况。将会不还要建立从情况到动作的策略映射,还可不后能 能采用Multi-armed Bandits土措施进行流量探索;将会还要建立该映射时,还要采用Contextual MAB土措施;在新情况下,考虑消费者的滞后Feedback对于引擎在前一天情况下的Action正确是否是产生影响,还要引入强化学习的思想。

Online Learning和Batch Learning有很大的区别,在Online Learning的研发过程中,总结了一些技巧:

电商平台下的大数据是源自于平台的投放策略和商家的行业活动,什儿 数据的转过身趋于稳定很强Bias信息。所有的学习手段都是通过日志数据发现样本空间的社会形态和目标之间的相关性;进而生成模型;前一天利用模型预测线上的点击率或转化率,将会预测模型用于未来流量投放中,日后 两者之间趋于稳定一定的时间滞后(systematic bias),也就观测到的数据和实际失效的数据趋于稳定着Gap。在工作逻辑中,将会有五个多多社会形态和目标趋于稳定很强的Correlation,则该社会形态就应该在线上的预测中起到重要作用。

下面简要介绍下为应对今年双11提出的基于强化学习的实时搜索排序调控算法。

其算法逻辑如上图所示,基本算法是实现线上几五个排序分的有效组合,样本包括日志搜集到的情况空间、Action Space(这里对应的是排序分空间),奖赏是用户有效的Feedback,具体的排序策略表达公式以及策略更新和值函数更新的公式还可不后能 能参考Maei,HR的《Toward off-policy learning control with function approximation》一文。

整体搜索/推荐希望建立有五个多多Close-loop for iCube learning体系,其中iCube要求系统具备immediate、interactive、intelligent的能力。整体从日志搜集到maximize rewards、minimize dynamic regret实现Online Training;其中Training模块还可不后能 高效地部署到Online Service;而Online Service还要具有很强的探索和overcome bias能力,进而使得整个体系还可不后能 适应新的数据,提升流量投放速率单位单位,并肩还可不后能 探索新奇和未知的空间。

没办法 为啥么处里Offline Reward Signal不等于Online Dashboard Metrics的问题 呢?一些人引入了强化学习,通过引入Online User Feedback更好地定义Reward,对线上排序策略进行调整,使其具有更强的自适应性。

12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)成功在线举办。在本次分享中,来自阿里巴巴集团的研究员徐盈辉带了题为《在线AI技术在搜索与推荐场景的应用》的精彩演讲,他结合本届双11搜索和推荐场景删剪介绍了电商搜索推荐的技术演变、阿里搜索推荐的新技术体系以及未来的发展方向。

搜索和推荐过程还可不后能 能抽象成有五个多多序列决策问题 ,从消费者与引擎的交互过程中寻找每有五个多多不同情况下的最优排序策略(各种排序因子的合理组合)。

对于强化学习,它的目标是最大化时刻T所选用的策略的长期收益最大。对于离散state和离散Action的情况,还可不后能 能采用Tabular RL土措施求解;对于连续State和连续Action,采用RL with Function Approximation。其中State表示用户近期趋于稳定行为商品的可量化社会形态,Action表示权重量化(维度是排序社会形态分),Reward是Systematic Valid User Feedback。

在整个体系中,Systematic Bias不难 做到理想化的控制,日后 离线模型预期效果与线上的实际生效效果趋于稳定差异,这转过身的根本愿因是Correlation暂且等于Causation,也要是 社会形态与目标相关暂且愿因社会形态冒出一定愿因目标趋于稳定。

在AI应用到商业的过程中,未来努力方向是:

双11采用Q-learning的土措施进行实时策略排序的学习,将情况值函数从情况和策略空间将其参数化,映射到情况值函数的参数空间中,在参数空间中利用Policies Gradient进行求解;将情况值函数Q拆解成情况值函数V(s)和优势函数A(s,a)进行表达。

智能化时代,对于搜索和推荐而言,还可不后能 能提炼为两点:学习能力和决策能力。学习能力愿因搜索体系会学习、推荐平台具有很强的建模能力以及还可不后能 索引原始数据到索引知识提升,学习能力更多是捕捉样本社会形态空间与目标的相关性,最大化历史数据的速率单位单位。决策能力经历了从LTR到MAB再到CMAB再到DRL的演变过程,使得平台具备了学习能力和决策能力,形成了智能化体系。

借他山之石以攻玉。在线服务体系中,一些人基于参数服务器构建了基于流式引擎的Training体系,该体系消费实时数据,进行Online Training;On Training的起点是基于离线的Batch Training进行Pre-train和Fine Tuning;日后 基于实时的流式数据进行Retraining;最终,实现模型捕捉实时数据的效果。

在双11采用的基于强化学习的实时搜索排序调控的实现体系如上图所示。当用户输入query时,会向系统询问哪某种 排序策略最适合当时人;该查询策略请求会上传至在线策略决策引擎,在线策略决策引擎通过实时学习的Q(s,a)模型合理选用有效策略,日后 再返回给搜索引擎;搜索引擎土措施当前情况下最有效策略执行搜索排序;在搜索排序页面展示的并肩,系统会及时搜集相应的情况 action以及用户feedback的信号,并进入到Online Training Process;而Online Training Process会通过Off-policy model-free RL土措施学习State To Action的映射关系,再从映射关系中得到线上排序所还要的策略参数;该策略参数由在线策略决策引擎通过Policy Invalid Process输出给在线搜索引擎。

借他山之石以攻玉

以下内容根据在线分享和幻灯片埋点而成。

猜你喜欢

您觉得在大学里谈恋爱与婚姻的关系挂钩吗?*

步入社会后,社交面会明显变窄,选取的余地相对缩小全都,共要当时人的就更难遇到了。我我觉得大学时,顺其自然有共要当时人的何必 回避。现在我觉得大学时代不谈恋爱真的是一个 多很

2020-01-28

各位有问题可以直接提,紫泷老师结束后会给各位解答

登录后可回答问题,请2019-04-0919:02:30各位有问题后能 直接提,紫泷老师刚刚开始总要给各位解答或来源:[直播]顶端件小哥0人评论314人浏览0收藏

2020-01-28

是不是两个人在一起时间久了比如半年,什么时候都在一起,就会产生依赖,而舍不得分开呢

暗恋是五种自毁,是五种伟大的牺牲。暗恋,甚至不前要对象,朋友不过站在河边,看着被委托人的倒影自怜,却以为被委托人正爱着别人。感情的句子是哪些 和情歌一样,最高境界是余音袅袅。

2020-01-28

在还没谈恋爱之前,已经知道最后的结局是以后不会在一起结婚过日子,这样还有必要谈恋爱吗?

你有益于当他是亲戚朋友语句,还有益于永远保持这个关系,毕竟最长久追问追答反而听到有三个 的想法,我很佩服,真是有三个 的思想很性性性心智心智心智成熟 图片 ,是我

2020-01-28

不分手,不谈恋爱,不结婚,有没有这样的人

你男的本回答由网友见面视频见面推荐有,可是俗话说的骑驴找马,有为宜结婚的,就揣了 我来答你对你是什么回答的评价是?你对你是什么回答的评价是?展开完整性(´இ皿இ`)我从未见过

2020-01-28