除了网红，强化学习也能带货？

当前位置鱼摆摆网 > 资讯 > 营销 >

除了网红，强化学习也能带货？

公众号：阿里机器智能作者：周银达，朱天奇 2020-04-25 15:02

小叽导读：如今新媒体营销已屡见不鲜，本文通过分析新媒体营销的局限性，阐述了如何利用强化学习提升新媒体营销的效果以及如何实现一个能契合业务意图的强化学习策略模型。与此同时，作者分享了其在业务算法探索过程中的经验以及思考。

背景

什么是新媒体营销

什么是新媒体营销？设想这样一个场景，A 公司最新出了一款口红，他们想方设法得让你们的女朋友们知道这款新品，于是他们做了这么几件事：首先努力憋出了个文案，找了几个微博的大 V 各种发发发，转转转；深夜还写了一篇煽情的微信软文《女人这一生必败的十支口红》，偷偷把自家那支也塞了进去，趁着夜色，匆忙找了几个公众号发了出去；可又听说口红圈大家都看某佳琦，于是又赶紧喊他来直播带货，OMG 地推销一下，最终就是希望大家的女朋友们能接触到关于这支口红的各种软文、图片、视频、直播等等营销广告，然后，买它！

区别于电视、报纸、广播等传统媒体广告营销手段，新媒体营销投放是一种新兴的广告营销传播途径，是一种主要通过互联网途径传播和扩散的广告载体，例如我们平时接触的微信、微博、抖音、快手、小红书等都属于这一范畴。随着互联网、网红经济的不断发展，相较于传统媒体营销，新媒体营销具有高效、精准、触达人数高、成本低、受众广等优势特点，越来越受到广告主们的青睐。市场上也有各种各样的新媒体广告营销投放平台(供应商)，通过一系列的资源整合、分配、投放等手段，去帮助广告主提升营销效果。

如何完成一次传统的新媒体营销

如何帮助 A 公司完成这支口红的新媒体营销，让你的女朋友看到后买买买呢？听起来和把大象装进冰箱一样简单，分成三步，流程如下图所示：

1 确定营销项目需求

第一步就是要和 A 公司讨论清楚要怎么营销这支口红。就和装修一样，需要确定总预算和装修风格、要不要装地暖等等事项。首先确定本次营销活动的主题或品类（例如 A 公司的这支口红），预算金额（10万），需要涉及的传播渠道(微信、微博、抖音、小红书等)，KOL 的号段类型(时尚、段子手、美妆等)，核心发布类型(图文、vlog、漫画等)，涵盖的投放阶段(预热，爆发，收官)，传播周期，期望传播效果等等。

2 确定渠道投放策略

这二步就是要明确 A 公司给的这 10 万该怎么花。在确定和分析理解清楚 A 公司的项目需求后，从业者需要根据预算，对各种不同类型的号段，在不同渠道、不同投放期、不同头腰尾下进行预算分配，最终会形成一个策略投放矩阵，类似下图所示的格子矩阵，其中的每一个格子都有可能存在预算比例，求和为 100%。

3 确定投放 KOL 号段组合

第三步就是要确定找哪些 KOL 来帮你宣传这支口红。在确定好策略投放矩阵后，进行 KOL 号段组合。例如依据上述策略投放矩阵，从业者会依据自己的经验，从自己的微信 KOL 库中，选取部分适合在预热期使用、号段类型为 2，为头部号段的候选微信 KOL，并使得选取的 KOL 总费用不超过总预算的 2%。重复上述的操作，直至全部格子处理完毕。

以上三步都完成后，最后就是 KOL 在约定的时间，通过自身账号进行事先约定的广告投放，最终是希望 A 公司的这支口红能收获好的传播效果，触达更多的人群，实现更多的转化。例如微博阅读数、转赞评、微信的在看数等特别多，要是能上个热搜就最好了。以上就完成了一次传统的新媒体营销活动。

当下新媒体营销的局限性

在先前，整个新媒体营销投放的核心决策步骤 2 和步骤 3 主要以专家模板 + 经验导向为主，但新媒体市场日渐扩大，业务复杂度较高，行业从业者需要根据不同供应商不同渠道的资源掌握情况，以及业务需要的变化，高效调整投放策略响应业务需求，而且新媒体市场资源数量大且瞬息万变，经验导向和人肉数据整理很快将跟不上市场变化。因此需要基于对新媒体营销资源的数字化，形成 [项目需求 - 投放策略生成 - 号段组合 - 线上投放] 的一整套新媒体营销数字化行业解决方案。

本工作主要是在新媒体营销投放过程中最为核心的渠道投放策略上进行算法赋能，针对目前的投放策略部分，我们认为有以下局限和待改进的地方：

从大的角度来说，通常行业从业者给出的策略投放矩阵是一个专家级的经验或者经验模板，经验本身就存在局限性，有巨大的提升空间，例如咱们的世界围棋冠军柯洁干不过人工智能 Alpha Go，还被 Alpha Go 虐哭了。

基于经验的策略投放矩阵，存在滞后性，在现实中，面对项目类型、活动预算等因素的变化、以及 KOL 候选库的不断更新(新的、优秀的 KOL 层出不穷)，经验会存在严重的滞后。

我们认为一个理想的智能策略投放矩阵，应该会依据不同的待营销项目的类型、预算、风格、投放时间等等因素，进行自适应的调整，给出一个满足广告主意图的策略投放矩阵，而不是从始至终使用一套固定的模板或者专家经验导向。针对以上新媒体营销的局限性，机器学习的分支——强化学习方法非常适合在这样的场景使用。

上述名词解释：

KOL：关键意见领袖（Key Opinion Leader），通俗的来讲一个微博大 V 就是一个 KOL，一个微信订阅号也是一个 KOL，B 站的一个 up 主也是一个 KOL。

头（腰/尾）部号段：通常通过粉丝量来衡量，粉丝数特别多的（例如微博的千万粉丝数级别）是头部 KOL 号段，次之的为腰部号段，再次之为尾部号段。

号段类型：即 KOL 的属性,有些 KOL 擅长写段子，他的号段类型就是段子手；有的 KOL 长期主推母婴产品，他的号段类型就是母婴等等。

发布类型：KOL 发表的内容形式，例如图文、视频、vlog、漫画等。

投放期：预热，爆发和收官，代表一个营销活动在整个传播周期内前中后三个时期。

传播周期：营销广告投放的时间段，比如 2020.05.01 - 2020.06.01。

强化学习如何赋能新媒体营销

在这里我们要通过强化学习来更好的利用、花好 A 公司的这 10 万，让来 A 公司这款口红的营销更加成功，那什么是强化学习？强化学习是如何让 A 公司的这款口红的营销更加成功呢？

什么是强化学习

传统机器学习方法通常可以归类为有监督学习 (Supervised Learning)，无监督学习 (Unsupervised Learning) 以及强化学习 (Reinforcement Learning，RL) 中的一种。一般的，有标签的回归，分类等方法都是有监督学习；而聚类就是典型的无监督学习；而例如虐哭世界围棋冠军柯洁的 AlphaGo 围棋程序则运用了强化学习方法。其中，强化学习最大的特点是其交互式的学习方法，在事先没有给定训练数据的情况下，通过自身的不断试错来进行学习。强化学习的过程类似于人类自身天然的学习过程，也因此被认为是迈向通用人工智能 (Artificial General Intelligence，AGI) 的重要途径。

强化学习通常是考虑这样一个场景：一个智能体 (agent) 在一连串的时间步 (TimeSteps) 上与环境进行交互。在每一个时间步，agent 接收到一个状态，并依据自身的当前策略(实现从状态到动作的映射)，从可能的动作集中选择一个动作。于此同时，agent 接收到下一个状态以及奖赏。这一交互过程持续进行，直到到达终止状态。由此我们可以得到一个包含有多组状态、动作、奖赏的情节序列。是每个时间步的累计奖赏，如下方公式所示，其中