聚焦微信产品中的看一看与搜一搜场景差异分析

1. 业务焦点的差异

在中心业务发展过程中,低俗色情识别最先应用于看一看场景,主要包括公众号文章、视频和新闻等内容源。在基于上述内容源的推荐场景中,由于内容以PGC生产为主,因此低俗色情问题的90%以上都是轻微低俗擦边,完全色情的问题比例很小;经过我们的努力,擦边程度以上的问题被控制在较低的水平(可参考之前的看一看介绍文章)。

随着搜索业务的发展,搜索场景的环境净化也变得刻不容缓,从用户query的提示、相关搜索到搜索结果的展示,都需要低俗色情识别来进行过滤。与看一看推荐场景不同的是,推荐是平台的主动行为,所以搜索场景90%以上的注意力更关注色情内容的识别过滤,推荐分发擦边内容是不可以的。(至少在看一看的调性中如此)

2. 数据的差异

在从推荐场景转移到搜索场景中,我们面对的语料也发生了一些质变,从主要PGC生产的较标准的PGC语料转为了全网开放领域(例如搜索query与搜狗网页),色情问题规模也是相较之前有了爆发式的增长。因此看一看中多个数据源的模型在迁移到开放的搜索语料时,存在很大的领域差异,严重色情问题的召回不足,导致迁移应用的效果较差。

3. 问题解决环境的差异

在问题发现上,看一看中有较完备的人工轮询机制,同时用户负反馈也可以提供很好的问题发现和样本。而到了搜一搜这里,相较海量用户query及网页结果,色情case的比例很低,轮询机制的效率极低(比如推荐中轮询100个可以发现1个问题case,而搜索汇总可能需要轮询1k个);搜索也缺少像推荐那样用户对单个内容的即时负反馈。在问题分布上,由于推荐系统的机制及用户习惯,天然的会将擦边内容推到点击top的集合中;而这一效应在搜索中并不明显,依旧十分稀疏。由于搜索场景的问题稀疏,长尾问题更多(各种可能的作弊、黑话),这里不仅要跟黑产做对抗,还需要与用户的输入斗智斗勇,在效果评价上(主要是召回)也更加困难。

02 如何更好地分析样本与评价效果

如上文所述,由于两个业务的差异导致原有一些模型迁移到搜索的语料上时效果较差,模型精度的提升一般相对容易,通过样本清洗、误分样本的纠正及特征权重的调整(比如使用Lime辅助分析),可以较快的对精度进行提升。而在面对开放领域的query、网页标题时,问题的稀疏性、长尾性以及问题发现机制的不健全(或者说低效)都导致了召回的提升是一个难题,同理召回的效果评价也更困难,因此这里也是主要探讨对于样本召回的分析,主要集中在query与搜狗网页标题。

在分析方法上,通过已有模型的baseline结合传统的基于关键词、embedding向量相似可以为我们提供一份较多的种子数据。在此基础上,我们结合搜索业务的场景特点以及一些可用的知识,尝试了以下一些方法并取得了更好的效果。

1. 搜索引擎结果的分析

站在巨人的肩膀上,可以帮助我们快速取得提升。一些搜索引擎的搜索结果质量以及展现的特征可以辅助我们扩展语义与分析样本。通过分析网址安全中心提醒、搜索结果数、相关搜索等特征可以帮助我们快速分析筛选一些疑似样本。这个方法在色情小说等问题的运用上有较好的效果。

同时,搜索引擎的搜索结果以及相关搜索结果也可以帮助扩展query语义以及一些变种,达到举一反三的功效,在实践中得以应用。

2. Query用户改写串分析

用户行为是我们做分析的一个利器,既然搜索场景没有推荐那样显示的负反馈,那就通过分析用户心理和行为为我们提供隐式的负反馈。这个idea的出发点很简单,用户的搜索行为往往是连续的,直到得到想要的结果才会停止。那么在一次用户的连续搜索行为中,我们可以利用用户query的改写串来进行批量分析,通过已有模型对改写串的打分可以高效的分析目前模型还不能解决的case。

由于个别字的改变(作弊)导致表面语义的飘逸,很容易逃过色情检测。通过这类作弊case,我们可以进一步深挖搜索黑产所进行的一些seo作弊操作,由session发现作弊进而映射到uin,可以分析一批作弊用户及其作弊query。与黑产的对抗在低质识别工作中是永恒的话题,矛与盾的不断升级,不断试探;而借助已有的能力并进一步分析黑产用户的搜索模式,可以帮助我们建立起良性的循环和有效的对抗升级。

3. Query与点击doc的联动分析

在实际业务中,由于query与网页标题语料的不同,文本长度上,query偏超短文本而网页标题偏短文本;同时二者的表述等也存在领域差异,因此在业务中是训练了各自的模型。那么与query改写分析类似的思路,结合已有模型的能力与用户行为进行样本分析和补充。这里利用搜索引擎已自带的query与结果的相关性加上用户点击这一强行为特征,尤其在色情领域上使得query与结果的相关性比大盘水平高出很多。那么通过query与点击title的各自模型的预测得分,就可以较快的将不足的一方进行补全优化,实现多模型的联动升级。

4. 评价指标

在效果评价上,我们一般采用精度、召回与F1值作为主要的效果评价指标,这里的难点主要在于召回评价上。因为搜一搜场景问题数据的稀疏性和长尾性,采用大盘随机评测召回需要投入很多人力来获取一个置信度较高的结果,因此我们尽量采用多个维度来体现模型的效果。通过比较迭代模型前后的diff胜出率可以实现自身的比较;通过引入其他开放领域测试集辅助验证模型的泛化通用性。除此之外,我们的业务使用方还单独分析了一批业务测试集,对算法侧保持黑盒状态,用打比赛的方式来评价成绩也是一个不错的选择。

03 基于Bert的迁移学习改进

在模型方面,可以说Bert(及其各种升级版)是目前在大多数NLP任务中效果最佳的模型。在GPU资源充足的情况下,我们也优先部署Bert提高业务效果,并在Bert的基础上结合业务特点进行一些模型创新。下面将从如何使用pivot词改良Bert的预训练过程和如何利用业务中天然的多任务学习场景来提高模型最终效果这两点来展开介绍。

1. 基于可迁移Pivot词的Bert迁移学习

目前对于Bert的应用来说,大多情况(简单用法)都是直接在少量的标注数据上去Finetune最后一层即可取得较好的效果。对于精细化的升级用法,会先在特定任务的语料上去精调预训练的语言模型,这样的好处是可以让模型更加适应当前任务的语言环境。而这一点在低俗色情问题上是非常匹配且需要的,因为一般Bert预训练语言模型的语料都是类似维基百科这种较正常标准的内容,缺少低俗色情里的很多低俗说法、黑话、作弊等内容(比如“干”“棒棒糖”等词),这就使得预训练得到的语言模型缺少对这些一词多义的理解,即基于上下文的语义理解,而这些的一词多义正是我们这一特定任务最需要的。

对于Bert的优化方向之一就是引入更多辅助任务以及外部知识,对下游的知识类任务或者包含NER相关的任务有直接的效果提升作用。与此思路类似的是,我们引入了pivot词的知识,学术界有不少迁移学习的工作是基于pivot词来提升不同领域之间的迁移效果,这在低俗色情问题上同样十分匹配,通过学习领域不变的pivot特征来桥接源领域和目标领域,从而使得在源域上训练的模型可以适配目标域。

我们的TPT(Transferable Pivot Transformer)模型分为两部分,pivot选择网络以及mask pivot的预训练语言模型网络(分别对应模型示意图的右半部分和左半部分)。在pivot选择部分,为了优化色情领域很多新词或作弊词的问题(例如“轮轩”“好庠”等),我们采用基于字的bi-gram和tri-gram,通过已有标注数据计算互信息MI获取到一批权重高的pivot词表。进一步为了使得pivot词更具可迁移性,我们通过训练pivot词的领域分类器来挑选出领域不可分(即可迁移)的最终pivot词表。

在预训练语言模型阶段,与传统bert的mask策略不同的是,我们加入了针对pivot词的mask策略,我们希望模型能更多的关注和学习到pivot词在不同上下文语境中的语义。因此在训练语言模型的过程中,我们对于pivot词大概率下进行mask,小概率下保持不变;同时bert原有的随机mask策略可继续使用,最终生成的即为适用于我们这一特定任务场景的预训练语言模型。我们这一idea的工作已发表在AAAI2020上,感兴趣的同学可以细看一下。Simultaneous Learning of Pivots and Representations for Cross-Domain Sentiment Classification

2. 基于Bert&知识蒸馏的多任务学习

如前文所述,在搜一搜的低俗色情的任务场景中有query、搜狗网页、公众号文章、视频等多个数据领域,多个领域间均存在不同程度的领域差距,也因此每个领域都会训练生成对应的分类模型。与此同时,多个领域之间的任务目标又十分相似,很多知识是通用的,这十分适合多任务模型的应用。在之前看一看的工作中,我们也尝试了例如基于LSTM的多任务模型、领域迁移对抗模型等,在Bert兴起后,如当年Imagenet的进化路径,Bert可以作为一个优良的底层特征提取器,继续在Bert之上结合传统的多任务学习或者迁移学习的工作进一步提升效果。这里我们尝试了Google发表在ACL2019的工作BAM! Born-Again Multi-Task Networks for Natural Language Understanding,其将Bert与多任务学习、知识蒸馏巧妙地结合在一起。

知识蒸馏即将知识从「教师」模型迁移到「学生」模型,执行方式为训练学生模型模仿教师模型的预测。在「born-again network」(Furlanello et al., 2018) 中,教师和学生具备同样的神经网络架构和模型大小,然而学生网络的性能超越了教师网络。有研究分析其提升的原因是因为教师模型的输出不再是原来one-hot label的形式,而转为对label分布的输出,这可以提供更多的训练信息(dark knowledge)。

BAM进一步将知识蒸馏扩展到多任务模型训练环境中,在业务应用中,首先对各个领域的数据训练bert的教师模型,进而结合教师模型的预测值和实际label作为多任务学习的label,在BAM中提供了教师模型退火的机制,即在迭代中逐渐减少教师预测值的权重,达到青出于蓝而胜于蓝的效果。

孵化于朋友圈的新场景——看一看

在开始聊之前先问几个问题:

  • 朋友圈于你而言是杀时间还是省时间?
  • 你每天平均刷朋友圈的时间大概是多少?
  • 你有多大概率会打开一篇好友转发在朋友圈的文章?

因为看一看是从朋友圈剥离出来的新场景,所以我们就从朋友圈聊起。初期朋友圈的定位是使得用户之间可以高效的社交,通过朋友圈的分享去了解朋友的近况,通过朋友圈的互动去维护关系。

所以作为工具,它的定位是省时间,高效社交。但由于朋友圈的内容大多是图文类分享,属于朋友们碎片化的生活分享,因此也逐渐被用户当成了一个杀时间工具。使用微信的时候,要是没人跟我聊天,那就去刷一刷朋友圈看看有啥新消息打发一下时间。

(不要太惊讶,杀时间和省时间的需求经常是矛盾的,比如你看剧是为了杀时间,但是同时又会需要2倍速看剧去省时间,人就是个矛盾的综合体hhh)

公众号的文章内容与朋友圈本身的原创分享相比,大多都是长文章。碎片化的生活分享可以同时满足用户杀时间和省时间的需求,但是公众号文章不能。人的本性是不愿意学习和思考的,长文章需要更多精力的投入和更专注的注意力,既不能杀时间,也不能省时间,而是要花时间花精力。

小龙哥在微信公开课中提到过,人是一个很奇怪的动物,他会控制自己的时间,随着好友增多,朋友圈内容变多,并不会提升他们在朋友圈的停留时间,也就是说,用户不会按照内容多少来分配花多少时间。

从数据来看,从微信第一年发布朋友圈功能来看,用户平均在朋友圈花的时间是没有变化过的,无论是10个好友,100个好友还是1000个好友,大家平均刷朋友圈的时间只有半个小时。

好友不断增加导致朋友圈内容的溢出和用户刷朋友圈时间相对固定的情况下,微信朋友圈生态对于公众号文章越来越不友好,最终导致的就是朋友圈分享的文章被点开的概率越来越低。

一方面,在碎片化内容的冲击下,用户抱着杀时间的想法而来,就随手看看票圈有没有更新的内容,并没有做好阅读一篇长文章的打算。因此在看到朋友转发的文章时,会本能的选择先看看其他短内容,而不是点击链接跳转到一篇长文章。

另一方面,刷朋友圈时间相对固定的情况下,公众号文章需要二次跳转,会中断用户刷朋友圈的体验,而且一篇文章少说也有一两千字,点进去看完文章再回来的话刷朋友圈时间可能就不够了。

基于好友关系的订阅信息流

因此,在这样的背景下,看一看诞生了。因为公众号文章需要一个阅读场景,属于需要用户抱着获取信息的心态而来并且愿意付出一定的空闲时间才能静心阅读的长内容和深度内容。因此看一看在朋友圈以外开辟了一个新的阅读场景,方便用户分享和阅读。

看一看的本质是另一种形式的订阅信息流,你订阅的主体是你的好友,基于双向确认好友关系,你允许他们向你推荐他们认可或者喜爱的内容。

这意味着它不会猜你喜欢,不会根据刚刚多人点赞结果向你推荐任何内容,平台没有态度和偏好,只做工具,把想要阅读和热爱分享的一波人聚集到这个新场景里面,高效的实现信息的流通。虽然你不知道看一看里会出现哪些内容,但你知道每一条内容为什么出现,规则是清晰透明的,用户有完全的主动权,可以选择不看谁的在看内容或者不看某个公众号的在看内容。

新场景的出现使得分享者和观看者和平台三方受益。

对于愿意主动去筛选内容和推荐内容给他人的分享者而言,点击“在看”比转发到朋友圈的操作成本低了很多,相当于一键分享给你的所有朋友,虽然有可能部分朋友不使用看一看,但大概率不用看一看的这部分人也很少会点开你在朋友圈的分享(因为他们没有获取信息的需求)。总的来说,看一看帮助你把内容分享给更有可能感兴趣的人。

对于希望高效获取朋友推荐的内容,了解朋友信息的观看者而言,“看一看”集成了众多好友给你的推荐列表,你可以高效的看到好友们正在关注的话题,他们认可的内容,他们精心挑选的内容,全部都静静躺在你的列表里面,每天抽一点时间浏览一下列表就能发现不少新大陆。

对于平台而言,新场景的开辟提高了公众号文章的打开率,开辟了新的阅读场景。虽然人们本性是不愿意阅读的,但是通过社交推荐去获取信息的阅读是能够被接受的。所以我们给了用户一个阅读的理由,因为你的朋友在看这个,所以你也可以了解一下看看,这样的机制使得优质内容能够基于社交推荐在平台多次传播和流通,打造更好的内容生态,鼓励更多优质内容的产出。

从“点赞”到“好看”到“在看”

根据西瓜数据2019年的公众号生态趋势调查报告结果显示,自“点赞”功能变成“好看”,然后又升级成了“在看”,并会分享到看一看之后,在看数据出现了断崖式的下跌,但随着时间的流逝,在19年后几个月的在看数又有所回升。

微信看一看背后的产品哲学

(《2019年公众号生态趋势调查报告》部分截图)

我们可以试图去理解一下数据变化背后的原因。

一级进化:从“点赞”到“好看”

最初,该功能的定位是点赞,仅仅就是一个赞而已,点赞成本较低,用户点赞的心理也比较丰富,可能就是碍于情面鼓励一下,点个赞,也可能是认可内容觉得需要点个赞,也可能是认可博主本人的分享所以对于博主的所有内容都点赞以示鼓励,也有可能是随手点赞表示朕已阅。

总之,在各个软件点赞功能的教育下,点赞有点通货膨胀的意思了,用户点赞成本较低,点赞背后的心理因素较复杂,点赞数高不一定是好内容,也有可能就是随手点赞表示已阅,这样优质内容和普通内容之间的区分不明显,不利于构建良好的内容生态。

其次,该功能没有闭环,点赞数仅仅就是一个数字,而微信又不做内部的内容推荐机制,不会基于点赞数高就把内容推荐给用户,所以点赞功能没有发挥出它应有的价值。

第一版本的进化,从“点赞”到“好看”使得用户的点赞目的更加明确,更加聚焦于内容本身。虽然这有可能在一定程度上降低用户点击“好看”的次数,规避其他因素导致的用户点赞,但是“好看”更能帮助用户关注内容本身的质量,而不是其他干扰因素。

二次进化:从“好看”到“在看”

从“好看”到“在看”,由于“在看”内容会一键同步到“看一看”列表,所以在原有基础上引入了社交推荐因素。

这个改进一方面进一步提高了点击在看的门槛,缓解了点赞的通货膨胀,另一方面利用微信的优势实现了社交推荐,使得“在看”功能发挥其独特的价值。

从我认为好看的内容到我认为好看且愿意分享给我的好友的内容,多了一个限制因素。考虑到我的朋友们都会看见我在看什么,因此我会更加慎重的行使“在看”的权力,就好像发朋友圈之前的三思一样。

将内容传播和社交高度绑定的社交推荐增加了用户的点赞成本,某种程度上来说提高了用户点赞的阻力,这也就是为什么“在看”上线初期数据有所下降的原因。

但长远来看,对于微信的内容生态打造是有好处的。用户不会一昧的以自己感兴趣作为唯一的点赞考量因素,还会考虑这个内容是否会影响自己的人设,是否能帮助自己建立人设,分享自己关注的内容和话题,让朋友更好的了解自己,用自己阅读的内容建立自己的profile。作为社交货币,每个人都是希望能够建立一个相对正向的外部形象的,因此,真正创造价值的优质内容是能够在这样的机制下脱颖而出的。

另一方面,通过一键同步到“看一看”列表,也使得该功能进一步完善。对内容价值最高的认可就是愿意分享给我身边的朋友,但是分享到哪儿呢,分享给特定好友还要想想谁比较感兴趣,还得尬聊,操作成本太高。而分享到朋友圈基本都没人看,ROI太低,抑制了用户主动分享的热情。

因此,看一看”就接住了这部分分享的需求,点击在看表示用户愿意分享,微信将用户愿意分享的内容以列表形式集合到好友的看一看中,有人分享有人看,实现功能的闭环。

社交推荐,妙不可言

从获取信息的角度,社交推荐的订阅列表简直不能更加高效。我们每天淹没在几百个公众号推送消息,许多个资讯媒体,朋友圈的各种信息里,但这里面有多少内容是我们真正关注的,或者值得关注的呢?

在微信生态里,作为一个社交工具,我肯定最关心身边人身边事,他们最近都在干什么,都在看什么。通过朋友在看的列表,我可以快速的了解我的朋友们最近都在关注什么话题,最近有啥热点话题,保证了日常沟通的基本谈资以及可以根据朋友在看的文章去了解他最近关注的方向和感兴趣的内容,加深对朋友的了解。以前吃瓜还要微博和微信两头跑,现在基本上都可以通过微信看一看来了解最近朋友们的热议话题了。

通过看朋友推荐的内容了解朋友属于基本需求,此外,“看一看”列表基于社交推荐还给了我两个惊喜,即帮助我发现更多感兴趣的内容,帮助我了解更大的世界。

【发现感兴趣的内容】社交推荐某种程度上类似于大数据推荐算法中的基于用户的协同过滤,基于朋友的点赞和认可,我更有可能在微信公众号生态里面找到我感兴趣的内容。

比如说,由于我最近认识了很多同样是新人产品经理的朋友,大家都是-1岁新人,所以现阶段的情况会差不多,对于产品学习相关的信息需求也类似,因此他们点赞的内容有很大的可能性对我也会有所帮助。事实上通过这样的方式,我确实发现了很多之前未曾接触到的优质内容和宝藏公众号。

【打破信息茧房】虽然刚刚提到了,我们交的朋友大概率是和我们有共同点或者某方面类似的人,大家会关注一样的消息,但社交推荐并不会造成信息茧房,特别是移动互联网时代的社交推荐。

因为我们的好友数早就超出了线下可维系的最大好友数量,这意味着基于微信的不牢靠的网友关系能够使得我们突破地理限制,了解到更多人关注的不同的世界。他可能是某个社群认识的很聊得来的朋友,可能是某个公众号的作者,可能是在某场公开分享认识的大牛,也许我们在线下从未见过面,也没有机会讲过话,但基于微信的好友关系我可以看到他的社交推荐内容,这些内容可能会包含我不太认可的观点,可能包含我完全未接触过的领域。

两位著名的经济学家马特.根茨科和杰西.夏皮罗这两位经济学家就曾经研究发现,相比在线下,你更有可能在线上遇到持相反观点的人。

你不认可或者不喜欢的人大概率不能在线下发展成好友,但是不意味着你们不能成为点赞之交的微信好友。由于你的关系链越来越复杂,基于这些网友关系或者弱社交,我们得以看到这个世界的不同角度。

即使你从不点开他们所推荐的内容,通过看到他们点赞了哪些内容本身也能让你对真实的多元的世界有所了解,避免局限在自己的小世界以为所有人都和自己有着同样的看法。

感兴趣的话偶尔点开看一看,说不定也可以发现新的兴趣。

01 市场分析

1.1 市场现状

据中国互联网络信息中心(CNNIC)2019年10月发布的《2019年中国网民搜索引擎使用情况研究报告》的数据显示:

截至 2019 年 6 月,我国搜索引擎用户规模达 6.95 亿,较 2018 年底增加 1338 万;搜索引擎使用率为 81.3%,较 2018 年底下降 0.9 个百分点。97.1%的搜索引擎用户通过手机使用该服务,而通过台式电脑或笔记本电脑 使用该服务的用户比例仅为 65.0%。

数据说明了现在大多数人都是通过移动的方式使用搜索引擎的,移动搜索的占比较大。

用户在使用搜索引擎时,通过输入文字进行搜索的比例最高,达6%;其次为上传图片进行搜索,使用率为 40.6%;使用语音进行搜索的比例最低,为 26.6%。

表明了用户在搜索时,还是以文字搜索为主,但是随着技术的发展,像图片搜索、语音搜索等新的搜索方式也在逐渐渗透。

60.9%的用户会关注手机端搜索引擎上的信息流服务。也就是说有超过一半的用户在使用搜索引擎时会关注到除了自身搜索的内容外的其他东西,比如根据用户信息推荐的文字、图片、视频等内容。

我国搜索引擎用户规模呈稳定增长态势,但受到外卖类、娱乐类、购物类等手机垂直应用,以及受到微信、今日头条等超级APP站内外搜索分流的影响,用户使用率缓慢下降。

手机搜索引擎的用户规模和总体搜索引擎的用户规模差距并不是很大,因为随着手机的普及,使用移动搜索的用户越来越多,移动搜索的便捷性也在逐渐展现,需要即搜,搜完即走已经成为常态。

1.2 发展历程

2014年,微信 「搜索」 功能首次出现,一开始仅支持查找聊天功能,再后来慢慢支持搜索报告公众号、公众号文章、收藏内容等。

2015年,微信搜索支持搜索朋友圈的内容和附近的餐厅,朋友圈搜索可以指定好友以及发布的时间段,文章搜索可以搜索指定公众号的历史文章。

2017年,微信搜索支持小说、音乐、表情和小程序,增加了 「看一看」, 「搜一搜」 两个功能入口,被看做威胁今日头条的内容分发业务和百度搜索业务的两大功能。

2018年,微信事业群正式成立搜索应用部门,逐步对微信生态上内容和服务进行打造,包含小程序服务、公众号文章的阅读推荐业务等。

2019年,微信搜索正式升级为 「搜一搜」,在最新版微信中,搜一搜的结果可以直达,以及原本 「好物圈」 换为 「圈子」 功能放在了搜一搜的首页,这个功能也是被认为微信布局短内容的一个尝试。

从微信搜索功能的发展历程中,我们可以看到微信可能在布一个很大的局,其真正目的和方向有以下几点:

(1)微信可以借助「搜一搜」这一功能去增加用户的粘性

目前增量市场已经几乎接近饱和,各大互联网产品的增长都在减缓,由此孕育而生的各种精细化运营,只为了在当下存量市场激活自己更多的存量资源。

首先「搜一搜」的推出更有利于满足用户的内容需求,也可以将公众号几年来积累的优质文章内容更好地显现给用户,让用户和微信生态的内容进行对接,使资源最大化,也有助于长尾公众号内容生产者的曝光。

(2)使微信的生态更加完整

微信作为一个国民级的应用,承接着互联网水电煤的作用,现在用户的衣食住行都可以在微信找到相关的应用。

作为微信生态的有机组成部分,微信「搜一搜」的出现,用户不仅可以搜到朋友圈、文章、公众号、小程序、音乐、表情等内容,还可以搜到站外的搜狗百科,知乎文章等优质内容,这样丰富了用户的应用场景,把本来需要在浏览器完成的事情转移到微信里面来。

(3)让微信成长为一个移动端的超级入口

从之前的web互联网,百度通过爬虫技术收集和整理几乎所有站点的内容,再对这些内容分发给用户,到现在的移动互联网,每一个内容领域和服务领域都有相对应的APP,而每一个APP就像是一个个独立的孤岛,信息都被隔离开来,用户每次都需要打开APP去完成自己的需求。

展望未来,微信发展到今天,平台上已经积累了大量的优质内容,近两年小程序的快速发展,加上腾讯体系下投资的京东、美团、滴滴等公司,在微信生态中已经积累了海量的服务,在加上搜索和支付的闭环,微信未来只需要作为一个平台,链接海量的用户和海量的服务与内容。

想象一个场景,一个用户手机内只需要有微信这样一个APP,然后「搜一搜」作为入口,用户想看内容有公众号文章、知乎、外站的搜狗百科等,想要什么服务可以通过搜索直接进入相关的小程序进行使用,真正做到即搜即用,用完即走。

02 功能框架及使用场景

2.1 功能框架

微信的搜一搜产品功能还是保持一如既往的简约,一个显眼的搜索框下面是两行六个可以特定选择的搜索内容,分别是朋友圈、文章、公众号、小程序、音乐、表情,搜索方式可以是文字搜索和语音搜索,暂时不支持图片搜索和扫二维码搜索等方式进行搜索。

然后是 「圈子」功能的入口,这个 「圈子」 功能可以看做是微信布局短内容的一个尝试,现阶段也是放到了「搜一搜」的首页,在「搜一搜」也是可以搜到相关的圈子的。

最下面是基于实时微信热点的信息流推荐,点进去直接搜索相关的话题。

搜索到的内容具体分为新闻、朋友圈、公众号、表情、文章、小程序、视频、百科、微信读书、音乐、问答、商品等,根据搜索的关键词显示出来的顺序不同。除了这个内容外,我发现搜出来的还有搜狗百科、由搜狗提供的站外网页搜索。

当然在微信上「搜一搜」绝对不止一个入口,除了在发现页的「搜一搜」外,在「微信」和「通讯录」、「发现」这三个tab页面下的全局搜索入口输入搜索词后,除了聊天记录、关注的公众号等内容外,下面也会出现「搜一搜」的入口,并且在微信的相关文章页面,比如公众号文章,新闻内容页面等长按一段文字也可以看到「搜一搜」的入口。

2.2 使用场景

下面是我现在可以想到的关于微信「搜一搜」的一些使用场景:

场景一:生活在广州的王小铭是一个旅游深度爱好者,在五一假期的时候想计划一场旅行,因为只有短短三天的假期,暂时还没有计划好去哪里。

所以第一步他打开了微信「搜一搜」输入「广州出发,周边三天游去处」,根据搜索出来的结果直接进入小红书小程序选好旅游目的地湖南株洲;

第二步,小铭在微信「搜一搜」输入「湖南株洲三天游攻略」进入到马蜂窝小程序做好旅游攻略;

第三步,在「搜一搜」输入「株洲酒店民宿预订」进入到Airbnb小程序订好房间;

第四步,在「搜一搜」输入「广州到株洲」进入到携程小程序订好去株洲的车票;

最后一步,在「搜一搜」输入「株洲天气」进入到中国天气网小程序查看株洲的天气,然后准备好行李,等待出发。

场景二:在校大三学生江小红同学本科的专业是统计学,在一个学长的就业分享会上她听到了数据分析这个职位,但又没有其他信息。于是在会后:

第一步,小红打开微信「搜一搜」输入「数据分析」进入搜狗百科先了解一下数据分析这个名词和职位;

第二步,在「搜一搜」输入「数据分析职业方向」进入到一篇好友点「在看」的公众号文章了解这个岗位的职业规划和日常工作流程;

第三步,在「搜一搜」输入「数据分析怎样入门」通过知乎小程序进入知乎的一篇文章,里面是一个在国内某大厂工作了几年的数据分析师详细的入门指导和书单推荐;

第四步,在「搜一搜」输入「数据分析招聘」,进入招聘小程序可以看到相关的招聘岗位JD和对应工资;

最后一步,在「搜一搜」输入推荐的书单进入当当网小程序完成图书的购买。

场景三:普通白领李小白工作日早上起床发现自己身体有点不舒服,用家里的体温计量了一下才发现自己发烧了,因为之前发烧都是直接去医院,但是因为今天是工作日,小白打算在家里先找点药吃,接着去上班,但是不知道该吃什么药。

于是打开微信「搜一搜」输入「发烧」,进入腾讯医典小程序,里面有相关医院权威认证的医生对发烧的介绍以及该吃什么药,小白按照上面吃了一点退烧药就去上班了。

到了中午小白发现烧还没有退,打算下午请假去医院,于是在「搜一搜」输入「医院」会显示出当下附近医院的小程序,并且提供挂号,门诊缴费的服务,这样下午小白就可以直接去医院看病了。

以上这些都是「搜索即服务」的应用场景,现在的微信「搜一搜」基本都可以做到了。

但是我认为微信目前能做到的还远远不止这些,因为搜索的本质在于快速高效地帮助用户解决问题,这就要求搜索引擎搜出来的内容要足够的精准,个性化,与搜索的用户强相关,而要做到这些需要有足够的数据作为支撑。

也就是说搜索的本质在于数据,当然还要涉及到算法和计算能力,但这两样东西随着技术的进步都可以做到足够用,最起码对于腾讯这样的公司是没有问题的,而且很多公司都可以做到,那对于微信的优势是什么呢,关键还在于数据的积累。

先单说微信这个平台,几年下来积累了3000万公众号背后无数的优质文章,这方面可以作为高质量的内容储备,另一方面,微信背靠腾讯拥有互联网用户大量的数据,包括游戏、视频、音乐、支付等多维度的数据,最重要的一点是微信拥有全网最多的用户关系链以及社交应用场景数据。

而搜索引擎算法背后就是依靠海量的数据去建立个性化的用户特征画像,理论上数据量越多,机器学习算法的模型就会越准确。

所以我才认为微信「搜一搜」除了可以做到把海量的用户、海量的优质内容、海量的服务连接起来外,还可以有其他可以拓展的场景,可以提供基于当下位置,更加个性化的线下应用场景。

比如一个旅游场景,具体目的地,推荐当地特色的服务和旅游路线。

早上搜索上班就会自动规划从家到公司的路线,因为搜索引擎足够的了解你,也知道你是谁。

通过二维码扫描线下场景服务可以连接到另外一个场景,扫描实体物品可以直接跳转购物等等。

03 竞品分析

微信「搜一搜」从搜索方面看的竞品有很多,搜索引擎有谷歌搜索、百度搜索、搜狗搜索、神马搜索、必应搜索等,还有各大超级APP的站内外搜索,比如微信、今日头条、微博等。

据中国互联网络信息中心(CNNIC)2019年10月发布的《2019年中国网民搜索引擎使用情况研究报告》的数据显示:

2019 年国内搜索引擎品牌渗透率前三名依然为百度搜索、搜狗搜索和 360 搜索。百度搜索在搜索引擎用户中的渗透率达到 90.9%;其次为搜狗搜索,渗透率为 53.5%; 360 搜索排名第三,渗透率为 46.1%。此外,神马搜索在整体搜索引擎用户中的渗透率已达 31.1% 。

另外,微信自 2017 年 5 月发布「搜一搜」功能以来,其对于产品和服务的连接能力日渐增强,目前已经成为用户在手机端搜索信息的重要工具。已有 43.0%的搜索引擎用户在微信上搜索过商品或服务。

2019年8月份,今日头条母公司字节跳动正式推出搜索网页版,现在的 slogan 是「搜你想看」,头条布局搜索已经很久了,这次推出搜索本质上应该是要对标百度的搜索业务。

这里我主要选取现在用户占比最高的百度搜索、发展风头正劲的头条搜索作为微信搜一搜的竞品,并从「战略层」和「范围层」对这三个产品进行分析。

3.1 战略层

微信「搜一搜」这个功能产品作为微信生态内不可或缺的一部分,我认为是一个海量内容、海量服务的「入口」作用,可以作为连接微信上月活的11亿用户和3000万公众号沉淀下来的海量优质内容、提供大量服务的小程序的一个轴,用户通过搜索可以直接触达公众号里面的文章,小程序里面的服务。

微信一方面想借助「搜一搜」这一个功能让自己的生态更加完整,为以后成为移动端的一个超级入口打下结实的基础。

另外一方面,在增量市场用户增长已经逐渐放缓的情况下,借助搜一搜增加自己现有用户的粘性,激活自己的存量市场,以减少被今日头条、抖音等APP抢占的用户时间。

对于百度来说,搜索就等于自己的命脉,百度大部分的收入都是通过搜索引擎的广告收入获得的,搜索引擎发展经历了PC端和移动端,毫无疑问百度是PC端搜索的霸主,长期占据中文搜索的份额90%以上,那时候的百度搜索就等于流量。

但是随着移动互联网时代的到来,有大量垂直领域的APP抢占了搜索引擎的市场,用户在手机里都装有几十个APP,想要什么服务就打开对应的APP。在加上之前的百家号时间引发的一篇篇「搜索引擎百度已死」刷遍网络,有一段时间骂百度成了一种正确的事。

百度自己也意识到了在移动端的不足,于是在开始加强在移动端的布局,2018年推出的百度智能小程序将百度旗下的各种产品的流量进行连接,2019年投资知乎这个中文领域最优质的内容社区来补足自己在优质内容的不足。

百度一直以来缺的不是流量,而是优质的内容,有了知乎这个优质内容社区作为补充后,相信百度会慢慢崛起。

现在发展正猛的头条母公司字节跳动近两年来一直在挑战BAT,之前推出的电商和社交领域的多闪APP都接连败给了阿里和腾讯,2019年头条正式推出了头条搜索,这次瞄上了百度搜索的蛋糕。

那么头条为什么要做搜索呢?

原因可能是现阶段的头条的流量增长可能已经见顶了,过去的今日头条、抖音、火山小视频等产品的用户增长已经逐渐放缓了。

2019年7月份,今日头条创始人张一鸣在一会议上提出,字节跳动的主产品今日头条正在艰难度过1.8亿DAU的增长瓶颈期,如果没有搜索场景的拓展和优质内容,今日头条的增长空间可能只剩4000万DAU。

所以头条推出的头条搜索功能本质的希望通过搜索连接旗下内容产品,包括今日头条、抖音小视频、互动百科、悟空问答等,建立起自己的内容矩阵,扩充自己的用户场景,从而激活自己的存量市场。

3.2 范围层

虽然这三款产品功能本质上都是搜索,但是在「用户使用场景」上还是有差别的。

3.2.1 微信搜一搜

在搜索服务方面,微信「搜一搜」相比百度搜索和头条搜索,在PC时代,百度通过搜索连接了其他的所有网站,现在的移动时代,微信生态体系内已经建立了较为完善的生活服务体系,用户可以通过微信「搜一搜」连接实体世界的各项服务,外卖订餐、打车、购物、租房、音乐地图、旅游攻略等,真正可以把这些功能一步到位的呈现到用户面前,用户需要什么搜索什么,即搜即用,用完即走。

在内容方面,虽然百度搜索可能内容的全面性会更高,但微信「搜一搜」的内容会更加优质,搜一搜的背后的海量的微信公众号文章,要知道这些原创文章背后都是有作者进行第一层的把控发出的,还有外部的信息源,比如知乎内容社区等。

最重要的是在医疗健康领域,也在百度最让人诟病的领域,而现在「搜一搜」是怎么做的呢,通过引入腾讯医典、丁香医生等医疗服务小程序,对于医学问答,都会标出这些医生的相关医学资质,另外提供医院的挂号和缴费服务,等于还是要把用户往线下的医院去引导,本质上也只是起到一个服务连接的作用而已。

在社交关系和用户场景方面,这也是最重要的一点,微信拥有百度、头条无法比拟的社交关系和用户场景,说明用户使用微信的时间是最长的,而且会频繁使用,无论是在工作还是生活,小到便利店买一瓶水,大到微信支付还学费、各种贷款、朋友转账等。

其次是内容生态结合社交场景,微信生态上的朋友圈、订阅号、私聊、群聊、看一看等,让搜索出来的内容更容易传播。

同时可以给出朋友发布的、赞同的、转发的内容、使用过的产品或者服务。

根据用户的使用习惯、社交关系以及留下的各种喜好的痕迹,可以对用户有一个画像,根据画像推送最合适的信息。

而且基于社交场景下的内容分发会更加有效,因为会有朋友这层关系作为背书,例如可以通过「看一看」功能看到某一文章朋友圈的朋友的评价和态度,可以通过身边的朋友高效地获取信息。

3.2.2 百度搜索

百度搜索的优势在于搜索信息的全面性,搜索内容包括百度问答、百度地图、智能小程序小程序等16大类,还有一些围绕搜索的社区服务,比如百度贴吧等。

此外,百度在搜索领域深耕了20年,无论是在技术方面,还是在搜索引擎上对用户的了解方面都会更有优势,而且虽然移动互联网时代由于各个APP的出现造成信息的孤岛现象,但是百度已经通过建立百家号的方式把旗下的内容产品进行整合,优质内容方面,通过投资知乎引入这个优质的中文内容社区,再加上百度本身的流量,相信百度搜索也会慢慢变好。

3.2.3 头条搜索

在这三者里面,头条搜索是最不看好的,对比百度,头条搜索提供的内容也不够全面,只有视频、资讯、小视频、图片、音乐、用户和微头条这7大类。

对比微信,头条又没有相关的小程序服务提供,虽然内容方面有头条号和抖音等社区,但相对于优质内容来说还是远远不够的。

头条搜索最多的作用只能是连接字节跳动旗下的所有内容产品,形成一个大的站内搜索,由每一个内容产品扩充的用户搜索场景进行产品之间的相互引流,激活自身存在的存量市场。

04 结语

近一年我们集中优化了搜一搜下多个场景的低俗色情任务的效果,在query(包括suggestion、hint及意图识别)、网页、文章等多个搜索场景取得了较好的效果,整体F1值在0.8以上。在做业务的时候,我们尽量分析业务自身的特点,借助各种可用的知识以及适用业务特点的模型来快速提升效果。在如何完善问题发现机制、与黑产模式对抗、使模型更具可迁移性、效果评估更置信等问题上我们还在不断地尝试发掘出一些新的思路,感兴趣的同学欢迎一起探讨,感谢大家捧场。

 

文章由PM28网编辑,作者:海阁,如若转载,请注明出处:http://www.pm28.com/4293.html欢迎投稿

联系我们

在线咨询:点击这里给我发消息

邮件:403567334@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息