对于“内容反垃圾有哪些形式?反垃圾如何实现?”的问题,可以参考我厂鲁珈璐老师的博文《十年•杭研程序猿 | 反垃圾运营的匠心之路 》,以下为博文中部分内容:
一、浅谈反垃圾实现
有人会把反垃圾比喻成博弈的战场,我认同。反垃圾是一场团队战,跟灰黑产是一场成本的较量,在这场博弈中,胜利的关键依赖于高质量团队持久的协作。
反垃圾在实现方法上,其核心思想是在载体中提取数据后进行特征匹配得出分类结果的过程。例如文本反垃圾,图片反垃圾,视频反垃圾等等,文本、图片、视频都是载体。以图片为例,当人眼看到图像映射到大脑成像后获取到的信息,就完成了一次数据提取与特征匹配。同样的,反垃圾利用相同的原理提取有害信息的特征后进行机器学习,进而达到主动识别的效果。总结来说,反垃圾的技术实现在于数据提取与特征匹配。而反垃圾运营的核心就是特征的挖掘,最终实现风险与成本的平衡。
二、反垃圾运营过程中的困难与挑战
我们遇到很多产品,在发展初期,用户自发产生的内容不多,每一条数据都弥足珍贵,因此几乎不会考虑到反垃圾需求。随着产品规模的扩大,吸引了灰黑产的注意,伴随着各类垃圾信息随之而来。第一类风险主要来自于监管部门,主包括涉政、涉黄、涉暴的违法信息,近几年国家监管部门对网络信息的监控达到空前的高度,每年面临关停、整顿等处罚的企业数量一路攀升。与此同时,各行业面临的另一个挑战是广告牛皮癣问题。从某种意义上,一个产品的流量越高,越是灰黑产眼中的香饽饽。
当一个产品遇到垃圾信息困扰时,常规采用的方法是文本添加关键词,进而人工审核,对于图像的检测基本就是纯人工了。以关键词为例,产品通常会遇到两难的选择:一、设置致命词(命中就删除)简单粗暴,背后牺牲的是用户体验。二、设置嫌疑词(命中后人工审核),将会带来风险与成本。人工审核时效性上不如机器,同时随着产品体量的增加,审核人力将持续投入。举个简单的例子,“口交”是出现在淫秽刊物中的常用词,常规的做法是把该词自动屏蔽或进入待审,但对于机器检测会存在“断章取义”的情况,导致当这类词汇出现在正常语境时就会产生匹配错误,例如“接口交接”、“24口交换机”。
有问题,自然就有ag凯发旗舰厅的解决方案,这是反垃圾运营必须掌握的技能。而风险和成本是运营的工作核心。应对风险方面,在于对风险的深刻剖析与理解,做到举一反三,事先布控。例如,对于违法信息,运营需要有超高的敏锐度与尺度的把握。需要对法律法规有基本的了解,能将法律法规细化到可执行的客观标准。什么能发,什么不能发,能发到什么程度心中要有一杆尺。这里面度的把握关乎着风险与产品流量的平衡,这里就不再一一展开。同样,在广告问题上,运营遇到的挑战是样本的变种,以下截取冰山一角:
○ 同音词:即相同拼音的不同汉字。最典型的例子就是兼职与蒹职。
○ 象形词:字型相象的汉字组成。例如:兼(jian)职与慊(qian)职,字型相像,读音不同,同音词的ag凯发旗舰厅的解决方案也无法适用。
○ 拆字:利用汉字偏旁与部首的关系,拆开绕过。例如:兼耳只
○ 干扰词:绕过一般的模糊匹配,在关键词中间添加干扰字符。例如:兼*——职
三、浅谈反垃圾运营布控sop
反垃圾做的好与坏就在于做的有多深有多广。最直接的体现就是变种样本需要尝试多少次才能绕过,而背后支撑的是对新型样本的最大化防控。举个简单的例子,发现裸聊,常规做法把裸聊致命。而反垃圾运营要做的是由一个裸聊尽可能的全方位覆盖变种。
当然,道高一尺魔高一丈,面对新型样本需要的是一整套的运营布控sop。简单的说,术业有专攻,专业的人做专业的事。首先,由法律专业出身的情报运营和审核运营进行第一道把关,将新型样本通过境外网站爬取的方式或日常审核中发现的新样本收录进来,进行风险尺度的把控,称为第一道工序:样本发现。筛选后的新型样本会分流到特征运营,由中文专业背景出身的特征运营完成变种素材的整理,尽可能的最大化覆盖,称为第二道工序:特征素材归整;整理后的每一个特征素材会分流到策略运营,由计算机专业背景出身的策略运营转换成计算机语言添加流入策略库,自动化处理。以上三道流程就形成了反垃圾运营风险保障的sop。总而言之,反垃圾运营需要有不断发现问题、推动问题、解决问题的能力。
反垃圾工作任重而道远,需要每一个反垃圾技术工作者保持敬畏之心,追求精益求精。我相信,专业铸就品牌,匠人之心定会成就使命。
不过,随着垃圾信息越来越多样化,加上躲避拦截的方式不断升级,使得专业化的第三方智能反垃圾云服务开始成为互联网企业的新选择。比如拥有十余年专业反垃圾技术经验的网易公司,目前,其推出的智能反垃圾云服务“网易易盾”再次更新升级了在线体验功能:进一步加强文本检测、图片检测、视频检测、语音检测等各类网络形态的反垃圾服务。
更多内容反垃圾可以通过以下文章了解: