网络直播遭严查 成人图片是如何被机器识别的?
近日,文化部将19家不合规定的直播平台列入查处名单。
作为新型的社交互动平台,网络直播与传统的视频网站不同,当用户上传内容后,传统的视频网站会进行审核,符合标准后才可上传成功,而网络直播都是实时播出的,如果有人在网上传播不良信息或者发布违规内容,即使被查处,也是播出之后的事情。
虽然,大多数直播企业会选择人工审核的方式对直播内容进行实时监管,但是在过去的一年多里,“直播造人门”、“直播脱衣门”等事件仍然频繁发生。某直播平台负责人曾表示,视频直播从技术不需要“上传”这个步骤,当手机按下摄影功能键,云端会同步抓取、同步存储、同步传递,“延迟不会超过2秒”。在这个过程中,平台面临的困惑是“无法掌控直播下一秒会发生什么”,所以只能依靠人力进行24小时轮班审核,但是人工审核存在的问题较多,直播内容监管风险依旧存在。
直播内容监管存在哪些风险?
第一:网络直播规模庞大,人工审核成本高
2015年直播平台接近200家,用户数量已经达到2亿,大型直播平台每日高峰时间会有3000-4000千个直播“房间”同时在线,用户数可达两三百万人次,如果全部用人工对4000路视频同时进行审核,为了保证“无漏网之鱼”,至少需要上百人同时工作,并且每位工作人员需要配备1-2台监控设备。其实直播视频内容的违规比例占比不高,仅0.04%,甚至更低,但为了做到“无漏网之鱼”,企业需要投入大量的人力、物力和财力进行监管,运营成本压力增加。
第二:直播流量聚焦夜晚,人工审核效率低
网络直播白天跟晚上的“房间数”不同,目前,白天直播流量峰值是数百路视频,晚上可以飙升到数千路。但“三班倒”的审核人员,夜晚疲劳,人眼识别精确度降低,出现误判漏判的概率上涨,审核效率降低,难以达到网络直播的内容监管需求。
因此,网络直播行业的内容监管不能只依赖人工,可以采用机器识别结合人工审核的新型审核模式。
目前,据我所知的,国内能够为网络直播企业的违规内容过滤提供这种模式的主要有图普科技的“智能审核机器人”,阿里的“阿里绿网”、腾讯的“万象优图”等。
机器识别的工作原理
机器识别原理的图像识别技术是如何像人脑一样认识、学习图像特征的呢?其核心是深度学习理论(Deep Learning)。深度学习就是人工神经网络(Artificial Neural Network,以下简称 ANN)。要了解 ANN,让我们先来看看人类的大脑是如何工作的。:
(人脑的视觉处理系统 via:Simon Thorpe)
上图所表达的,就是人理解外界视觉信息的过程。
从视网膜(Retina)出发,经过低级的 V1 区提取边 缘特征,到V2 区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的 PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合, 从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。
深度学习,恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别)。然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。此外,不仅图像存在这个规律,声音也是类似的。
现在来看深度学习的简易模型。
传统的神经网络与深度神经网络
深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU 的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可以用于工业化。
对于开发团队来说,做该领域的产品困难在于如何获取大规模已标注数据、集成有 GPU 的 计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。
审核直播,机器能做什么?
利用深度学习算法设计的智能程序能通过快速迭代拥有强大的学习能力,并与视频直播、社交网络、云计算等领域企业合作,积累大量图片和视频数据,克服智能程序设计中的大数据壁垒,得到高精度的智能识别结果。