国家语言资源监测与研究中心的网络媒体监测分中心从2005年开始对网络新闻、网络论坛、网络文学,以及博客、微博、微信等新媒体进行动态监测,并建有网络媒体监测语料库。其中,博客语料来源于新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中国博客()、博客网(bokee.com)、和讯博客(blog.hexun.com)、博客大巴()等境内著名博客网站。本文选取其中的博客语料,主要基于两个方面的因素:首先,文章作者元信息的提取原因。博客、微博、论坛的作者在社交平台上注册时会提供包括性别在内的作者身份信息,因此可以在语料爬取过程中对作者身份信息进行元数据标注,进而便于提取出有性别信息的作者。其次,文本分类的技术原因。微博和微信都比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,分类效果较好。因此,博客文本比微博、微信等其他新媒体语料更能有效地进行话题分类研究。
两性博客语料的筛选步骤如下:第一步,甄别身份信息真实的作者,以筛选出有效的两性博客文本。博客文本在抓取的过程中对作者身份等元数据信息进行了采集和标注,根据元数据信息筛选出标注了性别的作者及其博文。由于少数作者虽然在博客平台登记了性别等身份信息,但信息并不一定真实,如果这些不确定的文本被用于统计分析,将会影响统计结果的可靠性与可信度,因此必须抽取作者身份相对真实的博文用于统计分析。为筛选身份可信度高的文本,本文依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别,筛选出博客等级和积分较高,访问量和关注量较大,同时为加V认证的作者。这类作者的博客活跃度较高,作者身份信息较为真实可信。第二步,将筛选出的作者所有博客建立语料库,编写小型程序随机抽取了博客文本共计1 008 755篇,其中男性500 889篇,女性507 866篇①。第三步,将筛选出来的语料建设成两性博客语料库,用于下一步的文本分类处理。
(二)文本分类步骤与统计结果
本文针对博客文本所特有的话题类别,进行了计算机文本分类处理,具体步骤如下:第一步,对所有博客文本进行繁简转化,剔除表情符号、图片等非文字符号。第二步,采用中科院自动化所的自动分词工具对文本进行自动分词和词性标注。第三步,用正则表达式和停用词表过滤已分好词的博客。第四步,参考新浪博客、中国博客网(博尚网)、网易博客、赵蓉晖(2003)[10]的主题类别,同时在文本抽样的基础上,确定了博客文本分类的27个话题类别。第五步,从语料库中人工筛选出用于机器学习的训练语料和测试语料。在这一过程中,人工筛选和机器学习两个方法交替进行,最后一共收集了26个话题(不包括杂谈)的文本训练语料各约500篇,测试语料各约500篇,将52组话题的约26 000篇文本用于机器学习,统计得到26个话题类别的词频表。第六步,对26个话题的词频表进行组间差异比较,筛选出各话题的高频独用词,以及词频、频序组间差异较大的词。由于这类词与话题内容关系较为密切,因此利用专家的领域知识,通过人工干预加强这类词汇的权重。第七步,按照朴素贝叶斯算法判断每篇博客的后验概率,取后验概率最大的类别作为分类结果。第八步,检验文本识别的效度,并调整识别方法,优化统计结果。下页表1为文本分类后各话题的文本数量及其差值。
版权声明:除注明外均收集于互联网,如有侵权请及时联系我们处理!
经过认证的语音压力分析师迈克尔-西尔维斯特(Michael Sylvestre)用测谎仪仔细测试了两人在纪...
一想到出差、旅行住酒店宾馆时,你的一举一动可能全部被偷拍成了视频,是不是感觉倒吸一...
韩国最大色情网站曝光 涉嫌非法组织...
进球网法国站报道,意大利著名成人影星罗科-西弗雷迪日前公开力挺C罗,他相信深陷强奸丑闻...
长泽雅美酒醉后自曝性癖 喜欢背后体位 长泽雅美...
80岁老奶奶专爱...
后者的印花和版型则越发当代,也多了一些成熟性感的味道: 这条貌美适用又好穿的茶歇裙或...