分类信息网站防范垃圾信息的方法有哪些
2022-07-20 03:41:48 admin 【 字体:大 中 小 】
一、通过提取联系信息的联系方式,建立联系方式黑名单
垃圾信息制造者无论IP如何变化,内容如何变化,联系方式是不变的。我们可以基于这点建立联系方式黑名单数据库。目前,中国最常用的通信方式是电话号码、QQ号码、网址、电子邮件地址等。这些都具有一定特征,容易通过正则表达式提取。
那么如何构建黑名单呢?如果一个信息被用户恶评了五次,那么该信息就被自动标记为恶评状态并隐藏。当一条信息被放在恶评中时,该恶评信息中的所有联系信息都被存储在黑名单数据库中,并且出现频率字段加1。这样,我们就有了联系信息的黑名单数据库。这个数据库有联系信息出现的频率和最新出现时间。除了用户投诉需要人工辨别之外,所有这些操作都是由机器自动进行的。
二、识别并删除异地商家信息
分类信息网站的特点之一是地方性,本地用户来到分类信息网站查看本地出租、朋友、服务等信息。因此,如果信息中有异地电话号码,则应将其看作垃圾信息处理。这可以通过手机归属地数据库和电话区号数据库来判断,但不是所有的类别都采用这种方法,比如交友、寻人等都不应该使用这种方法。但是,像二手车类别和服务类别完全可以用来这种方法过滤异地信息。
三、限制某些类别在同一天一个用户只能发布一条消息
重复的信息太多,对用户体验不好。这里重复信息的定义是指相同的用户或企业(包括企业雇佣的信息发布者)发布相同或相似的信息。这些类别包括生活服务、商务服务、培训、交友、车辆等。
四、关键字过滤
wWW。123456.Cn最后,不要忘记关键字过滤。一些有害和敏感的关键字必须被过滤掉。
wWW。123456.Cn以上这些方法是能够被分类信息网站采用的简单有效的反垃圾邮件信息的方法,如果能够用贝叶斯算法对垃圾邮件进行过滤,将是更完美的。
猜你喜欢
分享SEO技术人员的个人经验
网站中存在“极短内容”该如何做站内布局?
为什么百度会给页面添加核心关键词排名?
如何识别网站空间是否稳定?
单页网站组合排名,是用目录还是.html排名好?
文章排版与否是否影响SEO排名,该怎么做?
设计师如何在网页设计中使用多边形
SEO项目,如何让用户慷慨解囊?
SEO需要多元化丰富内容素材吗?
百度算法自动恢复与人工恢复周期是多久?
在网站建设优化中哪些seo细节容易被忽视导致排名停滞不前?
为什么说SEO方法与技术应该相辅相成?
为什么香港主机,收录长期是一个页面?
防火墙阻止外链访问,对于网站排名有什么影响?
为什么SEO如同逆水行舟,不进则退?
怎么样把一个好的东西快速推广给他人?
百度快照时间倒退的原因有哪些?
自己不知道的一个问题,到底该不该问别人,还是自己搜索?
网页大量存在不相关404页面,对SEO有影响吗?
百家号怎么突然不推荐?