Board logo

标题: TW广告过滤的问题,TW正则和一般正则都有哪些不同? [打印本页]

作者: 死鱼高达    时间: 2007-6-25 05:36     标题: TW广告过滤的问题,TW正则和一般正则都有哪些不同?

研究TW的广告过滤就是搞不定,比方说我就想过滤与  /image.pconline.  匹配的广告,请问该怎么写?
在MT下写成:
*/image.pconline.*
就可以了,非常简单

在TW下,我写成:
*/image.pconline.*
/image.pconline.
/image\.pconline\.
\w*/image\.pconline\.\w*

都不行,还有在MT下写最简单的规则:
*/ad/*
同样用各种方式写在TW下也不管用

听说TW广告过滤规则要前后都加一个  /  ,我加了也不行,我研究了正则表达式规则,但TW似乎和一般的正则还不太一样,以前我记得看见过一个TW过滤规则的解说帖子现在也找不着了,知道地址的麻烦给个链接行吗,毕竟TW论坛提供的规则不见得全适用想自己学会写过滤规则
作者: 神游    时间: 2007-6-25 06:51

这功能对于普通用户来说太复杂了,反正我是不会用所以黑名单没开过

希望开发组能完善这方面的功能,将这个过滤做得简约一些
作者: duckZCX    时间: 2007-6-25 07:48

这里我可以说明2点
1,回楼上的,黑名单的改进一直没停止过,请稍安
2,回楼主

目前TW的过滤分为2种,兼容1.X的通配符方式,即ad*   和目前2.0才开始使用的页面规则方式,  用法为  在规则前加入#exd#  表示此规则只对其后声明的网站有效 和加入#ex#  表示所有页面均起效果。  

另外,如果需要使用正则表达式带代替通配符 ,只需要在表达式两边加入/即可。

实际上TW的页面规则恰恰是最直接了当的。原理就在于,TW匹配所在网页的HTML源码,如果匹配则过滤掉,相应的HTML源码里面的一些源码被去掉了,所以可以实现对版面的修改。
对于页面过滤板块儿的说明,会陆续进行的,这里就不进行详细叙述了,请楼主稍安。

PS:楼主在TW下写的规则都是有效的,不过需要CTRL+F5强制刷新,您可以试试
作者: 死鱼高达    时间: 2007-7-2 21:13

通配符的过滤方式肯定有问题,就比方说 http://www.pconline.com.cn/ 网站右边的4幅广告图片在其他如maxthon、gb等浏览器就可以用 */image.pconline.* 规则过滤掉,按版主的说法TW也可以滤掉,但实际上不能,不信的可以去试试就知道了。

再比方说 http://www.skycn.com/index.html 网站,用 *.skycn.*/tuijianimg/* 规则在TW下就完全不起作用,而在mathon下就过滤的干干净净,不信的去试试就知道了。

还有如用 */pagead?.* 规则过滤google的广告也不行,不知道TW支不支持?的单字符匹配?不过就算写成 */pagead2.* 也不行,甚至写成 */pagead* 都不行。

我还遇到过其他规则不起作用的时候,比如最简单的规则 */ad/* 不起作用。

下面是我的过滤规则,是直接从mathon下拷贝的,mathon下一点问题都没有。

*.12530.*/hezuo/*
*.131377.*
*.51.*/xilu/*
*.51ads.*
*.6park.*/images/*
*.6park.*/img/*
*.7clink.*
*.7town.*
*.ad?.*
*.ads?.*
*.ads99.*
*.adver*
*.all4ad.*
*.allyes.*
*.bluehost.*
*.chinabbs.*/banner/*
*.chinabbs.*/gdpic/*
*.chinabbs.*/line/*
*.chinabbs.*/loveline/*
*.chinabbs.*/out/*
*.chinabbs.*/unionbbs/*
*.chinabbs.*/unionline/*
*.chinabbs.*/womenline/*
*.chinabyte.*.swf
*.chinanews.*/fileftp/*.gif
*.chinanews.*/fileftp/*.swf
*.chinesemedianet.*/banner/*
*.clickeye.*
*.codeproject.*/ann/*
*.crsky.*/ggao/*
*.daqi.*/gdpic/*
*.daqi.*/out/*
*.daqi.*/searchbar*
*.dealsaving.*
*.doubleclick.*
*.enet.*/banners/*
*.heima8.*
*.iask.sina.*
*.keyrun.*
*.my5757.*
*.myad.*
*.narrowad.*
*.p4p.*
*.pcpop.*/js/*
*.people.*/zixun/*
*.qihoo.*/friend/*
*.sina.*/dy/sina_net/*
*.sina.*/iframe/*/ebay*.html
*.sina.*/iframe/*/sina_*.html
*.skycn.*/tuijianimg/*
*.sohu.*/chat_online/*
*.sohu.*/cs/*
*.sohu.*/promotion/*
*.sohu.*/richang/*
*.sonicchat.*.swf
*.tom.*/yigao/*
*.union.*
*.union???.*
*.verycd.*/banner/*
*.verycd.*/customer/*
*.xilu.*/js/*
*.xilu.*/mrjx?/*
*.xilu.*/tuijian/*
*.xinhuanet.*/2006xxfb/*
*.yeeyoo.*/yypic/*
*.yesky.*.swf
*.yesky.*/show/*
*.yimg.*/a/*
*/?smsad.*
*/33.pcpop.*
*/ad-*
*/ad.*
*/ad/*
*/ad?.*
*/ad?/*
*/ad???x??.*
*/ad?_*
*/ad?click.*
*/ad?file.*
*/ad?line/*
*/ad?pic/*
*/ad?show*
*/ad?site/*
*/ad?view?.*
*/ad_*
*/ad0?.*
*/ad1?.*
*/adbrite.*
*/adbs/*
*/adclick.*
*/adclient.*
*/adcode/*
*/addir/*
*/adds/*
*/adfile/*
*/adframe.*
*/adimage.*
*/adimages/*
*/adimg.*
*/adimg/*
*/adimg?.*
*/adinfo.*
*/adinfo/*
*/adjs/*
*/adlog.*
*/adlog/*
*/admore.*
*/adpic/*
*/adpics/*
*/ads?.*
*/adsence.*
*/adserver.*
*/adserver/*
*/adshow.*
*/aduni/*
*/adunion.*
*/adunion/*
*/adunion?.*
*/adver*
*/adview.*
*/banners.chinesenewsnet.*
*/bid.zhongsou.*
*/btn.pchome.*
*/c.tom.*
*/classad/*
*/cpc.*
*/cpc/*
*/cpro.baidu.*
*/d?.sina.*
*/ebayad/*
*/eiv.baidu.*
*/flashad?.*
*/ganggao/*
*/gg.*
*/gg/*
*/ggao/*
*/ggimg/*
*/ggjs/*
*/gimg.baidu.*
*/globalad/*
*/guangao/*
*/guangg/*
*/guanggao?/*
*/guanggao200?/*
*/image.pconline.*
*/imagead/*
*/images.163.*
*/images.17173.*/if/*
*/imguv.21cn.*
*/jsad?/*
*/lbad/*
*/links.news.sohu.*
*/lmad.*
*/ltad/*
*/mad?.*
*/mms/*
*/mms?/*
*/myadfile/*
*/mygg/*
*/mysms.*
*/newhuagg/*
*/news2.163.*
*/newweb.zcom.*
*/pagead?.*
*/pfp.sina.*
*/pic.zol.com.cn*/200*
*/rm.sina.*
*/scalink.sohu.*
*/sgad/*
*/showad*
*/sms.*
*/sms/*
*/smspop.*
*/spcode.baidu.*
*/taobao.*
*/textad/*
*/topad/*
*/tp.xilu.*
*/ulinkjs.tom.*
*/un.265.*
*/unicom/*
*/union.*
*/union/*
*/union?.*
*/union??.*
*/union???.*
*/unstat.baidu.*
*/urich.uitv.*
*/userfile/*banner*
*/videoad.*
*/vivi_iask.*
*/xfrd_0?.gif
*_ad.*
*_ad/*
*_ad_*
*33av.*
*adtology2.com*
*guanggao.*
*guanggao/*
*.sandai.*
*/p4pstatic.*
作者: elkay    时间: 2007-7-2 21:24

tw2中使用传统的通配符方式过滤需要完全按照页面源代码中的路径,这点跟tw1.x和mt有所不同

例如:
TheWorld 论坛的左上角的logo,1.x或者其他浏览器中可以写成
  1. http://bbs.ioage.com/images/default/logo.gif
复制代码

2.x中必须写成跟页面源码里一样的路径才会有效,如下:
  1. images/default/logo.gif
复制代码

作者: weiguo    时间: 2007-7-2 22:20

原帖由 elkay 于 2007-7-2 21:24 发表 http://bbs.ioage.com/cn/images/common/back.gif
tw2中使用传统的通配符方式过滤需要完全按照页面源代码中的路径,这点跟tw1.x和mt有所不同

例如:
TheWorld 论坛的左上角的logo,1.x或者其他浏览器中可以写成
http://bbs.ioage.com/images/default/lo ...


啊,我说以前隐约怎么有些用图片的属性的地址,去过滤却无效呢,原来如此
作者: 死鱼高达    时间: 2007-7-2 22:30

但那样的话通配符不就没有意义了吗,比方说我想过滤 http://www.pconline.com.cn/ 网站右边的4幅广告图片,用 */image.pconline.* 规则不就是全路径吗?如果不是全路径又或其他什么原因,请版主能不能写一个能过滤的例子,就类似于 */image.pconline.* 这样,把那4幅广告图片滤掉,全路径也好别的什么原因也好,全加全,版主能写个能工作的例子吗。

还有,如果必须写全路径,也就是中间不能有*号和?号是吧,那像 http://www.skycn.com/index.html 网站这样的,用 *.skycn.*/tuijianimg/* 这种规则就不行是吧,那通配符岂不就是意义不大了,每个网站的广告都存在不同的目录下,如果中间不能用通配符必须写全路径,那就太难用了。
作者: needed    时间: 2007-7-2 23:29

tw2.0支持正则匹配 html 源文件里的内容
同时兼容 tw1.×的规则
?( 代表单个任意字符)
*(代表0个或者多个任意字符)

例如.我想过滤 论坛的logo ,看到地址是http://bbs.ioage.com/cn/images/default/logo.gif

按照tw1.x的规则..可以写成
  1. *logo.*
复制代码
个人更倾向于tw2.0的 基于页面的 过滤方法.即 http://bbs.ioage.com/cn/viewthread.php?tid=26322

#exd# 把规则限定于某一域名 比tw1.x 的方法要好.
作者: weiguo    时间: 2007-7-3 09:05

你没看懂e版的回答,
你用mt去寻找要过滤的关键词,都是直接看图片属性,然后选取
这种方法在tw2不是一定能成功的,原因就是:
          是不是在源码中引用的也是这个”完整的“属性地址

楼主如果你不用#exd#的页面过滤,
那 通配符* ?是有效的,

你可以看论坛左上的logo,用*logo.gif就完全可以

关于你的问题倒是让我有了一点不能确认的地方,晚上问问斑竹来求证一下把
作者: elkay    时间: 2007-7-3 14:08

就拿pconline来说,按照页面源代码里的地址可以写成

  1. http://image.pconline.com.cn*
复制代码


你试试
作者: 死鱼高达    时间: 2007-7-3 15:16

也不知道楼上的版主试了没有,给之前请先自己试试行吗,楼上 http://image.pconline.com.cn* 这个规则根本不管用,我还怕自己的其他规则干扰特意把所有的都清空然后试的,我前面说的可都是试过了的,我说不行都是试过了不行,我之所以请版主给出能工作的例子,就是因为我认为版主是权威的,版主给的例子肯定没问题,然后我好照着改,所以请版主答的时候认真点行吗,试也不试想当然就写不好吧,而且楼上版主给的这条明显和我写的那个 */image.pconline.* 是一类吗。

weiguo的话我看懂了,谢谢。

TW下没有MT下viewpage侧边栏类的那种方便插件,找起广告图片等的源码很麻烦,如果全用网页源文件来找太困难了,而且源码的写法可能和真正广告的写法完全不同,比方说很多广告里都带AD关键字,但源码里可能就是一个链接不带AD,那要过滤就等于只能应用在这个特定网站,如果像MT那样可以直接过滤最终地址则可能一条AD规则就全过滤了。而且从用户使用角度也是直接看最终地址,如果用最终地址不能过滤可能会让用户感到惊讶。

再说回 http://www.pconline.com.cn/ 那4个广告,请给个能工作的例子行吗。

照版主的说法就是 */image.pconline.* 规则之所以不能过滤是因为这是最终地址是吧,要过滤这4个广告要写源地址,我的TW没有viewpage侧边栏类的那种插件,看源码找太麻烦了,版主们写过滤规则不会全看网页源代码吧,小网还行,大网累死,有好插件能推荐一个吗。

另外TW到底支不支持在规则中间加入通配符?像 http://www.skycn.com/index.html 网站这样的,用 *.skycn.*/tuijianimg/* 规则不行,版主能给个能工作的例子吗。

希望版主给出的例子能是最简洁的匹配,好能知道什么能包在里面什么不能。
作者: 狼狼    时间: 2007-7-3 15:44

楼主看看置顶嘛,这么好的正则被LZ说得一无是处,真让人心寒啊
看置顶帖跟着版主做  Lz会体会正则的强大威力
作者: Aycox    时间: 2007-7-3 16:24     标题: 回复 #11 死鱼高达 的帖子

我补充说明一下:

2.0中通配符式的传统黑名单是有效的,但必须写成匹配页面源码中的形式,即页面源码中用了带网址的全路径,那么就可以用诸如*xxx.com*/ad/*这种形式,反之则只能用如*/ad/*这种形式。

为了避免误拦,也是更有效率的制作过滤规则,推荐使用页面过滤方式,比如#exd#*xxx.com*#<规则>这种样式(相关教程起草中)

以楼主说的太平洋首页为例:

*.pconline.com.*/ivy.js
*.pconline.com.*/adpuba/*
(也可写成正则:/\.pconline\.com.*\/(?:ivy|adpuba)(?:\.|\/)/)

上面两条规则就是传统的通配符黑名单,可以过滤你说的四个广告中的一半,由于2.0是从源码阶段即开始过滤的,效率更高,但后来由一些脚本动态生成的广告,即使最终地址也符合上述名单也是不能过滤的,所以这时应该使用针对性强的页面规则。

比如这个规则配合上面两条即可把楼主所说的四个广告都过滤。
#exd#*.pconline.com*#'<DIV\sid="PC_(?:left|right)"[\s\S]*?<\/DIV>'###<!--AD/W2-->

上述规则只是举例说明,当然都可以写成更完善页面规则形式(由于个人因素就暂不能及时提供),我想通过这个说明楼主应该清楚了你所存疑的地方。

另外,主页插件区有Viewpage插件下载,可在线直接安装。
作者: 死鱼高达    时间: 2007-7-5 11:38

非常感谢,现在已经都明白了,我记得原来置顶帖里有份教程的,后来给删了是吧,希望新的教程能尽快完成,再次感谢




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn./) Powered by Discuz! 7.2