世界之窗论坛» 广告过滤规则讨论 » TheWorld 2 过滤规则 » [问题]请问常规表示式匹对中文字元方法

返回列表发帖

Rank: 2

UID: 62983
帖子: 8
精华: 0
贡献: 0
推广: 0
有效BUG: 0
注册时间: 2007-7-2

1^# 跳转到 » 正序看帖

字体大小: tT

发表于 2007-7-31 19:37 | 只看该作者

[问题]请问常规表示式匹对中文字元方法

我最近常常去一个Discuz!的论坛，
这个论坛会摆放两种广告，文字广告和图片广告..

我观察了他的原始码发现，这些广告都会用HTML注解标示起来：

<center>
<table border="0" cellpadding="0" cellspacing="0" style="border-collapse: collapse" bordercolor="#111111" width="59" id="AutoNumber1">
<tr>
广告广告
</tr>
</table>
</center>
<center>广告广告</center>

复制代码

所以我想要用常规表示式来匹配""到
<!--文字廣告結束->"，但是使用unicode无法比对到(该网页使用big5码)，
请问有没有人可以帮忙？

www.813.com.cn 发短消息加为好友 www.813.com.cn 当前离线 UID 65609 帖子 13 精华 0 积分 13 威望 13 贡献 0 推广 0 有效BUG 0 阅读权限 0 来自中国大陆在线时间 2 小时注册时间 2007-8-1 最后登录 2007-8-13 禁止发言 UID 65609 帖子 13 精华 0 贡献 0 推广 0 有效BUG 0 来自中国大陆注册时间 2007-8-1	8^# 发表于 2007-8-1 18:46 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
	淘宝代销联盟-首家推出[商品＋配送]合作的联盟！
	TOP

Rank: 12

UID: 1110
帖子: 2787
精华: 3
贡献: 20
推广: 0
有效BUG: 0
注册时间: 2005-5-26

7^#

发表于 2007-7-31 21:19 | 只看该作者

哦，我没有仔细研究，不过用到的机会也不多

Rank: 4

UID: 3486
帖子: 208
精华: 0
贡献: 0
推广: 0
有效BUG: 0
注册时间: 2005-10-11

6^#

发表于 2007-7-31 21:13 | 只看该作者

我可以啊..原来的表达式就已经写出来过了..

DownInfo\u0028(.*?),"(.*?)","(.*?)","(.*?)"\u0029[\s\S]*?
这个就是

DownInfo(xxxxxx)

Rank: 12

UID: 1110
帖子: 2787
精华: 3
贡献: 20
推广: 0
有效BUG: 0
注册时间: 2005-5-26

5^#

发表于 2007-7-31 21:07 | 只看该作者

回复 #4 tongang 的帖子

好像tw的正则表达式引擎不支持这个，我试过多次都以失败告终。

Rank: 4

UID: 3486
帖子: 208
精华: 0
贡献: 0
推广: 0
有效BUG: 0
注册时间: 2005-10-11

4^#

发表于 2007-7-31 21:06 | 只看该作者

建议你用unicode 编码:

\u(xxx)

具体的对应请查unicode编码表...我从网上随便找了个.

http://code.web.idv.hk/uao/uao.php

Rank: 12

UID: 1110
帖子: 2787
精华: 3
贡献: 20
推广: 0
有效BUG: 0
注册时间: 2005-5-26

3^#

发表于 2007-7-31 21:06 | 只看该作者

回复 #2 split 的帖子

呵呵，也许是那个帖子没有能说明白。

实际上是有2种，如下：
#ex#(restring)###(replace string)
#exd#(url matching)#(restring)###(replace string)

Rank: 2

UID: 62983
帖子: 8
精华: 0
贡献: 0
推广: 0
有效BUG: 0
注册时间: 2007-7-2

2^#

发表于 2007-7-31 20:55 | 只看该作者

终於找到问题了..
只是因为广告过滤规则教程有误...
教程中写的：

#(type)#(restring)###(replace string)

复制代码

应该要改成

#(type)#(url matching)#(restring)###(replace string)

复制代码

所以我的案子只要加入

#exd#*forum*#廣告開始-->###following Ad removed

复制代码

就OK了

[ 本帖最后由 split 于 2007-7-31 20:57 编辑 ]