Board logo

标题: [改进建议] 希望你们..开发一个小插件[黑名单过滤页面内特定元素生成器] 好吗? [打印本页]

作者: 救世主    时间: 2009-1-9 23:07     标题: 希望你们..开发一个小插件[黑名单过滤页面内特定元素生成器] 好吗?

希望你们..开发一个小插件[黑名单过滤页面内特定元素生成器] 好吗?
只要把想要过虑掉的代码.贴到你们开发的这个程序上.就能生成一个代码...
又或在你的那个设置里..直接加上这个功能.好吗?
作者: 救世主    时间: 2009-1-9 23:11

下如代码如下:
-----代码开始----
<tbody><tr><td colspan="3" class="header"><a href="###" onclick="toggle_collapse('forumlinks');"><img id="forumlinks_img" src="images/default/collapsed_no.gif" border="0" align="right" alt="" /></a>
<span class="bold">联盟论坛</span></td></tr></tbody>
<tbody id="forumlinks" style="">
<tr class="row" onMouseOver="this.style.backgroundColor='#F5FBFF'" onMouseOut="this.style.backgroundColor='#FFFFFF'">
<td width="5%" align="center" valign="middle"><img src="images/default/forumlink.gif" alt="" /></td>
<td width="95%" colspan="2" valign="middle" style="word-break: keep-all"><a href="http://cool.ever360.com" target="_blank"><span class="bold">凤凰城博客</span></a><br>读好书,聊影音,玩数码,论IT--让我们一起快乐,一起收获。</td>
</tr>
<tr class="row" onMouseOver="this.style.backgroundColor='#F5FBFF'" onMouseOut="this.style.backgroundColor='#FFFFFF'">
<td width="5%" align="center" valign="middle"><img src="images/default/forumlink.gif" alt="" /></td>
<td width="77%" valign="middle"><a href="http://bbs.dreammail.org/" target="_blank"><span class="bold">DreamMail-专业的电子邮件客户端</span></a><br>One TheWorld, One DreamMail</td>
<td width="18%" align="center" valign="middle"><img src="http://bbs.dreammail.org/images/logo/dreammail.gif" border="0" alt="" /></td>
</tr>
<tr class="row" onMouseOver="this.style.backgroundColor='#F5FBFF'" onMouseOut="this.style.backgroundColor='#FFFFFF'">
<td width="5%" align="center" valign="middle"><img src="images/default/forumlink.gif" alt="" /></td>
<td width="95%" colspan="2" valign="middle" style="word-break: keep-all"><a href="http://www.cnbeta.com/" target="_blank"><img src="http://www.cnbeta.com/pic/logo_cnbeta.gif" border="0" alt="cnBeta" /></a> <a href="http://bbs.360safe.com/" target="_blank"><img src="http://www.360safe.com/img/BBSlink.gif" border="0" alt="360安全论坛" /></a> <a href="http://bbs.yy-s.com" target="_blank"><img src="http://www.yy-s.com/logo.gif" border="0" alt="异域设计" /></a> <a href="http://bbs.hypost.cn/" target="_blank"><img src="http://bbs.hypost.cn/1/绅博论坛.gif" border="0" alt="绅博论坛" /></a> <a href="http://www.deepin.org/index.php" target="_blank"><img src="http://www.deepin.org/flogo.gif" border="0" alt="深度技术论坛" /></a> <a href="http://bbs.coralqq.com" target="_blank"><img src="http://bbs.coralqq.com/logo.gif" border="0" alt="珊瑚虫论坛" /></a> <a href="http://www.pcpchina.com/" target="_blank"><img src="http://bbs.pcpchina.com/links/logo_pcpchina.gif" border="0" alt="PCPChina 先锋网-[资讯先导 个性先锋]" /></a> <a href="http://bbs.hfqq.cn" target="_blank"><img src="http://fjds.bokee.com/inc/logo.gif" border="0" alt="海峰精品论坛" /></a> <a href="http://www.zhmy.com/softwork/" target="_blank"><img src="http://www.zhmy.com/softwork/Logo.gif" border="0" alt="极智在线" /></a> <a href="http://www.arswp.com/" target="_blank"><img src="http://www.arswp.com/images/logo_07.gif" border="0" alt="Windows清理助手" /></a> <a href="http://www.f2blog.com" target="_blank"><img src="http://forum.f2blog.com/f2s.gif" border="0" alt="自由志" /></a> <a href="http://www.hack86.com/bbs/index.php" target="_blank"><img src="http://www.hack86.com/logo.gif" border="0" alt="中华隐士黑客联" /></a> <a href="http://www.fk68.net" target="_blank"><img src="http://www.fk68.net/logo.gif" border="0" alt="废客联邦" /></a> <br><a href="http://www.zixun007.com/" target="_blank">[资讯之家]</a> <a href="http://www.pet100.cn" target="_blank">[宠爱天下]</a> <a href="http://7n7i.net" target="_blank">[数码领地]</a> <a href="http://www.fosoho.com/" target="_blank">[浮世绘]</a> <a href="http://www.7fnet.com/" target="_blank">[清信资讯]</a> <a href="http://www.sun.hk.cn/" target="_blank">[Andrew's]</a> </td>
</tr>
</tbody>

--------完--------
生成代码为:

#exd#*ioage.com*#<tbody>[\s\S]*?联盟论坛(?:[\s\S]*?<\/tbody>){2}###<!--Ad blocked by TheWorld2-->

这样不是很方便吗?
作者: openmushroom    时间: 2009-1-9 23:16

这个....特征码不好提取啊
作者: 救世主    时间: 2009-1-10 00:21

要不做一个..组件...像捉图一样的....
自定义捉图... 那里有广告捉那里...再分析代码 去掉..嘿嘿..
作者: 救世主    时间: 2009-1-12 17:32


作者: 救世主    时间: 2009-1-12 17:33

[attach]59414[/attach]

这个是别人搞的..我想要一个呀.你们能搞一个给我们用吗?
作者: 救世主    时间: 2009-1-12 18:18

唉~
作者: Aycox    时间: 2009-1-12 20:49

匹配一段源码,就像选中一段文字,有三个要素:开头、特征、结尾。
要让程序根据代码,自动决定何处开头何处结尾以及自动判断特征,然后生成有实际意义的规则,恐怕难以实现这样的AI。

比如楼主所示
#exd#*ioage.com*#<tbody>[\s\S]*?联盟论坛(?:[\s\S]*?<\/tbody>){2}###<!--Ad blocked by TheWorld2-->
人工完全不干预的话,程序如何确定开头就一定是<tbody>?特征怎么就一定是联盟论坛?而不是其它HTML标记和字词。这还未涉及误过滤因素,若考虑这就更难办了。
当然程序不是完全不能实现类似AI,但我相信现阶段要代替人工顶多也只能是部分,因为源码是人脑写的。

既然要人工干预人工来确定开头、特征和结尾,那即使有这样的生成工具,它实际上并未起到任何作用,当然它可以提供个模板比如#exd#*X.com*#<X[\s\S]*?XXX[\s\S]*?X>#,呵呵

确定广告特征,非人力不可为,对于过滤来说,首先得找到广告到底来源于源码何处,其次才是写规则。因此真正紧要的,是如何为人编写规则提供便捷的途径,而这方面正是现在2.0说欠缺的。
作者: nov.six    时间: 2009-1-12 23:41

不太懂代码
作者: 救世主    时间: 2009-1-16 16:51

原帖由 Aycox 于 2009-1-12 20:49 发表 http://bbs.ioage.com/cn/images/common/back.gif
匹配一段源码,就像选中一段文字,有三个要素:开头、特征、结尾。
要让程序根据代码,自动决定何处开头何处结尾以及自动判断特征,然后生成有实际意义的规则,恐怕难以实现这样的AI。

比如楼主所示
#exd#*ioag ...


不是个个都是程序员呀..我们这些小菜..不会代码呀..你们搞一此吧,,好吗? :sad2: :sad2:




欢迎光临 世界之窗论坛 (http://bbs.theworld.cn./) Powered by Discuz! 7.2