1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

哈哈,我做到了真正的静态防采集!爽

本帖由 zouql2006-05-24 发布。版面名称:源码讨论

  1. zouql

    zouql New Member

    注册:
    2005-11-27
    帖子:
    312
    赞:
    4
    哈哈,我做到了真正的静态防采集!爽!!!
     
  2. OUYANG

    OUYANG New Member

    注册:
    2005-09-06
    帖子:
    3,025
    赞:
    5
  3. 七星浪子

    七星浪子 New Member

    注册:
    2005-09-15
    帖子:
    444
    赞:
    7
    给个地址,我来采。。。:belial:
     
  4. viewsnake

    viewsnake New Member

    注册:
    2005-09-05
    帖子:
    117
    赞:
    3
    说来听听,楼主***
     
  5. peng

    peng New Member

    注册:
    2006-01-13
    帖子:
    3
    赞:
    0
    给个地址去采下看可以采不
     
  6. zouql

    zouql New Member

    注册:
    2005-11-27
    帖子:
    312
    赞:
    4
    简单的说就是加入了不可过滤掉的干扰,就是干扰和文章内容的属性一样。让你没有办法设置采集规则,不知道该过滤哪个。因为每篇文章的干扰都不同:p

    当然对于人肉采集没有办法!
     
  7. wm_chief

    wm_chief New Member

    注册:
    2005-09-05
    帖子:
    17,890
    赞:
    46
    哦,跟帝国的防采集原理差不多
     
  8. 七星浪子

    七星浪子 New Member

    注册:
    2005-09-15
    帖子:
    444
    赞:
    7

    只要是程序生成的,就有办法去掉干扰(非人肉采集),只不过是麻烦了的而已,且不能用通用的采集程序。。。
     
  9. wm_chief

    wm_chief New Member

    注册:
    2005-09-05
    帖子:
    17,890
    赞:
    46
    嗯,不能用通用采集程序
     
  10. viewsnake

    viewsnake New Member

    注册:
    2005-09-05
    帖子:
    117
    赞:
    3
    真狠毒
     
  11. 七星浪子

    七星浪子 New Member

    注册:
    2005-09-15
    帖子:
    444
    赞:
    7
    我的一个自动采集BT程序(每天4次自动采集4个BT站)就用了十多个正则过滤,基本把无用信息都过滤了。。。。

    发其中两个规则:
    PHP:
    objregEx.Pattern "[【〖[『《(\[\(★◆※][^【】〖〗[]『』《》()\[\]\(\)★◆※]"_
        
    "{0,10}?(影视|帝国|顶好|影线|丽影|伊甸园|U影部落|S-Files|TLF|YTET|EA|梦作坊|夢作坊|"_
        
    "BT神话|.?第⑥感.?|第6感|Rv9|冰鱼|天使|简约|风软|晴空)[^【】〖〗[]『』《》()\[\]"_
        
    "\(\)★◆※\s]{0,6}?(影线|影视|组|原创|出品|压制|制作|论坛|作品|发布|首发|工作室|电影|"_
        
    "连续剧|美剧|综艺|音乐|游戏|动漫|体育|杂志)[^【】〖〗[]『』《》()\[\]\(\)★◆※]"_
        
    "{0,10}?[】〗]』》)\]\)★◆※]"


    objregEx.Pattern "[【〖[『《(\[\(★◆※][^【】〖〗[]『』《》()\[\]\(\)★◆※]"_
        
    "{0,6}?(EA|电影|综艺|连续剧|连载|美剧|韩剧|日剧|日劇|国语|粤语|韩语|日语|英语|韓語|"_
        
    "卫视|TVB|ATV|中视|中視|台视|华视|華視|公视|综合台|RMVB|DVD|RIP|VCD|MP4|HDTV|"_
        
    "中字|中文|字幕|高清析|高清晰|清晰版|完整版|原版|汉风版|收藏版|修正版|合拍|国产|票房)"_
        
    "[^【】〖〗[]『』《》()\[\]\(\)★◆※]{0,6}?[】〗]』》)\]\)★◆※]"





    是不是很BT啊~~~:belial:



    .
     
    #11 七星浪子, 2006-05-25
    最后编辑: 2006-05-25
  12. swenge

    swenge New Member

    注册:
    2005-11-28
    帖子:
    386
    赞:
    1
    楼上所有人都很BT:)

    wc的免费版本理论上也可以实现防采集,不过没有时间去搞~~
     
  13. zouql

    zouql New Member

    注册:
    2005-11-27
    帖子:
    312
    赞:
    4
    基本上就是这样的,不知道能过滤掉不!大家看看吧。
    说明:其中所有 非正文的数字均是随机生成的,就是每篇不同!不知道能防止采集不
    CSS名字因为每篇不同,所以。。。
    要是你把CSS也采集保存到文章里面,那我也无话可说。
    HTML:
    <!--
    .www_bbsou_com_[COLOR="Red"]874[/COLOR] { display:none; height:0px}-->
    </style>
    </head>
    
    <body>
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199"><STRONG>11 ipospfhello-interval</STRONG>
    
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199">指定在接口上发送Hello报文的时间间隔<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>,noipospfhello-interval恢复为缺省值<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>。</span><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span></p>
    
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199">ipospfhello-intervaltime  noipospfhello-interval</span><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span></p>
    
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199">【参数说明】 time为发送HELLO报文的时间间隔<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>,单位为秒<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>,范围1~255<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>。</span><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span></p>
    
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199">【缺省情况】接口上缺省发送HELLO报文的间隔时间为10秒<span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span>。</span><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span></p>
    
    <p><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span><span class="www_bbsou_com_199">【命令模式】 接口配置模式</span><span class="www_bbsou_com_874">www5bbsou3com2欢1迎6采4集0.3的9是7好5机</span></p>
     
    #13 zouql, 2006-05-25
    最后编辑: 2006-05-25
  14. zouql

    zouql New Member

    注册:
    2005-11-27
    帖子:
    312
    赞:
    4
    HTML:
    <style type="text/css">
    <!--
    .www_bbsou_com_955 { display:none; height:0px}-->
    </style>
    </head>
    
    <body>
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152"><STRONG>11 ipospfhello-interval</STRONG>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">指定在接口上发送Hello报文的时间间隔<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,noipospfhello-interval恢复为缺省值<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">ipospfhello-intervaltime  noipospfhello-interval</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【参数说明】 time为发送HELLO报文的时间间隔<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,单位为秒<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,范围1~255<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【缺省情况】接口上缺省发送HELLO报文的间隔时间为10秒<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【命令模式】 接口配置模式</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【使用指南】  hello-interval的值将写入HELLO报文中<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,并随HELLO报文传送<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。hello-interval的值越小<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,则网络拓扑结构的变化将被越快的发现<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,但将花费更多的路由开销<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。必须保证和该接口相邻的路由器之间的hello-interval参数一致<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【举例】  配置接口Serial0发送HELLO报文的间隔时间为20秒<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">Quidway(config-if-Serial0)#ipospfhello-interval20</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【相关命令】  ipospfdead-interval</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152"><STRONG>12.ipospfnetwork-type</STRONG></span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">设置接口的网络类型<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。noipospfnetwork-type取消设置<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">[no]ipospfnetwork-type{nonbroadcast|point_to_multipoint}</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【参数说明】nonbroadcast设置接口的网络类型为非广播NBMA类型<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">point_to_multipoint设置接口的网络类型为点到多点<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【命令模式】接口配置模式</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【使用指南】 在没有多址访问能力的广播网上<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,应该将接口配置成NBMA方式<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。当一个NBMA网络中<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,不能保证任意两台路由器之间都是直接可达的话<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,应将网络设置为点到多点的方式<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【举例】 配置接口Serial0为非广播NBMA类型<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">Quidway(config-if-Serial0)#ipospfnetwork-typenonbroadcast</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152"><STRONG>13.ipospfneighbor</STRONG></span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">ipospfpollinterval</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">在NBMA和点到多点接口上配置发送轮询HELLO报文的时间间隔<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,noipospfpollinterval命令恢复为缺省值<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">ipospfpollintervaltime</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">noipospfpollinterval</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【参数说明】 time为发送轮询HELLO报文的时间间隔<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,以秒为单位<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,合法的范围是0~65535<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【缺省情况】接口缺省发送轮询HELLO报文的时间间隔为120秒<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【命令模式】接口配置模式</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
    
    <p><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span><span class="www_bbsou_com_152">【使用指南】  在NBMA和点到多点网络中<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,当一台路由器的邻居一直没有响应时(时间间隔超过了dead-interval)<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,仍然有必要继续发送HELLO报文<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,但发送的频率要降低为以pollinterval的频率发送<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。所以pollinterval要远大于hello-interval的值<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>,至少为两分钟(120秒)<span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span>。</span><span class="www_bbsou_com_955">www9bbsou6com4欢3迎9采4集2.6的2是3好2机3</span></p>
     
    #14 zouql, 2006-05-25
    最后编辑: 2006-05-25
  15. 七星浪子

    七星浪子 New Member

    注册:
    2005-09-15
    帖子:
    444
    赞:
    7
    呵,这简单啦,取得那个随机式样名,然后在正文中将这个式样内文字替换掉,用两个规则搞定。。。

    这个方法我很早就用过了,这起码防不了我。:belial:

    我其中一个音乐站用的:

    HTML:
    <style type="text/css">
    <!--
    #Til1054 {color:blue;}
    #Art1054 {color:blue;}
    .str1054 {font-weight:bold;}
    -->
    </style>
    
    正在为你播放的歌曲: <span id="Til1054">霍元甲(霍元甲主题曲)</span> &nbsp;&nbsp; 
    歌手: <span id="Art1054">周杰伦</span> &nbsp;&nbsp; 
    <a href="search.asp?keyword=%D6%DC%BD%DC%C2%D7" target="_blank">查看<span class="str1054">周杰伦</span>的档案</a>
    
    
     
    #15 七星浪子, 2006-05-25
    最后编辑: 2006-05-25
  16. 禾火木风

    禾火木风 New Member

    注册:
    2006-03-15
    帖子:
    2,212
    赞:
    8
    人家直接过滤你的标签,你还有什么。。。。。
     
  17. Kevin

    Kevin New Member

    注册:
    2005-10-23
    帖子:
    12,728
    赞:
    55
    楼上的都是牛人啊!

    不过俺们笨的人有笨的想法:
    做站的话,重点不应该是防人采,而是让人采了也没有你的优势,比如更新及时,还有就是空间资源,我做了一个站,现在单单某个栏目的图片就几个G,采吧,要么盗链,要么买服务吧,当然啦,做一下起码的防采是肯定要的,起码"过滤"掉一些菜鸟,呵呵,高手嘛,我觉得没办法,理论上没有采不了的站!

    所以我觉得没必要花这么多时间在防采上! 事倍功半的东西!
     
  18. sooden

    sooden New Member

    注册:
    2005-12-30
    帖子:
    29
    赞:
    1
    这样的防采集很不怎么有效哦
     
  19. cbot

    cbot New Member

    注册:
    2006-09-11
    帖子:
    1
    赞:
    0
    这个如何实现
    请详细说明