星云电脑教程
您现在的位置: 星云电脑教程 >> 电脑教程 >> 经验共享 >> 动易专题 >> 正文
   
动易采集全书           ★★★

动易采集全书

星云电脑教程 文章来源:动易 作者:bbb1014 更新时间:2006-9-15 14:43:15 有问必答

  我用动易这么多年了,以前用过不少程序,觉得还是动易的比较好用,但是动易的采集系统真的很一般,当然凡事有利必有弊,动易的优点非常突出,这里我们也不必多说,相信这里的朋友都非常清楚,下面我就动易采集系统作一下详细的阐述!

  我用动易采集真的是费了一番周折,用到现在,也有很多心得体会,下面与大家共享,写的很仓促比较乱,如果不清楚的可以到我的站点来共同探讨,网址是www.xian99.com   讲的不对的地方请指出,有更好意见的朋友快跟!

项目管理:

  1、选择添加新项目,找到你需要采集的页面→复制网址到新闻网址列表框,项目名称随便填(主要是给你自己记忆备忘用)→下一步

  2、项目编辑列表设置:

  这里填写就要注意点了,找到你要采集的新闻列表的第一个信息标题的地方,一般标题前面这里会有一个table标签,选择这个table标签前面的具有典型特征的一些代码,代码具体选多少呢,分2种情况,一是有分页的列表,简单说就是列表最下面有下一页或者有1、2、3、等页面链接的,二是没有分页的,简单说就是列表只有1页,只有1页的情况好办,这里可以随便选了,只要保证不重复就行了。但是有分页的列表页就要麻烦一些,这时候选取代码的原则是:在保证没有重复代码的前提下,尽量选择少一点的代码,因为代码越多越容易出错,越不能保证每个列表页面都有这些代码了,这是经验之谈,当然也不一定,有些网页代码格式非常统一,那么这种网页就好采集,列表开始代码也好填一些。什么是具有典型特征的代码呢?就是基本上每个列表页都有的代码,但是这个页码在所有的列表页中又是唯一的,不重复。

  设置列表索引分页:

  对于有分页的列表页,这时候必须要设置列表分页代码了,否则只能采集第一页的列表内容了。这个时候的诀窍是找到“下一页”这几个字,这几个字前面必然有一个链接“a href="”标签,把这个复制到下页开始的框框去,然后将这个标签的最后网页文件后面的代码一直到“下一页”这几个字全部复制到下页结束框中去,举个例子说明一下:比如 <TABLE WIDTH="390" BORDER="0" CELLSPACING="1" CELLPADDING="0" BGCOLOR="#CCCCCC" ALIGN="CENTER">
          <TR ALIGN="CENTER" BGCOLOR="#FFFFFF">
            <TD HEIGHT="20"><P>  <a href = "http://www.pconline.com.cn/mobile/news/hgxz/index_1.html">【下一页】</a> <a href = "http://www.pconline.com.cn/mobile/news/hgxz/index_4.html">【尾页】</a> 【第1页 共5页】 </P></TD>
          </TR>
        </TABLE>
  这个代码,应该复制a href = " 到下页开始框,复制">【下一页到下页结束框中去,最后点击下一步。这时有部分网页会出现列表错误,这种情况下,你可以复制
  a href = "http://www.pconline.com.cn/mobile/news/hgxz/和">【下一页

  到开始和结束框,应该不会有问题了

  一般而言,选好代码片断后,点击下一步,会有一个列表分页分析地址,你根据这个分析得到的地址调整你复制的代码片断,也有一些诀窍,多摸索就掌握规律了,不用多说。

  3、链接开始和结束标签很简单,这个不用我多说了,
  a href = "    
   
  和链接文件名的后面的几个代码就行了,这个地方一般不会出什么问题,

  4、正文设置:这里比较关键了,大部分人可能都会在这里出问题。标题不用说了,分别填上
  <title></title>


  正文开始标记:

  诀窍:多打开几个内容页面,找到这几个页面中的内容开始的地方,这里必须要找到每个页面中都有的代码片断,而且这些代码片断必须在每个页面中都是唯一的,也就是说,既要是每个内容页面中都有的,而且在某一个页面中又必须是唯一的,这个比较难,但是多花些工夫,总能找到的,这个时候复制代码片断必须要越少越好,越少就越能保证在每个内容页面中都会有这些代码,但是又不能太少,太少了在该页面中不能保证唯一,很容易出现重复的代码,这个必须要花些工夫多试几次,找到最精确的代码片断。

  正文结束标记:同正文开始标记一样,

  正文分页代码:基本原则和列表页的一样,这里就不多说了,

  5、点击下一步,下一步,完成属性设置,项目基本上就完成了。

点击查看更多“动易采集全书”相关文章

教 程 搜 索
专 题 栏 目
相关文章

XSLT中文入门
文章列表标签GetArticleL
2006版网站采集管理操作指
SQL版数据库的安装与设置
动易2006版文章频道标签
文章列表标签GetArticleL
动易2006版标签说明和例举
动易2006版自定义静态标签
动易2006版采集标签管理
动易2006版标签与JS文件

教程录入:星云    责任编辑:星云 

Copyright © 2004-2008 星云电脑教程 GONET8.COM All Rights Reserved 豫ICP备05000636号 站长:星云