网站数据的采集及实践
作者:淡然一笑 来源:站长网 时间:2007-10-01 14:36:00
今天讲一下网站数据的采集及实践。 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真是苦工中的苦工,后来就出来的许多的网站模板, 再后来出现了CMS即content manager system(内容管理系统),如动易、DEDE、phmcms等等,这种大大方便了网站的制作和内容的录入。
无疑一个网站的内容丰富性和趣味性是吸引用户的地方,所以图片站总是很火,特别是美女图片,如果想做一个站,复制粘贴肯定是不行的 一夜之间拥有几万张图片几万篇文章才是我们的梦想。那么实现的方式就是数据采集。 今天仅说下数据采集的一些基础东西,高手飘过,菜鸟认真的学,权当入门。
首先是内容的选择。
网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。
如何选择好的内容,我认为要做好以下几个方面:
①选择内容要你的站的主题符合的比较好。
比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。 字串7
②采集的内容的格式尽量统一。
尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。
③不要一次性采集太多。在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。
④采集内容要选好关键字,做好网站的tag,不要见内容就收,否则真成垃圾了 查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证,就是网站的SEO的一部分,最近才学的,不太懂哈。
⑤为避免百度K站,选择不同编码的站是个不错的建议,比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。
⑥要采集的源站要有持续更新的能力,尽量不要采死站,呵呵, 一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。