7 n) `0 v6 S* @昨日,BaiduSpider官方在新浪微博阐述了关于站点类聚的原因及聚合定义的问题。官方人员称由于站点之间的关系错综复杂,导致各种别名/替换/稳定性/作弊站群等等都会影响到站点的收录。因此在站点聚合定义的时候会考虑很多自然属性,以便更好的满足用户需求。并举例说明了百度对机构站和平台站点的重视原因。
+ j$ _! t2 L4 n T1 k5 Q# H' D
; _ t- }8 R& n' E5 l+ z为何要类聚:
: Y, W$ z% b) R+ \, Z, M7 e. W
& p: N- O6 c0 K$ b e
在中国的互联网上, 迄今为止发现至少有千万级的站点。这些站点形态各异,它们的目的/内容/用户群体/大小/年龄/领域/质量…各不相同。 如果对这些站点,从某个(些)角度作一定划分,对于我们了解整个互联网从而优化搜索引擎的抓取、排序、展现等策略,是有帮助的。
' [6 T6 x' g; r7 ?+ W$ `! |/ A5 e# x: o
站点需求认知:
3 J u/ |* t0 n$ S$ w
1 P6 Z0 Z, t6 Q7 t% `站点聚合定义随问题的不同方法也不同,很多自然属性都是我们关注的重点,站点之间的关系错综复杂,各种别名/替换/稳定性/作弊站群等等都会影响到站点的收录,如何能从这复杂交错的网络中理出我们需要的还有很多困难需要克服,明确的是用户需要的也是我们需要的。
4 q9 P9 `% p, z; {: v, }: S
6 C/ [$ c9 X2 {! b站点类聚角度:
8 J2 {/ u5 ^5 e' \' j! s d, L& }7 W' S& N
选取什么角度作站点划分?其实不是一个简单的问题,因为从不同角度考虑站点分类结果是很不一样的,而且对于应用的效果差异也会很大。其次,就算选择了合适的角度,要划分到合适的层次/粒度,也是一件困难的事情。选择何种关系作为站点之间的边以构建图也需要深入思考。
4 Z# {. t# e3 ~: q: j! X0 U
- y. _! ^! W- e$ E7 p6 I【举例:机构站】:
9 h' [1 y, X$ Q) l& {
' q: ?3 L1 g6 D0 u( ~3 h: G有一类站点,并不为多数网民所知,获得的访问也很少;但是它却很重要,这主要表现在一些“机构站”。包括政府/学校/组织/公司/地方性站点。它们非常的可信,对网络检索资源的贡献也很大,在很多时候是很权威的。
6 V) p* ]4 ^ F0 W/ s( g; K p+ X5 j( R/ u/ J
【举例:平台站】:
- B! e8 L m" e% ?
; O4 l0 p0 u) U! {( m4 o
随着web2.0的兴起,网民在网络上建立起自己的交流/表达平台变得容易和普遍,最重要的是blog。有很多blog对互联网贡献了很多重要的检索资源,往往比专业的网站编辑团队更快更新地发表某些网民感兴趣的话题。对于持续贡献优质内容的blog我们是非常重视的。
k. w& o& I+ R# C) O% J