创新中国-中国青年创新战略云服务平台(afc)

< 返回

基于搜索引擎和数据挖掘的博客营销

一、基于搜索引擎和数据挖掘的博客营销模式

博客的影响力越来越大，为企业的营销活动打开了新的一扇窗。基于搜索引擎和数据挖掘的博客营销模式的技术结构，就是结合当今世界上主流的搜索引擎技术和数据挖掘技术，提取博客中市场营销所需要的信息。

1.基于搜索引擎和数据挖掘的博客营销模式的应用系统结构

文中给出了网络信息挖掘技术实现的总体流程图, 分别对其中的每个步骤解释如下:

第一步:确立目标样本, 即由用户选择目标文本, 作为提取用户的特征信息。

第二步:提取特征信息, 即根据目标样本的词频分布, 从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。

第三步:网络信息获取,即先利用搜索引擎站点选择待采集站点, 再利用robot程序采集静态web页面, 最后获取被访问站点网络数据库中的动态信息,生成www资源索引库。

第四步:信息特征匹配,即提取索引库中的源信息的特征向量, 并与目标样本的特征向量进行匹配, 将符合阈值条件的信息返回给用户。

2.基于搜索引擎和数据挖掘的博客营销模式可采用的实现技术

(1)搜索引擎的主要技术。搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死联接和无效联接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于表示文档，以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③检索器:其功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价,对将要输出的结果进行排序，并实现某种用户相关性反馈机制。④用户接口:其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制, 分为简单接口和复杂接口两种。

（2)web信息挖掘中的关键技术。网络信息挖掘系统采用向量空间模型(vector spacemodal, vsm),用特征词条(t1,t2,…,tn) 及其权值wi代表目标信息,在进行信息匹配时, 使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。一个有效的特征项集应该既能体现目标内容, 也能将目标同其他文档相区分, 因此词条权重的正比于词条的文档内频数, 反比于训练文本内出现该词条的文档频数。

我们再来讨论中文分词处理。首先建立词典库。中文词的切分问题是网络信息挖掘中的一项关键的技术之一，中文不像英文词之间有空格分割，中文词的切分的好坏也就直接影响着主题的提取。《中国分类主题词表》由于其学科体系的完整性和规范性，非常适合于作为词库, 当然对于专业要求较高的数据挖掘，以及在实际使用中出现的不符合要求的地方, 可在该词表的基础上进行扩充和修改；另外, 应当包括一个临时的词库以统计用户的检索信息, 用于修正词表。在进行词频统计时, 考虑到自然语言的多样性, 系统建立并使用相应的同义词典、相关词词典等辅助词典, 以提高信息匹配的准确度。

二、基于搜索引擎和数据挖掘的博客营销模式的应用

下面以google 为例, 剖析网络信息挖掘技术在搜索引擎中的应用。google 的搜索机制是:几个分布的crawler(自动搜索软件)同时工作, url服务器则负责向这些crawler提供url 的列表。crawler 所找到的网页被送到存储服务器(store server)中。存储服务器把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联id——doc id,当一个新的url 从一个网页中解析出来时, 就被分配一个doc id。索引库(indexer)和排序器(sorter)负责建立索引, 索引库从知识库中读取记录, 将文档解压并进行解析。每个文档就转换成一组词的出现状况(word occurrences),称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接并将重要信息存在anchors文档中。这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。

url分解器(url resolver)阅读anchors文档,并把相对的url转换成绝对的urls,并生成doc id,它进一步为anchor文本编制索引,并与anchor 所指向的doc id建立关联。同时,它还产生由doc id 对(pairs of doc id)所形成的数据库。这个链接数据库(links)用于计算所有文档的页面等级(pagerank)。排序器会读取barrels,并根据词的id号(word id)列表来生成倒排挡。一个名为dumplexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(searcher)使用。这个搜索器就是利用一个web服务器, 并使用由dumplexicon所生成的词表, 并利用上述倒排挡以及页面等级来回答用户的提问。

google搜索的最大特色体现在它所采用的对网页links信息的挖掘技术上。实际上,网络信息挖掘是目前网络信息检索发展的一个关键。

三、结束语

博客营销作为企业营销的新工具，正受到越来越多企业的关注，目前，大多数企业在博客营销领域的实践还处于探索阶段。随着xml作为在web上交换数据的一种标准方式的出现、用户信息需求的多样化、网络信息挖掘研究的不断深入,“智能化”的搜索引擎将会涌现, 面向web的网络信息挖掘也将会变得非常轻松。

参考文献:

[1]克里斯·安德森:长尾理论.中信出版社,2006

[2]托马斯·弗里德曼:世界是平的.东方出版社,2006

[3]杰里米·莱特:《博客营销》.中国财政经济出版社,2007

[4]唐小鹏:博客营销应用初探.科技资讯,2007年第7期