2008年12月7日星期日

一些搜索引擎的基础技术资料

必读资料:
(一) 搜索引擎介绍性Paper/书籍

(1) Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke,Sriram Raghavan, Search the Web, <http://citeseer.ist.psu.edu/527114.html> 以及该paper的参考文献:8,11,22,38

(2) Junghoo Cho 的一些相关论文,重点是他的博士论文,请参考:<http://oak.cs.ucla.edu/~cho/>(3) 李晓明,闫宏飞,王继民 《搜索引擎原理、技术与系统》


(二) 编程书籍《code complete》,中文名《代码大全》。此书目前一共出版了两版,建议以一版作为精读,另一版作为对比阅读。
选读资料:


(一) 数据挖掘的基础方法和思想可以参考:《Introduction to Data Mining》,中文名《数据挖掘导论》 <http://www.china-pub.com/computers/common/info.asp?id=30045>


(二) 自然语言处理可以参考:《Foundations of Statistical Natural Language Processing》中文名《统计自然语言处理基础》<http://www.china-pub.com/computers/common/info.asp?id=22710>


(三) 需要学习的技能/工具语言/平台(1) linux使用和shell编程可以参考:《sed与awk》<http://www.china-pub.com/computers/common/info.asp?id=13255>


(2) Unix下的网络编程

Richard Stevens, 《TCP/IP 详解》

Richard Stevens, Unix Network Programming,中文名《Unix网络编程》

Richard Stevens, Advanced Programming in the Unix Environment,中文名《Unix环境高级编程》


建议的学习方式:

1、学习《UNIX环境高级编程》

2、结合《TCP/IP 详解》第一卷的知识,用《Unix网络编程》第一卷提到的方法和工具,进行学习和练习,多写点代码,多用 tcpdump 等工具观察实际的网络数据流。

0 评论: