必读资料:
(一) 搜索引擎介绍性Paper/书籍
(1) Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke,Sriram Raghavan, Search the Web, <http://citeseer.ist.psu.edu/527114.html> 以及该paper的参考文献:8,11,22,38
(2) Junghoo Cho 的一些相关论文,重点是他的博士论文,请参考:<http://oak.cs.ucla.edu/~cho/>(3) 李晓明,闫宏飞,王继民 《搜索引擎原理、技术与系统》
(二) 编程书籍《code complete》,中文名《代码大全》。此书目前一共出版了两版,建议以一版作为精读,另一版作为对比阅读。
选读资料:
(一) 数据挖掘的基础方法和思想可以参考:《Introduction to Data Mining》,中文名《数据挖掘导论》 <http://www.china-pub.com/computers/common/info.asp?id=30045>
(二) 自然语言处理可以参考:《Foundations of Statistical Natural Language Processing》中文名《统计自然语言处理基础》<http://www.china-pub.com/computers/common/info.asp?id=22710>
(三) 需要学习的技能/工具语言/平台(1) linux使用和shell编程可以参考:《sed与awk》<http://www.china-pub.com/computers/common/info.asp?id=13255>
(2) Unix下的网络编程
Richard Stevens, 《TCP/IP 详解》
Richard Stevens, Unix Network Programming,中文名《Unix网络编程》
Richard Stevens, Advanced Programming in the Unix Environment,中文名《Unix环境高级编程》
建议的学习方式:
1、学习《UNIX环境高级编程》
2、结合《TCP/IP 详解》第一卷的知识,用《Unix网络编程》第一卷提到的方法和工具,进行学习和练习,多写点代码,多用 tcpdump 等工具观察实际的网络数据流。
0 评论:
发表评论