2008年12月31日星期三

Comming Conferences

A nice navigation page for comming conference about IR & NLP and other related fields.

http://www.cs.sfu.ca/~bzhou/personal/conference.html

2008年12月7日星期日

一些搜索引擎的基础技术资料

必读资料:
(一) 搜索引擎介绍性Paper/书籍

(1) Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas Paepcke,Sriram Raghavan, Search the Web, <http://citeseer.ist.psu.edu/527114.html> 以及该paper的参考文献:8,11,22,38

(2) Junghoo Cho 的一些相关论文,重点是他的博士论文,请参考:<http://oak.cs.ucla.edu/~cho/>(3) 李晓明,闫宏飞,王继民 《搜索引擎原理、技术与系统》


(二) 编程书籍《code complete》,中文名《代码大全》。此书目前一共出版了两版,建议以一版作为精读,另一版作为对比阅读。
选读资料:


(一) 数据挖掘的基础方法和思想可以参考:《Introduction to Data Mining》,中文名《数据挖掘导论》 <http://www.china-pub.com/computers/common/info.asp?id=30045>


(二) 自然语言处理可以参考:《Foundations of Statistical Natural Language Processing》中文名《统计自然语言处理基础》<http://www.china-pub.com/computers/common/info.asp?id=22710>


(三) 需要学习的技能/工具语言/平台(1) linux使用和shell编程可以参考:《sed与awk》<http://www.china-pub.com/computers/common/info.asp?id=13255>


(2) Unix下的网络编程

Richard Stevens, 《TCP/IP 详解》

Richard Stevens, Unix Network Programming,中文名《Unix网络编程》

Richard Stevens, Advanced Programming in the Unix Environment,中文名《Unix环境高级编程》


建议的学习方式:

1、学习《UNIX环境高级编程》

2、结合《TCP/IP 详解》第一卷的知识,用《Unix网络编程》第一卷提到的方法和工具,进行学习和练习,多写点代码,多用 tcpdump 等工具观察实际的网络数据流。

2008年12月1日星期一

SIGIR 2009 Call for papers

The 32nd Annual ACM SIGIR Conference July 19-23 2009

Important Dates

Nov 17, 2008 Requests for mentoring must be submitted
Jan 19, 2009 Abstracts for full research papers due
Jan 26, 2009 Full research paper submissions due
Feb 2, 2009 Workshop proposals due
Feb 23, 2009 Posters, demonstration, and tutorial proposals due
Mar 2, 2009 Doctoral consortium proposals due
Mar 9, 2009 Notification of workshop acceptances
Apr 11, 2009 All other acceptance notification

2008年11月25日星期二

TREC evaluation measures

TREC evaluation measures:

1. AP(Average Precision) is defined as:




where :
rj is the number of retrieved relevant document
#Docj(i) is the number of retrieved document when the i-th relevant document is retrieved for the j-th query.



2. MAP(Mean Average Precision) is the average AP for all queries.


3. (R-Precision) is the precision of the first R retrieved document. Where R is the number of relevant document for each query. For a perfect system, the R-Precision is 1.0.


3. TopN precision is the precision of the first N retrieved documents.

2008年11月23日星期日

诡异的qq问题

昨晚登陆qq时碰到一个很诡异问题,qq无法登陆,但可以正常登陆qq邮箱、浏览网页也没有异常(比较奇怪,往常都是可以登陆qq,但无法浏览网页)。当时想到以下几种可能:
1、qq版本不对应
2、端口被屏蔽掉了
3、qq文件损坏了
4、电脑在joking?
5、中毒了

于是乎,先备份qq文件,然后卸载现有qq版本,然后上qq官方网站下载了07Release、08beta、09Preview 所有可能的version,然后一个个地安装,都不好使,无奈只得再一个个地卸载。至此,排除1.

之后,又在本机上换了另一个qq号登陆,它。。。竟然好用,有点崩溃。
于是又换了另外一台机器登陆,还是不好用。排除2-4.

那就杀毒吧,趋势在线、360、QQ医生都用了,都没有查出病毒。无奈之下干起了老本行:挨个进程检查;查看系统启动项,没有异常,之后进入安全模式....一切都不管用。

就这样折腾了一晚上还是没有解决,然后就在郁闷中度过了一晚。第二天起床后继续昨天未完的任务,不过能想到得都已近检查过了,剩下唯一的可能就是qq服务器有问题了,不过别得号码正常,难不成。。。我的qq号码进入服务器黑名单了? 不过想想不应该啊,我也没用彩虹外挂、珊瑚虫版本,又没有做过暴力破解的勾当,是老实的不能再老实得平民了,难道这也有错?
无奈之下,只好求助于qq客服,得知当qq服务器处在调整期时,部分号码段可能会受影响不能正常登陆。。。 难道这也可以,这样难得的事情也能让我碰上,这算是幸运还是不幸呢?真得很无奈,都有点无语了。点背也许是我的问题,不过qq是不是也应该事先、人道地通知一下用户呢,起码有个心里准备也好。。。

后记:晚上,qq终于可以正常登陆了,就像往常一样,好像什么都没有发生一样。
为了防止意外,又做了以下预防措施:
1、备份数据
2、增强密码保护策略
3、把MSN快捷方式放在了一个显眼得位置。