<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-2968860058225780941</id><updated>2012-01-25T04:38:37.206+08:00</updated><category term='POS Tagging'/><category term='百宝箱'/><category term='ACL'/><category term='SIGIR'/><category term='Algorithm'/><category term='CIKM'/><category term='NLP'/><category term='程序人生'/><category term='WWW'/><category term='Mathmatics'/><category term='C/C++'/><category term='Information Retrieval'/><category term='Boosting'/><category term='生活点滴'/><category term='知识积累'/><category term='无心呢喃'/><category term='名词释义'/><title type='text'>异度空间——Sue's Cabinet</title><subtitle type='html'></subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>43</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-4647462217796586100</id><published>2011-01-07T10:30:00.000+08:00</published><updated>2011-01-07T10:31:37.421+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='知识积累'/><title type='text'>全半角转化</title><content type='html'>&lt;div&gt;在windows中，中文和全角字符都占两个字节，并且使用了ASCII　Chart 2 (codes 0x80–0xFF)。我们可以凭这一点来一个个检测用户输入的是否是中文和全角字符。实际上，全角字符的第一个字节总是被置为0xA3，而第二个字节则是相同半角字符码加上0x80（不包括空格）。如半角A为65，则全角A则是0x80（第一个字节）、193（第二个字节，0x80+65）。而对于中文来讲，它的第一个字节被置为大于0x80，（如'阿'为:176 162）,我们可以在检测到中文时不进行转换。&lt;/div&gt;&lt;div&gt;全角空格比较特殊，两个字节相同，为0xA1 0xA1。&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-4647462217796586100?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/4647462217796586100/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=4647462217796586100' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4647462217796586100'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4647462217796586100'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2011/01/blog-post.html' title='全半角转化'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2892820662758432301</id><published>2010-11-19T17:21:00.000+08:00</published><updated>2010-11-19T17:22:34.354+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Information Retrieval'/><title type='text'>几篇不错的Query分析的paper</title><content type='html'>&lt;span class="Apple-style-span" style="font-family: Georgia; font-size: 12px; color: rgb(85, 85, 85); line-height: 20px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "&gt;《Learning Query Intent from Regularized Click Graphs》&lt;br /&gt;《Understanding User Goals in Web Search》&lt;br /&gt;《Functional Faceted Web Query Analysis》&lt;br /&gt;《Coupling Feature Selection and Machine Learning Methods for Navigational Query Identification》&lt;br /&gt;《Characterizing Query Intent From Sponsored Search Clickthrough Data》&lt;br /&gt;《Survey and evaluation of query intent detection methods》&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2892820662758432301?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2892820662758432301/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2892820662758432301' title='3 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2892820662758432301'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2892820662758432301'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2010/11/querypaper.html' title='几篇不错的Query分析的paper'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-8379458918918977726</id><published>2009-03-20T09:39:00.007+08:00</published><updated>2009-03-20T09:48:34.620+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='知识积累'/><title type='text'>[转载]Zipf定律，最省力原则及网络语言</title><content type='html'>有这么一个笑话，冬天快到了，一群印第安人问他们新上任的酋长，今年冬天会冷么；酋长说，会的。于是他们开始拼命搜集木材和食物，准备过冬。眼见如此情景，酋长担心万一碰上个暖冬，自己的威信可就被糟蹋了，于是他打电话给当地气象台问气象学家，今年冬天会冷么，气象学家说会的；酋长不放心，又问，您怎么这么肯定；气象学家答，你没看到么，那些印第安人都发了疯一样准备过冬呢。&lt;br /&gt;&lt;br /&gt;类似的，语言学中也有一条著名的经验法则, 数学家们信奉它，因为他们认为这条法则是语言学家建立的；语言学家们信奉它，则是因为他们以为这是条被数学家们证明过的数学定律。当然，这条被哈佛语言学家Zipf提出并以他的名字命名的定律比起上述印第安气象学要靠谱的多：Zipf发现，如果把一种语言中的所有的词按照词频从大到小排序，并记录它们的排列位置，那么一个词的词频f，和它的位置r，近似满足如下关系f*r=k，其中k是一个常数。&lt;br /&gt;&lt;br /&gt;掩藏在公式背后的意思是，对于同一个概念，说话者期望选择一个出现频率很高，但是词义较含糊的词来表达，而听者则希望接受到一个出现频率很低，相应更精确的词汇。极端情况下，说话者巴不得只用一个词就能表达天下所有的意思，而听者则最好是一个萝卜一个坑，一个概念只有一个词相对应。总之双方都指着对方多担待，自己省点事儿。Zipf将此称为最省力原则(Principle of Least Effort).&lt;br /&gt;&lt;br /&gt;Zipf定律就是反映了说者和听者两者间讨价还价最后的折衷，即只有相当少的一些词能够表达很多语义，相应具有很高的出现频率；而绝大多数的词则能较准确的表达特定意思，也就只有较少的出现频率。&lt;br /&gt;&lt;br /&gt;类似的描述是不是在别的什么地方出现过呢，没错，就是&lt;a href="http://www.seeisee.com/index.php/2007/06/18/p302"&gt;二八原则&lt;/a&gt;，或者说帕累托分布。说到底，Zipf分布和帕累托分布都是所谓的幂分布。&lt;br /&gt;&lt;br /&gt;从最省力原则出发，来打量一下&lt;a href="http://www.seeisee.com/index.php/2007/07/19/p316"&gt;网络语言&lt;/a&gt;，譬如说，福特福克斯的&lt;a href="http://www.seeisee.com/index.php/sam/2007/08/16/p328"&gt;网络昵称&lt;/a&gt;，我们会有什么发现呢？&lt;br /&gt;&lt;a href="http://1.bp.blogspot.com/_9-hI14wYsok/ScL1jhpSkuI/AAAAAAAAAlc/Opwtm7jBfvI/s1600-h/untitled.bmp"&gt;&lt;img id="BLOGGER_PHOTO_ID_5315080500926386914" style="WIDTH: 320px; CURSOR: hand; HEIGHT: 281px" alt="" src="http://1.bp.blogspot.com/_9-hI14wYsok/ScL1jhpSkuI/AAAAAAAAAlc/Opwtm7jBfvI/s320/untitled.bmp" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;div&gt;&lt;div&gt;&lt;br /&gt;&lt;br /&gt;去掉品牌本身(福克斯，Focus)，我们可以看到譬如”小福”，”FKS”这样的昵称，也有相当大的曝光率。我们容易理解，从发贴作者而言，这两个词比原品牌名少些字符，更容易敲，但是它们好认么？作为非车迷的我，仅仅从字面上无论如何没法理解这两个词。但是关键就在于，如果放在一个汽车的语境中，它们其实具备相当准确的指向。作为佐证，在Google或者百度里搜索”FKS 车”，得到的结果绝大多数都是有关福特福克斯。&lt;br /&gt;从这个小例子看，最省力原则在网络语言中依然有效，只是听者不再是一般意义上的受众（很多人理解网络昵称可能很费劲），而是特定社区里的成员。作为社区的烙印之一，成员受社区感 (Sense of Community) 驱使，会逐渐形成一套公共符号系统(Common symbol system)，昵称便是这套符号系统的表现之一。&lt;br /&gt;&lt;br /&gt;昵称其实属于公共符号系统中更广泛的一类形式——黑话(jargon)，不论是你一句”天王盖地虎”，对方接”宝塔镇河妖”；还是”请各位福友帮忙”，下面响应”你的小福怎么了”，你就知道，哎呀，算是找到组织了。&lt;/div&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-8379458918918977726?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/8379458918918977726/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=8379458918918977726' title='6 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8379458918918977726'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8379458918918977726'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2009/03/zipfzipffrfrkk-zipfprinciple-of-least.html' title='[转载]Zipf定律，最省力原则及网络语言'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://1.bp.blogspot.com/_9-hI14wYsok/ScL1jhpSkuI/AAAAAAAAAlc/Opwtm7jBfvI/s72-c/untitled.bmp' height='72' width='72'/><thr:total>6</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-3781248903163905919</id><published>2009-03-10T18:29:00.002+08:00</published><updated>2009-03-10T18:33:41.619+08:00</updated><title type='text'></title><content type='html'>Books on Information Retrieval (General)&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.ischool.berkeley.edu/~hearst/irbook" target="_blank" jquery1236680565484="3"&gt;Modern Information Retrieval.&lt;/a&gt; R. Baeza-Yates, B. Ribeiro-Neto. Addison-Wesley, 1999. Currently the most widely used and cited.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.springeronline.com/sgw/cda/frontpage/0,11855,4-40109-22-35393326-0,00.html" target="_blank" jquery1236680565484="4"&gt;Information Retrieval: Algorithms and Heuristics.&lt;/a&gt; D.A. Grossman, O. Frieder. Springer, 2004. Excellent textbook, #1 or #2 seller on Amazon.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.cs.mu.oz.au/mg/" target="_blank" jquery1236680565484="5"&gt;Managing Gigabytes.&lt;/a&gt; I.H. Witten, A. Moffat, T.C. Bell. Morgan Kaufmann, 1999. The authority on index construction and compression.&lt;br /&gt;&lt;br /&gt; &lt;a href="http://www.cs.ucsd.edu/~rik/foa/" target="_blank" jquery1236680565484="6"&gt;Finding Out About.&lt;/a&gt; R. Belew. &lt;a class="link_tag" href="http://blog.vsharing.com/Tag/CAM" target="_blank" jquery1236680565484="7"&gt;CAM&lt;/a&gt;bridge UP, 2001. More suitable for undergraduate classes than other books listed here.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://medir.ohsu.edu/~hersh/irbook/" target="_blank" jquery1236680565484="8"&gt;Information Retrieval: A Health and Biomedical Perspective. &lt;/a&gt;W.R. Hersh. Springer, 2002. As the title says: a health/biomedical perspective.&lt;br /&gt;&lt;br /&gt; &lt;a href="http://mitpress.mit.edu/catalog/item/default.asp?ttype=2&amp;amp;tid=10667" target="_blank" jquery1236680565484="9"&gt;TREC: Experiment and Evaluation in Information Retrieval.&lt;/a&gt; E.M. Voorhees, D.K. Harman. MIT Press, 2005. A survey of recent research results.&lt;br /&gt;&lt;br /&gt; &lt;a href="http://www.springer.com/prod/b/1-4020-1216-0?referer=www.wkap.nl" target="_blank" jquery1236680565484="10"&gt;Language Modeling for Information Retrieval.&lt;/a&gt; W.B. Croft, J. Lafferty. Springer, 2003. Language models are of increasing importance in IR.&lt;br /&gt;&lt;br /&gt; &lt;a href="http://portal.acm.org/citation.cfm?id=275537" target="_blank" jquery1236680565484="11"&gt;Readings in Information Retrieval.&lt;/a&gt;&lt;a target="_blank" jquery1236680565484="12"&gt; K. Sparck Jones, P. Willett. Morgan Kaufmann, 1997. A collection of classical IR papers. &lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.cs.mu.oz.au/~alistair/swirl2004/homework-forum.pdf" target="_blank" jquery1236680565484="13"&gt;Recommended Reading for IR Research Students.&lt;/a&gt; A. Moffat, J. Zobel, D. Hawking. SIGIR Forum, 39(2), 2005. Not a book, but a collection of seminal papers, more up-to-date than Sparck-Jones et al.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.springer.com/prod/b/0-7923-7924-1?referer=www.wkap.nl" target="_blank" jquery1236680565484="14"&gt;Information Storage and Retrieval Systems.&lt;/a&gt; G. Kowalski, M.T. Maybury. Springer, 2005. "... takes a system approach, discussing all aspects of an Information Retrieval System."&lt;br /&gt;&lt;br /&gt;&lt;a href="http://ir.dcs.gla.ac.uk/GeometryOfIR/" target="_blank" jquery1236680565484="15"&gt;The Geometry of Information Retrieval.&lt;/a&gt; C.J. van Risjbergen. Cambridge UP, 2004. Am ambitious attempt to develop quantum mechanics as a new foundation for IR.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.library.uiuc.edu/lsx/books/Feb05/chowdhury.htm" target="_blank" jquery1236680565484="16"&gt;Introduction to Modern Information Retrieval.&lt;/a&gt; G.G. Chowdhury. Neal-Schuman, 2003. Intended for students of library and information studies.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.elsevier.com/wps/find/bookdescription.cws_home/678624/description#description" target="_blank" jquery1236680565484="17"&gt;Text Information Retrieval Systems.&lt;/a&gt; C. Meadow, B. Boyce, D. Kraft. Academic Press, 2000. Also takes a library/information science perspective. &lt;a href="http://www-csli.stanford.edu/~hinrich/information-retrieval-more-books.html" target="_blank" jquery1236680565484="18"&gt;More Books&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Books on Web Information Retrieval&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.cse.iitb.ac.in/~soumen/mining-the-web/" target="_blank" jquery1236680565484="19"&gt;Mining the Web: Analysis of Hypertext and Semi Structured Data.&lt;/a&gt; S. Chakrabarti. Morgan Kaufmann, 2002. The best introduction for web-centric IR.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://press.princeton.edu/titles/8216.html" target="_blank" jquery1236680565484="20"&gt;Google's PageRank and beyond: The science of Search Engine Rankings.&lt;/a&gt; Amy N. Langville, Carl D. Meyer. Princeton University Press, 2006. More focused on the algorithms of PageRank, but also covers general web IR.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0470849061.html" target="_blank" jquery1236680565484="21"&gt;Modeling the Internet and the Web: Probabilistic Methods and Algorithms.&lt;/a&gt; P. Baldi, P. Frasconi, P. Smyth. Wiley, 2003. A bit terse. Recommended for those who have a good foundation in probability theory, but are new to IR.&lt;br /&gt;&lt;br /&gt;Online Books - Browsable&lt;br /&gt;&lt;br /&gt;&lt;a href="http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html" target="_blank" jquery1236680565484="22"&gt;Introduction to Information Retrieval.&lt;/a&gt; C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2007. Draft. Focuses on algorithms and mathematical foundations without neglecting practical issues in building search systems. Equal coverage of classical IR and newer topics like XML, machine learning techniques and web search engines.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www-cse.ucsd.edu/~rik/foa/l2h/" target="_blank" jquery1236680565484="23"&gt;Finding Out About.&lt;/a&gt; R. Belew's book (w/o figures and equations), see above.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.dcs.gla.ac.uk/Keith/Preface.html" target="_blank" jquery1236680565484="24"&gt;Information Retrieval.&lt;/a&gt; C. J. van Rijsbergen. Butterworths, 1979. The classic. Almost 40 years old, but still worth reading.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://osiris.cs.kun.nl/iris/web-docs/edu/ir1/" target="_blank" jquery1236680565484="25"&gt;Information Retrieval.&lt;/a&gt; T. van der Weide. 2004. Introduction to IR and hypertext.&lt;br /&gt;Online Books - PDF&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html" target="_blank" jquery1236680565484="26"&gt;Introduction to Information Retrieval.&lt;/a&gt; C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2007&lt;br /&gt;&lt;br /&gt;. &lt;a href="http://www.pearsonhighered.com/croft1epreview/samples.html" target="_blank" jquery1236680565484="27"&gt;Information Retrieval in Practice.&lt;/a&gt; B. Croft, D. Metzler, T. Strohman. Pearson Education, 2009. (two chapters)&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.dcs.gla.ac.uk/Keith/Preface.html" target="_blank" jquery1236680565484="28"&gt;Information Retrieval.&lt;/a&gt; C. J. van Rijsbergen. Butterworths, 1979.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.db.dk/pi/iri/" target="_blank" jquery1236680565484="29"&gt;Information Retrieval Interaction.&lt;/a&gt; P. Ingwersen. Taylor Graham, 1992. Focuses on user interaction in IR.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.csee.umbc.edu/cadip/readings/IR.report.120600.book.pdf" target="_blank" jquery1236680565484="30"&gt;Information Retrieval: A Survey.&lt;/a&gt; Ed Greengrass. 2000. Good survey of "classical" IR, but little or no coverage of recent work (e.g., language models, PageRank, SVMs). Various tutorials at &lt;a href="http://www.miislita.com/" target="_blank" jquery1236680565484="31"&gt;Mi Islita&lt;/a&gt;&lt;br /&gt;Research Centers&lt;br /&gt;&lt;a href="http://www.lti.cs.cmu.edu/" target="_blank" jquery1236680565484="32"&gt;CMU (LTI)&lt;/a&gt;&lt;br /&gt; &lt;a href="http://www.computing.dcu.ie/~asmeaton/group.html" target="_blank" jquery1236680565484="33"&gt;Dublin CU&lt;/a&gt;&lt;br /&gt;&lt;a href="http://viper.unige.ch/" target="_blank" jquery1236680565484="34"&gt;Geneva (Viper)&lt;/a&gt;&lt;br /&gt; &lt;a href="http://ir.dcs.gla.ac.uk/" target="_blank" jquery1236680565484="35"&gt;Glasgow&lt;/a&gt;&lt;br /&gt;&lt;a href="http://cosco.hiit.fi/search" target="_blank" jquery1236680565484="36"&gt;Helsinki Institute for Information Technology&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.research.ibm.com/irgroup" target="_blank" jquery1236680565484="37"&gt;IBM&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ir.iit.edu/" target="_blank" jquery1236680565484="38"&gt;Illinois Institute of Technology&lt;/a&gt; &lt;a href="http://ir-facility.org/" target="_blank" jquery1236680565484="39"&gt;Information Retrieval Facility (IRF)&lt;/a&gt;&lt;br /&gt;&lt;a href="http://research.microsoft.com/ir" target="_blank" jquery1236680565484="40"&gt;Microsoft Research&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www-nlpir.nist.gov/" target="_blank" jquery1236680565484="41"&gt;NIST&lt;/a&gt;&lt;br /&gt;&lt;a href="http://sewm.pku.edu.cn/" target="_blank" jquery1236680565484="42"&gt;Peking&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www2.sis.pitt.edu/~ir" target="_blank" jquery1236680565484="43"&gt;Pittsburgh&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.dcs.qmul.ac.uk/researchgp/ir/" target="_blank" jquery1236680565484="44"&gt;Queen Mary&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ir.shef.ac.uk/" target="_blank" jquery1236680565484="45"&gt;Sheffield&lt;/a&gt;&lt;br /&gt;&lt;a href="http://sifaka.cs.uiuc.edu/ir" target="_blank" jquery1236680565484="46"&gt;UIUC&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ciir.cs.umass.edu/" target="_blank" jquery1236680565484="47"&gt;UMASS&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ischool.washington.edu/cir"&gt;U. of Washington&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Courses&lt;br /&gt;&lt;a href="http://www2.sims.berkeley.edu/academics/courses/is240/s06/" target="_blank" jquery1236680565484="48"&gt;Berkeley (SIMS)&lt;/a&gt;&lt;br /&gt;&lt;a href="http://nyc.lti.cs.cmu.edu/classes/11-741" target="_blank" jquery1236680565484="49"&gt;CMU&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.cs.cornell.edu/courses/cs430/2006fa/" target="_blank" jquery1236680565484="50"&gt;Cornell&lt;/a&gt;&lt;br /&gt;&lt;a href="http://maya.cs.depaul.edu/~classes/csc575/" target="_blank" jquery1236680565484="51"&gt;DePaul&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ir.iit.edu/~dagr/cs529/project.html" target="_blank" jquery1236680565484="52"&gt;IIT&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.cs.jhu.edu/~yarowsky/cs466.html" target="_blank" jquery1236680565484="53"&gt;Johns Hopkins I&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.apl.jhu.edu/~paulmac/ir.html" target="_blank" jquery1236680565484="54"&gt;Johns Hopkins II&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.glue.umd.edu/~oard/teaching/796/spring04/" target="_blank" jquery1236680565484="55"&gt;Maryland&lt;/a&gt; &lt;a href="http://www.mpi-inf.mpg.de/departments/d5/teaching/ws07_08/irdm/" target="_blank" jquery1236680565484="56"&gt;MPI&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.cs.otago.ac.nz/cosc463/" target="_blank" jquery1236680565484="57"&gt;Otago&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.cs.princeton.edu/courses/archive/spring06/cos435/" target="_blank" jquery1236680565484="58"&gt;Princeton&lt;/a&gt;&lt;br /&gt;&lt;a href="http://cs276.stanford.edu/" target="_blank" jquery1236680565484="59"&gt;Stanford&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ims.uni-stuttgart.de/lehre/teaching/2008-SS/ir/" target="_blank" jquery1236680565484="60"&gt;Stuttgart&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.cs.utexas.edu/~mooney/ir-course" target="_blank" jquery1236680565484="61"&gt;Texas&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ciir.cs.umass.edu/cmpsci646/" target="_blank" jquery1236680565484="62"&gt;UMASS&lt;/a&gt; &lt;a href="http://www.blogger.com/%3Cbr"&gt;&lt;br /&gt;U. of Sunderland&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.computing.dcu.ie/~gjones/Teaching/CA437/"&gt;&lt;br /&gt;Multimedia Information Retrieval&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.ims.uni-stuttgart.de/~schuetze/ws2004ir/"&gt;U. of Stuttgart&lt;/a&gt;&lt;br /&gt;Problem Sets / Assignments &lt;a href="http://www.cs.cornell.edu/courses/cs430/2004fa/assignments.html"&gt;&lt;br /&gt;Cornell&lt;br /&gt;&lt;/a&gt;&lt;br /&gt;&lt;a href="http://ciir.cs.umass.edu/cmpsci646/#Assignments_and_due_dates"&gt;&lt;br /&gt;U. of Massachusetts&lt;br /&gt;&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://www.cs.bilkent.edu.tr/~canf/CS533/" target="_blank" jquery1236680565484="63"&gt;Bilkent&lt;/a&gt; &lt;a href="http://maya.cs.depaul.edu/~classes/ds575/assign.html" target="_blank" jquery1236680565484="64"&gt;DePaul &lt;/a&gt;&lt;a href="http://www.georgetown.edu/faculty/wilsong/IR/Assn2004.html" target="_blank" jquery1236680565484="65"&gt;Georgetown&lt;/a&gt; &lt;a href="http://sunsite.dcc.uchile.cl/irbook/teaching/exercises.html" target="_blank" jquery1236680565484="66"&gt;Minas Gerais&lt;/a&gt; &lt;a href="http://www.cse.unt.edu/~rada/CSCE5200/#assignments" target="_blank" jquery1236680565484="67"&gt;North Texas&lt;/a&gt; &lt;a href="http://www.ims.uni-stuttgart.de/lehre/teaching/2008-SS/ir/#assign" target="_blank" jquery1236680565484="68"&gt;Stuttgart&lt;/a&gt; &lt;a href="http://www.cs.utk.edu/~cs494/homework" target="_blank" jquery1236680565484="69"&gt;Tennessee&lt;/a&gt;&lt;br /&gt;Web Information Retrieval &lt;a href="http://www.webir.org/" target="_blank" jquery1236680565484="70"&gt;webir.org&lt;/a&gt; &lt;a href="http://www.searchenginewatch.com/" target="_blank" jquery1236680565484="71"&gt;Search Engine Watch&lt;/a&gt; &lt;a href="http://www.searchengineshowdown.com/" target="_blank" jquery1236680565484="72"&gt;Users' Guide to Web Searching&lt;/a&gt; &lt;a href="http://www-db.stanford.edu/~backrub/google.html" target="_blank" jquery1236680565484="73"&gt;PageRank&lt;/a&gt;&lt;br /&gt;Subareas, Applications, Methods&lt;br /&gt;&lt;a href="http://macedonia.chem.demokritos.gr/"&gt;Chemistry&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://www.aaai.org/AITopics/html/info.html" target="_blank" jquery1236680565484="74"&gt;Information Retrieval &amp;amp; Extraction&lt;/a&gt; &lt;a href="http://www-cse.ucsd.edu/users/rik/MLIA.html" target="_blank" jquery1236680565484="75"&gt;Information Retrieval &amp;amp; Machine Learning&lt;/a&gt; &lt;a href="http://filebox.vt.edu/users/wfan/text_mining.html" target="_blank" jquery1236680565484="76"&gt;Text Mining &amp;amp; Web Mining&lt;/a&gt; &lt;a href="http://inex.is.informatik.uni-duisburg.de/" target="_blank" jquery1236680565484="77"&gt;INEX: XML retrieval&lt;/a&gt; &lt;a href="http://www.geo.unizh.ch/~rsp/gir07" target="_blank" jquery1236680565484="78"&gt;Geographic Information Retrieval&lt;/a&gt; &lt;a href="http://www.ismir.net/" target="_blank" jquery1236680565484="79"&gt;Music Information Retrieval&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www.music-ir.org/"&gt;Music Information Retrieval (2)&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://www.unine.ch/info/clef/" target="_blank" jquery1236680565484="80"&gt;CLIR &amp;amp; Multilingual Information Retrieval&lt;/a&gt;&lt;br /&gt;&lt;a href="http://infomap.stanford.edu/CLIR.html"&gt;Cross-Language Information Retrieval (CLIR)&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://www.glue.umd.edu/~dlrg/clir/" target="_blank" jquery1236680565484="81"&gt;Cross-Language Information Retrieval (CLIR) Resources&lt;/a&gt; &lt;a href="http://www.cs.umbc.edu/ngram/" target="_blank" jquery1236680565484="82"&gt;N-Grams in Information Retrieval&lt;/a&gt; &lt;a href="http://www.csee.umbc.edu/abir" target="_blank" jquery1236680565484="83"&gt;Agent-based Information Retrieval&lt;/a&gt; &lt;a href="http://portal.acm.org/citation.cfm?id=297251" target="_blank" jquery1236680565484="84"&gt;Audio Information Retrieval&lt;/a&gt; &lt;a href="http://airweb.cse.lehigh.edu/" target="_blank" jquery1236680565484="85"&gt;Adversarial Information Retrieval&lt;/a&gt;&lt;br /&gt;Conferences &lt;a href="http://trec.nist.gov/" target="_blank" jquery1236680565484="86"&gt;TREC&lt;/a&gt; &lt;a href="http://www.clef-campaign.org/" target="_blank" jquery1236680565484="87"&gt;Cross Language Evaluation Forum (CLEF)&lt;/a&gt; &lt;a href="http://www.sigir2007.org/" target="_blank" jquery1236680565484="88"&gt;SIGIR 2007&lt;/a&gt; (last), &lt;a href="http://www.sigir2008.org/" target="_blank" jquery1236680565484="89"&gt;SIGIR 2008&lt;/a&gt; (next) &lt;a href="http://www.fc.ul.pt/cikm2007/" target="_blank" jquery1236680565484="90"&gt;CIKM 2007&lt;/a&gt;, &lt;a href="http://cikm2008.org/" target="_blank" jquery1236680565484="91"&gt;CIKM 2008&lt;/a&gt; &lt;a href="http://www2008.org/" target="_blank" jquery1236680565484="92"&gt;WWW 2008&lt;/a&gt;, &lt;a href="http://www2009.org/" target="_blank" jquery1236680565484="93"&gt;WWW 2009&lt;/a&gt; &lt;a href="http://jcdl2008.org/" target="_blank" jquery1236680565484="94"&gt;JCDL 2008&lt;/a&gt;, &lt;a href="http://www.jcdl2009.org/" target="_blank" jquery1236680565484="95"&gt;JCDL 2009&lt;/a&gt; &lt;a href="http://www.riao.org/sites/RIAO-2004/en/index.html" target="_blank" jquery1236680565484="96"&gt;RIAO 2004&lt;/a&gt;, &lt;a href="http://www.riao.org/" target="_blank" jquery1236680565484="97"&gt;RIAO 2007&lt;/a&gt; &lt;a href="http://ecir2008.dcs.gla.ac.uk/" target="_blank" jquery1236680565484="98"&gt;ECIR 2008&lt;/a&gt;, &lt;a href="http://ecir09.irit.fr/" target="_blank" jquery1236680565484="99"&gt;ECIR 2009&lt;/a&gt; &lt;a href="http://airs2006.i2r.a-star.edu.sg/" target="_blank" jquery1236680565484="100"&gt;AIRS 2006&lt;/a&gt;, &lt;a href="http://ir.hit.edu.cn/airs2008/" target="_blank" jquery1236680565484="101"&gt;AIRS 2008&lt;/a&gt; &lt;a href="http://www.cwr.cl/spire2007/" target="_blank" jquery1236680565484="102"&gt;SPIRE 2007&lt;/a&gt;, &lt;a href="http://spire2008.csse.unimelb.edu.au/" target="_blank" jquery1236680565484="103"&gt;SPIRE 2008&lt;/a&gt; &lt;a href="http://www.is.informatik.uni-duisburg.de/fgir/conferences" target="_blank" jquery1236680565484="104"&gt;Norbert Fuhr's IR conference calendar&lt;/a&gt;&lt;br /&gt;Journals ACM Transactions on Information Systems (TOIS): &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/tois/index.html" target="_blank" jquery1236680565484="105"&gt;dblp&lt;/a&gt; &lt;a href="http://www.acm.org/pubs/tois/" target="_blank" jquery1236680565484="106"&gt;home&lt;/a&gt; Information Processing and Management (IP&amp;amp;M): &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/ipm/index.html" target="_blank" jquery1236680565484="107"&gt;dblp&lt;/a&gt; &lt;a href="http://www.sciencedirect.com/science/journal/03064573" target="_blank" jquery1236680565484="108"&gt;home&lt;/a&gt; Information Retrieval: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/ir/index.html" target="_blank" jquery1236680565484="109"&gt;dblp&lt;/a&gt; &lt;a href="http://www.springerlink.com/link.asp?id=103814" target="_blank" jquery1236680565484="110"&gt;home&lt;/a&gt; International Journal on Digital Libraries: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/jodl/index.html" target="_blank" jquery1236680565484="111"&gt;dblp&lt;/a&gt; &lt;a href="http://link.springer.de/link/service/journals/00799/" target="_blank" jquery1236680565484="112"&gt;home&lt;/a&gt; Journal of the American Society of Information Science and Technology (JASIST): &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/jasis/index.html" target="_blank" jquery1236680565484="113"&gt;dblp&lt;/a&gt; &lt;a href="http://www.asis.org/Publications/JASIS/" target="_blank" jquery1236680565484="114"&gt;home&lt;/a&gt; SIGIR Forum: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/sigir/index.html" target="_blank" jquery1236680565484="115"&gt;dblp&lt;/a&gt; &lt;a href="http://www.acm.org/sigir/forum/index.html" target="_blank" jquery1236680565484="116"&gt;home&lt;/a&gt; &lt;a href="http://www.emeraldinsight.com/info/journals/jd/jd.jsp" target="_blank" jquery1236680565484="117"&gt;Journal of Documentation&lt;/a&gt; &lt;a href="http://www.dlib.org/" target="_blank" jquery1236680565484="118"&gt;D-Lib Magazine&lt;/a&gt; Data &amp;amp; Knowledge Engineering: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/dke/index.html" target="_blank" jquery1236680565484="119"&gt;dblp&lt;/a&gt; &lt;a href="http://www.elsevier.com/wps/find/journaldescription.cws_home/505608/description?navopenmenu=-2" target="_blank" jquery1236680565484="120"&gt;home&lt;/a&gt; Information Processing Letters: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/ipl/index.html" target="_blank" jquery1236680565484="121"&gt;dblp&lt;/a&gt; &lt;a href="http://www.elsevier.com/locate/issn/00200190" target="_blank" jquery1236680565484="122"&gt;home&lt;/a&gt; &lt;a href="http://informationr.net/ir/" target="_blank" jquery1236680565484="123"&gt;Information Research&lt;/a&gt; Information Systems: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/is/index.html" target="_blank" jquery1236680565484="124"&gt;dblp&lt;/a&gt; &lt;a href="http://www.elsevier.com/wps/find/journaldescription.cws_home/236/description#description" target="_blank" jquery1236680565484="125"&gt;home&lt;/a&gt; Journal of Intelligent Information Systems: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/jiis/jiis24.html" target="_blank" jquery1236680565484="126"&gt;dblp&lt;/a&gt; &lt;a href="http://www.wkap.nl/journalhome.htm/0925-9902" target="_blank" jquery1236680565484="127"&gt;home&lt;/a&gt; Knowledge and Information Systems: &lt;a href="http://www.informatik.uni-trier.de/~ley/db/journals/kais/index.html" target="_blank" jquery1236680565484="128"&gt;dblp&lt;/a&gt; &lt;a href="http://link.springer.de/link/service/journals/10115/index.htm" target="_blank" jquery1236680565484="129"&gt;home&lt;/a&gt; Foundations and Trends in Information Retrieval: &lt;a href="http://www.nowpublishers.com/ir/" target="_blank" jquery1236680565484="130"&gt;home&lt;/a&gt;&lt;br /&gt;Popular Articles &lt;a href="http://en.wikipedia.org/wiki/Information_retrieval" target="_blank" jquery1236680565484="131"&gt;Wikipedia: Information Retrieval&lt;/a&gt; &lt;a href="http://singhal.info/ieee2001.pdf" target="_blank" jquery1236680565484="132"&gt;A. Singhal: Modern Information Retrieval: A Brief Overview&lt;/a&gt; &lt;a href="http://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-356.pdf" target="_blank" jquery1236680565484="133"&gt;S.E. Robertson, K. Sparck Jones: Simple, proven approaches to text retrieval&lt;/a&gt; &lt;a href="http://www.dlib.org/dlib/november95/11croft.html" target="_blank" jquery1236680565484="134"&gt;Bruce Croft: What Do People Want From IR&lt;/a&gt; &lt;a href="http://www.cacs.louisiana.edu/~raghavan/internet97.pdf" target="_blank" jquery1236680565484="135"&gt;Information Retrieval on the World Wide Web&lt;/a&gt; &lt;a href="http://www.ifla.org/VI/5/op/udtop5/udtop5.htm" target="_blank" jquery1236680565484="136"&gt;Michael Lesk: The Seven Ages of Information Retrieval&lt;/a&gt; &lt;a href="http://www.firstmonday.org/issues/issue7_7/bates/"&gt;&lt;br /&gt;Marcia J. Bates: ... Getting Web Information Retrieval Right ...&lt;/a&gt;&lt;br /&gt;--&gt;&lt;br /&gt;Software &lt;a href="http://wrg.upf.edu/WRG/d%3Ca%20href=http://blog.vsharing.com/Tag/cto%20target=_blank%20class=link_tag%3Ecto%3C/a%3Es/Middleton-Baeza.pdf" target="_blank" jquery1236680565484="137"&gt;C. Middleton, R. Baeza-Yates: A Comparison of Open Source Search Engines&lt;/a&gt; (contains an up-to-date list of available search engine software) Doug Oard's list of available &lt;a href="http://www.glue.umd.edu/~oard/teaching/796/spring04/research.html" target="_blank" jquery1236680565484="138"&gt;text retrieval systems&lt;/a&gt; Avi Rappoport: &lt;a href="http://www.searchtools.com/tools/tools-opensource.html" target="_blank" jquery1236680565484="139"&gt;open source search engines&lt;/a&gt;&lt;br /&gt;&lt;a href="http://htdig.sourceforge.net/"&gt;&lt;br /&gt;ht://Dig&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://dev.mysql.com/doc/refman/5.0/en/fulltext-search.html" target="_blank" jquery1236680565484="140"&gt;MySQL full text search&lt;/a&gt;&lt;br /&gt;&lt;a href="http://swish-e.org/"&gt;&lt;br /&gt;Swish-e&lt;/a&gt;&lt;br /&gt;--&gt;&lt;a href="http://scgroup.hpclab.ceid.upatras.gr/scgroup/Projects/TMG/" target="_blank" jquery1236680565484="141"&gt;Text to Matrix Generator&lt;/a&gt;, a MATLAB toolbox for indexing, retrieval and other text processing tasks&lt;br /&gt;Collections U. of Glasgow list of available &lt;a href="http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/" target="_blank" jquery1236680565484="142"&gt;text retrieval collections&lt;/a&gt; &lt;a href="http://www.comp.nus.edu.sg/~rpnlpir/#c" target="_blank" jquery1236680565484="143"&gt;NLP/IR corpus list at NUS&lt;/a&gt; &lt;a href="http://www.inf.ed.ac.uk/resources/corpora/" target="_blank" jquery1236680565484="144"&gt;NLP/IR corpus list at Edinburgh&lt;/a&gt; &lt;a href="http://www.archive.org/web/researcher/intended_users.php" target="_blank" jquery1236680565484="145"&gt;Internet archive&lt;/a&gt; (limited availability) &lt;a href="http://www.ldc.upenn.edu/" target="_blank" jquery1236680565484="146"&gt;Linguistic Data Consortium &lt;/a&gt;&lt;br /&gt;Professional Organizations &lt;a href="http://www.acm.org/sigir/" target="_blank" jquery1236680565484="147"&gt;ACM SIGIR&lt;/a&gt; &lt;a href="http://irsg.bcs.org/" target="_blank" jquery1236680565484="148"&gt;BCS IRSG&lt;/a&gt;&lt;br /&gt;Other Collections of Information Retrieval Links &lt;a href="http://www.sigir.org/resources.html" target="_blank" jquery1236680565484="149"&gt;ACM SIGIR&lt;/a&gt;&lt;a href="http://people.csail.mit.edu/karger/ir.html" target="_blank" jquery1236680565484="150"&gt;David Karger&lt;/a&gt;&lt;br /&gt;Other Resources &lt;a href="http://www.ischool.berkeley.edu/~hearst/irbook/glossary.html" target="_blank" jquery1236680565484="151"&gt;Glossary&lt;/a&gt; (Modern Information Retrieval) &lt;a href="http://www.searchtools.com/info/info-retrieval.html" target="_blank" jquery1236680565484="152"&gt;Information retrieval research links @ Search Tools&lt;/a&gt; &lt;a href="http://bubl.ac.uk/Link/i/informationretrieval.htm" target="_blank" jquery1236680565484="153"&gt;BUBL: Information Retrieval Links&lt;/a&gt; &lt;a href="http://bit.csc.lsu.edu/~kraft/retrieval.html" target="_blank" jquery1236680565484="154"&gt;LSU: Information Retrieval Systems&lt;/a&gt; &lt;a href="http://www.google.com/Top/Computers/Software/Information_Retrieval/" target="_blank" jquery1236680565484="155"&gt;Open Directory: Information Retrieval Links&lt;/a&gt; &lt;a href="http://www.slais.ubc.ca/resources/indexing/information.htm" target="_blank" jquery1236680565484="156"&gt;UBC: Indexing Resources&lt;/a&gt; &lt;a href="http://ai.bpa.arizona.edu/papers/mlir93/mlir93.html" target="_blank" jquery1236680565484="157"&gt;IR &amp;amp; Neural Networks, Symbolic Learning, Genetic Algorithms&lt;/a&gt; A &lt;a href="http://jmlr.csail.mit.edu/papers/volume5/lewis04a/a11-smart-stop-list/english.stop" target="_blank" jquery1236680565484="158"&gt;stop list&lt;/a&gt; (a list of stop words)&lt;br /&gt;&lt;a href="http://www.blogger.com/%3Cbr"&gt;http://web.syr.edu/~diekemar/ir.html&lt;br /&gt;&gt;&lt;br /&gt;IR links&lt;/a&gt;&lt;br /&gt;(Syracuse)&lt;br /&gt;&lt;a href="http://www.blogger.com/%3Cbr"&gt;http://www-a2k.is.tokushima-u.ac.jp/member/kita/NLP/IR.html&lt;br /&gt;&gt;&lt;br /&gt;IR links&lt;/a&gt;&lt;br /&gt;(U. of Tokushima)&lt;br /&gt;--&gt;&lt;br /&gt;&lt;a href="http://dis.shef.ac.uk/mark/resource/"&gt;&lt;br /&gt;IR resources&lt;/a&gt;&lt;br /&gt;(Mark Sanderson)&lt;br /&gt;--&gt;&lt;br /&gt;&lt;a href="http://dmoz.org/Computers/Software/Information_Retrieval/"&gt;&lt;br /&gt;Open Directory: Information Retrieval&lt;/a&gt;&lt;br /&gt;--&gt;Chris Manning's &lt;a href="http://www-nlp.stanford.edu/links/statnlp.html" target="_blank" jquery1236680565484="159"&gt;NLP resources&lt;/a&gt; Weiguo Patrick Fan's &lt;a href="http://filebox.vt.edu/users/wfan/text_mining.html" target="_blank" jquery1236680565484="160"&gt;text mining links&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-3781248903163905919?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/3781248903163905919/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=3781248903163905919' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3781248903163905919'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3781248903163905919'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2009/03/books-on-information-retrieval-general.html' title=''/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-6333639683537135845</id><published>2008-12-31T19:57:00.004+08:00</published><updated>2009-01-08T18:39:21.425+08:00</updated><title type='text'>Comming Conferences</title><content type='html'>A nice navigation page for comming conference about IR &amp;amp; NLP and other related fields.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.cs.sfu.ca/~bzhou/personal/conference.html"&gt;http://www.cs.sfu.ca/~bzhou/personal/conference.html&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-6333639683537135845?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/6333639683537135845/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=6333639683537135845' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6333639683537135845'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6333639683537135845'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/12/comming-conferences.html' title='Comming Conferences'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2116124740627802463</id><published>2008-12-07T12:05:00.000+08:00</published><updated>2008-12-07T12:07:34.737+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>一些搜索引擎的基础技术资料</title><content type='html'>&lt;p&gt;必读资料：&lt;br /&gt;（一） 搜索引擎介绍性Paper/书籍&lt;/p&gt;&lt;p&gt;（1） Arvind Arasu， Junghoo Cho， Hector Garcia-Molina， Andreas Paepcke，Sriram Raghavan, Search the Web,  &lt;&lt;a href="http://citeseer.ist.psu.edu/527114.html"&gt;http://citeseer.ist.psu.edu/527114.html&lt;/a&gt;&gt; 以及该paper的参考文献：8，11，22，38&lt;/p&gt;&lt;p&gt;（2） Junghoo Cho 的一些相关论文，重点是他的博士论文，请参考：&lt;&lt;a href="http://oak.cs.ucla.edu/~cho/"&gt;http://oak.cs.ucla.edu/~cho/&lt;/a&gt;&gt;（3） 李晓明，闫宏飞，王继民 《搜索引擎原理、技术与系统》&lt;/p&gt;&lt;p&gt;&lt;br /&gt;（二） 编程书籍《code complete》，中文名《代码大全》。此书目前一共出版了两版，建议以一版作为精读，另一版作为对比阅读。&lt;br /&gt;选读资料：&lt;/p&gt;&lt;p&gt;&lt;br /&gt;（一） 数据挖掘的基础方法和思想可以参考：《Introduction to Data Mining》，中文名《数据挖掘导论》 &lt;&lt;a href="http://www.china-pub.com/computers/common/info.asp?id=30045"&gt;http://www.china-pub.com/computers/common/info.asp?id=30045&lt;/a&gt;&gt; &lt;/p&gt;&lt;p&gt;&lt;br /&gt;（二） 自然语言处理可以参考：《Foundations of Statistical Natural Language Processing》中文名《统计自然语言处理基础》&lt;&lt;a href="http://www.china-pub.com/computers/common/info.asp?id=22710"&gt;http://www.china-pub.com/computers/common/info.asp?id=22710&lt;/a&gt;&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;（三） 需要学习的技能/工具语言/平台（1） linux使用和shell编程可以参考：《sed与awk》&lt;&lt;a href="http://www.china-pub.com/computers/common/info.asp?id=13255"&gt;http://www.china-pub.com/computers/common/info.asp?id=13255&lt;/a&gt;&gt; &lt;/p&gt;&lt;p&gt;&lt;br /&gt;（2） Unix下的网络编程&lt;/p&gt;&lt;p&gt;Richard Stevens,  《TCP/IP 详解》&lt;/p&gt;&lt;p&gt;Richard Stevens,  Unix Network Programming，中文名《Unix网络编程》&lt;/p&gt;&lt;p&gt;Richard Stevens,  Advanced Programming in the Unix Environment，中文名《Unix环境高级编程》&lt;/p&gt;&lt;p&gt;&lt;br /&gt;建议的学习方式：&lt;/p&gt;&lt;p&gt;1、学习《UNIX环境高级编程》&lt;/p&gt;&lt;p&gt;2、结合《TCP/IP 详解》第一卷的知识，用《Unix网络编程》第一卷提到的方法和工具，进行学习和练习，多写点代码，多用 tcpdump 等工具观察实际的网络数据流。 &lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2116124740627802463?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2116124740627802463/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2116124740627802463' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2116124740627802463'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2116124740627802463'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/12/blog-post.html' title='一些搜索引擎的基础技术资料'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-1471338209720905540</id><published>2008-12-01T19:08:00.002+08:00</published><updated>2008-12-01T19:10:03.313+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>SIGIR 2009 Call for papers</title><content type='html'>The 32nd Annual ACM SIGIR Conference July 19-23 2009&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:180%;color:#ff0000;"&gt;Important Dates&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Nov 17, 2008 Requests for &lt;a href="http://www.sigir2009.org/mentoring" _fcksavedurl="http://www.sigir2009.org/mentoring"&gt;mentoring&lt;/a&gt; must be submitted&lt;br /&gt;Jan 19, 2009 Abstracts for full research papers due&lt;br /&gt;Jan 26, 2009 Full research paper submissions due&lt;br /&gt;Feb 2, 2009 Workshop proposals due&lt;br /&gt;Feb 23, 2009 Posters, demonstration, and tutorial proposals due&lt;br /&gt;Mar 2, 2009 Doctoral consortium proposals due&lt;br /&gt;Mar 9, 2009 Notification of workshop acceptances&lt;br /&gt;Apr 11, 2009 All other acceptance notification&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-1471338209720905540?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/1471338209720905540/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=1471338209720905540' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/1471338209720905540'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/1471338209720905540'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/12/sigir-2009-call-for-papers.html' title='SIGIR 2009 Call for papers'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-4875368000567605470</id><published>2008-11-25T15:30:00.006+08:00</published><updated>2008-12-01T19:11:46.694+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='名词释义'/><title type='text'>TREC evaluation measures</title><content type='html'>TREC evaluation measures:&lt;br /&gt;&lt;br /&gt;1. AP(Average Precision) is defined as:&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://3.bp.blogspot.com/_9-hI14wYsok/SSuqEckYkLI/AAAAAAAAAfc/jtNZj-gfohs/s1600-h/AP.bmp"&gt;&lt;img id="BLOGGER_PHOTO_ID_5272494782132293810" style="WIDTH: 242px; CURSOR: hand; HEIGHT: 72px" alt="" src="http://3.bp.blogspot.com/_9-hI14wYsok/SSuqEckYkLI/AAAAAAAAAfc/jtNZj-gfohs/s320/AP.bmp" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;where :&lt;br /&gt;rj is the number of retrieved relevant document&lt;br /&gt;#Docj(i) is the number of retrieved document when the i-th relevant document is retrieved for the j-th query.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;2. MAP(Mean Average Precision) is the average AP for all queries.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;3. (R-Precision) is the precision of the first R retrieved document. Where R is the number of relevant document for each query. For a perfect system, the R-Precision is 1.0.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;3. TopN precision is the precision of the first N retrieved documents.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-4875368000567605470?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/4875368000567605470/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=4875368000567605470' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4875368000567605470'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4875368000567605470'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/11/trec-evaluation-measures.html' title='TREC evaluation measures'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://3.bp.blogspot.com/_9-hI14wYsok/SSuqEckYkLI/AAAAAAAAAfc/jtNZj-gfohs/s72-c/AP.bmp' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2771986383769259839</id><published>2008-11-23T00:29:00.001+08:00</published><updated>2008-11-23T00:34:00.654+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='生活点滴'/><title type='text'>诡异的qq问题</title><content type='html'>昨晚登陆qq时碰到一个很诡异问题，qq无法登陆，但可以正常登陆qq邮箱、浏览网页也没有异常（比较奇怪，往常都是可以登陆qq，但无法浏览网页）。当时想到以下几种可能：&lt;br /&gt;1、qq版本不对应&lt;br /&gt;2、端口被屏蔽掉了&lt;br /&gt;3、qq文件损坏了&lt;br /&gt;4、电脑在joking？&lt;br /&gt;5、中毒了&lt;br /&gt;&lt;br /&gt;于是乎，先备份qq文件，然后卸载现有qq版本，然后上qq官方网站下载了07Release、08beta、09Preview 所有可能的version，然后一个个地安装，都不好使，无奈只得再一个个地卸载。至此，排除1.&lt;br /&gt;&lt;br /&gt;之后，又在本机上换了另一个qq号登陆，它。。。竟然好用，有点崩溃。&lt;br /&gt;于是又换了另外一台机器登陆，还是不好用。排除2-4.&lt;br /&gt;&lt;br /&gt;那就杀毒吧，趋势在线、360、QQ医生都用了，都没有查出病毒。无奈之下干起了老本行：挨个进程检查；查看系统启动项，没有异常，之后进入安全模式....一切都不管用。&lt;br /&gt;&lt;br /&gt;就这样折腾了一晚上还是没有解决，然后就在郁闷中度过了一晚。第二天起床后继续昨天未完的任务，不过能想到得都已近检查过了，剩下唯一的可能就是qq服务器有问题了，不过别得号码正常，难不成。。。我的qq号码进入服务器黑名单了？ 不过想想不应该啊，我也没用彩虹外挂、珊瑚虫版本，又没有做过暴力破解的勾当，是老实的不能再老实得平民了，难道这也有错？&lt;br /&gt;无奈之下，只好求助于qq客服，得知当qq服务器处在调整期时，部分号码段可能会受影响不能正常登陆。。。 难道这也可以，这样难得的事情也能让我碰上，这算是幸运还是不幸呢？真得很无奈，都有点无语了。点背也许是我的问题，不过qq是不是也应该事先、人道地通知一下用户呢，起码有个心里准备也好。。。&lt;br /&gt;&lt;br /&gt;后记：晚上，qq终于可以正常登陆了，就像往常一样，好像什么都没有发生一样。&lt;br /&gt;为了防止意外，又做了以下预防措施：&lt;br /&gt;1、备份数据&lt;br /&gt;2、增强密码保护策略&lt;br /&gt;3、把MSN快捷方式放在了一个显眼得位置。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2771986383769259839?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2771986383769259839/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2771986383769259839' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2771986383769259839'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2771986383769259839'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/11/qq.html' title='诡异的qq问题'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2841173943006284172</id><published>2008-10-31T22:07:00.002+08:00</published><updated>2008-10-31T22:09:58.376+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='生活点滴'/><title type='text'>路由器 VS 交换机</title><content type='html'>今天校办一个老师打电话让我帮她们组建办公室局域网，于是风风火火跑到奥林匹克电子城，不幸的是少坐了一站就下车了，之后一顿瞎找，问了N多人之后总算到达了电子城。&lt;br /&gt;&lt;br /&gt;进如电子城之后，看到“玲琅满目”的电子产品之后，我的头就有点晕晕的感觉（我不太习惯、也不喜欢大商场的那种气氛），于是按就近原则，选择了最近的一家咨询了一下。鉴于我的实际需求，店员建议我买一款5口的交换机即可满足一般需求了，且选择了TP Link这一大众化品牌，考虑到价格不是很贵（70RMB），在预算之内，于是匆匆忙忙交钱闪人了。&lt;br /&gt;&lt;br /&gt;回到学校之后，马上将之连入网路，可这时问题来了，那个曾经熟悉的、通过Web方式管制的（&lt;a href="http://192.168.1.1/"&gt;http://192.168.1.1/&lt;/a&gt;）界面死活不出来，为此使出了浑身解数，枚举了所有可能，然而问题还没有得到解决，没办法只能求助于Google——这个对我而言超“无敌”、超“王道”的工具，翻阅了数页“百度知道”、“雅虎知识堂”的QA之后，才恍然大悟：原来我买的是交换机，而我实际需要的则是一个路由器。&lt;br /&gt;&lt;br /&gt;那一刻，我开始悔恨啊，后悔当初怎么就没有把网络给学明白呀，竟然犯这么低级、弱智的错误，于是恶补了一下这方面的知识，谨防再次犯类似的错误。&lt;br /&gt;以下是我从网上搜集的一些关于交换机、路由器区别方面的知识，置此以备用，同时也喜欢能对他人有做帮助。以下文字的版权归属于互联网以及匿名作者，特此申明！&lt;br /&gt;&lt;br /&gt;////////////////////////////////////////////////////////////////////&lt;br /&gt;&lt;br /&gt;最近看到很多人在询问交换机、集线器、路由器是什么，功能如何，有何区别，笔者就这些问题简单的做些解答。&lt;br /&gt;&lt;br /&gt;　　首先说HUB,也就是集线器。它的作用可以简单的理解为将一些机器连接起来组成一个局域网。而交换机（又名交换式集线器）作用与集线器大体相同。但是两者在性能上有区别：集线器采用的式共享带宽的工作方式，而交换机是独享带宽。这样在机器很多或数据量很大时，两者将会有比较明显的。而路由器与以上两者有明显区别，它的作用在于连接不同的网段并且找到网络中数据传输最合适的路径 ，可以说一般情况下个人用户需求不大。路由器是产生于交换机之后，就像交换机产生于集线器之后，所以路由器与交换机也有一定联系，并不是完全独立的两种设备。路由器主要克服了交换机不能路由转发数据包的不足。&lt;br /&gt;&lt;br /&gt;　　总的来说，路由器与交换机的主要区别体现在以下几个方面：&lt;br /&gt;&lt;br /&gt;　　（1）工作层次不同&lt;br /&gt;　　最初的的交换机是工作在OSI／RM开放体系结构的数据链路层，也就是第二层，而路由器一开始就设计工作在OSI模型的网络层。由于交换机工作在OSI的第二层（数据链路层），所以它的工作原理比较简单，而路由器工作在OSI的第三层（网络层），可以得到更多的协议信息，路由器可以做出更加智能的转发决策。&lt;br /&gt;&lt;br /&gt;　　（2）数据转发所依据的对象不同&lt;br /&gt;　　交换机是利用物理地址或者说MAC地址来确定转发数据的目的地址。而路由器则是利用不同网络的ID号（即IP地址）来确定数据转发的地址。IP地址是在软件中实现的，描述的是设备所在的网络，有时这些第三层的地址也称为协议地址或者网络地址。MAC地址通常是硬件自带的，由网卡生产商来分配的，而且已经固化到了网卡中去，一般来说是不可更改的。而IP地址则通常由网络管理员或系统自动分配。&lt;br /&gt;&lt;br /&gt;　　（3）传统的交换机只能分割冲突域，不能分割广播域；而路由器可以分割广播域&lt;br /&gt;　　由交换机连接的网段仍属于同一个广播域，广播数据包会在交换机连接的所有网段上传播，在某些情况下会导致通信拥挤和安全漏洞。连接到路由器上的网段会被分配成不同的广播域，广播数据不会穿过路由器。虽然第三层以上交换机具有VLAN功能，也可以分割广播域，但是各子广播域之间是不能通信交流的，它们之间的交流仍然需要路由器。&lt;br /&gt;&lt;br /&gt;　　（4）路由器提供了防火墙的服务&lt;br /&gt;　　路由器仅仅转发特定地址的数据包，不传送不支持路由协议的数据包传送和未知目标网络数据包的传送，从而可以防止广播风暴。&lt;br /&gt;&lt;br /&gt;　　交换机一般用于LAN-WAN的连接，交换机归于网桥，是数据链路层的设备，有些交换机也可实现第三层的交换。 路由器用于WAN-WAN之间的连接，可以解决异性网络之间转发分组，作用于网络层。他们只是从一条线路上接受输入分组，然后向另一条线路转发。这两条线路可能分属于不同的网络，并采用不同协议。相比较而言，路由器的功能较交换机要强大，但速度相对也慢，价格昂贵，第三层交换机既有交换机线速转发报文能力，又有路由器良好的控制功能，因此得以广泛应用。&lt;br /&gt;&lt;br /&gt;　　目前个人比较多宽带接入方式就是ADSL，因此笔者就ADSL的接入来简单的说明一下。现在购买的ADSL猫大多具有路由功能（很多的时候厂家在出厂时将路由功能屏蔽了，因为电信安装时大多是不启用路由功能的，启用DHCP。打开ADSL的路由功能），如果个人上网或少数几台通过ADSL本身就可以了，如果电脑比较多你只需要再购买一个或多个集线器或者交换机。考虑到如今集线器与交换机的 价格相差十分小，不是特殊的原因，请购买一个交换机。不必去追求高价，因为如今产品同质化十分严重，我最便宜的交换机现在没有任 何问题。给你一个参考报价，建议你购买一个8口的，以满足扩充需求，一般的价格100元左右。接上交换机，所有电脑再接到交换机上就行了。余下所要做的事情就只有把各个机器的网线插入交换机的接口，将猫的网线插入uplink接口。然后设置路由功能，DHCP等， 就可以共享上网了。&lt;br /&gt;&lt;br /&gt;　　看完以上的解说读者应该对交换机、集线器、路由器有了一些了解，目前的使用主要还是以交换机、路由器的组合使用为主，具体的组合方式可根据具体的网络情况和需求来确定。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2841173943006284172?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2841173943006284172/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2841173943006284172' title='3 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2841173943006284172'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2841173943006284172'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/vs.html' title='路由器 VS 交换机'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-8100382288067188947</id><published>2008-10-30T18:44:00.001+08:00</published><updated>2008-10-30T18:47:01.264+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>经典培训故事18则[ZZ]</title><content type='html'>Form: BBS of DLUT&lt;br /&gt;&lt;br /&gt;&lt;p&gt;1、曾经有个小国到中国来，进贡了三个一模一样的金人，金壁辉煌，把皇帝高兴坏了。可是这小国不厚道，同时出一道题目：这三个金人哪个最有价值？皇帝想了许多的办法，请来珠宝匠检查，称重量，看做工，都是一模一样的。怎么办？使者还等着回去汇报呢。泱泱大国，不会连这个小事都不懂吧？最后，有一位退位的老大臣说他有办法。皇帝将使者请到大殿，老臣胸有成足地拿着三根稻草，插入第一个金人的耳朵里，这稻草从另一边耳朵出来了。第二个金人的稻草从嘴巴里直接掉出来，而第三个金人，稻草进去后掉进了肚子，什么响动也没有。老臣说：第三个金人最有价值！使者默默无语，答案正确。这个故事告诉我们，最有价值的人，不一定是最能说的人的人。老天给我们两只耳朵一个嘴巴，本来就是让我们多听少说的。善于倾听，才是成熟的人最基本的素质。&lt;/p&gt;&lt;p&gt;2、陈阿土是台湾的农民，从来没有出过远门。攒了半辈子的钱，终于参加一个旅游团出了国。国外的一切都是非常新鲜的，关键是，陈阿土参加的是豪华团，一个人住一个标准间。这让他新奇不已。早晨，服务生来敲门送早餐时大声说道：“GOODMORNING SIR！”陈阿土愣住了。这是什么意思呢？在自己的家乡，一般陌生的人见面都会问：“您贵姓？”于是陈阿土大声叫道：“我叫陈阿土！”如是这般，连着三天，都是那个服务生来敲门，每天都大声说：“GOODMORNING SIR！”而陈阿土亦大声回道：“我叫陈阿土！”但他非常的生气。这个服务生也太笨了，天天问自己叫什么，告诉他又记不住，很烦的。终于他忍不住去问导游，“GOODMORNING SIR！”是什么意思，导游告诉了他，天啊！！真是丢脸死了。陈阿土反复练习“GOODMORNING SIR！”这个词，以便能体面地应对服务生。又一天的早晨，服务生照常来敲门，门一开陈阿土就大声叫道：“GOODMORNING SIR！”与此同时，服务生叫的是：“我是陈阿土！”这个故事告诉我们，人与人交往，常常是意志力与意志力的较量。不是你影响他，就是他影响你，而我们要想成功，一定要培养自己的影响力，只有影响力大的人才可以成为最强者。&lt;/p&gt;&lt;p&gt;3、有三个人要被关进监狱三年，监狱长给他们三个一人一个要求。美国人爱抽雪茄，要了三箱雪茄。法国人最浪漫，要一个美丽的女子相伴。而犹太人说，他要一部与外界沟通的电话。三年过后，第一个冲出来的是美国人，嘴里鼻孔里塞满了雪茄，大喊道：“给我火，给我火！”原来他忘了要火了。接着出来的是法国人。只见他手里抱着一个小孩子，美丽女子手里牵着一个小孩子，肚子里还怀着第三个。最后出来的是犹太人，他紧紧握住监狱长的手说：“这三年来我每天与外界联系，我的生意不但没有停顿，反而增长了200％，为了表示感谢，我送你一辆劳施莱斯！”这个故事告诉我们，什么样的选择决定什么样的生活。今天的生活是由三年前我们的选择决定的，而今天我们的抉择将决定我们三年后的生活。我们要选择接触最新的信息，了解最新的趋势，从而更好的创造自己的将来。&lt;/p&gt;&lt;p&gt;4、去过庙的人都知道，一进庙门，首先是弥陀佛，笑脸迎客，而在他的北面，则是黑口黑脸的韦陀。但相传在很久以前，他们并不在同一个庙里，而是分别掌管不同的庙。弥乐佛热情快乐，所以来的人非常多，但他什么都不在乎，丢三拉四，没有好好的管理账务，所以依然入不敷出。而韦陀虽然管账是一把好手，但成天阴着个脸，太过严肃，搞得人越来越少，最后香火断绝。佛祖在查香火的时候发现了这个问题，就将他们俩放在同一个庙里，由弥乐佛负责公关，笑迎八方客，于是香火大旺。而韦陀铁面无私， 锱珠必较，则让他负责财务，严格把关。在两人的分工合作中，庙里一派欣欣向荣景象。其实在用人大师的眼里，没有废人，正如武功高手，不需名贵宝剑，摘花飞叶即可伤人，关键看如何运用。 　&lt;/p&gt;&lt;p&gt; 5、一个人去买鹦鹉，看到一只鹦鹉前标：此鹦鹉会两门语言，售价二百元。另一只鹦鹉前则标道：此鹦鹉会四门语言，售价四百元。该买哪只呢？两只都毛色光鲜，非常灵活可爱。这人转啊转，拿不定主意。结果突然发现一只老掉了牙的鹦鹉，毛色暗淡散乱，标价八百元。这人赶紧将老板叫来：这只鹦鹉是不是会说八门语言？店主说：不。这人奇怪了：那为什么又老又丑，又没有能力，会值这个数呢？店主回答：因为另外两只鹦鹉叫这只鹦鹉老板。这故事告诉我们，真正的领导人，不一定自己能力有多强，只要懂信任，懂放权，懂珍惜，就能团结比自己更强的力量，从而提升自己的身价。相反许多能力非常强的人却因为过于完美主义，事必躬亲，什么人都不如自己，最后只能做最好的攻关人员，销售代表，成不了优秀的领导人。&lt;/p&gt;&lt;p&gt;6、A，在合资公司做白领，觉得自己满腔抱负没有得到上级的赏识，经常想：如果有一天能见到老总，有机会展示一下自己的才干就好了！！A的同事B，也有同样的想法，他更进一步，去打听老总上下班的时间，算好他大概会在何时进电梯，他也在这个时候去坐电梯，希望能遇到老总，有机会可以打个招呼。他们的同事C更进一步。他详细了解老总的奋斗历程，弄清老总毕业的学校，人际风格，关心的问题，精心设计了几句简单却有份量的开场 白，在算好的时间去乘坐电梯，跟老总打过几次招呼后，终于有一天跟老总长谈了一次，不久就争取到了更好的职位。愚者错失机会，智者善抓机会，成功者创造机会。机会只给准备好的人，这准备二字，并非说说而已。 &lt;/p&gt;&lt;p&gt;7、一个心理学教授到疯人院参观，了解疯子的生活状态。一天下来，觉得这些人疯疯癫癫，行事出人意料，可算大开眼界。想不到准备返回时，发现自己的车胎被人下掉了。“一定是哪个疯子干的！”教授这样愤愤地想道，动手拿备胎准备装上。事情严重了。下车胎的人居然将螺丝也都下掉。没有螺丝有备胎也上不去啊！教授一筹莫展。在他着急万分的时候，一个疯子蹦蹦跳跳地过来了，嘴里唱着不知名的欢乐歌曲。他发现了困境中的教授，停下来问发生了什么事。教授懒得理他，但出于礼貌还是告诉了他。疯子哈哈大笑说：“我有办法！”他从每个轮胎上面下了一个螺丝，这样就拿到三个螺丝将备胎装了上去。教授惊奇感激之余，大为好奇：“请问你是怎么想到这个办法的？”疯子嘻嘻哈哈地笑道：“我是疯子，可我不是呆子啊！”其实，世上有许多的人，由于他们发现了工作中的乐趣，总会表现出与常人不一样的狂热，让人难以理解。许多人在笑话他们是疯子的时候，别人说不定还在笑他呆子呢。做人呆呆，处事聪明，在中国尤其不失为一种上佳做人姿态。&lt;/p&gt;&lt;p&gt;8、有一个博士分到一家研究所，成为学历最高的一个人。有一天他到单位后面的小池塘去钓鱼，正好正副所长在他的一左一右，也在钓鱼。他只是微微点了点头，这两个本科生，有啥好聊的呢？不一会儿，正所长放下钓竿，伸伸懒腰，蹭蹭蹭从水面上如飞地走到对面上厕所。博士眼睛睁得都快掉下来了。水上飘？不会吧？这可是一个池塘啊。正所长上完厕所回来的时候，同样也是蹭蹭蹭地从水上飘回来了。怎么回事？博士生又不好去问，自己是博士生哪！过一阵，副所长也站起来，走几步，蹭蹭蹭地飘过水面上厕所。这下子博士更是差点昏倒：不会吧，到了一个江湖高手集中的地方？博士生也内急了。这个池塘两边有围墙，要到对面厕所非得绕十分钟的路，而回单位上又太远，怎么办？博士生也不愿意去问两位所长，憋了半天后，也起身往水里跨：我就不信本科生能过的水面，我博士生不能过。只听咚的一声，博士生栽到了水里。两位所长将他拉了出来，问他为什么要下水，他问：“为什么你们可以走过去呢？”两所长相视一笑：“这池塘里有两排木桩子，由于这两天下雨涨水正好在水面下。我们都知道这木桩的位置，所以可以踩着桩子过去。你怎么不问一声呢？”学历代表过去，只有学习力才能代表将来。尊重经验的人，才能少走弯路。一个好的团队，也应该是学习型的团队。&lt;/p&gt;&lt;p&gt;9、A对B说：“我要离开这个公司。我恨这个公司！”B建议道：“我举双手赞成你报复！！破公司一定要给它点颜色看看。不过你现在离开，还不是最好的时机。”A问：？？？B说：“如果你现在走，公司的损失并不大。你应该趁着在公司的机会，拼命去为自己拉一些客户，成为公司独挡一面的人物，然后带着这 些客户突然离开公司，公司才会受到重大损失，非常被动。”A觉得B说的非常在理。于是努力工作，事遂所愿，半年多的努力工作后，他有了许多的忠实客户。再见面时B问A：现在是时机了，要跳赶快行动哦！A淡然笑道：老总跟我长谈过，准备升我做总经理助理，我暂时没有离开的打算了。其实这也正是B的初衷。一个人的工作，永远只是为自己的简历。只有付出大于得到，让老板真正看到你的能力大于位置，才会给你更多的机会替他创造更多利润。&lt;/p&gt;&lt;p&gt;10、有一位表演大师上场前，他的弟子告诉他鞋带松了。大师点头致谢，蹲下来仔细系好。等到弟子转身后，又蹲下来将鞋带解松。有个旁观者看到了这一切，不解地问：“大师，您为什么又要将鞋带解松呢？”大师回答道：“因为我饰演的是一位劳累的旅者，长途跋涉让他的鞋事松开，可以通过这个细节表现他的劳累憔悴.”“那你为什么不直接告诉你的弟子呢？”“他能细心地发现我的鞋带松了，并且热心地告诉我，我一定要保护他这种热情的积极性，及时地给他鼓励，至于为什么要将鞋带解开，将来会有更多的机会教他表演，可以下一次再说啊。”人一个时间只能做一件事，懂抓重点，才是真正的人才。&lt;/p&gt;&lt;p&gt;11、有个富家子弟特别爱吃饺子，每天都要吃。但他又特别刁，只吃馅，两头的皮尖尖就丢到后面的小河里去。好景不长，在他十六岁那年，一把大火烧了他的全家，父母急怒中相继病逝。这下他身无分文，又不好意思要饭。邻居家大嫂非常好，每餐给他吃一碗面糊糊。他则发奋读书，三年后考取官位回来，一定要感谢邻居大嫂。大嫂对他讲：不要感谢我。我没有给你什么，都是我收集的当年你丢的饺子皮尖，晒干后装了好凡麻袋，本来是想备不时之需的。正好你有需要，就又还给你了。大官思考良久，良久。。。。有一个有名的三八理论：八小时睡觉，八小时工作，这个人人一样。人与人之间的不同，是在于业余时间怎么渡过。时间是最有情，也最无情的东西，每人拥有的都一样，非常公平。但拥有资源的人不一定成功，善用资源的人才会成功。白天图生存，晚上求发展，这是二十一世纪对人才的要求。&lt;/p&gt;&lt;p&gt;12、两个人在森林里，遇到了一只大老虎。A就赶紧从背后取下一双更轻便的运动鞋换上。 B急死了，骂道：“你干嘛呢，再换鞋也跑不过老虎啊！”A说：“我只要跑得比你快就好了。”二十一世纪，没有危机感是最大的危机。特别是入关在即，电信，银行，保险，甚至是公务员这些我们以为非常稳定和有保障的企业，也会面临许多的变数。当更多的老虎来临时，我们没有有准备好自己的跑鞋？&lt;/p&gt;&lt;p&gt;13、父子两住山上，每天都要赶牛车下山卖柴。老父较有经验，坐镇驾车，山路崎岖，弯道特多，儿子眼神较好，总是在要转弯时提醒道：“爹，转弯啦！”有一次父亲因病没有下山，儿子一人驾车。到了弯道，牛怎么也不肯转弯，儿子用尽各种方法，下车又推又拉，用青草诱之，牛一动不动。到底是怎么回事？儿子百思不得其解。最后只有一个办法了，他左右看看无人，贴近牛的耳朵大声叫道：“爹，转弯啦！”牛应声而动。牛用条件反射的方式活着，而人则以习惯生活。一个成功的人晓得如何培养好的习惯来代替坏的习惯，当好的习惯积累多了，自然会有一个好的人生。&lt;/p&gt;&lt;p&gt;14、五岁的汉克和爸爸妈妈哥哥一起到森林干活，突然间下起雨来，可是他们只带了一块雨披。爸爸将雨披给了妈妈，妈妈给了哥哥，哥哥又给了汉克。汉克问道：“为什么爸爸给了妈妈，妈妈给了哥哥，哥哥又给了我呢？”爸爸回答道：“因为爸爸比妈妈强大，妈妈比哥哥强大，哥哥又比你强大呀。我们都会保护比较弱小的人。”汉克左右看了看，跑过去将雨披撑开来挡在了一朵风雨中飘摇的娇弱小花上面。这个故事告诉我们，真正的强者不一定是多有力，或者多有钱，而是他对别人多有帮助。责任可以让我们将事做完整，爱可以让我们将事情做好。&lt;/p&gt;&lt;p&gt;15、有位秀才第三次进京赶考，住在一个经常住的店里。考试前两天他做了三个梦，第一个梦是梦到自己在墙上种白菜，第二个梦是下雨天，他戴了斗笠还打伞，第三个梦是梦到跟心爱的表妹脱光了衣服躺在一起，但是背靠着背。这三个梦似乎有些深意，秀才第二天就赶紧去找算命的解梦。算命的一听，连拍大腿说：“你还是回家吧。你想想，高墙上种菜不是白费劲吗？戴斗笠打雨伞不是多此一举吗？跟表妹都脱光了躺在一张床上了，却背靠背，不是没戏吗？”秀才一听，心灰意冷，回店收拾包袱准备回家。店老板非常奇怪，问：“不是明天才考试吗，今天你怎么就回乡了？”秀才如此这般说了一番，店老板乐了：“哟，我也会解梦的。我倒觉得，你这次一定要留下来。你想想，墙上种菜不是高种吗？戴斗笠打伞不是说明你这次有备无患吗？跟你表妹脱光了背靠靠躺在床上，不是说明你翻身的时候就要到了吗？”秀才一听，更有道理，于是精神振奋地参加考试，居然中了个探花。积极的人，象太阳，照到哪里哪里亮，消极的人，象月亮，初一十五不一样。想法决定我们的生活，有什么样的想法，就有什么样的未来。&lt;/p&gt;&lt;p&gt;16、在动物园里的小骆驼问妈妈：“妈妈妈妈，为什么我们的睫毛那么地长？”骆驼妈妈说：“当风沙来的时候，长长的睫毛可以让我们在风暴中都能看得到方向。”小骆驼又问：“妈妈妈妈，为什么我们的背那么驼，丑死了！”骆驼妈妈说：“这个叫驼峰，可以帮我们储存大量的水和养分，让我们能在沙漠里耐受十几天的无水无食条件。”小骆驼又问：“妈妈妈妈，为什么我们的脚掌那么厚？”骆驼妈妈说：“那可以让我们重重的身子不至于陷在软软的沙子里，便于长途跋涉啊。”小骆驼高兴坏了：“哗，原来我们这么有用啊！！可是妈妈，为什么我们还在动物园里，不去沙漠远足呢？”天生我才必有用，可惜现在没人用。一个好的心态+一本成功的教材+一个无限的舞台=成功。每人的潜能是无限的，关键是要找到一个能充分发挥潜能的舞台。&lt;/p&gt;&lt;p&gt;17、有七个人曾经住在一起，每天分一大桶粥。要命的是，粥每天都是不够的。一开始，他们抓阄决定谁来分粥，每天轮一个。于是乎每周下来，他们只有一天是饱的，就是自己分粥的那一天。后来他们开始推选出一个道德高尚的人出来分粥。强权就会产生腐败，大家开始挖空心思去讨好他，贿赂他，搞得整个小团体乌烟障气。然后大家开始组成三人的分粥委员会及四人的评选委员会，互相攻击扯皮下来，粥吃到嘴里全是凉的。最后想出来一个方法：轮流分粥，但分粥的人要等其它人都挑完后拿剩下的最后一碗。为了不让自己吃到最少的，每人都尽量分得平均，就算不平，也只能认了。大家快快乐乐，和和气气，日子越过越好。同样是七个人，不同的分配制度，就会有不同的风气。所以一个单位如果有不好的工作习气，一定是机制问题，一定是没有完全公平公正公开，没有严格的奖勤罚懒。如何制订这样一个制度，是每个领导需要考虑的问题。&lt;/p&gt;&lt;p&gt;18、我想跟什么样的人合作曾经有人采访比尔盖次成功的秘决。比尔盖次说：因为又有更多的成功人士在为我工作。陈安之的超级成功学也有提到：先为成功的人工作，再与成功的人合作，最后是让成功的人为你工作。成功的人很多，但在我生活中我不认识，也没有办法去为他工作，而让成功的人为我工作，在现阶段，我更没有这个实力。只有合作，是我最喜欢和最欣赏的。我也力图借助一个宽松的环境和积极的团队，与更多的人公平合作，以便在未来替自己经营一个抵抗风险的事业。我最喜欢合作的人应该有以下几个特点：一。不甘心。二十一世纪，最大的危机是没有危机感，最大的陷阱是满足。人要学会用望远镜看世界，而不是用近视眼看世界。顺境时要想着为自己找个退路，逆境时要懂为自己找出路.二.学习力强.学历代表过去,学习力掌握将来.懂得从任何的细节,所有的人身上学习和感悟,并且要懂得举一反三。主要的是，学习，其实是学与习两个字。学一次，做一百次，才能真正掌握。学，做，教是一个完整的过程，只有达到教的程度，才算真正吃透。而且在更多时候，学习是一种态度。只有谦卑的人，才真正学到东西。大海之所以成为大海，是因为它比所有的河流都低。三。行动力强。只有行动才会有结果。行动不一样，结果才不一样。知道不去做，等于不知道，做了没有结果，等于没有做。不犯错误，一定会错，因为不犯错误的人一定没有尝试。错了不要紧，一定要善于总结，然后再做，一直到正确的结果出来为止。四。要懂付出。要想杰出一定得先付出。斤斤计较的人，一生只得两斤。没有点奉献精神，是不可能创业的。要先用行动让别人知道，你有超过所得的价值，别人才会开更高的价。五。有强烈的沟通意识。沟通无极限，这更是一种态度，而非一种技巧。一个好的团队当然要有共同的愿景，非一日可以得来。需要无时不在的沟通，从目标到细节，甚至到家庭等等，都在沟通的内容之列。六。诚恳大方。每人都有不同的立场，不可能要求利益都一致。关键是大家都要开诚布公地谈清楚，不要委屈求全。相信诚信才是合作的最好基石。七。有最基本的道德观。曾经有一个记者在家写稿时，他的四岁儿子吵着要他陪。记者很烦，就将一本杂志的封底撕碎，对他儿子说：“ 你先将这上面的世界地图拼完整，爸爸就陪你玩。”过了不到五分钟，儿子又来拖他的手说：“爸爸我拼好了，陪我玩！”记者很生气：“小孩子要玩是可以理解的，但如果说谎话就不好了。怎么可能这么快就拼好世界地图！”儿子非常委屈：“可是我真的拼好了呀！”记者一看，果然如此：不会吧？家里出现了神童？他非常好奇地问：“你是怎么做到的？”儿子说：世界地图的背面是一个人的头像。我反过来拼，只要这个人好了，世界就完整了。所以做事先做人。做人做好了，他的世界也就是好的。&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-8100382288067188947?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/8100382288067188947/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=8100382288067188947' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8100382288067188947'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8100382288067188947'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/18zz.html' title='经典培训故事18则[ZZ]'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-6992639504123457311</id><published>2008-10-28T18:44:00.003+08:00</published><updated>2008-10-28T18:51:42.490+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='C/C++'/><title type='text'>计算Tribonaci队列</title><content type='html'>&lt;p&gt;计算Tribonaci队列, 规则是T(n) = T(n - 1) + T(n - 2) + T(n -3)，其中T(0) = T(1) = 1，T(2) = 2。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;/** Get the value of T(n - 1), and retrieve the result of T(n - 2) and T(n - 3). &lt;/p&gt;&lt;p&gt;@param[in] n The n in T(n). &lt;/p&gt;&lt;p&gt;@param[out] mid Value of T(n - 2). &lt;/p&gt;&lt;p&gt;@param[out] right Value of T(n - 3). &lt;/p&gt;&lt;p&gt;@return Value of T(n - 1). &lt;/p&gt;&lt;p&gt;*/&lt;/p&gt;&lt;p&gt;int find_trib(int n, int &amp;amp; mid, int &amp;amp; right)&lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;if (3 == n) &lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;mid = 1; &lt;/p&gt;&lt;p&gt;right = 1; &lt;/p&gt;&lt;p&gt;return 2; &lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;else &lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;int temp; &lt;/p&gt;&lt;p&gt;mid = find_trib(n - 1, right, temp); &lt;/p&gt;&lt;p&gt;return mid + right + temp; &lt;/p&gt;&lt;p&gt; }&lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;&lt;br /&gt;/** Find value of T(n). &lt;/p&gt;&lt;p&gt;@param[in] The n in T(n). &lt;/p&gt;&lt;p&gt;@return Value of T(n). &lt;/p&gt;&lt;p&gt;@note T(n) = T(n - 1) + T(n - 2) + T(n - 3) (n &gt; 2) &lt;/p&gt;&lt;p&gt;T(0) = T(1) = 1, T(2) = 2. &lt;/p&gt;&lt;p&gt;*/&lt;/p&gt;&lt;p&gt;int tribonaci(int n)&lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;if (n &lt;&gt;{ &lt;/p&gt;&lt;p&gt;return 0; // Undefined feature. &lt;/p&gt;&lt;p&gt;}&lt;/p&gt;&lt;p&gt;if (0 == n  1 == n) &lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;return 1; &lt;/p&gt;&lt;p&gt;}&lt;br /&gt;if (2 == n)&lt;/p&gt;&lt;p&gt;{&lt;/p&gt;&lt;p&gt;return 2; &lt;/p&gt;&lt;p&gt;}&lt;br /&gt;int mid, right;&lt;/p&gt;&lt;p&gt;int left = find_trib(n, mid, right); &lt;/p&gt;&lt;p&gt;return left + mid + right;&lt;/p&gt;&lt;p&gt;}&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-6992639504123457311?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/6992639504123457311/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=6992639504123457311' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6992639504123457311'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6992639504123457311'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/tribonaci.html' title='计算Tribonaci队列'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-6205914558691170916</id><published>2008-10-25T21:20:00.005+08:00</published><updated>2008-10-25T22:08:36.834+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='C/C++'/><title type='text'>关于C的一些常见问题</title><content type='html'>From：&lt;br /&gt;&lt;br /&gt;&lt;p&gt;一道趣味题 &lt;/p&gt;&lt;p&gt;不借助于第三个变量，怎样交换两个变量的值？ &lt;/p&gt;&lt;p&gt;方法一： &lt;/p&gt;&lt;p&gt;a=a^b;&lt;/p&gt;&lt;p&gt;b=a^b; &lt;/p&gt;&lt;p&gt;a=a^b; &lt;/p&gt;&lt;p&gt;方法二： &lt;/p&gt;&lt;p&gt;a=a+b;&lt;/p&gt;&lt;p&gt;b=a-b; &lt;/p&gt;&lt;p&gt;a=a-b; &lt;/p&gt;&lt;p&gt;当然，这里所指的两个变量是同一类型的整数。如果是两个字符串，只要类似交换两个指针指即可。其它情况未考虑。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;一些嵌入式系统编程的测试题目 &lt;/p&gt;&lt;p&gt;1 . 用预处理指令#define 声明一个常数，用以表明1年中有多少秒（忽略闰年问题） &lt;/p&gt;&lt;p&gt;#define SECONDS_PER_YEAR (60 * 60 * 24 * 365)UL&lt;/p&gt;&lt;p&gt;我在这想看到几件事情： &lt;/p&gt;&lt;p&gt;• #define 语法的基本知识（例如：不能以分号结束，括号的使用，等等）&lt;/p&gt;&lt;p&gt;• 懂得预处理器将为你计算常数表达式的值，因此，直接写出你是如何计算一年中有多少秒而不是计算出实际的值，是更清晰而没有代价。 &lt;/p&gt;&lt;p&gt;• 意识到这个表达式将使一个16位机的整型数溢出-因此要用到长整型符号L,告诉编译器这个常数是的长整型数。 &lt;/p&gt;&lt;p&gt;• 如果你在你的表达式中用到UL（表示无符号长整型），那么你有了一个好的起点。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;2 . 写一个“标准”宏MIN ，这个宏输入两个参数并返回较小的一个。&lt;/p&gt;&lt;p&gt;#define MIN(A,B) （（A） &lt;= (B) ? (A) : (B)) &lt;/p&gt;&lt;p&gt;这个测试是为下面的目的而设的： &lt;/p&gt;&lt;p&gt;• 标识#define在宏中应用的基本知识。这是很重要的，因为直到嵌入(inline)操作符变为标准C的一部分，宏是方便产生嵌入代码的唯一方法，对于嵌入式系统来说，为了能达到要求的性能，嵌入代码经常是必须的方法。&lt;/p&gt;&lt;p&gt;• 三重条件操作符的知识。这个操作符存在C语言中的原因是它使得编译器能产生比if-then-else更优化的代码，了解这个用法是很重要的。&lt;/p&gt;&lt;p&gt;• 懂得在宏中小心地把参数用括号括起来 • 我也用这个问题开始讨论宏的副作用，例如：当你写下面的代码时会发生什么事？ least = MIN(*p++, b); &lt;/p&gt;&lt;p&gt;&lt;br /&gt;3. 预处理器标识#error的目的是什么？ &lt;/p&gt;&lt;p&gt;输出编译时出错信息，一般大型项目中都要用到，如同ASSERT（）。另外一个对应的是#warning()，输出编译时警告信息。 &lt;/p&gt;&lt;p&gt;5. 用变量a给出下面的定义 &lt;/p&gt;&lt;p&gt;a) 一个整型数（An integer） &lt;/p&gt;&lt;p&gt;b)一个指向整型数的指针（ A pointer to an integer）&lt;/p&gt;&lt;p&gt;c)一个指向指针的的指针，它指向的指针是指向一个整型数（ A pointer to a pointer to an intege）&lt;/p&gt;&lt;p&gt;d)一个有10个整型数的数组（ An array of 10 integers） &lt;/p&gt;&lt;p&gt;e) 一个有10个指针的数组，该指针是指向一个整型数的。（An array of 10 pointers to integers）&lt;/p&gt;&lt;p&gt;f) 一个指向有10个整型数数组的指针（ A pointer to an array of 10 integers） &lt;/p&gt;&lt;p&gt;g) 一个指向函数的指针，该函数有一个整型参数并返回一个整型数（A pointer to a function that takes an integer as an argument and returns an integer） &lt;/p&gt;&lt;p&gt;h)一个有10个指针的数组，该指针指向一个函数，该函数有一个整型参数并返回一个整型数（ An array of ten pointers to functions that take an integer argument and return an integer ）&lt;/p&gt;&lt;p&gt;答案是： &lt;/p&gt;&lt;p&gt;a) int a; // An integer&lt;/p&gt;&lt;p&gt;b) int *a; // A pointer to an integer &lt;/p&gt;&lt;p&gt;c) int **a; // A pointer to a pointer to an integer &lt;/p&gt;&lt;p&gt;d) int a[10]; // An array of 10 integers &lt;/p&gt;&lt;p&gt;e) int *a[10]; // An array of 10 pointers to integers &lt;/p&gt;&lt;p&gt;f) int (*a)[10]; // A pointer to an array of 10 integers &lt;/p&gt;&lt;p&gt;g) int (*a)(int); // A pointer to a function a that takes an integer argument and returns an integer &lt;/p&gt;&lt;p&gt;h) int (*a[10])(int); // An array of 10 pointers to functions that take an integer argument and return an integer &lt;/p&gt;&lt;p&gt;人们经常声称这里有几个问题是那种要翻一下书才能回答的问题，我同意这种说法。当我写这篇文章时，为了确定语法的正确性，我的确查了一下书。但是当我被面试的时候，我期望被问到这个问题（或者相近的问题）。因为在被面试的这段时间里，我确定我知道这个问题的答案。应试者如果不知道所有的答案（或至少大部分答案），那么也就没有为这次面试做准备，如果该面试者没有为这次面试做准备，那么他又能为什么出准备呢？ &lt;/p&gt;&lt;p&gt;&lt;/p&gt;&lt;p&gt;6. 关键字static的作用是什么？ &lt;/p&gt;&lt;p&gt;这个简单的问题很少有人能回答完全。在C语言中，关键字static有三个明显的作用：&lt;/p&gt;&lt;p&gt;• 在函数体，一个被声明为静态的变量在这一函数被调用过程中维持其值不变。&lt;/p&gt;&lt;p&gt;• 在模块内（但在函数体外），一个被声明为静态的变量可以被模块内所用函数访问，但不能被模块外其它函数访问。它是一个本地的全局变量。 &lt;/p&gt;&lt;p&gt;• 在模块内，一个被声明为静态的函数只可被这一模块内的其它函数调用。那就是，这个函数被限制在声明它的模块的本地范围内使用。 大多数应试者能正确回答第一部分，一部分能正确回答第二部分，同是很少的人能懂得第三部分。这是一个应试者的严重的缺点，因为他显然不懂得本地化数据和代码范围的好处和重要性。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;7．关键字const有什么含意？ &lt;/p&gt;&lt;p&gt;我只要一听到被面试者说：“const意味着常数”，我就知道我正在和一个业余者打交道。去年Dan Saks已经在他的文章里完全概括了const的所有用法，因此ESP(译者：Embedded Systems Programming)的每一位读者应该非常熟悉const能做什么和不能做什么.如果你从没有读到那篇文章，只要能说出const意味着“只读”就可以了。尽管这个答案不是完全的答案，但我接受它作为一个正确的答案。（如果你想知道更详细的答案，仔细读一下Saks的文章吧。） &lt;/p&gt;&lt;p&gt;如果应试者能正确回答这个问题，我将问他一个附加的问题： 下面的声明都是什么意思？&lt;/p&gt;&lt;p&gt;const int a; &lt;/p&gt;&lt;p&gt;int const a; &lt;/p&gt;&lt;p&gt;const int *a; &lt;/p&gt;&lt;p&gt;int * const a; &lt;/p&gt;&lt;p&gt;int const * a const; /******/ &lt;/p&gt;&lt;p&gt;前两个的作用是一样，a是一个常整型数。&lt;/p&gt;&lt;p&gt;第三个意味着a是一个指向常整型数的指针（也就是，整型数是不可修改的，但指针可以）。&lt;/p&gt;&lt;p&gt;第四个意思a是一个指向整型数的常指针（也就是说，指针指向的整型数是可以修改的，但指针是不可修改的）。最后一个意味着a是一个指向常整型数的常指针（也就是说，指针指向的整型数是不可修改的，同时指针也是不可修改的）。如果应试者能正确回答这些问题，那么他就给我留下了一个好印象。顺带提一句，也许你可能会问，即使不用关键字const，也还是能很容易写出功能正确的程序，那么我为什么还要如此看重关键字const呢？我也如下的几下理由：&lt;/p&gt;&lt;p&gt;• 关键字const的作用是为给读你代码的人传达非常有用的信息，实际上，声明一个参数为常量是为了告诉了用户这个参数的应用目的。如果你曾花很多时间清理其它人留下的垃圾，你就会很快学会感谢这点多余的信息。（当然，懂得用const的程序员很少会留下的垃圾让别人来清理的。） • 通过给优化器一些附加的信息，使用关键字const也许能产生更紧凑的代码。&lt;/p&gt;&lt;p&gt;• 合理地使用关键字const可以使编译器很自然地保护那些不希望被改变的参数，防止其被无意的代码修改。简而言之，这样可以减少bug的出现。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;8. 关键字volatile有什么含意?并给出三个不同的例子。 一个定义为volatile的变量是说这变量可能会被意想不到地改变，这样，编译器就不会去假设这个变量的值了。精确地说就是，优化器在用到这个变量时必须每次都小心地重新读取这个变量的值，而不是使用保存在寄存器里的备份。下面是volatile变量的几个例子：&lt;/p&gt;&lt;p&gt;• 并行设备的硬件寄存器（如：状态寄存器） &lt;/p&gt;&lt;p&gt;• 一个中断服务子程序中会访问到的非自动变量(Non-automatic variables) &lt;/p&gt;&lt;p&gt;• 多线程应用中被几个任务共享的变量 &lt;/p&gt;&lt;p&gt;回答不出这个问题的人是不会被雇佣的。我认为这是区分C程序员和嵌入式系统程序员的最基本的问题。搞嵌入式的家伙们经常同硬件、中断、RTOS等等打交道，所有这些都要求用到volatile变量。不懂得volatile的内容将会带来灾难。 假设被面试者正确地回答了这是问题（嗯，怀疑是否会是这样），我将稍微深究一下，看一下这家伙是不是直正懂得volatile完全的重要性。 &lt;/p&gt;&lt;p&gt;• 一个参数既可以是const还可以是volatile吗？解释为什么。&lt;/p&gt;&lt;p&gt;• 一个指针可以是volatile 吗？解释为什么。&lt;/p&gt;&lt;p&gt;• 下面的函数有什么错误： int square(volatile int *ptr) { return *ptr * *ptr; } 下面是答案：&lt;/p&gt;&lt;p&gt;• 是的。一个例子是只读的状态寄存器。它是volatile因为它可能被意想不到地改变。它是const因为程序不应该试图去修改它。 &lt;/p&gt;&lt;p&gt;• 是的。尽管这并不很常见。一个例子是当一个中服务子程序修该一个指向一个buffer的指针时。 &lt;/p&gt;&lt;p&gt;• 这段代码有点变态。这段代码的目的是用来返指针*ptr指向值的平方，但是，由于*ptr指向一个volatile型参数，编译器将产生类似下面的代码：&lt;/p&gt;&lt;p&gt;int square(volatile int *ptr) &lt;/p&gt;&lt;p&gt;{&lt;/p&gt;&lt;p&gt;int a,b; &lt;/p&gt;&lt;p&gt;a = *ptr; &lt;/p&gt;&lt;p&gt;b = *ptr;&lt;/p&gt;&lt;p&gt;return a * b;&lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;由于*ptr的值可能被意想不到地该变，因此a和b可能是不同的。结果，这段代码可能返不是你所期望的平方值！正确的代码如下： &lt;/p&gt;&lt;p&gt;long square(volatile int *ptr) &lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;int a;&lt;/p&gt;&lt;p&gt;a = *ptr; &lt;/p&gt;&lt;p&gt;return a * a; &lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;&lt;br /&gt;9. 位操作（Bit manipulation）&lt;/p&gt;&lt;p&gt;嵌入式系统总是要用户对变量或寄存器进行位操作。给定一个整型变量a，写两段代码，第一个设置a的bit 3，第二个清除a 的bit 3。&lt;/p&gt;&lt;p&gt;在以上两个操作中，要保持其它位不变。 对这个问题有三种基本的反应 &lt;/p&gt;&lt;p&gt;• 不知道如何下手。该被面者从没做过任何嵌入式系统的工作。 &lt;/p&gt;&lt;p&gt;• 用bit fields。Bit fields是被扔到C语言死角的东西，它保证你的代码在不同编译器之间是不可移植的，同时也保证了的你的代码是不可重用的。我最近不幸看到Infineon为其较复杂的通信芯片写的驱动程序，它用到了bit fields因此完全对我无用，因为我的编译器用其它的方式来实现bit fields的。从道德讲：永远不要让一个非嵌入式的家伙粘实际硬件的边。 &lt;/p&gt;&lt;p&gt;• 用 #defines 和 bit masks 操作。这是一个有极高可移植性的方法，是应该被用到的方法。最佳的解决方案如下：&lt;/p&gt;&lt;p&gt;#define BIT3 (0x1 &lt;&lt;&gt; &lt;p&gt;static int a; &lt;/p&gt;&lt;p&gt;void set_bit3(void) &lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;a = BIT3; &lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;void clear_bit3(void)&lt;/p&gt;&lt;p&gt;{ &lt;/p&gt;&lt;p&gt;a &amp;amp;= ~BIT3;&lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;一些人喜欢为设置和清除值而定义一个掩码同时定义一些说明常数，这也是可以接受的。我希望看到几个要点：说明常数、=和&amp;amp;=~操作。 &lt;/p&gt;&lt;p&gt;10.访问固定的内存位置（Accessing fixed memory locations） &lt;/p&gt;&lt;p&gt;嵌入式系统经常具有要求程序员去访问某特定的内存位置的特点。在某工程中，要求设置一绝对地址为0x67a9的整型变量的值为0xaa66。编译器是一个纯粹的ANSI编译器。写代码去完成这一任务。 这一问题测试你是否知道为了访问一绝对地址把一个整型数强制转换（typecast）为一指针是合法的。这一问题的实现方式随着个人风格不同而不同。典型的类似代码如下：&lt;/p&gt;&lt;p&gt;int *ptr; &lt;/p&gt;&lt;p&gt;ptr = (int *)0x67a9; &lt;/p&gt;&lt;p&gt;*ptr = 0xaa55; &lt;/p&gt;&lt;p&gt;A more obscure approach is: 一个较晦涩的方法是：&lt;/p&gt;&lt;p&gt;*(int * const)(0x67a9) = 0xaa55; &lt;/p&gt;&lt;p&gt;即使你的品味更接近第二种方案，但我建议你在面试时使用第一种方案。 &lt;/p&gt;&lt;p&gt;11. 中断是嵌入式系统中重要的组成部分，这导致了很多编译开发商提供一种扩展—让标准C支持中断。具代表事实是，产生了一个新的关键字__interrupt。下面的代码就使用了__interrupt关键字去定义了一个中断服务子程序(ISR)，请评论一下这段代码的。 &lt;/p&gt;&lt;p&gt;__interrupt double compute_area (double radius)&lt;/p&gt;&lt;p&gt;{&lt;/p&gt;&lt;p&gt;double area = PI * radius * radius; &lt;/p&gt;&lt;p&gt;rintf("\nArea = %f", area);&lt;/p&gt;&lt;p&gt;return area;&lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;这个函数有太多的错误了，以至让人不知从何说起了：&lt;/p&gt;&lt;p&gt;• ISR 不能返回一个值。如果你不懂这个，那么你不会被雇用的。 &lt;/p&gt;&lt;p&gt;• ISR 不能传递参数。如果你没有看到这一点，你被雇用的机会等同第一项。 &lt;/p&gt;&lt;p&gt;• 在许多的处理器/编译器中，浮点一般都是不可重入的。有些处理器/编译器需要让额处的寄存器入栈，有些处理器/编译器就是不允许在ISR中做浮点运算。此外，ISR应该是短而有效率的，在ISR中做浮点运算是不明智的。&lt;/p&gt;&lt;p&gt;• 与第三点一脉相承，printf()经常有重入和性能上的问题。如果你丢掉了第三和第四点，我不会太为难你的。不用说，如果你能得到后两点，那么你的被雇用前景越来越光明了。 &lt;/p&gt;&lt;p&gt;12 . 下面的代码输出是什么，为什么？ &lt;/p&gt;&lt;p&gt;void foo(void) &lt;/p&gt;&lt;p&gt;{&lt;/p&gt;&lt;p&gt;unsigned int a = 6; &lt;/p&gt;&lt;p&gt;int b = -20;&lt;/p&gt;&lt;p&gt;(a+b &gt; 6) ? puts("&gt; 6") : puts("&lt;= 6"); &lt;/p&gt;&lt;p&gt;} &lt;/p&gt;&lt;p&gt;这个问题测试你是否懂得C语言中的整数自动转换原则，我发现有些开发者懂得极少这些东西。不管如何，这无符号整型问题的答案是输出是 ”&gt;6”。原因是当表达式中存在有符号类型和无符号类型时所有的操作数都自动转换为无符号类型。 因此-20变成了一个非常大的正整数，所以该表达式计算出的结果大于6。这一点对于应当频繁用到无符号数据类型的嵌入式系统来说是丰常重要的。如果你答错了这个问题，你也就到了得不到这份工作的边缘。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;13. 评价下面的代码片断：&lt;/p&gt;&lt;p&gt;unsigned int zero = 0; &lt;/p&gt;&lt;p&gt;unsigned int compzero = 0xFFFF; /*1's complement of zero */ &lt;/p&gt;&lt;p&gt;对于一个int型不是16位的处理器为说，上面的代码是不正确的。应编写如下：&lt;/p&gt;&lt;p&gt;unsigned int compzero = ~0; &lt;/p&gt;&lt;p&gt;这一问题真正能揭露出应试者是否懂得处理器字长的重要性。在我的经验里，好的嵌入式程序员非常准确地明白硬件的细节和它的局限，然而PC机程序往往把硬件作为一个无法避免的烦恼。 到了这个阶段，应试者或者完全垂头丧气了或者信心满满志在必得。如果显然应试者不是很好，那么这个测试就在这里结束了。但如果显然应试者做得不错，那么我就扔出下面的追加问题，这些问题是比较难的，我想仅仅非常优秀的应试者能做得不错。提出这些问题，我希望更多看到应试者应付问题的方法，而不是答案。不管如何，你就当是这个娱乐吧… &lt;/p&gt;&lt;p&gt;&lt;br /&gt;14. 动态内存分配（Dynamic memory allocation） &lt;/p&gt;&lt;p&gt;尽管不像非嵌入式计算机那么常见，嵌入式系统还是有从堆（heap）中动态分配内存的过程的。那么嵌入式系统中，动态分配内存可能发生的问题是什么？ 这里，我期望应试者能提到内存碎片，碎片收集的问题，变量的持行时间等等。这个主题已经在ESP杂志中被广泛地讨论过了（主要是 P.J. Plauger, 他的解释远远超过我这里能提到的任何解释），所有回过头看一下这些杂志吧！让应试者进入一种虚假的安全感觉后，我拿出这么一个小节目： &lt;/p&gt;&lt;p&gt;下面的代码片段的输出是什么，为什么？ &lt;/p&gt;&lt;p&gt;char *ptr; &lt;/p&gt;&lt;p&gt;if ((ptr = (char *)malloc(0)) == NULL) &lt;/p&gt;&lt;p&gt;puts("Got a null pointer"); &lt;/p&gt;&lt;p&gt;else &lt;/p&gt;&lt;p&gt;puts("Got a valid pointer"); &lt;/p&gt;&lt;p&gt;这是一个有趣的问题。最近在我的一个同事不经意把0值传给了函数malloc，得到了一个合法的指针之后，我才想到这个问题。这就是上面的代码，该代码的输出是“Got a valid pointer”。 malloc返回指向分配地址的void类型指针或者当分配空间不够时返回NULL空指针。返回非void类型的指针时，要进行类型转换。存储空间是确保类型对齐的。当参数为0的时候，则在堆中分配“0长度”项目，返回有效指针，一般的编译器实际是分配一个字节或者一个int长度的内存。 我们可以看看malloc.c的代码，里面写了：&lt;/p&gt;&lt;p&gt;if (size == 0)&lt;/p&gt;&lt;p&gt;size = 1; &lt;/p&gt;&lt;p&gt;size = (size + BYTES_PER_PARA - 1) &amp;amp; ~(BYTES_PER_PARA - 1); &lt;/p&gt;&lt;p&gt;就明确地为参数为0的调用分配了一个字节，而后面的语句则更把这个1字节扩展为一个最小分配粒度，在vc6.0下，这个粒度是16字节。换句话说，当用参数0调用malloc的时候，系统其实至少分配了16个可用字节的内存给那个指针。 &lt;/p&gt;&lt;p&gt;15 Typedef 在C语言中频繁用以声明一个已经存在的数据类型的同义字。也可以用预处理器做类似的事。例如，思考一下下面的例子： &lt;/p&gt;&lt;p&gt;#define dPS struct s * &lt;/p&gt;&lt;p&gt;typedef struct s * tPS; &lt;/p&gt;&lt;p&gt;以上两种情况的意图都是要定义dPS 和 tPS 作为一个指向结构s指针。哪种方法更好呢？（如果有的话）为什么？&lt;/p&gt;&lt;p&gt;这是一个非常微妙的问题，任何人答对这个问题（正当的原因）是应当被恭喜的。答案是：typedef更好。思考下面的例子： &lt;/p&gt;&lt;p&gt;dPS p1,p2; &lt;/p&gt;&lt;p&gt;tPS p3,p4;&lt;/p&gt;&lt;p&gt;第一个扩展为&lt;/p&gt;&lt;p&gt;struct s * p1, p2; &lt;/p&gt;&lt;p&gt;上面的代码定义p1为一个指向结构的指，p2为一个实际的结构，这也许不是你想要的。第二个例子正确地定义了p3 和p4 两个指针。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;16 . C语言同意一些令人震惊的结构,下面的结构是合法的吗，如果是它做些什么？&lt;/p&gt;&lt;p&gt;int a = 5, b = 7, c; &lt;/p&gt;&lt;p&gt;c = a+++b; &lt;/p&gt;&lt;p&gt;这个问题将做为这个测验的一个愉快的结尾。不管你相不相信，上面的例子是完全合乎语法的。问题是编译器如何处理它？水平不高的编译作者实际上会争论这个问题，根据最处理原则，编译器应当能处理尽可能所有合法的用法。因此，上面的代码被处理成： c = a++ + b; 因此, 这段代码持行后a = 6, b = 7, c = 12。 如果你知道答案，或猜出正确答案，做得好。如果你不知道答案，我也不把这个当作问题。我发现这个问题的最大好处是这是一个关于代码编写风格，代码的可读性，代码的可修改性的好的话题。 &lt;/p&gt;&lt;p&gt;////////////////////////////////////////////////////////////////////////////////////&lt;/p&gt;&lt;p&gt;常量字符串相同的情况 &lt;/p&gt;&lt;p&gt;问:相同的字符串vc里面会采用同一地址，对吧？比如：&lt;/p&gt;&lt;p&gt; char *p1 = "asbsdg"; &lt;/p&gt;&lt;p&gt;char *p2 = "asbsdg"; &lt;/p&gt;&lt;p&gt;答:不见得。 &lt;/p&gt;&lt;p&gt;问:那怎么判断？好像以前我看过试卷上有一题，就是默认它相同的。 &lt;/p&gt;&lt;p&gt;答:没法判断。&lt;/p&gt;&lt;p&gt; 问:/Gf /GF 不是取消重复字符串吗？怎么没作用。&lt;/p&gt;&lt;p&gt; 答:/GF不是“取消”重复字符串，而是把常量字符串做统一映射，减少exe体积并提高执行效率。如果你的字符串不是常量，估计就没效果。&lt;/p&gt;&lt;p&gt; 问:哦，就是另外分配内存时，当然不同了。那什么情况下，会不同地址？&lt;/p&gt;&lt;p&gt; 答:非常量，或者编译器认为字符串会被人为改变的时候。 &lt;/p&gt;&lt;p&gt;问:嗯。编译器认为字符串会被人为改变的时候，就是定义成volatile时？ &lt;/p&gt;&lt;p&gt;答:不是。你可以试试：&lt;/p&gt;&lt;p&gt;const char * str1 = "This is constent string"; &lt;/p&gt;&lt;p&gt;const char * str2 = "This is constent string";&lt;/p&gt;&lt;p&gt; const char str3[] = "This is constent string"; &lt;/p&gt;&lt;p&gt;const char str4[] = "This is constent string"; &lt;/p&gt;&lt;p&gt;char * str5 = "This is constent string";&lt;/p&gt;&lt;p&gt; 问:结果是str1 = str2= str5, str3!= str4。你说的不相同出现在什么时候呢？除了字符数组外。 答:暂时找不到例子。&lt;/p&gt;&lt;p&gt; /GF的作用主要是作用于EXE文件而不是程序运行期的内存结构。&lt;/p&gt;&lt;p&gt; /Gf 是把相同的string 存储在EXE文件的同一个位置。&lt;/p&gt;&lt;p&gt; /GF是运行时，把这些string放入只读内存空间。如果你尝试改写它们的内容，就会弹出内存不可写的异常。&lt;/p&gt;&lt;p&gt; 问:编译器默认有/Gf的选项吗？因为好像不加这个选项，如果我改写str5的字符，也会异常的。 答:默认应该是开启的。这个东西以前好像是叫“字符串折叠”。 &lt;/p&gt;&lt;p&gt;问:呵呵，我现在就是不知道常量字符串地址不同的情况，那我先假设不成立，等遇到后再说。 &lt;/p&gt;&lt;p&gt;现在，我关于相同字符串常量的地址赋值有点明白了，你呢？ 最后，请大家看下面这段程序：  const char * str1 = "This is constent string"; &lt;/p&gt;&lt;p&gt; const char * str2 = "This is constent string"; &lt;/p&gt;&lt;p&gt; const char str3[] = "This is constent string";  &lt;/p&gt;&lt;p&gt;const char str4[] = "This is constent string"; &lt;/p&gt;&lt;p&gt;char     *str5 = "This is constent string"; &lt;/p&gt;&lt;p&gt;str5[1] = 'a';          //exception  &lt;/p&gt;&lt;p&gt;str5 = (char *)0x1021 ; //normal  &lt;/p&gt;&lt;p&gt;str1 = (char *)0x1021 ; //normal &lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-6205914558691170916?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/6205914558691170916/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=6205914558691170916' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6205914558691170916'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6205914558691170916'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/c.html' title='关于C的一些常见问题'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-7659141610340813146</id><published>2008-10-23T17:05:00.002+08:00</published><updated>2008-10-23T17:13:42.596+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>[转载]数学之美番外篇：平凡而又神奇的贝叶斯方法 By 刘未鹏(pongba)</title><content type='html'>数学之美番外篇：平凡而又神奇的贝叶斯方法&lt;br /&gt;By 刘未鹏(pongba)&lt;br /&gt;C++的罗浮宫(&lt;a href="http://blog.csdn.net/pongba"&gt;http://blog.csdn.net/pongba&lt;/a&gt;)&lt;br /&gt;TopLanguage(&lt;a title="http://groups.google.com/group/pongba" href="http://groups.google.com/group/pongba"&gt;http://groups.google.com/group/pongba&lt;/a&gt;)&lt;br /&gt;&lt;br /&gt;概率论只不过是把常识用数学公式表达了出来。&lt;br /&gt;——拉普拉斯&lt;br /&gt;&lt;br /&gt;记得读本科的时候，最喜欢到城里的计算机书店里面去闲逛，一逛就是好几个小时；有一次，在书店看到一本书，名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想，一个方法能够专门写出一本书来，肯定很牛逼。后来，我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。&lt;br /&gt;——题记&lt;br /&gt;&lt;br /&gt;目录&lt;br /&gt;0. 前言&lt;br /&gt;1. 历史&lt;br /&gt;1.1 一个例子：自然语言的二义性&lt;br /&gt;  1.2 贝叶斯公式&lt;br /&gt;2. 拼写纠正&lt;br /&gt;3. 模型比较与贝叶斯奥卡姆剃刀&lt;br /&gt;  3.1 再访拼写纠正&lt;br /&gt;  3.2 模型比较理论（Model Comparasion）与贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor）&lt;br /&gt;  3.3 最小描述长度原则&lt;br /&gt;  3.4 最优贝叶斯推理&lt;br /&gt;4. 无处不在的贝叶斯&lt;br /&gt;  4.1 中文分词&lt;br /&gt;  4.2 统计机器翻译&lt;br /&gt;  4.3 贝叶斯图像识别，Analysis by Synthesis&lt;br /&gt;  4.4 EM 算法与基于模型的聚类&lt;br /&gt;  4.5 最大似然与最小二乘&lt;br /&gt;5. 朴素贝叶斯方法（又名“愚蠢者的贝叶斯（idiot’s bayes）”）&lt;br /&gt;  5.1 垃圾邮件过滤器&lt;br /&gt;  5.2 为什么朴素贝叶斯方法令人诧异地好——一个理论解释&lt;br /&gt;6. 层级贝叶斯模型&lt;br /&gt;  6.1 隐马可夫模型（HMM）&lt;br /&gt; 7. 贝叶斯网络&lt;br /&gt;&lt;br /&gt;0. 前言&lt;br /&gt;这是一篇关于贝叶斯方法的科普文，我会尽量少用公式，多用平白的语言叙述，多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架，文中你会看到很多有趣的应用。&lt;br /&gt;&lt;br /&gt;1. 历史&lt;br /&gt;托马斯·贝叶斯（Thomas Bayes）同学的详细生平在&lt;a href="http://en.wikipedia.org/wiki/Thomas_Bayes" target="_blank"&gt;这里&lt;/a&gt;。以下摘一段 wikipedia 上的简介：&lt;br /&gt;所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。而一个自然而然的问题是反过来：“如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题，就是所谓的逆概问题。&lt;br /&gt;&lt;br /&gt;实际上，贝叶斯当时的论文只是对这个问题的一个直接的求解尝试，并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来，贝叶斯方法席卷了概率论，并将应用延伸到各个问题领域，所有需要作出概率预测的地方都可以见到贝叶斯方法的影子，特别地，贝叶斯是机器学习的核心方法之一。这背后的深刻原因在于，现实世界本身就是不确定的，人类的观察能力是有局限性的（否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行，还需要对原子模型争吵不休吗？），我们日常所观察到的只是事物表面上的结果，沿用刚才那个袋子里面取球的比方，我们往往只能知道从里面取出来的球是什么颜色，而并不能直接看到袋子里面实际的情况。这个时候，我们就需要提供一个猜测（hypothesis，更为严格的说法是“假设”，这里用“猜测”更通俗易懂一点），所谓猜测，当然就是不确定的（很可能有好多种乃至无数种猜测都能满足目前的观测），但也绝对不是两眼一抹黑瞎蒙——具体地说，我们需要做两件事情：1. 算出各种不同猜测的可能性大小。2. 算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率，对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较，模型比较如果不考虑先验概率的话就是最大似然方法。&lt;br /&gt;&lt;br /&gt;1.1 一个例子：自然语言的二义性&lt;br /&gt;下面举一个自然语言的不确定性的例子。当你看到这句话：&lt;br /&gt;The girl saw the boy with a telescope.&lt;br /&gt;你对这句话的含义有什么猜测？平常人肯定会说：那个女孩拿望远镜看见了那个男孩（即你对这个句子背后的实际语法结构的猜测是：The girl saw-with-a-telescope the boy ）。然而，仔细一想，你会发现这个句子完全可以解释成：那个女孩看见了那个拿着望远镜的男孩（即：The girl saw the-boy-with-a-telescope ）。那为什么平常生活中我们每个人都能够迅速地对这种二义性进行消解呢？这背后到底隐藏着什么样的思维法则？我们留到后面解释。&lt;br /&gt;&lt;br /&gt;1.2 贝叶斯公式&lt;br /&gt;贝叶斯公式是怎么来的？&lt;br /&gt;我们还是使用 wikipedia 上的一个例子：&lt;br /&gt;一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大”，这个就是前面说的“正向概率”的计算。然而，假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别），你能够推断出他（她）是男生的概率是多大吗？&lt;br /&gt;一些认知科学的研究表明（《决策与判断》以及《&lt;a href="http://www.douban.com/subject/3199621/" target="_blank"&gt;Rationality for Mortals&lt;/a&gt;》第12章：小孩也可以解决贝叶斯问题），我们对形式化的贝叶斯问题不擅长，但对于以频率形式呈现的等价问题却很擅长。在这里，我们不妨把问题重新叙述成：你在校园里面&lt;a href="http://en.wikipedia.org/wiki/Random_walk" target="_blank"&gt;随机游走&lt;/a&gt;，遇到了 N 个穿长裤的人（仍然假设你无法直接观察到他们的性别），问这 N 个人里面有多少个女生多少个男生。&lt;br /&gt;你说，这还不简单：算出学校里面有多少穿长裤的，然后在这些人里面再算出有多少女生，不就行了？&lt;br /&gt;&lt;br /&gt;我们来算一算：假设学校里面人的总数是 U 个。60% 的男生都穿长裤，于是我们得到了 U * P(Boy) * P(PantsBoy) 个穿长裤的（男生）（其中 P(Boy) 是男生的概率 = 60%，这里可以简单的理解为男生的比例；P(PantsBoy) 是条件概率，即在 Boy 这个条件下穿长裤的概率是多大，这里是 100% ，因为所有男生都穿长裤）。40% 的女生里面又有一半（50%）是穿长裤的，于是我们又得到了 U * P(Girl) * P(PantsGirl) 个穿长裤的（女生）。加起来一共是 U * P(Boy) * P(PantsBoy) + U * P(Girl) * P(PantsGirl) 个穿长裤的，其中有 U * P(Girl) * P(PantsGirl) 个女生。两者一比就是你要求的答案。&lt;br /&gt;&lt;br /&gt;下面我们把这个答案形式化一下：我们要求的是 P(GirlPants) （穿长裤的人里面有多少女生），我们计算的结果是 U * P(Girl) * P(PantsGirl) / [U * P(Boy) * P(PantsBoy) + U * P(Girl) * P(PantsGirl)] 。容易发现这里校园内人的总数是无关的，可以消去。于是得到&lt;br /&gt;P(GirlPants) = P(Girl) * P(PantsGirl) / [P(Boy) * P(PantsBoy) + P(Girl) * P(PantsGirl)]&lt;br /&gt;注意，如果把上式收缩起来，分母其实就是 P(Pants) ，分子其实就是 P(Pants, Girl) 。而这个比例很自然地就读作：在穿长裤的人（ P(Pants) ）里面有多少（穿长裤）的女孩（ P(Pants, Girl) ）。&lt;br /&gt;&lt;br /&gt;上式中的 Pants 和 Boy/Girl 可以指代一切东西，所以其一般形式就是：&lt;br /&gt;P(BA) = P(AB) * P(B) / [P(AB) * P(B) + P(A~B) * P(~B) ]&lt;br /&gt;收缩起来就是：&lt;br /&gt;P(BA) = P(AB) / P(A)&lt;br /&gt;其实这个就等于：&lt;br /&gt;P(BA) * P(A) = P(AB)&lt;br /&gt;难怪拉普拉斯说概率论只是把常识用数学公式表达了出来。&lt;br /&gt;然而，后面我们会逐渐发现，看似这么平凡的贝叶斯公式，背后却隐含着非常深刻的原理。&lt;br /&gt;&lt;br /&gt;2. 拼写纠正&lt;br /&gt;经典著作《人工智能：现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章（原文在&lt;a href="http://norvig.com/spell-correct.html" target="_blank"&gt;这里&lt;/a&gt;，徐宥的翻译版在&lt;a href="http://blog.youxu.info/spell-correct.html" target="_blank"&gt;这里&lt;/a&gt;，这篇文章很深入浅出，强烈建议读一读），里面用到的就是贝叶斯方法，这里我们不打算复述他写的文章，而是简要地将其核心思想介绍一下。&lt;br /&gt;&lt;br /&gt;首先，我们需要询问的是：“问题是什么？”&lt;br /&gt;问题是我们看到用户输入了一个不在字典中的单词，我们需要去猜测：“这个家伙到底真正想输入的单词是什么呢？”用刚才我们形式化的语言来叙述就是，我们需要求：&lt;br /&gt;P(我们猜测他想输入的单词 他实际输入的单词)&lt;br /&gt;这个概率。并找出那个使得这个概率最大的猜测单词。显然，我们的猜测未必是唯一的，就像前面举的那个自然语言的歧义性的例子一样；这里，比如用户输入： thew ，那么他到底是想输入 the ，还是想输入 thaw ？到底哪个猜测可能性更大呢？幸运的是我们可以用贝叶斯公式来直接出它们各自的概率，我们不妨将我们的多个猜测记为 h1 h2 .. （ h 代表 hypothesis），它们都属于一个有限且离散的猜测空间 H （单词总共就那么多而已），将用户实际输入的单词记为 D （ D 代表 Data ，即观测数据），于是&lt;br /&gt;P(我们的猜测1 他实际输入的单词)&lt;br /&gt;可以抽象地记为：&lt;br /&gt;P(h1 D)&lt;br /&gt;类似地，对于我们的猜测2，则是 P(h2 D)。不妨统一记为：&lt;br /&gt;P(h D)&lt;br /&gt;运用一次贝叶斯公式，我们得到：&lt;br /&gt;P(h D) = P(h) * P(D h) / P(D)&lt;br /&gt;对于不同的具体猜测 h1 h2 h3 .. ，P(D) 都是一样的，所以在比较 P(h1 D) 和 P(h2 D) 的时候我们可以忽略这个常数。即我们只需要知道：&lt;br /&gt;P(h D) ∝ P(h) * P(D h) （注：那个符号的意思是“正比例于”，不是无穷大，注意符号右端是有一个小缺口的。）&lt;br /&gt;这个式子的抽象含义是：对于给定观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小（先验概率，Prior ）”和“这个猜测生成我们观测到的数据的可能性大小”（似然，Likelihood ）的乘积。具体到我们的那个 thew 例子上，含义就是，用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性（频繁程度）大小（先验概率）和 想打 the 却打成 thew 的可能性大小（似然）的乘积。&lt;br /&gt;下面的事情就很简单了，对于我们猜测为可能的每个单词计算一下 P(h) * P(D h) 这个值，然后取最大的，得到的就是最靠谱的猜测。&lt;br /&gt;一点注记：Norvig 的拼写纠正器里面只提取了编辑距离为 2 以内的所有已知单词。这是为了避免去遍历字典中每个单词计算它们的 P(h) * P(D h) ，但这种做法为了节省时间带来了一些误差。但话说回来难道我们人类真的回去遍历每个可能的单词来计算他们的后验概率吗？不可能。实际上，根据认知神经科学的观点，我们首先根据错误的单词做一个 bottom-up 的关联提取，提取出有可能是实际单词的那些候选单词，这个提取过程就是所谓的基于内容的提取，可以根据错误单词的一些模式片段提取出有限的一组候选，非常快地缩小的搜索空间（比如我输入 explaination ，单词里面就有充分的信息使得我们的大脑在常数时间内把可能性 narrow down 到 explanation 这个单词上，至于具体是根据哪些线索——如音节——来提取，又是如何在生物神经网络中实现这个提取机制的，目前还是一个没有弄清的领域）。然后，我们对这有限的几个猜测做一个 top-down 的预测，看看到底哪个对于观测数据（即错误单词）的预测效力最好，而如何衡量预测效率则就是用贝叶斯公式里面的那个 P(h) * P(D h) 了——虽然我们很可能使用了&lt;a href="http://www.douban.com/subject/1599035/" target="_blank"&gt;一些启发法来简化计算&lt;/a&gt;。后面我们还会提到这样的 bottom-up 的关联提取。&lt;br /&gt;&lt;br /&gt;3. 模型比较与奥卡姆剃刀&lt;br /&gt;3.1 再访拼写纠正&lt;br /&gt;介绍了贝叶斯拼写纠正之后，接下来的一个自然而然的问题就来了：“为什么？”为什么要用贝叶斯公式？为什么贝叶斯公式在这里可以用？我们可以很容易地领会为什么贝叶斯公式用在前面介绍的那个男生女生长裤裙子的问题里是正确的。但为什么这里？&lt;br /&gt;为了回答这个问题，一个常见的思路就是想想：非得这样吗？因为如果你想到了另一种做法并且证明了它也是靠谱的，那么将它与现在这个一比较，也许就能得出很有价值的信息。那么对于拼写纠错问题你能想到其他方案吗？&lt;br /&gt;不管怎样，一个最常见的替代方案就是，选择离 thew 的&lt;a href="http://en.wikipedia.org/wiki/Edit_distance" target="_blank"&gt;编辑距离&lt;/a&gt;最近的。然而 the 和 thaw 离 thew 的编辑距离都是 1 。这可咋办捏？你说，不慌，那还是好办。我们就看到底哪个更可能被错打为 thew 就是了。我们注意到字母 e 和字母 w 在键盘上离得很紧，无名指一抽筋就不小心多打出一个 w 来，the 就变成 thew 了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点，因为 e 和 a 离得较远而且使用的指头相差一个指头（一个是中指一个是小指，不像 e 和 w 使用的指头靠在一块——神经科学的证据表明紧邻的身体设施之间容易串位）。OK，很好，因为你现在已经是在用最大似然方法了，或者直白一点，你就是在计算那个使得 P(D h) 最大的 h 。&lt;br /&gt;而贝叶斯方法计算的是什么？是 P(h) * P(D h) 。多出来了一个 P(h) 。我们刚才说了，这个多出来的 P(h) 是特定猜测的先验概率。为什么要掺和进一个先验概率？刚才说的那个最大似然不是挺好么？很雄辩地指出了 the 是更靠谱的猜测。有什么问题呢？既然这样，我们就从给最大似然找茬开始吧——我们假设两者的似然程度是一样或非常相近，这样不就难以区分哪个猜测更靠谱了吗？比如用户输入tlp ，那到底是 top 还是 tip ？（这个例子不怎么好，因为 top 和 tip 的词频可能仍然是接近的，但一时想不到好的英文单词的例子，我们不妨就假设 top 比 tip 常见许多吧，这个假设并不影响问题的本质。）这个时候，当最大似然不能作出决定性的判断时，先验概率就可以插手进来给出指示——“既然你无法决定，那么我告诉你，一般来说 top 出现的程度要高许多，所以更可能他想打的是 top ”）。&lt;br /&gt;以上只是最大似然的一个问题，即并不能提供决策的全部信息。&lt;br /&gt;最大似然还有另一个问题：即便一个猜测与数据非常符合，也并不代表这个猜测就是更好的猜测，因为这个猜测本身的可能性也许就非常低。比如 MacKay 在《Information Theory : Inference and Learning Algorithms》里面就举了一个很好的例子：-1 3 7 11 你说是等差数列更有可能呢？还是 -X^3 / 11 + 9/11*X^2 + 23/11 每项把前项作为 X 带入后计算得到的数列？此外曲线拟合也是，平面上 N 个点总是可以用 N-1 阶多项式来完全拟合，当 N 个点近似但不精确共线的时候，用 N-1 阶多项式来拟合能够精确通过每一个点，然而用直线来做拟合/线性回归的时候却会使得某些点不能位于直线上。你说到底哪个好呢？多项式？还是直线？一般地说肯定是越低阶的多项式越靠谱（当然前提是也不能忽视“似然”P(D h) ，明摆着一个多项式分布您愣是去拿直线拟合也是不靠谱的，这就是为什么要把它们两者乘起来考虑。），原因之一就是低阶多项式更常见，先验概率（ P(h) ）较大（原因之二则隐藏在 P(D h) 里面），这就是为什么我们要用&lt;a href="http://en.wikipedia.org/wiki/Spline_interpolation" target="_blank"&gt;样条&lt;/a&gt;来插值，而不是直接搞一个 N-1 阶多项式来通过任意 N 个点的原因。&lt;br /&gt;以上分析当中隐含的哲学是，观测数据总是会有各种各样的误差，比如观测误差（比如你观测的时候一个 MM 经过你一不留神，手一抖就是一个误差出现了），所以如果过分去寻求能够完美解释观测数据的模型，就会落入所谓的数据&lt;a href="http://en.wikipedia.org/wiki/Overfitting" target="_blank"&gt;过配（overfitting）&lt;/a&gt;的境地，一个过配的模型试图连误差（噪音）都去解释（而实际上噪音又是不需要解释的），显然就过犹不及了。所以 P(D h) 大不代表你的 h （猜测）就是更好的 h。还要看 P(h) 是怎样的。所谓&lt;a href="http://en.wikipedia.org/wiki/Occam%27s_razor" target="_blank"&gt;奥卡姆剃刀&lt;/a&gt;精神就是说：如果两个理论具有相似的解释力度，那么优先选择那个更简单的（往往也正是更平凡的，更少繁复的，更常见的）。&lt;br /&gt;过分匹配的另一个原因在于当观测的结果并不是因为误差而显得“不精确”而是因为真实世界中对数据的结果产生贡献的因素太多太多，跟噪音不同，这些偏差是一些另外的因素集体贡献的结果，不是你的模型所能解释的——噪音那是不需要解释——一个现实的模型往往只提取出几个与结果相关度很高，很重要的因素（cause）。这个时候观察数据会倾向于围绕你的有限模型的预测结果呈&lt;a href="http://en.wikipedia.org/wiki/Normal_Distribution" target="_blank"&gt;正态分布&lt;/a&gt;，于是你实际观察到的结果就是这个正态分布的&lt;a href="http://en.wikipedia.org/wiki/Random_sample" target="_blank"&gt;随机取样&lt;/a&gt;，这个取样很可能受到其余因素的影响偏离你的模型所预测的中心，这个时候便不能贪心不足地试图通过改变模型来“完美”匹配数据，因为那些使结果偏离你的预测的贡献因素不是你这个有限模型里面含有的因素所能概括的，硬要打肿脸充胖子只能导致不实际的模型，举个教科书例子：身高和体重的实际关系近似于一个二阶多项式的关系，但大家都知道并不是只有身高才会对体重产生影响，物理世界影响体重的因素太多太多了，有人身材高大却瘦得跟稻草，有人却是横长竖不长。但不可否认的是总体上来说，那些特殊情况越是特殊就越是稀少，呈围绕最普遍情况（胖瘦适中）的正态分布，这个分布就保证了我们的身高——体重相关模型能够在大多数情况下做出靠谱的预测。但是——刚才说了，特例是存在的，就算不是特例，人有胖瘦，密度也有大小，所以完美符合身高——体重的某个假想的二阶多项式关系的人是不存在的，我们又不是欧几里德几何世界当中的理想多面体，所以，当我们对人群随机抽取了 N 个样本（数据点）试图对这 N 个数据点拟合出一个多项式的话就得注意，它肯定得是二阶多项式，我们要做的只是去根据数据点计算出多项式各项的参数（一个典型的方法就是最小二乘）；它肯定不是直线（我们又不是稻草），也不是三阶多项式四阶多项式.. 如果硬要完美拟合 N 个点，你可能会整出一个 N-1 阶多项式来——设想身高和体重的关系是 5 阶多项式看看？&lt;br /&gt;&lt;br /&gt;3.2 模型比较理论（Model Comparasion）与贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor）&lt;br /&gt;实际上，模型比较就是去比较哪个模型（猜测）更可能隐藏在观察数据的背后。其基本思想前面已经用拼写纠正的例子来说明了。我们对用户实际想输入的单词的猜测就是模型，用户输错的单词就是观测数据。我们通过：&lt;br /&gt;P(h D) ∝ P(h) * P(D h)&lt;br /&gt;来比较哪个模型最为靠谱。前面提到，光靠 P(D h) （即“似然”）是不够的，有时候还需要引入 P(h) 这个先验概率。奥卡姆剃刀就是说 P(h) 较大的模型有较大的优势，而最大似然则是说最符合观测数据的（即 P(D h) 最大的）最有优势。整个模型比较就是这两方力量的拉锯。我们不妨再举一个简单的例子来说明这一精神：你随便找枚硬币，掷一下，观察一下结果。好，你观察到的结果要么是“正”，要么是“反”（不，不是少林足球那枚硬币:P ），不妨假设你观察到的是“正”。现在你要去根据这个观测数据推断这枚硬币掷出“正”的概率是多大。根据最大似然估计的精神，我们应该猜测这枚硬币掷出“正”的概率是 1 ，因为这个才是能最大化 P(D h) 的那个猜测。然而每个人都会大摇其头——很显然，你随机摸出一枚硬币这枚硬币居然没有反面的概率是“不存在的”，我们对一枚随机硬币是否一枚有偏硬币，偏了多少，是有着一个先验的认识的，这个认识就是绝大多数硬币都是基本公平的，偏得越多的硬币越少见（可以用一个 &lt;a href="http://en.wikipedia.org/wiki/Beta_distribution" target="_blank"&gt;beta 分布&lt;/a&gt;来表达这一先验概率）。将这个先验正态分布 p(θ) （其中 θ 表示硬币掷出正面的比例，小写的 p 代表这是&lt;a href="http://en.wikipedia.org/wiki/Probability_density_function" target="_blank"&gt;概率密度函数&lt;/a&gt;）结合到我们的问题中，我们便不是去最大化 P(D h) ，而是去最大化 P(D θ) * p(θ) ，显然 θ = 1 是不行的，因为 P(θ=1) 为 0 ，导致整个乘积也为 0 。实际上，只要对这个式子求一个导数就可以得到最值点。&lt;br /&gt;以上说的是当我们知道先验概率 P(h) 的时候，光用最大似然是不靠谱的，因为最大似然的猜测可能先验概率非常小。然而，有些时候，我们对于先验概率一无所知，只能假设每种猜测的先验概率是均等的，这个时候就只有用最大似然了。实际上，统计学家和贝叶斯学家有一个有趣的争论，统计学家说：我们让数据自己说话。言下之意就是要摒弃先验概率。而贝叶斯支持者则说：数据会有各种各样的偏差，而一个靠谱的先验概率则可以对这些随机噪音做到健壮。事实证明贝叶斯派胜利了，胜利的关键在于所谓先验概率其实也是经验统计的结果，譬如为什么我们会认为绝大多数硬币是基本公平的？为什么我们认为大多数人的肥胖适中？为什么我们认为肤色是种族相关的，而体重则与种族无关？先验概率里面的“先验”并不是指先于一切经验，而是仅指先于我们“当前”给出的观测数据而已，在硬币的例子中先验指的只是先于我们知道投掷的结果这个经验，而并非“先天”。&lt;br /&gt;然而，话说回来，有时候我们必须得承认，就算是基于以往的经验，我们手头的“先验”概率还是均匀分布，这个时候就必须依赖用最大似然，我们用前面留下的一个自然语言二义性问题来说明这一点：&lt;br /&gt;The girl saw the boy with a telescope.&lt;br /&gt;到底是 The girl saw-with-a-telescope the boy 这一语法结构，还是 The girl saw the-boy-with-a-telescope 呢？两种语法结构的常见程度都差不多（你可能会觉得后一种语法结构的常见程度较低，这是事后偏见，你只需想想 The girl saw the boy with a book 就知道了。当然，实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点，但是绝对不足以解释我们对第一种结构的强烈倾向）。那么到底为什么呢？&lt;br /&gt;我们不妨先来看看 MacKay 在书中举的一个漂亮的例子：&lt;br /&gt;&lt;br /&gt;图中有多少个箱子？特别地，那棵书后面是一个箱子？还是两个箱子？还是三个箱子？还是.. 你可能会觉得树后面肯定是一个箱子，但为什么不是两个呢？如下图：&lt;br /&gt;&lt;br /&gt;很简单，你会说：要是真的有两个箱子那才怪了，怎么就那么巧这两个箱子刚刚好颜色相同，高度相同呢？&lt;br /&gt;用概率论的语言来说，你刚才的话就翻译为：猜测 h 不成立，因为 P(D h) 太小（太巧合）了。我们的直觉是：巧合（小概率）事件不会发生。所以当一个猜测（假设）使得我们的观测结果成为小概率事件的时候，我们就说“才怪呢，哪能那么巧捏？！”&lt;br /&gt;现在我们可以回到那个自然语言二义性的例子，并给出一个完美的解释了：如果语法结构是 The girl saw the-boy-with-a-telecope 的话，怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏？这也忒小概率了吧。他咋就不会拿本书呢？拿什么都好。怎么偏偏就拿了望远镜？所以唯一的解释是，这个“巧合”背后肯定有它的必然性，这个必然性就是，如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话，就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的，那么这个东西是一个望远镜就完全可以解释了（不再是小概率事件了）。&lt;br /&gt;自然语言二义性很常见，譬如上文中的一句话：&lt;br /&gt;参见《决策与判断》以及《&lt;a href="http://www.douban.com/subject/3199621/" target="_blank"&gt;Rationality for Mortals&lt;/a&gt;》第12章：小孩也可以解决贝叶斯问题&lt;br /&gt;就有二义性：到底是参见这两本书的第 12 章，还是仅仅是第二本书的第 12 章呢？如果是这两本书的第 12 章那就是咄咄怪事了，怎么恰好两本书都有第 12 章，都是讲同一个问题，更诡异的是，标题还相同呢？&lt;br /&gt;注意，以上做的是似然估计（即只看 P(D h) 的大小），不含先验概率。通过这两个例子，尤其是那个树后面的箱子的例子我们可以看到，似然估计里面也蕴含着奥卡姆剃刀：树后面的箱子数目越多，这个模型就越复杂。单个箱子的模型是最简单的。似然估计选择了更简单的模型。&lt;br /&gt;这个就是所谓的贝叶斯奥卡姆剃刀（Bayesian Occam’s Razor），因为这个剃刀工作在贝叶斯公式的似然（P(D h) ）上，而不是模型本身（ P(h) ）的先验概率上，后者是传统的奥卡姆剃刀。关于贝叶斯奥卡姆剃刀我们再来看一个前面说到的曲线拟合的例子：如果平面上有 N 个点，近似构成一条直线，但绝不精确地位于一条直线上。这时我们既可以用直线来拟合（模型1），也可以用二阶多项式（模型2）拟合，也可以用三阶多项式（模型3），.. ，特别地，用 N-1 阶多项式便能够保证肯定能完美通过 N 个数据点。那么，这些可能的模型之中到底哪个是最靠谱的呢？前面提到，一个衡量的依据是奥卡姆剃刀：越是高阶的多项式越是繁复和不常见。然而，我们其实并不需要依赖于这个先验的奥卡姆剃刀，因为有人可能会争辩说：你怎么就能说越高阶的多项式越不常见呢？我偏偏觉得所有阶多项式都是等可能的。好吧，既然如此那我们不妨就扔掉 P(h) 项，看看 P(D h) 能告诉我们什么。我们注意到越是高阶的多项式，它的轨迹弯曲程度越是大，到了八九阶简直就是直上直下，于是我们不仅要问：一个比如说八阶多项式在平面上随机生成的一堆 N 个点偏偏恰好近似构成一条直线的概率（即 P(D h) ）有多大？太小太小了。反之，如果背后的模型是一条直线，那么根据该模型生成一堆近似构成直线的点的概率就大得多了。这就是贝叶斯奥卡姆剃刀。&lt;br /&gt;这里只是提供一个关于贝叶斯奥卡姆剃刀的科普，强调直观解释，更多理论公式请参考 MacKay 的著作 《Information Theory : Inference and Learning Algorithms》第 28 章。&lt;br /&gt;&lt;br /&gt;3.3 最小描述长度原则&lt;br /&gt;贝叶斯模型比较理论与信息论有一个有趣的关联：&lt;br /&gt;P(h D) ∝ P(h) * P(D h)&lt;br /&gt;两边求对数，将右式的乘积变成相加：&lt;br /&gt;ln P(h D) ∝ ln P(h) + ln P(D h)&lt;br /&gt;显然，最大化 P(h D) 也就是最大化 ln P(h D)。而 ln P(h) + ln P(D h) 则可以解释为模型（或者称“假设”、“猜测”）h 的编码长度加上在该模型下数据 D 的编码长度。使这个和最小的模型就是最佳模型。&lt;br /&gt;而究竟如何定义一个模型的编码长度，以及数据在模型下的编码长度则是一个问题。更多可参考 Mitchell 的 《Machine Learning》的 6.6 节，或 Mackay 的 28.3 节）&lt;br /&gt;&lt;br /&gt;3.4 最优贝叶斯推理&lt;br /&gt;所谓的推理，分为两个过程，第一步是对观测数据建立一个模型。第二步则是使用这个模型来推测未知现象发生的概率。我们前面都是讲的对于观测数据给出最靠谱的那个模型。然而很多时候，虽然某个模型是所有模型里面最靠谱的，但是别的模型也并不是一点机会都没有。譬如第一个模型在观测数据下的概率是 0.5 。第二个模型是 0.4 ，第三个是 0.1 。如果我们只想知道对于观测数据哪个模型最可能，那么只要取第一个就行了，故事到此结束。然而很多时候我们建立模型是为了推测未知的事情的发生概率，这个时候，三个模型对未知的事情发生的概率都会有自己的预测，仅仅因为某一个模型概率稍大一点就只听他一个人的就太不民主了。所谓的最优贝叶斯推理就是将三个模型对于未知数据的预测结论加权平均起来（权值就是模型相应的概率）。显然，这个推理是理论上的制高点，无法再优了，因为它已经把所有可能性都考虑进去了。&lt;br /&gt;只不过实际上我们是基本不会使用这个框架的，因为计算模型可能非常费时间，二来模型空间可能是连续的，即有无穷多个模型（这个时候需要计算模型的概率分布）。结果还是非常费时间。所以这个被看作是一个理论基准。&lt;br /&gt;&lt;br /&gt;4. 无处不在的贝叶斯&lt;br /&gt;以下我们再举一些实际例子来说明贝叶斯方法被运用的普遍性，这里主要集中在机器学习方面，因为我不是学经济的，否则还可以找到一堆经济学的例子。&lt;br /&gt;&lt;br /&gt;4.1 中文分词&lt;br /&gt;贝叶斯是机器学习的核心方法之一。比如中文分词领域就用到了贝叶斯。Google 研究员吴军在《数学之美》系列中就有一篇是介绍中文分词的，这里只介绍一下核心的思想，不做赘述，详细请参考吴军的文章（&lt;a href="http://www.googlechinablog.com/2006/04/blog-post_10.html" target="_blank"&gt;这里&lt;/a&gt;）。&lt;br /&gt;分词问题的描述为：给定一个句子（字串），如：&lt;br /&gt;南京市长江大桥&lt;br /&gt;如何对这个句子进行分词（词串）才是最靠谱的。例如：&lt;br /&gt;1. 南京市/长江大桥&lt;br /&gt;2. 南京/市长/江大桥&lt;br /&gt;这两个分词，到底哪个更靠谱呢？&lt;br /&gt;我们用贝叶斯公式来形式化地描述这个问题，令 X 为字串（句子），Y 为词串（一种特定的分词假设）。我们就是需要寻找使得 P(YX) 最大的 Y ，使用一次贝叶斯可得：&lt;br /&gt;P(YX) ∝ P(Y)*P(XY)&lt;br /&gt;用自然语言来说就是 这种分词方式（词串）的可能性 乘以 这个词串生成我们的句子的可能性。我们进一步容易看到：可以近似地将 P(XY) 看作是恒等于 1 的，因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的（只需把分词之间的分界符号扔掉即可）。于是，我们就变成了去最大化 P(Y) ，也就是寻找一种分词使得这个词串（句子）的概率最大化。而如何计算一个词串：&lt;br /&gt;W1, W2, W3, W4 ..&lt;br /&gt;的可能性呢？我们知道，根据&lt;a href="http://en.wikipedia.org/wiki/Joint_probability" target="_blank"&gt;联合概率&lt;/a&gt;的公式展开：P(W1, W2, W3, W4 ..) = P(W1) * P(W2W1) * P(W3W2, W1) * P(W4W1,W2,W3) * .. 于是我们可以通过一系列的条件概率（右式）的乘积来求整个联合概率。然而不幸的是随着条件数目的增加（P(WnWn-1,Wn-2,..,W1) 的条件有 n-1 个），&lt;a href="http://en.wikipedia.org/wiki/Curse_of_dimensionality" target="_blank"&gt;数据稀疏问题&lt;/a&gt;也会越来越严重，即便语料库再大也无法统计出一个靠谱的 P(WnWn-1,Wn-2,..,W1) 来。为了缓解这个问题，计算机科学家们一如既往地使用了“天真”假设：我们假设句子中一个词的出现概率只依赖于它前面的有限的 k 个词（k 一般不超过 3，如果只依赖于前面的一个词，就是2元&lt;a href="http://en.wikipedia.org/wiki/N-gram" target="_blank"&gt;语言模型&lt;/a&gt;（2-gram），同理有 3-gram 、 4-gram 等），这个就是所谓的“有限地平线”假设。虽然这个假设很傻很天真，但结果却表明它的结果往往是很好很强大的，后面要提到的朴素贝叶斯方法使用的假设跟这个精神上是完全一致的，我们会解释为什么像这样一个天真的假设能够得到强大的结果。目前我们只要知道，有了这个假设，刚才那个乘积就可以改写成： P(W1) * P(W2W1) * P(W3W2) * P(W4W3) .. （假设每个词只依赖于它前面的一个词）。而统计 P(W2W1) 就不再受到数据稀疏问题的困扰了。对于我们上面提到的例子“南京市长江大桥”，如果按照自左到右的贪婪方法分词的话，结果就成了“南京市长/江大桥”。但如果按照贝叶斯分词的话（假设使用 3-gram），由于“南京市长”和“江大桥”在语料库中一起出现的频率为 0 ，这个整句的概率便会被判定为 0 。 从而使得“南京市/长江大桥”这一分词方式胜出。&lt;br /&gt;一点注记：有人可能会疑惑，难道我们人类也是基于这些天真的假设来进行推理的？不是的。事实上，统计机器学习方法所统计的东西往往处于相当表层（shallow）的层面，在这个层面机器学习只能看到一些非常表面的现象，有一点科学研究的理念的人都知道：越是往表层去，世界就越是繁复多变。从机器学习的角度来说，特征（feature）就越多，成百上千维度都是可能的。特征一多，好了，&lt;a href="http://en.wikipedia.org/wiki/Curse_of_dimensionality" target="_blank"&gt;高维诅咒&lt;/a&gt;就产生了，数据就稀疏得要命，不够用了。而我们人类的观察水平显然比机器学习的观察水平要更深入一些，为了避免数据稀疏我们不断地发明各种装置（最典型就是显微镜），来帮助我们直接深入到更深层的事物层面去观察更本质的联系，而不是在浅层对表面现象作统计归纳。举一个简单的例子，通过对大规模语料库的统计，机器学习可能会发现这样一个规律：所有的“他”都是不会穿 bra 的，所有的“她”则都是穿的。然而，作为一个男人，却完全无需进行任何统计学习，因为深层的规律就决定了我们根本不会去穿 bra 。至于机器学习能不能完成后者（像人类那样的）这个推理，则是人工智能领域的经典问题。至少在那之前，&lt;a href="http://www.yeeyan.com/articles/view/sylviaangel/9995" target="_blank"&gt;声称统计学习方法能够终结科学研究&lt;/a&gt;（&lt;a href="http://www.wired.com/science/discoveries/magazine/16-07/pb_theory" target="_blank"&gt;原文&lt;/a&gt;）的说法&lt;a href="http://scienceblogs.com/goodmath/2008/07/petabyte_scale_dataanalysis_an.php" target="_blank"&gt;是纯粹外行人说的话&lt;/a&gt;。&lt;br /&gt;&lt;br /&gt;4.2 统计机器翻译&lt;br /&gt;统计机器翻译因为其简单，自动（无需手动添加规则），迅速成为了机器翻译的事实标准。而统计机器翻译的核心算法也是使用的贝叶斯方法。&lt;br /&gt;问题是什么？统计机器翻译的问题可以描述为：给定一个句子 e ，它的可能的外文翻译 f 中哪个是最靠谱的。即我们需要计算：P(fe) 。一旦出现条件概率贝叶斯总是挺身而出：&lt;br /&gt;P(fe) ∝ P(f) * P(ef)&lt;br /&gt;这个式子的右端很容易解释：那些先验概率较高，并且更可能生成句子 e 的外文句子 f 将会胜出。我们只需简单统计（结合上面提到的 N-Gram 语言模型）就可以统计任意一个外文句子 f 的出现概率。然而 P(ef) 却不是那么好求的，给定一个候选的外文局子 f ，它生成（或对应）句子 e 的概率是多大呢？我们需要定义什么叫 “对应”，这里需要用到一个分词对齐的平行语料库，有兴趣的可以参考 《Foundations of Statistical Natural Language Processing》第 13 章，这里摘选其中的一个例子：假设 e 为：John loves Mary 。我们需要考察的首选 f 是：Jean aime Marie （法文）。我们需要求出 P(ef) 是多大，为此我们考虑 e 和 f 有多少种对齐的可能性，如：&lt;br /&gt;John (Jean) loves (aime) Marie (Mary)&lt;br /&gt;就是其中的一种（最靠谱的）对齐，为什么要对齐，是因为一旦对齐了之后，就可以容易地计算在这个对齐之下的 P(ef) 是多大，只需计算：&lt;br /&gt;P(JohnJean) * P(lovesaime) * P(MarieMary)&lt;br /&gt;即可。&lt;br /&gt;然后我们遍历所有的对齐方式，并将每种对齐方式之下的翻译概率 ∑ 求和。便可以获得整个的 P(ef) 是多大。&lt;br /&gt;&lt;br /&gt;一点注记：还是那个问题：难道我们人类真的是用这种方式进行翻译的？highly unlikely 。这种计算复杂性非常高的东西连三位数乘法都搞不定的我们才不会笨到去使用呢。根据认知神经科学的认识，很可能我们是先从句子到语义（一个逐层往上（bottom-up）抽象的 folding 过程），然后从语义根据另一门语言的语法展开为另一门语言（一个逐层往下（top-down）的具体化 unfolding 过程）。如何可计算地实现这个过程，目前仍然是个难题。（我们看到很多地方都有 bottom-up/top-down 这样一个对称的过程，实际上有人猜测这正是生物神经网络原则上的运作方式，对视觉神经系统的研究尤其证明了这一点，Hawkins 在 《On Intelligence》 里面提出了一种 &lt;a href="http://en.wikipedia.org/wiki/Hierarchical_Temporal_Memory" target="_blank"&gt;HTM&lt;/a&gt; （Hierarchical Temporal Memory）模型正是使用了这个原则。）&lt;br /&gt;&lt;br /&gt;4.3 贝叶斯图像识别，Analysis by Synthesis&lt;br /&gt;贝叶斯方法是一个非常 general 的推理框架。其核心理念可以描述成：Analysis by Synthesis （通过合成来分析）。06 年的认知科学新进展上有一篇 paper 就是讲用贝叶斯推理来解释视觉识别的，一图胜千言，下图就是摘自这篇 paper ：&lt;br /&gt;&lt;br /&gt;首先是视觉系统提取图形的边角特征，然后使用这些特征自底向上地激活高层的抽象概念（比如是 E 还是 F 还是等号），然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。&lt;br /&gt;&lt;br /&gt;4.4 EM 算法与基于模型的聚类&lt;br /&gt;&lt;a href="http://en.wikipedia.org/wiki/Data_clustering" target="_blank"&gt;聚类&lt;/a&gt;是一种&lt;a href="http://en.wikipedia.org/wiki/Unsupervised_learning" target="_blank"&gt;无指导的机器学习&lt;/a&gt;问题，问题描述：给你一堆数据点，让你将它们最靠谱地分成一堆一堆的。聚类算法很多，不同的算法适应于不同的问题，这里仅介绍一个基于模型的聚类，该聚类算法对数据点的假设是，这些数据点分别是围绕 K 个核心的 K 个正态分布源所随机生成的，使用 Han JiaWei 的《Data Ming： Concepts and Techniques》中的图：&lt;br /&gt;&lt;br /&gt;图中有两个正态分布核心，生成了大致两堆点。我们的聚类算法就是需要根据给出来的那些点，算出这两个正态分布的核心在什么位置，以及分布的参数是多少。这很明显又是一个贝叶斯问题，但这次不同的是，答案是连续的且有无穷多种可能性，更糟的是，只有当我们知道了哪些点属于同一个正态分布圈的时候才能够对这个分布的参数作出靠谱的预测，现在两堆点混在一块我们又不知道哪些点属于第一个正态分布，哪些属于第二个。反过来，只有当我们对分布的参数作出了靠谱的预测时候，才能知道到底哪些点属于第一个分布，那些点属于第二个分布。这就成了一个先有鸡还是先有蛋的问题了。为了解决这个循环依赖，总有一方要先打破僵局，说，不管了，我先随便整一个值出来，看你怎么变，然后我再根据你的变化调整我的变化，然后如此迭代着不断互相推导，最终收敛到一个解。这就是 EM 算法。&lt;br /&gt;EM 的意思是“Expectation-Maximazation”，在这个聚类问题里面，我们是先随便猜一下这两个正态分布的参数：如核心在什么地方，方差是多少。然后计算出每个数据点更可能属于第一个还是第二个正态分布圈，这个是属于 Expectation 一步。有了每个数据点的归属，我们就可以根据属于第一个分布的数据点来重新评估第一个分布的参数（从蛋再回到鸡），这个是 Maximazation 。如此往复，直到参数基本不再发生变化为止。这个迭代收敛过程中的贝叶斯方法在第二步，根据数据点求分布的参数上面。&lt;br /&gt;&lt;br /&gt;4.5 最大似然与最小二乘&lt;br /&gt;&lt;br /&gt;学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是：给定平面上 N 个点，（这里不妨假设我们想用一条直线来拟合这些点——&lt;a href="http://en.wikipedia.org/wiki/Regression_analysis" target="_blank"&gt;回归&lt;/a&gt;可以看作是&lt;a href="http://en.wikipedia.org/wiki/Curve_fitting" target="_blank"&gt;拟合&lt;/a&gt;的特例，即允许误差的拟合），找出一条最佳描述了这些点的直线。&lt;br /&gt;一个接踵而来的问题就是，我们如何定义最佳？我们设每个点的坐标为 (Xi, Yi) 。如果直线为 y = f(x) 。那么 (Xi, Yi) 跟直线对这个点的“预测”：(Xi, f(Xi)) 就相差了一个 ΔYi = Yi – f(Xi) 。最小二乘就是说寻找直线使得 (ΔY1)^2 + (ΔY2)^2 + .. （即误差的平方和）最小，至于为什么是误差的平方和而不是误差的绝对值和，统计学上也没有什么好的解释。然而贝叶斯方法却能对此提供一个完美的解释。&lt;br /&gt;我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测，所有纵坐标偏离 f(Xi) 的那些数据点都含有噪音，是噪音使得它们偏离了完美的一条直线，一个合理的假设就是偏离路线越远的概率越小，具体小多少，可以用一个正态分布曲线来模拟，这个分布曲线以直线对 Xi 给出的预测 f(Xi) 为中心，实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于 EXP[-(ΔYi)^2]。（EXP(..) 代表以常数 e 为底的多少次方）。&lt;br /&gt;现在我们回到问题的贝叶斯方面，我们要想最大化的后验概率是：&lt;br /&gt;P(hD) ∝ P(h) * P(Dh)&lt;br /&gt;又见贝叶斯！这里 h 就是指一条特定的直线，D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(Dh) 最大。很显然，P(h) 这个先验概率是均匀的，因为哪条直线也不比另一条更优越。所以我们只需要看 P(Dh) 这一项，这一项是指这条直线生成这些数据点的概率，刚才说过了，生成数据点 (Xi, Yi) 的概率为 EXP[-(ΔYi)^2] 乘以一个常数。而 P(Dh) = P(d1h) * P(d2h) * .. 即假设各个数据点是独立生成的，所以可以把每个概率乘起来。于是生成 N 个数据点的概率为 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化这个概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。 熟悉这个式子吗？&lt;br /&gt;&lt;br /&gt;5. 朴素贝叶斯方法&lt;br /&gt;朴素贝叶斯方法是一个很特别的方法，所以值得介绍一下。我们用朴素贝叶斯在垃圾邮件过滤中的应用来举例说明。&lt;br /&gt;&lt;br /&gt;5.1 贝叶斯垃圾邮件过滤器&lt;br /&gt;问题是什么？问题是，给定一封邮件，判定它是否属于垃圾邮件。按照先例，我们还是用 D 来表示这封邮件，注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件，h- 表示正常邮件。问题可以形式化地描述为求：&lt;br /&gt;P(h+D) = P(h+) * P(Dh+) / P(D)&lt;br /&gt;P(h-D) = P(h-) * P(Dh-) / P(D)&lt;br /&gt;其中 P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的，只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。然而 P(Dh+) 却不容易求，因为 D 里面含有 N 个单词 d1, d2, d3, .. ，所以P(Dh+) = P(d1,d2,..,dnh+) 。我们又一次遇到了数据稀疏性，为什么这么说呢？P(d1,d2,..,dnh+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大！开玩笑，每封邮件都是不同的，世界上有无穷多封邮件。瞧，这就是数据稀疏性，因为可以肯定地说，你收集的训练数据库不管里面含了多少封邮件，也不可能找出一封跟目前这封一模一样的。结果呢？我们又该如何来计算 P(d1,d2,..,dnh+) 呢？&lt;br /&gt;我们将 P(d1,d2,..,dnh+) 扩展为： P(d1h+) * P(d2d1, h+) * P(d3d2,d1, h+) * .. 。熟悉这个式子吗？这里我们会使用一个更激进的假设，我们假设 di 与 di-1 是完全条件无关的，于是式子就简化为 P(d1h+) * P(d2h+) * P(d3h+) * .. 。这个就是所谓的&lt;a href="http://en.wikipedia.org/wiki/Conditional_independence" target="_blank"&gt;条件独立假设&lt;/a&gt;，也正是朴素贝叶斯方法的朴素之处。而计算 P(d1h+) * P(d2h+) * P(d3h+) * .. 就太简单了，只要统计 di 这个单词在垃圾邮件中出现的频率即可。关于贝叶斯垃圾邮件过滤更多的内容可以参考&lt;a href="http://en.wikipedia.org/wiki/Bayesian_spam_filtering" target="_blank"&gt;这个条目&lt;/a&gt;，注意其中提到的其他资料。&lt;br /&gt;一点注记：这里，为什么有这个数据稀疏问题，还是因为统计学习方法工作在浅层面， 世界上的单词就算不再变多也是非常之多的，单词之间组成的句子也是变化多端，更不用说一篇文章了，文章数目则是无穷的，所以在这个层面作统计，肯定要被数据稀疏性困扰。我们要注意，虽然句子和文章的数目是无限的，然而就拿邮件来说，如果我们只关心邮件中句子的语义（进而更高抽象层面的“意图”（语义，意图如何可计算地定义出来是一个人工智能问题），在这个层面上可能性便大大缩减了，我们关心的抽象层面越高，可能性越小。单词集合和句子的对应是多对一的，句子和语义的对应又是多对一的，语义和意图的对应还是多对一的，这是个层级体系。神经科学的发现也表明大脑的皮层大致有一种层级结构，对应着越来越抽象的各个层面，至于如何具体实现一个可放在计算机内的大脑皮层，仍然是一个未解决问题，以上只是一个原则（principle）上的认识，只有当 computational 的 cortex 模型被建立起来了之后才可能将其放入电脑。&lt;br /&gt;&lt;br /&gt;5.2 为什么朴素贝叶斯方法令人诧异地好——一个理论解释&lt;br /&gt;朴素贝叶斯方法的条件独立假设看上去很傻很天真，为什么结果却很好很强大呢？就拿一个句子来说，我们怎么能鲁莽地声称其中任意一个单词出现的概率只受到它前面的 3 个或 4 个单词的影响呢？别说 3 个，有时候一个单词的概率受到上一句话的影响都是绝对可能的。那么为什么这个假设在实际中的表现却不比决策树差呢？有人对此提出了一个理论解释，并且建立了什么时候朴素贝叶斯的效果能够等价于非朴素贝叶斯的充要条件，这个解释的核心就是：有些独立假设在各个分类之间的分布都是均匀的所以对于似然的相对大小不产生影响；即便不是如此，也有很大的可能性各个独立假设所产生的消极影响或积极影响互相抵消，最终导致结果受到的影响不大。具体的数学公式请参考&lt;a href="http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf" target="_blank"&gt;这篇 paper&lt;/a&gt; 。&lt;br /&gt;&lt;br /&gt;6. 层级贝叶斯模型&lt;br /&gt;&lt;br /&gt;&lt;a href="http://en.wikipedia.org/wiki/Hierarchical_Bayes_model" target="_blank"&gt;层级贝叶斯模型&lt;/a&gt;是现代贝叶斯方法的标志性建筑之一。前面讲的贝叶斯，都是在同一个事物层次上的各个因素之间进行统计推理，然而层次贝叶斯模型在哲学上更深入了一层，将这些因素背后的因素（原因的原因，原因的原因，以此类推）囊括进来。一个教科书例子是：如果你手头有 N 枚硬币，它们是同一个工厂铸出来的，你把每一枚硬币掷出一个结果，然后基于这 N 个结果对这 N 个硬币的 θ （出现正面的比例）进行推理。如果根据最大似然，每个硬币的 θ 不是 1 就是 0 （这个前面提到过的），然而我们又知道每个硬币的 p(θ) 是有一个先验概率的，也许是一个 beta 分布。也就是说，每个硬币的实际投掷结果 Xi 服从以 θ 为中心的正态分布，而 θ 又服从另一个以 Ψ 为中心的 beta 分布。层层因果关系就体现出来了。进而 Ψ 还可能依赖于因果链上更上层的因素，以此类推。&lt;br /&gt;&lt;br /&gt;6.1 隐马可夫模型（HMM）&lt;br /&gt;&lt;br /&gt;吴军在数学之美系列里面介绍的&lt;a href="http://en.wikipedia.org/wiki/Hidden_Markov_model" target="_blank"&gt;隐马可夫模型&lt;/a&gt;（HMM）就是一个简单的层级贝叶斯模型：&lt;br /&gt;那么怎么根据接收到的信息来推测说话者想表达的意思呢？我们可以利用叫做“隐含马尔可夫模型”（Hidden Markov Model）来解决这些问题。以语音识别为例，当我们观测到语音信号 o1,o2,o3 时，我们要根据这组信号推测出发送的句子 s1,s2,s3。显然，我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知 o1,o2,o3,...的情况下，求使得条件概率 P (s1,s2,s3,...o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...&lt;br /&gt;吴军的文章中这里省掉没说的是，s1, s2, s3, .. 这个句子的生成概率同时又取决于一组参数，这组参数决定了 s1, s2, s3, .. 这个马可夫链的先验生成概率。如果我们将这组参数记为 λ ，我们实际上要求的是：P(SO, λ) （其中 O 表示 o1,o2,o3,.. ，S表示 s1,s2,s3,..）&lt;br /&gt;当然，上面的概率不容易直接求出，于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项，可以把上述公式等价变换成&lt;br /&gt;P(o1,o2,o3,...s1,s2,s3....) * P(s1,s2,s3,...)&lt;br /&gt;其中&lt;br /&gt;P(o1,o2,o3,...s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而 P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性，所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3.. 本身可以一个句子的可能性，得出概率。&lt;br /&gt;这里，s1,s2,s3...本身可以一个句子的可能性其实就取决于参数 λ ，也就是语言模型。所以简而言之就是发出的语音信号取决于背后实际想发出的句子，而背后实际想发出的句子本身的独立先验概率又取决于语言模型。&lt;br /&gt;&lt;br /&gt;7. 贝叶斯网络&lt;br /&gt;吴军已经对贝叶斯网络作了科普，请直接跳转到&lt;a href="http://googlechinablog.com/2007/01/bayesian-networks.html" target="_blank"&gt;这里&lt;/a&gt;。更详细的理论参考所有机器学习的书上都有。&lt;br /&gt;参考资料：&lt;br /&gt;一堆机器学习，一堆概率统计，一堆 Google ，和一堆 Wikipedia 条目，一堆 paper 。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-7659141610340813146?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/7659141610340813146/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=7659141610340813146' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7659141610340813146'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7659141610340813146'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/by-pongba.html' title='[转载]数学之美番外篇：平凡而又神奇的贝叶斯方法 By 刘未鹏(pongba)'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-3805639743554522402</id><published>2008-10-17T16:52:00.001+08:00</published><updated>2008-10-17T16:56:35.179+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知</title><content type='html'>&lt;p&gt;第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知&lt;/p&gt;&lt;p&gt;&lt;br /&gt;2009年5月22-24日, 大连 The 7th National Symposium of Search Engine and Web Mining(May 22-24, 2009, DaLian)&lt;/p&gt;&lt;p&gt;&lt;br /&gt;第七届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2009）由中国计算机学会主办，大连理工大学承办。该系列会议每年举行一次，现已成为国内海量网络信息处理与应用领域最主要的学术活动之一。此次会议将为网络信息搜索与挖掘领域的学者交流最新研究成果、进行广泛的学术讨论提供便利，并且将邀请国内该领域的著名学者做精彩报告，同时将保持SEWM会议的传统，组织搜索和挖掘相关技术的评测。 &lt;/p&gt;&lt;p&gt;&lt;br /&gt;征稿范围（征求但不限于如下主题）&lt;br /&gt;信息检索模型、算法及基础理论 &lt;/p&gt;&lt;p&gt;面向行业的信息检索 &lt;/p&gt;&lt;p&gt;跨语言和多语言信息检索、面向信息检索的机器翻译技术&lt;/p&gt;&lt;p&gt;交互式检索、用户界面和可视化、用户模型及分析、基于任务的信息检索 &lt;/p&gt;&lt;p&gt;智能问题回答系统&lt;/p&gt;&lt;p&gt;文本分类、文本聚类及相关的机器学习方法&lt;/p&gt;&lt;p&gt;数据挖掘、文本挖掘信息过滤与信息抽取 &lt;/p&gt;&lt;p&gt;语义网络与本体&lt;/p&gt;&lt;p&gt;文本倾向性分析、意见挖掘及舆情监控&lt;/p&gt;&lt;p&gt;网络信息检索的建模、实现和应用及搜索引擎设计&lt;/p&gt;&lt;p&gt;信息检索中的机器学习&lt;/p&gt;&lt;p&gt;生物信息学&lt;/p&gt;&lt;p&gt;语音、图像处理与理解 &lt;/p&gt;&lt;p&gt;自然语言理解在信息检索中的应用 &lt;/p&gt;&lt;p&gt;投稿要求&lt;br /&gt;论文必须未公开发表过，一般不超过6000字；中、英文稿均可接受； 论文应包括题目、作者姓名、作者单位、摘要、关键字、正文和参考文献；另附作者地址、邮编、电话或传真及E-mail地址； 参选优秀学生论文的稿件请注明（须由在校博士生、硕士生或本科生）为第一作者； 会议采用电子投稿，请将Word或PDF格式的文件发到：&lt;a href="mailto:sewm2009@dlut.edu.cn"&gt;sewm2009@dlut.edu.cn&lt;/a&gt; (超过2M的文件请先压缩；请注意接收会议组织机构发出的收稿确认电子邮件) 会议咨询：杨志豪（0411-84706009-3926），林鸿飞（0411-84706550）&lt;br /&gt;会议联系Email：&lt;a href="mailto:sewm2009@dlut.edu.cn"&gt;sewm2009@dlut.edu.cn&lt;/a&gt;&lt;br /&gt;会议网站: &lt;a href="http://sewm2009.dlut.edu.cn/"&gt;http://sewm2009.dlut.edu.cn/&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;论文出版 会议录用论文将被推荐到《Journal of Computational Information Systems》正刊(英文稿件，全部EI检索)、《计算机研究与发展》正刊、《模式识别与人工智能》正刊、《小型微型计算机系统》正刊、《计算机工程与应用》正刊、《广西师范大学学报》正刊、《郑州大学学报》正刊等期刊上发表。会议还将评出优秀学生论文，颁发证书并给予奖励。&lt;/p&gt;&lt;p&gt;&lt;br /&gt;重要日期&lt;br /&gt;投稿截止：2008年11月1日&lt;/p&gt;&lt;p&gt;录用通知：2008年12月1日&lt;/p&gt;&lt;p&gt;修改定稿：2008年12月15日&lt;br /&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-3805639743554522402?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/3805639743554522402/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=3805639743554522402' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3805639743554522402'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3805639743554522402'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/blog-post_17.html' title='第七届全国搜索引擎和网上信息挖掘学术研讨会征文通知'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-728288230803769626</id><published>2008-10-15T17:00:00.001+08:00</published><updated>2008-10-15T17:06:13.532+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='无心呢喃'/><title type='text'>送给那些大工单身贵族的箴言[转载]</title><content type='html'>这是一个老贴了，经典，再拿出来晒晒……（此帖转自考研论坛）爸教育我说：“中国的男女比例是118:100，如果不好好读书，你就是那个‘18’！”    于是我学习，长大了，我考上了大工，发现大工的男女比例是4:1，我是那个‘3’！    一入大工深似海，世界极小极小，    大工极大极大，女生极少极少，    男生极好极好，   此地“和尚拈花望月，恐龙坐地成仙。”    此地“美女如云，恐龙如星，抬眼望，朗朗夜空，万里无云，满天繁星。”   大工自古无娇娘，残花败柳一行行。   自古红颜多薄命，大工女生万万岁。   看背影，急煞千军万马；猛回头，喝退各路诸侯。    如果说美女是青草，那么大工寸草不生；如果说美女是白云，那么大工万里无云。    来到这里，我就后悔没有早恋，但是现在已经晚了，每次见到比我小的那些莘莘学子们在十年的寒窗里面苦读，   我就想告诉他们，用发自肺腑惊天地泣鬼神的声音：“千万不要考大工，就算要考也要先早恋。。。”   如果你爱她，送她去大工，因为那里是女生的天堂；    如果你恨他，送他去大工，因为那里是男生的地狱。。。    每个大工女生都曾是无泪的天使，    当遇到自己喜欢的男孩时，便会流泪——于是变为凡人。    所以大工男生一定不敢辜负大工女生，因为女生为他放弃了整个天堂！　    每个大工男生都曾是地狱的恶魔，    当遇到自己喜欢的女孩时，便会动心——于是变为凡人。    但是绝大多数女生一定会辜负那男生，    于是大工男生又要回到那可怕的地狱！    用市场经济学的角度思考，供求关系导致价格变化，    因为女生资源的短缺造成了女生的卖方市场，价格居高不下，    一路牛市，不见熊市，    而很多客观因素所导致的“女生地方保护主义“严重阻碍了市场的自动调节功能，    长此以往，恶性循环，   这对于货真价实的大工男生来说是非常不公平的，   我们要打破帝国主义的“剪刀差”，   我们要消灭爱情剥削，   我们要夺回剩余感情，寻找平等的快乐，实现共同幸福，   很多很多实例（帅哥配恐龙）成为了习惯，    很多很多习惯（重女轻男）成了文化，    很多很多文化（女尊男悲）成了酱缸，    很多很多酱缸使更多更多的大工男生一步一步深陷其中，    越是挣扎得厉害溺死得越快，    最后在整个大学四年，    就算是起的比鸡早，吃的比猪差，干的比驴还多，    也还不一定能够找到女朋友。。。    大工于是就成为了一潭死水，由男生们那些可怜的青春酿成的死水，    于是大工男生对女友的要求，就只剩了两点：女的，活的，   我们要跳出酱缸，    我们要打破美女的学校保护主义，    我们要追求爱情的自由和平等，    我们不要用血泪来酝酿那苦苦的死水，    我们要把春波荡漾出去，把春意从围墙之外迎进来，    也许你说四个男生中还有那么一个幸运儿啊，    可是事实是如此的无情，    有时候不识庐山真面目，只缘没有进入“大工女生的男朋友”这样一座围城，   里面的人痛苦地并不比外面的人少，    为那些不可爱的女生，    端茶送水，铺床叠被，前仆后继，夜以继日，披星戴月，奋不顾身，以不变应万变，万变不离其宗，   全心全意为女朋友服务，    还要花很多心思构建TMD预防系统，   防止那剩下的三个男生，甚至是三十个对她痴心不死，欲罢不能，垂涎欲滴，癞蛤蟆想吃恐龙肉，    更加担心女朋友变心，    担心女朋友花心，    担心女朋友分心，    担心女朋友。。。。。    何不放弃这些食之无味的鸡肋呢？    放弃她们并不可惜啊，    放弃了一棵吸血的魔树我们得到的是一片油绿的森林，    天涯何处无芳草，    百步之类必有芳草，    好马不吃回头草，    兔子不吃窝边草，    我们要当野草让失恋的烈火烧掉我们的叶子吧，    泥土之下的根茎将会在下一个春天发出更多的叶子，    有个浪漫的传说：“每个人都是单翼的天使，唯有彼此拥抱才能展翅飞翔。”    据说我们来到这个世上就是为了寻找另一半的 ，我千辛万苦在大工寻觅着，   可是，我们的翅膀居然都是一顺边的！！   仅有的那几个顺另外一边的女生都被高年级的、其他学校的、她高中的、她以前认识的。。。。   抱着远走高飞了，飞了。。。   也许在茫茫的人海中偶尔也有翅膀长另外一边的幸存者，   可是就算你们相抱了你们也飞不起来，你抱不动她，   昔日的爱情，已被格式化；   现在的爱情，该页无法显示或暂时不可用；   将来的爱情，内存严重不足，请关闭部分程序后重试。。。   但是生活必须继续下去，   于是我们就开始嘻笑怒骂对我们的可悲进行调侃，   我爱的人明花有主，   爱我的惨不忍睹，   不在寂寞中恋爱，   就在寂寞中变态！   两女：   A：听说你男朋友是大工的？B：唉，我哪有这么好的福气。。。   两男：   C： 听说你女朋友是大工的？D：放屁！你女朋友才是大工的呢！   上课时听见，后排两个男生：   A：“我诅咒你以后的女朋友是咱大工的！”   B：“我诅咒你以后的女朋友是咱们班的！”   曹操：“快快打探，我方还剩多少人马？”   蒋干：“只剩大工学生那么多了！”   曹操：“哈哈，天无绝人之路啊，我们尚可一战，再去打探！”   蒋干：“哎呀，主公不好，我方人马只剩大工女生那么多了！”   曹操（跌坐）：“天亡我也，看来只能速速北归了，快快再去打探！”   蒋干（一会，干回来伏曹身上痛哭）：“5555。。。。”   曹操：“如何？”   蒋干（哽咽）：“主公，我方兵马只剩大工美女那么多了！”   曹操（仰天长叹，痛不欲生）：“嗨，这样说来，我方已全军覆没了。。。”   渐渐地我们读书：   一个头两个大熬三更背四书五颜六色七荤八素九成不懂十分郁闷！   只好：   找点十间喝九泡八七茶六鸟五湖四海神游解闷三天两头奢侈一顿！   人呐：   一辈子两意三心四体不勤五谷不分六艺不精苦苦七待那八九十分！   可笑：   这十方九洲八荒七荻六合五行四野三光两界中你我渺渺一点痴心！   开始我只是喜欢上大工这个尤物，后来我就爱上了考研这门艺术；   开始我只是喜欢上学习这个尤物，后来我就爱上了考试这门艺术；   开始我只是喜欢上 QQ 这个尤物，后来我就爱上了聊天这门艺术；   开始我只是喜欢上 MM 这个尤物，后来我就爱上了失恋这门艺术。   我们的口号是，只抢大工的馒头，不碰大工的女生！   我们是多么需要一个女生在我们身边，   要不然这样的大学将是无聊的遗憾的可悲的可怜的，   我不禁仰天长啸，难道我就这样过我的大学四年？   天亮啦，早读啦，读完了，   上课啦，下课啦，   放学啦，熄灯啦，   失眠啦，   天又亮啦，无聊啦，遇见啦，爱上啦，追求啦，失败啦，   再爱上，再追求啦，失恋啦，   堕落啦,，游戏啦，CS啦，   上网啦，考试啦，复习啦，   通宵啦，放假啦，开学啦，   毕业啦，混够啦，老啦，   后悔啦我不愿意这样，也不能这样，   我要跳出这个怪圈，   我要飞出这个酱缸，   哪怕只有一只翅膀，   我要去别的地方寻找我的另外一半，   那就是，   东财，海事，师范，大外。。。。   甚至是技院，   只有走出去才是我们的希望，   我们的上帝耶稣，   我们的真主阿拉，   我们的佛主如来，   我们的毛主席，   我们的大救星，   坚信大工男生是可爱的一群人，   是一群值得大连各大高校美女爱的男生，   成为我们女朋友之后她们一定会很快乐很幸福，   我们要高举“普遍撒网，重点培养”的思想，贯彻“一个中心，两个基本点”：以寻找到女朋友为中心，   基本选择美女，基本适合条件，   还要认真学习三个代表思想：代表最先进的寻找女朋友的方，,代表最合适的选择要求，代表最广大的女朋友入选范围。与时俱进，要走群众路线，团结一切可以团结的力量，建立一个最广大的统一战线。还要虚心听取同学们的意见，走美女与恐龙相结合的道路。   认真执行立志寻觅女朋友时的“十三个不要”：   1，恐龙的不要； 2，有男朋友的不要；   3，行为过于开放的不要； 4，低于1.55CM的不要；   5，不是学生的不要； 6，是大工的不要；   7，读了研的不要； 8，1988年以后的不要；   9，1984年以前的不要； 10，有残疾的不要；   11，酷爱打扮花钱夸张的不要； 12，不温柔的不要；   13，男人的不要！   对单身妹妹，要始终争取；对有夫之妇，从未放弃；   对十八岁以上女孩，注意发掘；对小于十八的，要有战略性眼光。   我们喜欢的女孩最好像黛玉一样有才气，像宝钗一样懂事，像可卿一样漂亮，像湘云一样豪爽，   像李纨一样忠贞，像探春一样能干，像凤姐一样精明，   还要像元春一样有福气。   但是千千万万不要像黛玉一样弱不禁风，宝钗一样自私，   可卿一样风流薄命，湘云一样不通世务，迎春一样呆头呆脑，   惜春一样心灰意冷，妙玉一样矫柔造作，贾母一样老。   勿以不够漂亮而不联系，勿以过于漂亮而放弃。   一旦发现合适的美女就去“追”她，就以迅雷不及掩耳盗铃之势，   象狂奔的蜗牛，   名花虽有主，我来松松土，   无耻是我们的作风，   卑鄙是我们的手段，   真爱是我们的口头禅，   不谙世事的小MM是我们的盘中餐，   切记“我们是害虫，我们是害虫”，   要有“花”堪折直须折，莫待无“花”空折枝。   有觅则觅，   有美女要觅，   没有美女创造美女也要觅，   有觅不觅非君子。   要牢固树立能够找到这样的美女的信念，为伟大的告别单身事业奋斗终身。   终会有一天，红旗重新在克里姆林宫上空飘扬，《国际歌》在白宫响起，东京上空飘起美丽的蘑菇云，共产主义之光照耀全球，大工的男生们找到了他们的女朋友。。。。。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-728288230803769626?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/728288230803769626/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=728288230803769626' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/728288230803769626'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/728288230803769626'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/blog-post.html' title='送给那些大工单身贵族的箴言[转载]'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-4461932401932480120</id><published>2008-10-11T11:09:00.003+08:00</published><updated>2008-10-11T11:16:02.872+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='名词释义'/><title type='text'>Java Language Keywords (转载)</title><content type='html'>From：&lt;a href="http://dev.csdn.net/article/81956.shtm"&gt;http://dev.csdn.net/article/81956.shtm&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:130%;"&gt;Java Language Keywords&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Here's a list of keywords in the Java language. These words are reserved — you cannot use any of these words as names in your programs. true, false, and null are not keywords but they are reserved words, so you cannot use them as names in your programs either.&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;abstract continue for new switch&lt;br /&gt;assert*** default goto* package synchronized&lt;br /&gt;boolean do if private this&lt;br /&gt;break double implements protected throw&lt;br /&gt;byte else import public throws&lt;br /&gt;case enum**** instanceof return transient&lt;br /&gt;catch extends int short try&lt;br /&gt;char final interface static void&lt;br /&gt;class finally lon g strictfp** volatile&lt;br /&gt;const* float native super while&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;* not used&lt;br /&gt;** added in 1.2&lt;br /&gt;*** added in 1.4&lt;br /&gt;**** added in 5.0&lt;br /&gt;&lt;br /&gt;Key: strictfp**&lt;br /&gt;&lt;br /&gt;使用对象：类、方法&lt;br /&gt;&lt;br /&gt;自Java2以来，Java语言增加了一个关键字strictfp，虽然这个关键字在大多数场合比较少用，但是还是有必要了解一下。&lt;br /&gt;&lt;br /&gt;strictfp的意思是FP-strict，也就是说精确浮点的意思。在Java虚拟机进行浮点运算时，如果没有指定strictfp关键字时，Java的编译器以及运行环境在对浮点运算的表达式是采取一种近似于我行我素的行为来完成这些操作，以致于得到的结果往往无法令你满意。而一旦使用了strictfp来声明一个类、接口或者方法时，那么所声明的范围内Java的编译器以及运行环境会完全依照浮点规范IEEE-754来执行。因此如果你想让你的浮点运算更加精确，而且不会因为不同的硬件平台所执行的结果不一致的话，那就请用关键字strictfp。&lt;br /&gt;&lt;br /&gt;你可以将一个类、接口以及方法声明为strictfp，但是不允许对接口中的方法以及构造函数声明strictfp关键字，例如下面的代码：&lt;br /&gt;&lt;br /&gt;1. 合法的使用关键字strictfp&lt;br /&gt;strictfp interface A {}&lt;br /&gt;public strictfp class FpDemo1 {&lt;br /&gt;strictfp void f() {}&lt;br /&gt;}&lt;br /&gt;2. 错误的使用方法&lt;br /&gt;interface A {&lt;br /&gt;strictfp void f();&lt;br /&gt;}&lt;br /&gt;public class FpDemo2 {&lt;br /&gt;strictfp FpDemo2() {}&lt;br /&gt;}&lt;br /&gt;一旦使用了关键字strictfp来声明某个类、接口或者方法时，那么在这个关键字所声明的范围内所有浮点运算都是精确的，符合IEEE-754规范的。例如一个类被声明为strictfp，那么该类中所有的方法都是strictfp的。&lt;br /&gt;&lt;br /&gt;Keys: volatile&lt;br /&gt;使用对象：字段介绍：因为异步线程可以访问字段，所以有些优化操作是一定不能作用在字段上的。volatile有时可以代替synchronized。&lt;br /&gt;&lt;br /&gt;Keys：transient&lt;br /&gt;　　使用对象：字段&lt;br /&gt;　　介绍：字段不是对象持久状态的一部分，不应该把字段和对象一起串起。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-4461932401932480120?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/4461932401932480120/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=4461932401932480120' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4461932401932480120'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4461932401932480120'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/10/java-language-keywords.html' title='Java Language Keywords (转载)'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2304109189970418002</id><published>2008-09-29T11:18:00.003+08:00</published><updated>2008-09-29T11:27:01.067+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>读模型之感</title><content type='html'>终于开始了漫漫模型研读之路，期间痛苦与兴奋共存&lt;br /&gt;痛迷惑时之所苦，体大悟后之所乐。&lt;br /&gt;漫漫研习路，吾将上下而求索。&lt;br /&gt;人生百态，自当一一亲历，方可体味其酸甜苦辣。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2304109189970418002?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2304109189970418002/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2304109189970418002' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2304109189970418002'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2304109189970418002'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/blog-post_29.html' title='读模型之感'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-3091907319966409285</id><published>2008-09-29T09:16:00.001+08:00</published><updated>2008-09-29T11:38:25.621+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='名词释义'/><title type='text'>Autoregressive Model</title><content type='html'>A model which depends only on the previous outputs of the system is called an autoregressive model (AR), while a model which depends only on the inputs to the system is called a moving average model (MA), and of course a model based on both inputs and outputs is an autoregressive-moving-average model (ARMA). Note that by definition, the AR model has only poles while the MA model has only zeros.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-3091907319966409285?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/3091907319966409285/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=3091907319966409285' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3091907319966409285'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3091907319966409285'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/autoregressive-model.html' title='Autoregressive Model'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-1571112623448332005</id><published>2008-09-26T14:34:00.005+08:00</published><updated>2008-09-26T14:41:47.401+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>好公司：让员工站在公司的肩膀上（转载）</title><content type='html'>转载自：&lt;a href="http://bschool.hexun.com/2008-09-25/109248161.html"&gt;http://bschool.hexun.com/2008-09-25/109248161.html&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#ff0000;"&gt;　　一个好的公司，不能是做加法的公司。不是说1个人可以产生1块钱，10个人可以产生10块钱的公司。好的公司一定是做乘法的公司。好的公司，尤其是非常成功，并且长久成功的公司，一定是在基础机构上面投资最多的公司；一个好的公司，一定要让员工站在自己的肩膀上。&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;　　一天中午，从MountView过来的Google做PageRank算法的朋友阳萌，和大家一起去吃水饺。在吃饭期间，我们不可避免地聊起了Google，当然还有微软。&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:130%;"&gt;&lt;strong&gt;基础设施&lt;/strong&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-size:130%;"&gt;&lt;strong&gt;&lt;/strong&gt;&lt;br /&gt;&lt;/span&gt;　　Google和微软，从大的角度来说，他们很像：他们都是软件公司。但软件公司多了，Oracle也是软件公司，Adobe也是，Netscape也是，还有很多很多的软件公司。但Google和微软和他们又都不一样，显得很另类。从行业来说，微软主营的是操作系统和办公套件，Google专注&lt;a href="http://it.hexun.com/" target="_blank"&gt;互联网&lt;/a&gt;上的搜索，看似行业不一样，但他们在不同的行业又有一点相同。&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;　&lt;span style="color:#ff0000;"&gt;　这一点相同的地方，就是他们都是平台提供商。&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;　　平台这个被滥用的词，挺难准确地表达我想表达的意思。我要说的就是，就是他们都希望做好东西，让别人在自己的基础上做开发，而不仅仅满足于别人用自己的应用程序本身。做为公司，它们是这样对待外部的用户和合作伙伴的，但更重要的是，他们也是这样对待自己的员工的。&lt;br /&gt;&lt;br /&gt;　　比如说Windows，首先要说，它是个不错的应用程序，否则也就没有它做平台的份儿了。但它真正的成功是让开发者在上面开发应用。如果我们看到微软内部，各个部门互相提供大量的编程接口，这成就了微软内部的很多的创新。在微软内部，大家都争着为其他部门提供更好的“编程接口”好让他们用自己的服务。也就是说，在微软公司里面，自己可以在其上开发的“平台”很多，所以可以做出更好的东西。&lt;br /&gt;&lt;br /&gt;　　Google的搜索当然不错，但在它的背后，也是一个大的平台，让Google的工程师可以更高效地开发程序。比如GFS（Google File System），就提供了便宜的、巨大的、高容错的、高性能的存储。这样的平台，估计现在全球范围内不多。还有Mapreduce，这个让一个程序并发地跑在数万台电脑上的程序框架，让一个刚刚加入公司的程序员就可以操纵数万台电脑，一晚上处理到几个TB的数据；再比如说Bigtable这样的东东。&lt;br /&gt;&lt;br /&gt;　　这些东西，借用阳萌的话说，&lt;span style="color:#ff0000;"&gt;其实是一个公司提供给员工的基础设施。&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;&lt;span style="font-size:130%;"&gt;放大个人的力量&lt;/span&gt;&lt;/strong&gt;&lt;br /&gt;&lt;span style="font-size:130%;"&gt;&lt;strong&gt;&lt;/strong&gt;&lt;br /&gt;&lt;/span&gt;　　在微软和在Google工作的人，或许和在很多的成功的大公司里的人一样，都有种交织在一起的幸运感和失落感，至少我是有的。让你觉得幸运的是，这个环境是如此的完美，干什么都有很多的工具，很多的知识库，还有很多团队在支持者自己。其中分工是如此之细，每个分工上都有最专业的人用最高效的方式提供支持。&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;　　比如在微软，最喜欢的一个内部网站就是http://toolkit，各种各样的内部的小工具，全是微软平台上的，工程师为自己解决自己的问题写的。如果要建个新的邮件地址，随便谁都可以马上在autogroup里面申请一个&lt;a href="mailto:abc@microsoft.com"&gt;abc@microsoft.com&lt;/a&gt;这样的邮件，三分钟不要，就可以发布到互联网上去，接收邮件了。要解决问题，近百万篇知识库文章，找什么有什么。想学东西，内部的培训资料看也看不完。就算找人，各种牛人一把一把的让你问。总之，很多人都会觉得，在这个公司做一个工程师真幸福。&lt;br /&gt;&lt;br /&gt;　　但失落感也同时在于此。优秀的公司是个系统，在系统里面，每个人都很伟大。离开了系统，离开了支持，自己头上的光环就立刻消失，才发现干什么都很难，因为没有现成的东西支持着自己。&lt;span style="color:#ff0000;"&gt;所谓橘生淮南则为橘，橘生淮北而为枳。有自知之明的人应该知道，自己只是那一株橘子，而真正伟大的是土壤&lt;/span&gt;。&lt;br /&gt;&lt;br /&gt;　　阳萌也有类似的感慨。Google内部的好资源太多，外面有的，Linux阵营有的，Google内部都会自己实现一遍，让自己觉得这里什么都有。建立在这些平台上面可以做出来的东西，比自己不用这些资源的产出大不止百倍。这感觉就好像用汇编语言也能写东西，用Windows下的VB也能写东西，但是有了好的平台和工具，画同样一个窗口花的时间是完全不同的。&lt;br /&gt;&lt;br /&gt;　　这也就证明了Windows+VB是比芯片+汇编好得多的平台。但问题就在于，所有这些好东西，根本没有办法拿出来用。&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:130%;"&gt;&lt;strong&gt;做加法还是做乘法的公司&lt;/strong&gt;&lt;/span&gt;&lt;br /&gt;&lt;strong&gt;&lt;span style="font-size:130%;"&gt;&lt;/span&gt;&lt;/strong&gt;&lt;br /&gt;　　一个好的公司，不能是做加法的公司。不是说1个人可以产生1块钱，10个人可以产生10块钱的公司。&lt;br /&gt;&lt;br /&gt;　　好的公司一定是做乘法的公司。4个人可以产生4块钱，5个人应该就可产生8块钱。这个乘法的基础，就是大家都在做基础设施，自己站在别人的肩膀上，也让别人站在自己的肩膀上。&lt;br /&gt;　　但很显然，微软和Google支持员工的基础设施还是有很明显的区别的。&lt;br /&gt;&lt;br /&gt;　　&lt;span style="color:#ff0000;"&gt;微软更多的还是在包装好的软件的层面&lt;/span&gt;。这和微软过去30多年的积累有关。比如微软里的一个工具，可以方便地做出单机或者局域网环境的好的系统——微软工具的快速开发是被业界称道的，但是它没有办法把自己的数据中心向员工开放。因为，从本质上来说，微软不是一个围绕着数据中心起家的公司，微软的数据中心的成本，也不足以支撑这个体系。毕竟，在微软诞生的年月里，现在规模的数据中心的概念还无法想象。&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#ff0000;"&gt;　　而Google更多的是在于服务上面&lt;/span&gt;。Google从第一天就是建在数据中心基础上的公司，他的基础设施显然也是对于所有的员工开放的。一个普通的工程师获取的支持，不是一段代码，而是跑着一个服务的上万台电脑。有种说法，Google已经成为世界头几大的PC制造商了，只不过他们的PC都是自己用，而不销售而已。&lt;br /&gt;&lt;br /&gt;　　如果从这个角度上来说，微软的支持是一节电池，一个发动机，可以组装成一个个玩具车；而Google的支持更像一个交流电网，一个电话系统，可以做出基于这些网络的应用。而没有这些模块支持的人，好似在森林里赤手空拳的找到了一根木棍。&lt;br /&gt;&lt;br /&gt;　　所以微软依然会在他擅长的软件领域取得巨大的成功，无论是安装在桌子里的电脑，放在硬件设备上的软件。而Google则会在围绕互联网数据中心的领域取得成功。这些，都是可在公司的DNA里面的。&lt;br /&gt;&lt;br /&gt;&lt;strong&gt;&lt;span style="font-size:130%;"&gt;给我们的启示&lt;/span&gt;&lt;/strong&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="color:#ff0000;"&gt;　　无论是程序还是公司，架构很重要，就是如何把人员和资源搭成梯子，文化上有让别人更伟大的导向，让一个刚刚进公司的人，可以迅速的做到比他进入其他公司的同龄人获得更多的支持，这才是一个公司的结构上的成功。&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;　　好的公司，尤其是非常成功，并且长久成功的公司，一定是在基础机构上面投资最多的公司；一个好的公司，一定要让员工站在自己的肩膀上。&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-1571112623448332005?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/1571112623448332005/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=1571112623448332005' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/1571112623448332005'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/1571112623448332005'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/blog-post_26.html' title='好公司：让员工站在公司的肩膀上（转载）'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-576411120547376416</id><published>2008-09-20T09:29:00.003+08:00</published><updated>2008-09-20T09:31:39.801+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='NLP'/><category scheme='http://www.blogger.com/atom/ns#' term='Information Retrieval'/><title type='text'>IR、NLP领域相关会议</title><content type='html'>生物：BioCreative， TREC Genomics Track&lt;br /&gt;自然语言：ACL，CoNLL，NAACL&lt;br /&gt;机器学习：ICML，NIPS，COLT，ECML&lt;br /&gt;数据挖掘：ICDM，KDD， SIGKDD， PAKDD&lt;br /&gt;信息检索：SIGIR， AIRS&lt;br /&gt;人工智能：IJCAI， AAAI，CIKM&lt;br /&gt;Web技术：WWW&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-576411120547376416?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/576411120547376416/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=576411120547376416' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/576411120547376416'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/576411120547376416'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/irnlp.html' title='IR、NLP领域相关会议'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-3242008865109069339</id><published>2008-09-19T08:27:00.002+08:00</published><updated>2008-09-19T08:35:14.325+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='无心呢喃'/><title type='text'>9.18</title><content type='html'>警钟长鸣，勿忘国耻，兴我中华！&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-3242008865109069339?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/3242008865109069339/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=3242008865109069339' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3242008865109069339'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3242008865109069339'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/918.html' title='9.18'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-5340600897823063719</id><published>2008-09-14T23:44:00.004+08:00</published><updated>2008-09-14T23:49:11.557+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='无心呢喃'/><title type='text'>Search Engine Group VS 863 Plan</title><content type='html'>过几天师兄就要出国了，以后组内的事情就由我负责了，感觉好有压力啊。&lt;br /&gt;这个学期863项目就要结题了，可到目前为止，系统还没有做完，Paper还没写呢。。。&lt;br /&gt;这段时间忙着做实验，但愿实验过程一切顺利，早日把Paper写出来，才有精力完善系统啊&lt;br /&gt;&lt;br /&gt;Faith！！！&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-5340600897823063719?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/5340600897823063719/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=5340600897823063719' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5340600897823063719'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5340600897823063719'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/search-engine-group-vs-863-plan.html' title='Search Engine Group VS 863 Plan'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-7435045305984122791</id><published>2008-09-11T17:42:00.005+08:00</published><updated>2008-09-19T08:36:58.970+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='无心呢喃'/><title type='text'>师兄新婚</title><content type='html'>今天惊闻师兄要成家了，特发此文恭喜他&lt;br /&gt;祝二人新婚快乐，永远幸福！&lt;br /&gt;&lt;br /&gt;另外，师兄过段时间就要出去读博了，祝他事业有成，早日博士毕业&lt;br /&gt;真是双喜临门哈！&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-7435045305984122791?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/7435045305984122791/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=7435045305984122791' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7435045305984122791'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7435045305984122791'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/09/blog-post.html' title='师兄新婚'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2785245774943682561</id><published>2008-08-31T21:35:00.000+08:00</published><updated>2008-08-31T21:37:31.319+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='POS Tagging'/><title type='text'>Part of Speech Taggers</title><content type='html'>Freely downloadable&lt;br /&gt;&lt;a href="http://nlp.stanford.edu/software/tagger.shtml"&gt;Stanford POS tagger&lt;/a&gt;&lt;br /&gt;Loglinear tagger in Java (by Kristina Toutanova)&lt;br /&gt;&lt;a href="http://ilk.uvt.nl/mbt/"&gt;MBT: Memory-based Tagger&lt;/a&gt;&lt;br /&gt;Based on TiMBL&lt;br /&gt;&lt;a href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html"&gt;TreeTagger&lt;/a&gt;&lt;br /&gt;A decision tree based tagger from the University of Stuttgart (Helmut Scmid). It's language independent, but comes complete with parameter files for English, German, Italian, Dutch, French, Old French, Spanish, Bulgarian, and Russian. (Linux, Sparc-Solaris, Windows, and Mac OS X versions. Binary distribution only.) Page has links to sites where you can run it online.&lt;br /&gt;&lt;a href="http://www.lsi.upc.es/~nlp/SVMTool/"&gt;SVMTool&lt;/a&gt;&lt;br /&gt;POS Tagger based on SVMs (uses SVMlight). LGPL.&lt;br /&gt;&lt;a href="http://sourceforge.net/projects/acopost/"&gt;ACOPOST&lt;/a&gt; (formerly ICOPOST)&lt;br /&gt;Open source C taggers originally written by by Ingo Schröder. Implements maximum entropy, HMM trigram, and transformation-based learning. C source available under GNU public license.&lt;br /&gt;&lt;a href="ftp://ftp.cis.upenn.edu/pub/adwait/jmx/"&gt;MXPOST&lt;/a&gt;: Adwait Ratnaparkhi's Maximum Entropy part of speech tagger&lt;br /&gt;Java POS tagger. A sentence boundary detector (MXTERMINATOR) is also included. Original version was only JDK1.1; later version worked with JDK1.3+. Class files, not source.&lt;br /&gt;&lt;a href="http://nlp.cs.jhu.edu/~rflorian/fntbl/"&gt;fnTBL&lt;/a&gt;&lt;br /&gt;A fast and flexible implementation of Transformation-Based Learning in C++. Includes a POS tagger, but also NP chunking and general chunking models.&lt;br /&gt;&lt;a href="http://www.ling.gu.se/~lager/mutbl.html"&gt;mu-TBL&lt;/a&gt;&lt;br /&gt;An implementation of a Transformation-based Learner (a la Brill), usable for POS tagging and other things by Torbjörn Lager. Web demo also available. Prolog.&lt;br /&gt;&lt;a href="http://chasen.org/~taku/software/yamcha/"&gt;YamCha&lt;/a&gt;&lt;br /&gt;SVM-based NP-chunker, also usable for POS tagging, NER, etc. C/C++ open source. Won CoNLL 2000 shared task. (Less automatic than a specialized POS tagger for an end user.)&lt;br /&gt;&lt;a href="http://www.english.bham.ac.uk/staff/omason/software/qtag.html"&gt;QTAG Part of speech tagger&lt;/a&gt;&lt;br /&gt;An HMM-based Java POS tagger from Birmingham U. (Oliver Mason). English and German parameter files. [Java class files, not source.]&lt;br /&gt;&lt;a href="ftp://lands.let.kun.nl/pub/tosca/tlbtag"&gt;The TOSCA/LOB tagger&lt;/a&gt;.&lt;br /&gt;Currently available for MS-DOS only. But the decision to make this famous system available is very interesting from an historical perspective, and for software sharing in academia more generally. LOB tag set.&lt;br /&gt;&lt;a href="http://www.cs.jhu.edu/~brill/RBT1_14.tar.Z"&gt;Brill's Transformation-based learning Tagger&lt;/a&gt;&lt;br /&gt;A symbolic tagger, written in C.&lt;br /&gt;Original Xerox Tagger&lt;br /&gt;A common lisp HMM tagger available by &lt;a href="ftp://parcftp.xerox.com/pub/tagger/"&gt;ftp&lt;/a&gt;.&lt;br /&gt;&lt;a href="http://search.cpan.org/~acoburn/Lingua-EN-Tagger/"&gt;Lingua-EN-Tagger&lt;/a&gt;&lt;br /&gt;Perl POS tagger by Maciej Ceglowski and Aaron Coburn. Version 0.11. (A bigram HMM tagger.)&lt;br /&gt;Free, but require registration&lt;br /&gt;&lt;a href="http://www.issco.unige.ch/staff/robert/tatoo/tatoo.html"&gt;TATOO&lt;/a&gt;&lt;br /&gt;The ISSCO tagger. HMM tagger. Need to register to download.&lt;br /&gt;&lt;a href="http://nlp.postech.ac.kr/~project/DownLoad/k_api.html"&gt;PoSTech Korean morphological analyzer and tagger&lt;/a&gt;&lt;br /&gt;Online registration.&lt;br /&gt;&lt;a href="http://www.coli.uni-sb.de/~thorsten/tnt/"&gt;TnT - A Statistical Part-of-Speech Tagger&lt;/a&gt;&lt;br /&gt;Trainable for various languages, comes with English and German pre-compiled models. Runs on Solaris and Linux.&lt;br /&gt;Usable by email or on the web, but not distributed freely&lt;br /&gt;&lt;a href="http://ilk.uvt.nl/~zavrel/tagtest.html"&gt;Memory-based tagger&lt;/a&gt;&lt;br /&gt;From ILK group, Catholic University Brabant (Jakub Zavrel/Walter Daelemans). Does Dutch, English, Spanish, Swedish, Slovene. &lt;a href="http://ilk.uvt.nl/demos.html"&gt;Other MBL demos&lt;/a&gt; are also available.&lt;br /&gt;Birmingham tagger&lt;br /&gt;Accepts only &lt;a href="mailto:tagger@clg.bham.ac.uk"&gt;plain ASCII email message&lt;/a&gt; contents. The tagset used is similar to the Brown/LOB/Penn set.&lt;br /&gt;&lt;a href="http://www.comp.lancs.ac.uk/ucrel/claws/"&gt;CLAWS tagger&lt;/a&gt;&lt;br /&gt;The UCREL CLAWS tagger is available for trial use on the web. (It's limited to 300 words though -- this site is more of an advertisement for licensing the real thing -- available as software for Suns or as a paid service.) You can also find info on &lt;a href="http://www.comp.lancs.ac.uk/ucrel/annotation.html"&gt;CLAWS tagsets&lt;/a&gt;, though that page doesn't seem to link to the &lt;a href="http://www.comp.lancs.ac.uk/ucrel/claws7tags.html"&gt;C7 tagset&lt;/a&gt;.&lt;br /&gt;&lt;a href="http://www.scs.leeds.ac.uk/ccalas/amalgam/amalgtag3.html"&gt;The AMALGAM tagger&lt;/a&gt;&lt;br /&gt;The &lt;a href="http://www.comp.leeds.ac.uk/amalgam/amalgam/amalghome.htm"&gt;AMALGAM Project&lt;/a&gt; also has various other useful resources, in particular &lt;a href="http://www.comp.leeds.ac.uk/amalgam/tagsets/tagmenu.html"&gt;a web guide to different tag sets in common use&lt;/a&gt;. The tagging is actually done by a (retrained) version of the Brill tagger (q.v.).&lt;br /&gt;&lt;a href="http://www.xrce.xerox.com/competencies/content-analysis/toolhome.en.html"&gt;Xerox XRCE MLTT Part Of Speech Taggers&lt;/a&gt;&lt;br /&gt;Tags any of 14 languages (European and Arabic), online on the web.&lt;br /&gt;Portuguese taggers on the web: &lt;a href="http://natura.di.uminho.pt/natura/natura"&gt;Projecto Natura&lt;/a&gt; and &lt;a href="http://lael.pucsp.br/corpora/etiquetagem/"&gt;a QTAG adaptation&lt;/a&gt;.&lt;br /&gt;Not free&lt;br /&gt;Lingsoft&lt;br /&gt;&lt;a href="http://www.lingsoft.fi/"&gt;Lingsoft&lt;/a&gt; in Finland has (symbolic) analysis tools for many European languages. More information can be obtained by emailing &lt;a href="mailto:info@lingsoft.fi"&gt;info@lingsoft.fi&lt;/a&gt;. There is an &lt;a href="http://www.lingsoft.fi/cgi-pub/engcg"&gt;online demo&lt;/a&gt;.&lt;br /&gt;Conexor&lt;br /&gt;&lt;a href="http://www.conexor.fi/"&gt;Conexor&lt;/a&gt; in Finland has demonstrations of EngCG-style taggers and parsers, for English, Swedish, and Spanish.&lt;br /&gt;Xerox&lt;br /&gt;&lt;a href="http://www.rxrc.xerox.com/research/mltt/"&gt;Xerox&lt;/a&gt; has morphological analyzers and taggers for many languages. There are &lt;a href="http://www.rxrc.xerox.com/research/mltt/toolhome.html"&gt;demos&lt;/a&gt; of some of their tools on the web. More information can be obtained by contacting &lt;a href="mailto:drusso.osbu_north@xerox.com"&gt;Daniella Russo&lt;/a&gt;.&lt;br /&gt;Infogistics&lt;br /&gt;&lt;a href="http://www.infogistics.com/posdemo.htm"&gt;Infogistics&lt;/a&gt;, an Edinburgh spinoff has a tagging and NP/Verb group chunker available commercially, including an evaluation version.&lt;br /&gt;No longer available&lt;br /&gt;LT POS and LT TTT&lt;br /&gt;The Edinburgh Language Technology Group tagger and text tokenizer (and sentence splitter were binary-only Solaris tools which no longer seem to be available.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2785245774943682561?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2785245774943682561/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2785245774943682561' title='2 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2785245774943682561'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2785245774943682561'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/08/part-of-speech-taggers.html' title='Part of Speech Taggers'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2425082237156727038</id><published>2008-07-18T00:49:00.000+08:00</published><updated>2008-07-18T00:51:14.593+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='CIKM'/><title type='text'>Accepted papers of ACM CIKM 2006</title><content type='html'>ACM Fifteenth Conference on Information and Knowledge Management (CIKM2006)&lt;br /&gt;&lt;br /&gt;                           November 6-11, 2006&lt;br /&gt;                      http://sa1.sice.umkc.edu/cikm2006/&lt;br /&gt;&lt;br /&gt;             Sheraton Crystal City Hotel Arlington, VA 22202&lt;br /&gt;&lt;br /&gt;                     Sponsored by: ACM SIGIR, and SIGWEB&lt;br /&gt;*****************************************************************************&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Number of submissions: 537&lt;br /&gt;We accepted 15% as full papers and 10% as poster papers.&lt;br /&gt;Accepted full papers: 81&lt;br /&gt;Accepted poster papers: 56&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Accepted Full Papers&lt;br /&gt;---------------------------&lt;br /&gt;Automatic Computation of Semantic Proximity Using Taxonomic Knowledge&lt;br /&gt;             Cai-Nicolas Ziegler&lt;br /&gt;             Kai Simon&lt;br /&gt;             Georg Lausen&lt;br /&gt;&lt;br /&gt;Secure search in enterprise webs: tradeoffs in efficient implementation for&lt;br /&gt;document level security&lt;br /&gt;             Peter Bailey&lt;br /&gt;             David Hawking&lt;br /&gt;             Brett Matson&lt;br /&gt;&lt;br /&gt;Performance Thresholding in Practical Text Classification&lt;br /&gt;             Hinrich Schuetze&lt;br /&gt;&lt;br /&gt;Efficient Model Selection for Regularized Linear Discriminant Analysis&lt;br /&gt;             Jieping Ye&lt;br /&gt;             Tao Xiong&lt;br /&gt;             Qi Li&lt;br /&gt;             Ravi Janardan&lt;br /&gt;             Jinbo Bi&lt;br /&gt;             Vladimir Cherkassky&lt;br /&gt;             Chandra Kambhamettu&lt;br /&gt;&lt;br /&gt;Ranking Web Objects from Multiple Communities&lt;br /&gt;             Le Chen&lt;br /&gt;             Lei Zhang&lt;br /&gt;             Feng Jing&lt;br /&gt;             Ke-Feng Deng&lt;br /&gt;             Wei-Ying Ma&lt;br /&gt;&lt;br /&gt;Window Join Approximation over Data Streams with Importance Semantics&lt;br /&gt;             Qiang Zhu&lt;br /&gt;             Wen Chi Hou&lt;br /&gt;             Adegoke Ojewole&lt;br /&gt;&lt;br /&gt;Ranking Robustness: A Novel Framework to Predict Query Performance&lt;br /&gt;             Yun  Zhou&lt;br /&gt;             W. Bruce Croft&lt;br /&gt;&lt;br /&gt;Annotation Propagation Revisited for Key Preserving Views&lt;br /&gt;             Floris Geerts&lt;br /&gt;             Gao Cong&lt;br /&gt;             Wenfei Fan&lt;br /&gt;&lt;br /&gt;Text Classification Improved through Multigram Models&lt;br /&gt;             Dou Shen&lt;br /&gt;&lt;br /&gt;Improving Novelty Detection for General Topics Using Sentence Level&lt;br /&gt;Information Patterns&lt;br /&gt;             Xiaoyan Li&lt;br /&gt;&lt;br /&gt;An Integer Programming Approach for Frequent Itemset Hiding&lt;br /&gt;             Vassilios Verykios&lt;br /&gt;             Aris Gkoulalas-Divanis&lt;br /&gt;&lt;br /&gt;Vector and Matrix Operations Programmed with UDFs in a Relational DBMS&lt;br /&gt;             Carlos Ordonez&lt;br /&gt;             Javier Garcia-Garcia&lt;br /&gt;&lt;br /&gt;Exploiting Asymmetry in Hierarchical Topic Extraction&lt;br /&gt;             Sreenivas Gollapudi&lt;br /&gt;             Rina Panigrahy&lt;br /&gt;&lt;br /&gt;3DString: A Feature String Kernel for 3D Object Classification on Voxelized&lt;br /&gt;Data&lt;br /&gt;             Karsten Borgwardt&lt;br /&gt;             Johannes Aßfalg&lt;br /&gt;             Hans-Peter Kriegel&lt;br /&gt;&lt;br /&gt;KDDCS: A Load-Balanced In-Network Data-Centric Storage Scheme for Sensor&lt;br /&gt;Networks&lt;br /&gt;             Mohamed Aly&lt;br /&gt;             Kirk Pruhs&lt;br /&gt;             Panos K. Chrysanthis&lt;br /&gt;&lt;br /&gt;Efficient Processing of Complex Similarity Queries in RDBMS through Query&lt;br /&gt;Rewriting&lt;br /&gt;             Caetano Traina&lt;br /&gt;             Agma Traina&lt;br /&gt;             Marcos Rodrigues Vieira&lt;br /&gt;             Adriano Siqueira Arantes&lt;br /&gt;             Christos Faloutsos&lt;br /&gt;&lt;br /&gt;Movie review mining and summarization&lt;br /&gt;             Li Zhuang&lt;br /&gt;             Feng Jing&lt;br /&gt;             Xiao-Yan Zhu&lt;br /&gt;             Lei Zhang&lt;br /&gt;&lt;br /&gt;Capturing Community Search Expertise for Personalized Web Search using&lt;br /&gt;Snippet-Indexes&lt;br /&gt;             Oisin Boydell&lt;br /&gt;             Barry Smyth&lt;br /&gt;&lt;br /&gt;Validating Associations in Biological Databases&lt;br /&gt;             Francisco M Couto&lt;br /&gt;             Pedro M Coutinho&lt;br /&gt;             Mario Silva&lt;br /&gt;&lt;br /&gt;Query Optimization using Restructured Views&lt;br /&gt;             Rada Chirkova&lt;br /&gt;             Fereidoon Sadri&lt;br /&gt;&lt;br /&gt;Estimating Corpus Size via Queries&lt;br /&gt;             Ravi Kumar&lt;br /&gt;             Andrew  Tomkins&lt;br /&gt;             Andrei Broder&lt;br /&gt;             Marcus Fontoura&lt;br /&gt;             Vanja Josifovski&lt;br /&gt;             Rajeev Motwani&lt;br /&gt;             Ying Xu&lt;br /&gt;             Rina Panigrahy&lt;br /&gt;             Shubha Nabar&lt;br /&gt;&lt;br /&gt;Concept Similarity Mining without Frequency Information from Domain&lt;br /&gt;Describing Taxonomies&lt;br /&gt;             Jong Wook Kim&lt;br /&gt;             K. Selcuk Candan&lt;br /&gt;&lt;br /&gt;In Search of Meaning for Time Series Subsequence Clustering: Matching&lt;br /&gt;Algorithms Based on a New Distance Measure&lt;br /&gt;             Dina Goldin&lt;br /&gt;             Ricardo Mardales&lt;br /&gt;             George Nagy&lt;br /&gt;&lt;br /&gt;Distributed Spatio-Temporal Similarity Search&lt;br /&gt;             Demetrios Zeinalipour-Yazti&lt;br /&gt;             Song Lin&lt;br /&gt;             Dimitrios  Gunopulos&lt;br /&gt;&lt;br /&gt;Concept Frequency Distribution in Biomedical Text Summarization&lt;br /&gt;             Lawrence Reeve&lt;br /&gt;             Hyoil Han&lt;br /&gt;             Saya V. Nagori&lt;br /&gt;             Jonathan Yang&lt;br /&gt;             Tami Schwimmer&lt;br /&gt;             Ari D. Brooks&lt;br /&gt;&lt;br /&gt;Mining Compressed Commodity Workflows From Massive RFID Data Sets&lt;br /&gt;             Hector Gonzalez&lt;br /&gt;             Jiawei Han&lt;br /&gt;             Xiaolei Li&lt;br /&gt;&lt;br /&gt;Topic Evolution and Social Interactions: How Authors effect Research&lt;br /&gt;             Ding Zhou&lt;br /&gt;             Xiang Ji&lt;br /&gt;             Hongyuan Zha&lt;br /&gt;             C. Lee Giles&lt;br /&gt;&lt;br /&gt;Improve query I/O performance by permuting and refining block request&lt;br /&gt;sequences&lt;br /&gt;             Xiaoyu Wang&lt;br /&gt;             Mitch Cherniack&lt;br /&gt;&lt;br /&gt;Mining Blog Stories Using Community-based and Temporal Clustering&lt;br /&gt;             Arun Qamra&lt;br /&gt;             Belle Tseng&lt;br /&gt;             Edward Chang&lt;br /&gt;&lt;br /&gt;Concept-based Document Readability in Domain Specific Information Retrieval&lt;br /&gt;             Xin Yan&lt;br /&gt;             Dawei Song&lt;br /&gt;             Xue Li&lt;br /&gt;&lt;br /&gt;Privacy Preserving Sequential Pattern Mining In Distributed Databases&lt;br /&gt;             Vishal Kapoor&lt;br /&gt;             Pascal Poncelet&lt;br /&gt;             Francois Trousset&lt;br /&gt;             M. Teisseire&lt;br /&gt;&lt;br /&gt;Cache-Oblivious Nested-Loop Joins&lt;br /&gt;             Bingsheng  He&lt;br /&gt;             Qiong Luo&lt;br /&gt;&lt;br /&gt;A Dictionary for Approximate String Search and Longest Prefix Search&lt;br /&gt;             Sreenivas Gollapudi&lt;br /&gt;             Rina Panigrahy&lt;br /&gt;&lt;br /&gt;Discovering and Exploiting Keyword and Attribute-Value Co-occurrences to&lt;br /&gt;Improve P2P Routing Indices&lt;br /&gt;             Matthias Bender&lt;br /&gt;             Sebastian Michel&lt;br /&gt;             Nikos Ntarmos&lt;br /&gt;             Peter Triantafillou&lt;br /&gt;             Gerhard Weikum&lt;br /&gt;             Christian Zimmer&lt;br /&gt;&lt;br /&gt;A Document-Centric Approach to Static Index Pruning in Text Retrieval&lt;br /&gt;Systems&lt;br /&gt;             Stefan Buettcher&lt;br /&gt;             Charles Clarke&lt;br /&gt;&lt;br /&gt;Effective and Efficient Classification on a Search-Engine Model&lt;br /&gt;             Kunal Punera&lt;br /&gt;             Aris Anagnostopoulos&lt;br /&gt;             Andrei Broder&lt;br /&gt;&lt;br /&gt;SaLSa: Computing the Skyline without Scanning the Whole Sky&lt;br /&gt;             Marco Patella&lt;br /&gt;             Ilaria Bartolini&lt;br /&gt;             Paolo Ciaccia&lt;br /&gt;&lt;br /&gt;Query Result Ranking over E-commerce Web Databases&lt;br /&gt;             Weifeng Su&lt;br /&gt;&lt;br /&gt;Adaptive Non-linear Clustering in Data Streams&lt;br /&gt;             Ankur Jain&lt;br /&gt;             Zhihua Zhang&lt;br /&gt;             Edward Chang&lt;br /&gt;&lt;br /&gt;Constrained Subspace Skyline Computation&lt;br /&gt;             Evangelos Dellis&lt;br /&gt;             Ilya Vladimirskiy&lt;br /&gt;             Bernhard Seeger&lt;br /&gt;             Yannis Theodoridis&lt;br /&gt;             Akrivi Vlachou&lt;br /&gt;&lt;br /&gt;An Approximate Multi-Word Matching Algorithm for Robust Document Retrieval&lt;br /&gt;             Atsuhiro Takasu&lt;br /&gt;&lt;br /&gt;Document Re-ranking Using Cluster Validation and Label Propagation&lt;br /&gt;             Lingpeng Yang&lt;br /&gt;             Donghong Ji&lt;br /&gt;             Guodong Zhou&lt;br /&gt;&lt;br /&gt;Classification spanning correlated data streams&lt;br /&gt;             Rong She&lt;br /&gt;             Yabo Xu&lt;br /&gt;             Ke  Wang&lt;br /&gt;             Jian  Pei&lt;br /&gt;&lt;br /&gt;Processing Relaxed Skylines in PDMS Using Distributed Data Summaries&lt;br /&gt;             Katja Hose&lt;br /&gt;             Christian Lemke&lt;br /&gt;             Kai-Uwe Sattler&lt;br /&gt;&lt;br /&gt;Structure-Based Querying of Proteins Using Wavelets&lt;br /&gt;             Parthasarathy  Srinivasan&lt;br /&gt;             Keith Marsolo&lt;br /&gt;             Kotagiri Ramamohanarao&lt;br /&gt;&lt;br /&gt;A combination of trie-trees and inverted files for the indexing of&lt;br /&gt;set-valued&lt;br /&gt;             Manolis Terrovitis&lt;br /&gt;             Spyros Passas&lt;br /&gt;             Panos Vassiliadis&lt;br /&gt;             Timos Sellis&lt;br /&gt;&lt;br /&gt;Efficient Join Processing over Uncertain Data&lt;br /&gt;             Sarvjeet Singh&lt;br /&gt;             Reynold Cheng&lt;br /&gt;             Yuni Xia&lt;br /&gt;             Sunil Prabhakar&lt;br /&gt;             Rahul Shah&lt;br /&gt;             Jeffrey Vitter&lt;br /&gt;&lt;br /&gt;Optimisation methods for ranking functions with multiple parameters&lt;br /&gt;             Stephen Robertson&lt;br /&gt;             Michael Taylor&lt;br /&gt;             Hugo Zaragoza&lt;br /&gt;             Nick Craswell&lt;br /&gt;             Chris Burges&lt;br /&gt;&lt;br /&gt;On GMAP&lt;br /&gt;             Stephen Robertson&lt;br /&gt;&lt;br /&gt;A Probabilistic Relevance Propagation Model for Hypertext Retrieval&lt;br /&gt;             Azadeh Shakery&lt;br /&gt;             Chengxiang  Zhai&lt;br /&gt;&lt;br /&gt;Summarizing Local Context to Personalize Global Web Search&lt;br /&gt;             Paul - Alexandru Chirita&lt;br /&gt;             Wolfgang Nejdl&lt;br /&gt;             Claudiu Firan&lt;br /&gt;&lt;br /&gt;Describing Differences between Databases&lt;br /&gt;             Heiko Müller&lt;br /&gt;             Johann-Christoph Freytag&lt;br /&gt;             Ulf Leser&lt;br /&gt;&lt;br /&gt;Voting for Candidates: Adapting Data Fusion Techniques for an Expert Search&lt;br /&gt;Task&lt;br /&gt;             Craig Macdonald&lt;br /&gt;             Iadh Ounis&lt;br /&gt;&lt;br /&gt;Finding Highly Correlated Pairs Efficiently with Powerful Pruning&lt;br /&gt;             Jian Zhang&lt;br /&gt;             Joan Feigenbaum&lt;br /&gt;&lt;br /&gt;Investigating the Exhaustivity Dimension in Content-Oriented XML Element&lt;br /&gt;Retrieval Evaluation&lt;br /&gt;             Paul Ogilvie&lt;br /&gt;&lt;br /&gt;A Study on the Effects of Personalization and Task Information on Implicit&lt;br /&gt;Feedback Performance&lt;br /&gt;             Ryen White&lt;br /&gt;             Diane Kelly&lt;br /&gt;&lt;br /&gt;POLESTAR - Collaborative Knowledge Management and Sensemaking Tools for&lt;br /&gt;Intelligence Analysts&lt;br /&gt;             Nicholas Pioch&lt;br /&gt;             John Everett&lt;br /&gt;&lt;br /&gt;Incremental Hierarchical Clustering of Text Documents&lt;br /&gt;             Nachiketa Sahoo&lt;br /&gt;             Jamie Callan&lt;br /&gt;             Ramayya Krishnan&lt;br /&gt;             George Duncan&lt;br /&gt;             Rema Padman&lt;br /&gt;&lt;br /&gt;Multi-Evidence, Multi-Criteria, Lazy Associative Document Classification&lt;br /&gt;             Adriano Veloso&lt;br /&gt;             Wagner Meira Jr.&lt;br /&gt;             Marco Cristo&lt;br /&gt;             Mohammed  Zaki&lt;br /&gt;             Marcos Goncalves&lt;br /&gt;&lt;br /&gt;Coupling Feature Selection and Machine Learning Methods for Navigational&lt;br /&gt;Query Identification&lt;br /&gt;             Yumao Lu&lt;br /&gt;             Xin Li&lt;br /&gt;             Fuchun Peng&lt;br /&gt;             Nawaaz Ahmed&lt;br /&gt;&lt;br /&gt;Utility Scoring of Product Reviews&lt;br /&gt;             Zhu Zhang&lt;br /&gt;             Balaji Varadarajan&lt;br /&gt;&lt;br /&gt;Task-based Process Know-how Reuse and Proactive Information Delivery in&lt;br /&gt;TaskNavigator&lt;br /&gt;             Oleg Rostanin&lt;br /&gt;             Harald Holz&lt;br /&gt;             Takeshi Suzuki&lt;br /&gt;             Kaoru Maeda&lt;br /&gt;             Andreas Dengel&lt;br /&gt;             Katsumi Kanasaki&lt;br /&gt;&lt;br /&gt;On the Structural Properties of Massive Telecom Call Graphs: Findings and&lt;br /&gt;Implications&lt;br /&gt;             Dipanjan Chakraborty&lt;br /&gt;             Gautam Das&lt;br /&gt;             Siva Gurumurthy&lt;br /&gt;             Koustuv Dasgupta&lt;br /&gt;             Sougata Mukherjea&lt;br /&gt;             Anupam Joshi&lt;br /&gt;             Amit A. Nanavati&lt;br /&gt;&lt;br /&gt;Processing Range-Constrained Distance Queries and Searching Nearest&lt;br /&gt;Neighbors on Wavelet Synopses over Multiple Streams&lt;br /&gt;             Ming-Syan  Chen&lt;br /&gt;             Hao-Ping Hung&lt;br /&gt;&lt;br /&gt;Term Context Models for Information Retrieval&lt;br /&gt;             Jeremy Pickens&lt;br /&gt;             Andrew MacFarlane&lt;br /&gt;&lt;br /&gt;A Fast and Robust Method for Web Page Template Detection and Removal&lt;br /&gt;             Altigran Silva&lt;br /&gt;             Edleno Moura&lt;br /&gt;             Joao Cavalcanti&lt;br /&gt;             Karane Vieira&lt;br /&gt;             Juliana Freire&lt;br /&gt;             Nick Pinto&lt;br /&gt;&lt;br /&gt;Bayesian Adaptive User Profiling with Explicit &amp;amp; Implicit Feedback&lt;br /&gt;             Philip Zigoris&lt;br /&gt;             Yi Zhang&lt;br /&gt;&lt;br /&gt;Evaluation by comparing result sets in context&lt;br /&gt;             Paul Thomas&lt;br /&gt;             David Hawking&lt;br /&gt;&lt;br /&gt;A Data Stream Language and System Designed for Power and Extensibility&lt;br /&gt;             Yijian Bai&lt;br /&gt;             Hetal Thakkar&lt;br /&gt;             Chang Luo&lt;br /&gt;             Haixun  Wang&lt;br /&gt;             Carlo Zaniolo&lt;br /&gt;&lt;br /&gt;A System for Query-Specific Document Summarization&lt;br /&gt;             Ramakrishna Varadarajan&lt;br /&gt;             Vagelis Hristidis&lt;br /&gt;&lt;br /&gt;Noun Phrase Semantic Interpretation with Cross-linguistic Evidence&lt;br /&gt;             Roxana Girju&lt;br /&gt;&lt;br /&gt;Efficiently Clustering Transactional Data with Weighted Coverage Density&lt;br /&gt;             Hua Yan&lt;br /&gt;             keke Chen&lt;br /&gt;             Ling Liu&lt;br /&gt;             Joonsoo Bae&lt;br /&gt;&lt;br /&gt;Incorporating Query Difference for Learning Retrieval Functions in World&lt;br /&gt;Wide Web Search&lt;br /&gt;             Hongyuan Zha&lt;br /&gt;             Zhaohui Zheng&lt;br /&gt;             Haoying Fu&lt;br /&gt;             Gordon Sun&lt;br /&gt;&lt;br /&gt;Heuristic Containment Check of Partial Tree-Pattern Queries in the Presence&lt;br /&gt;of Index Graphs&lt;br /&gt;             Dimitri Theodoratos&lt;br /&gt;             Stefanos Souldatos&lt;br /&gt;             Pawel Placek&lt;br /&gt;             Timos Sellis&lt;br /&gt;             Theodore Dalamagas&lt;br /&gt;&lt;br /&gt;Tracking Dragon-Hunters with Language Models&lt;br /&gt;             Anton Leuski&lt;br /&gt;             Victor Lavrenko&lt;br /&gt;&lt;br /&gt;TRIPS and TIDES: New Algorithms for Tree Mining&lt;br /&gt;             Parthasarathy  Srinivasan&lt;br /&gt;             Shirish Tatikonda&lt;br /&gt;             Tahsin Kurc&lt;br /&gt;&lt;br /&gt;Estimating Average Precision with Incomplete and Imperfect Judgments&lt;br /&gt;             Javed Aslam&lt;br /&gt;             Emine Yilmaz&lt;br /&gt;&lt;br /&gt;Knowing a Web Page by the Company It Keeps&lt;br /&gt;             Xiaoguang Qi&lt;br /&gt;             Brian Davison&lt;br /&gt;&lt;br /&gt;Designing Semantics-Preserving Cluster Representatives for Scientific Input&lt;br /&gt;Conditions&lt;br /&gt;             Aparna Varde&lt;br /&gt;             Mohammed Maniruzzaman&lt;br /&gt;             Elke Rundensteiner&lt;br /&gt;             Carolina Ruiz&lt;br /&gt;             David Brown&lt;br /&gt;             Richard Sisson&lt;br /&gt;&lt;br /&gt;Eigen-Trend: Trend Analysis in the Blogosphere based on Singular Value&lt;br /&gt;Decompositions&lt;br /&gt;             Yun Chi&lt;br /&gt;             Junichi Tatemura&lt;br /&gt;             Belle Tseng&lt;br /&gt;&lt;br /&gt;Pruning Strategies for Mixed-Mode Querying&lt;br /&gt;             Vo Anh&lt;br /&gt;             Alistair Moffat&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Accepted Poster Papers&lt;br /&gt;-----------------------------&lt;br /&gt;Retrieval Evaluation With Incomplete Relevance Data: A Comparative Study of&lt;br /&gt;Three Measures&lt;br /&gt;             Leif Grönqvist&lt;br /&gt;             Per Ahlgren&lt;br /&gt;&lt;br /&gt;Semi-automatic Annotation and MPEG-7 Authoring of Dance Videos&lt;br /&gt;             KANNAN RAJKUMAR&lt;br /&gt;Balakrishnan Ramadoss&lt;br /&gt;&lt;br /&gt;Resource-Aware Kernel Density Estimators over Streaming Data&lt;br /&gt;             Christoph Heinz&lt;br /&gt;             Bernhard Seeger&lt;br /&gt;&lt;br /&gt;An Efficient One-Phase Holistic Twig Join Algorithm for XML Data&lt;br /&gt;             Zhewei Jiang&lt;br /&gt;             Cheng Luo&lt;br /&gt;             Wen Chi Hou&lt;br /&gt;             Qiang Zhu&lt;br /&gt;             Chi-Fang Wang&lt;br /&gt;&lt;br /&gt;Representing Documents with Named Entities for Story Link Detection (SLD)&lt;br /&gt;             Chirag Shah&lt;br /&gt;             W. Bruce Croft&lt;br /&gt;             David Jensen&lt;br /&gt;&lt;br /&gt;Query Taxonomy Generation for Web Search&lt;br /&gt;             ChenMing Hung&lt;br /&gt;             Pu-Jeng Cheng&lt;br /&gt;&lt;br /&gt;Multi-Task Text Segmentation and Alignment Based on Weighted Mutual&lt;br /&gt;Information&lt;br /&gt;             Bingjun Sun&lt;br /&gt;             Ding Zhou&lt;br /&gt;             Hongyuan Zha&lt;br /&gt;             John Yen&lt;br /&gt;&lt;br /&gt;Approximate Reverse k-Nearest Neighbor Queries in General Metric Spaces&lt;br /&gt;             Peer Kröger&lt;br /&gt;             Elke Achtert&lt;br /&gt;             Christian Böhm&lt;br /&gt;             Peter Kunath&lt;br /&gt;             Matthias Renz&lt;br /&gt;             Alexey Pryakhin&lt;br /&gt;&lt;br /&gt;Estimation, Sensitivity, and Generalization in Parameterized Retrieval&lt;br /&gt;Models&lt;br /&gt;             Donald Metzler&lt;br /&gt;&lt;br /&gt;A structure-oriented relevance feedback method from XML retrieval&lt;br /&gt;             Lobna Hlaoua&lt;br /&gt;             Karen Sauvagnat&lt;br /&gt;             Mohand Boughanem&lt;br /&gt;&lt;br /&gt;Q-Rank: Re-Ranking Search Results Using Query Logs&lt;br /&gt;             Silviu Cucerzan&lt;br /&gt;             Ziming Zhuang&lt;br /&gt;&lt;br /&gt;Integration of Cluster Ensemble and EM based Text Mining for Microarray&lt;br /&gt;Gene Cluster Identification and Annotation&lt;br /&gt;             Xiaohua  Hu&lt;br /&gt;             Xiaodan Zhang&lt;br /&gt;             Xiaohua Zhou&lt;br /&gt;&lt;br /&gt;Best-k Queries on Database Systems&lt;br /&gt;             Tao Tao&lt;br /&gt;             Chengxiang  Zhai&lt;br /&gt;&lt;br /&gt;Mapping directories and OWL ontologies with AROMA&lt;br /&gt;             Jérôme David&lt;br /&gt;             Fabrice GUILLET&lt;br /&gt;             Henri BRIAND&lt;br /&gt;&lt;br /&gt;Practical Private Data Matching Deterrent to Spoofing Attacks&lt;br /&gt;             Yanjiang  Yang&lt;br /&gt;             Robert Deng&lt;br /&gt;             Feng Bao&lt;br /&gt;&lt;br /&gt;The Visual Funding Navigator: Analysis of the NSF Funding Information&lt;br /&gt;             Shixia Liu&lt;br /&gt;             Nan Cao&lt;br /&gt;             Hao Lv&lt;br /&gt;             Hui Su&lt;br /&gt;&lt;br /&gt;Towards Interactive Indexing for Large Chinese Calligraphic Character&lt;br /&gt;Databases&lt;br /&gt;             Yi Zhuang&lt;br /&gt;             Yueting Zhuang&lt;br /&gt;             Qing Li&lt;br /&gt;             Lei Chen&lt;br /&gt;&lt;br /&gt;Combining Classifiers to Organize Online Databases&lt;br /&gt;             Juliana Freire&lt;br /&gt;             Luciano Barbosa&lt;br /&gt;&lt;br /&gt;Introduction to a new Farsi Stemmer&lt;br /&gt;             Alireza Mokhtaripour&lt;br /&gt;&lt;br /&gt;Matching and Evaluation of Disjunctive Predicates for Data Stream Sharing&lt;br /&gt;             Richard Kuntschke&lt;br /&gt;             Alfons Kemper&lt;br /&gt;&lt;br /&gt;Mining Coherent Patterns from Heterogeneous Microarray Data&lt;br /&gt;             Xiang Zhang&lt;br /&gt;             Wei  Wang&lt;br /&gt;&lt;br /&gt;Probabilistic Document-Context Based Relevance Feedback with Limited&lt;br /&gt;Relevance Judgments&lt;br /&gt;             H. C. Wu&lt;br /&gt;             Robert W. P. Luk&lt;br /&gt;             K. F. Wong&lt;br /&gt;             K. L. Kwok&lt;br /&gt;&lt;br /&gt;Rank Synopses for Efficient Time Travel on the Web Graph&lt;br /&gt;             Klaus Berberich&lt;br /&gt;             Srikanta Bedathur&lt;br /&gt;             Gerhard Weikum&lt;br /&gt;&lt;br /&gt;A Neighborhood-Based Approach for Clustering of Linked Document Collections&lt;br /&gt;             Ralitsa Angelova&lt;br /&gt;             Stefan Siersdorfer&lt;br /&gt;&lt;br /&gt;Adapting Association Patterns for Text Categorization: Weaknesses and&lt;br /&gt;Enhancements&lt;br /&gt;             Tieyun Qian&lt;br /&gt;             Hui  Xiong&lt;br /&gt;             Yuanzhen Wang&lt;br /&gt;             Enhong Chen&lt;br /&gt;&lt;br /&gt;A Comparative Study on Classifying the Functions of Web Page Blocks&lt;br /&gt;             Xiangye Xiao&lt;br /&gt;             Qiong Luo&lt;br /&gt;             Xing Xie&lt;br /&gt;             Wei-Ying Ma&lt;br /&gt;&lt;br /&gt;Effective and Efficient Similarity Search in Time Series&lt;br /&gt;             Andrea Tagarelli&lt;br /&gt;             Sergio Greco&lt;br /&gt;             Massimiliano Ruffolo&lt;br /&gt;&lt;br /&gt;The Query Vector Document Model&lt;br /&gt;             Fabrizio Silvestri&lt;br /&gt;             Diego Puppin&lt;br /&gt;&lt;br /&gt;Ranking in Context using Vector Spaces&lt;br /&gt;             Massimo Melucci&lt;br /&gt;&lt;br /&gt;Hierarchical, Perceptron-like Learning for Ontology Based Information&lt;br /&gt;Extraction&lt;br /&gt;             Yaoyong Li&lt;br /&gt;             Kalina Bontcheva&lt;br /&gt;             Hamish Cunningham&lt;br /&gt;&lt;br /&gt;Direct Comparison of Commercial and Academic Retrieval System: an initial&lt;br /&gt;study&lt;br /&gt;             Yefei Peng&lt;br /&gt;             Daqing He&lt;br /&gt;&lt;br /&gt;Boosting Relevance Model Performance with Query Term Dependence&lt;br /&gt;             Koji Eguchi&lt;br /&gt;             W. Bruce Croft&lt;br /&gt;&lt;br /&gt;Amnesic Online Synopses for Moving Objects&lt;br /&gt;             Michalis Potamias&lt;br /&gt;             Kostas Patroumpas&lt;br /&gt;             Timos Sellis&lt;br /&gt;&lt;br /&gt;Collaborative Filtering in Dynamic Usage Environments&lt;br /&gt;             Olfa  Nasraoui&lt;br /&gt;             Jeff Cerwinske&lt;br /&gt;             Carlos Rojas&lt;br /&gt;             Fabio Gonzalez&lt;br /&gt;&lt;br /&gt;Multi-Query Optimization of Sliding Window Aggregates by Schedule&lt;br /&gt;Synchronization&lt;br /&gt;             Lukasz Golab&lt;br /&gt;             Kumar Gaurav Bijay&lt;br /&gt;             M. Tamer Ozsu&lt;br /&gt;&lt;br /&gt;Robust Periodicity Detection Algorithms&lt;br /&gt;             Parthasarathy  Srinivasan&lt;br /&gt;             Sameep Mehta&lt;br /&gt;             Soundararajan Srinivasan&lt;br /&gt;&lt;br /&gt;Search Result Summarization and Disambiguation via Contextual Dimensions&lt;br /&gt;             Sachindra Joshi&lt;br /&gt;             Krishna P Chitrapura&lt;br /&gt;             Raghuram  Krishnapuram&lt;br /&gt;&lt;br /&gt;PEPX: A Query-Friendly Probabilistic XML Database&lt;br /&gt;             Yi Chen&lt;br /&gt;             Te Li&lt;br /&gt;             Qihong Shao&lt;br /&gt;&lt;br /&gt;Processing Information Intent via Weak Labeling&lt;br /&gt;             Anthony Tomasic&lt;br /&gt;             John Zimmerman&lt;br /&gt;             Isaac Simmons&lt;br /&gt;&lt;br /&gt;Maximizing the sustained throughput of distributed continuous queries&lt;br /&gt;             Themis Palpanas&lt;br /&gt;             Ioana Stanoi&lt;br /&gt;             George Mihaila&lt;br /&gt;             Christian Lang&lt;br /&gt;&lt;br /&gt;Query-specific clustering of Search Results based on Document-Context&lt;br /&gt;Similarity Scores&lt;br /&gt;             Edward Dang&lt;br /&gt;&lt;br /&gt;Integrated RFID Data Modeling: An Approach for Querying Physical Objects in&lt;br /&gt;Pervasive Computing&lt;br /&gt;             Shaorong Liu&lt;br /&gt;             Fusheng Wang&lt;br /&gt;             Peiya Liu&lt;br /&gt;&lt;br /&gt;Modeling Performance-Driven Workload Characterization of Web Search Systems&lt;br /&gt;             Claudine Badue&lt;br /&gt;             Ricardo Baeza-Yates&lt;br /&gt;             Artur Ziviani&lt;br /&gt;             Nivio Ziviani&lt;br /&gt;             Berthier Ribeiro-Neto&lt;br /&gt;&lt;br /&gt;Constructing Better Document and Query Models with Markov Chains&lt;br /&gt;             Guihong Cao&lt;br /&gt;             Jian-Yun Nie&lt;br /&gt;             Jing Bai&lt;br /&gt;&lt;br /&gt;IR Principles for Content-based Indexing and Retrieval of Brain Images&lt;br /&gt;             Bing Bai&lt;br /&gt;             Paul Kantor&lt;br /&gt;             Nicu Cornea&lt;br /&gt;             Deborah Silver&lt;br /&gt;&lt;br /&gt;Exploring Feature Selection for Multi-Label Text Classification using&lt;br /&gt;Ranked Retrieval Measures&lt;br /&gt;             J. Scott Olsson&lt;br /&gt;             Douglas Oard&lt;br /&gt;&lt;br /&gt;Improving Query Translation with Confidence Estimation for Cross Language&lt;br /&gt;Information Retrieval&lt;br /&gt;             Youssef Kadri&lt;br /&gt;&lt;br /&gt;HUX: A Schema-centric Approach for Updating XML Views&lt;br /&gt;             Ling Wang&lt;br /&gt;             Elke Rundensteiner&lt;br /&gt;             Murali Mani&lt;br /&gt;             Ming Jiang&lt;br /&gt;&lt;br /&gt;Pisa : Progressive Mining of Sequential Patterns&lt;br /&gt;             Ming-Syan  Chen&lt;br /&gt;             Jian-Chih Ou&lt;br /&gt;             Jen-Wei Huang&lt;br /&gt;             Chi-Yao Tseng&lt;br /&gt;&lt;br /&gt;Mining Multiple Private Databases using a Privacy Preserving kNN Classifier&lt;br /&gt;             Li Xiong&lt;br /&gt;             Subramanyam Chitti&lt;br /&gt;             Ling Liu&lt;br /&gt;&lt;br /&gt;Pseudo-Anchor Text Extraction for Searching Vertical Objects&lt;br /&gt;             Shuming Shi&lt;br /&gt;             Zaiqing Nie&lt;br /&gt;             Ji-Rong Wen&lt;br /&gt;             Fei Xing&lt;br /&gt;             Mingjie Zhu&lt;br /&gt;&lt;br /&gt;Continuous Keyword Search on Multiple Text Streams&lt;br /&gt;             Vagelis Hristidis&lt;br /&gt;             Oscar Valdivia&lt;br /&gt;             Michail Vlachos&lt;br /&gt;             Philip Yu&lt;br /&gt;&lt;br /&gt;Information Retrieval from Relational Databases using Semantic Queries&lt;br /&gt;             Anand Ranganathan&lt;br /&gt;             Zhen Liu&lt;br /&gt;&lt;br /&gt;Filtering or Adapting: Two Strategies to Exploit Noisy Parallel Corpora for&lt;br /&gt;CLIR&lt;br /&gt;             Lixin Shi&lt;br /&gt;             Jian-Yun Nie&lt;br /&gt;&lt;br /&gt;Efficient Mining of Max Frequent Patterns in a Generalized Environment&lt;br /&gt;             Donghui  Zhang&lt;br /&gt;             Daniel Kunkle&lt;br /&gt;             Gene Cooperman&lt;br /&gt;&lt;br /&gt;Measuring the Meaning in Time Series Clustering of Text Search Queries&lt;br /&gt;             Kristina Klinkner&lt;br /&gt;             Bing Liu&lt;br /&gt;             Rosie  Jones&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2425082237156727038?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2425082237156727038/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2425082237156727038' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2425082237156727038'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2425082237156727038'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/accepted-papers-of-acm-cikm-2006.html' title='Accepted papers of ACM CIKM 2006'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-3559146256362007281</id><published>2008-07-11T16:56:00.002+08:00</published><updated>2008-07-11T17:08:37.878+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Boosting'/><title type='text'>Tutorials and Reviews on Boosting</title><content type='html'>Cited from:http://www.cs.ucsd.edu/~aarvey/boosting_papers.html&lt;br /&gt;&lt;br /&gt;&lt;h2 class="section_heading"&gt;Tutorials and Reviews on Boosting&lt;/h2&gt; &lt;p&gt;  &lt;/p&gt;  &lt;ul&gt;&lt;li&gt; &lt;a href="http://www.site.uottawa.ca/%7Estan/csi5387/boost-tut-ppr.pdf"&gt;A short introduction to boosting&lt;/a&gt; by Freund and Schapire, 1999.   An introduction to the theory and application of boosting. &lt;/li&gt;&lt;li&gt; &lt;a href="http://www.cs.ucsd.edu/%7Eyfreund/adaboost/index.html"&gt;AdaBoost in action&lt;/a&gt; by Freund.  An applet that shows how AdaBoost behaves during the training phase.  &lt;/li&gt;&lt;li&gt; Schapire's "boosting approach to machine learning". &lt;/li&gt;&lt;li&gt; Ron Meir and Gunnar Ratsch's introduction to boosting and leveraging. &lt;/li&gt;&lt;/ul&gt;     &lt;div class="section" align="left"&gt; &lt;h2 class="section_heading"&gt;Reading Lists&lt;/h2&gt;  &lt;p&gt; I've highlighted the &lt;strong&gt;most important&lt;/strong&gt; papers, even if they are ealier in the progression. &lt;/p&gt;  &lt;h3&gt;The AdaBoost Approach&lt;/h3&gt;  &lt;ul&gt;&lt;li&gt;A decision-theoretic generalization of on-line learning and an application to boosting.  Freund and Schapire 1995/7.  You have to look at this paper, but you don't have to read it. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Improved Boosting Algorithms Using Confidence-rated Predictions&lt;/strong&gt;. Schapire and Singer 1999.  Sections 1-4 are an absolute must read.  Very concise and packed with useful interpretations.  &lt;/li&gt;&lt;li&gt; The boosting approach to machine learning: An overview. Schapire 2002. Section 6. Supplement with the original Friedman, Hastie, Tibshirani paper if desired. Describes an alternative and gentler loss (a.k.a. potential, potential loss, cost, etc) function.&lt;/li&gt;&lt;li&gt; &lt;strong&gt;Boosting the Margin: A New Explanation for the Effectiveness of Voting Methods&lt;/strong&gt;.  Schapire et al. 1998.  Sections 1,5,6. Understanding the idea is more important than the actual proofs. &lt;/li&gt;&lt;li&gt; Boosting Algorithms as Gradient Descent. Mason et al. 2000.  Similar in spirit to the view of Friedman, Hastie, and Tibshirani 1998. Sections 1 and 2 develop the AnyBoost framework, which is a helpful generalizations to AdaBoost. &lt;/li&gt;&lt;/ul&gt;   &lt;h3&gt;The Boost By Majority Approach&lt;/h3&gt;  &lt;ul&gt;&lt;li&gt;&lt;strong&gt;Boosting a weak learning algorithm by majority&lt;/strong&gt;. Freund 1990/5.  The first part of section 2 (before 2.1) describes the "boost by majority game".&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Improved Boosting Algorithms Using Confidence-rated Predictions&lt;/strong&gt;. Schapire and Singer 1999.  Sections 1-4 are an absolute must read.  Very concise and packed with useful interpretations. &lt;/li&gt;&lt;li&gt; &lt;strong&gt;An adaptive version of the boost by majority algorithm&lt;/strong&gt;.  Freund 1999/2000.  IMHO, the biggest jump in boosting since Schapire's original algorithm.  There are two main parts to the paper: 1) infinitely many iterations with infinitely small movements and 2) setting alpha by satisfying the constraints: a) expected value of $h(x)y$ is 0 w.r.t. the new weighting and b) the average difference in potential.  If you understand these two ideas and their motivations (from Schapire and Singer 99 and Freund 1990/95) the algorithm falls out naturally. &lt;/li&gt;&lt;li&gt; Drifting games.  Schapire 2000.  A very nice generalization of the boost by majority paradigm to the more "natural" space.  This interpretation is also useful for understanding BrownBoost.&lt;/li&gt;&lt;li&gt; Continuous Drifting games.  Freund and Opper 2002.  An extension of Schapire's drifting games to continuous domains.  Both BrownBoost and NormalBoost are natural consequences of this work.  &lt;/li&gt;&lt;/ul&gt;   &lt;h3&gt;The Bregmen Divergences, Geometry, and Optimization Approach&lt;/h3&gt;  &lt;ul&gt;&lt;li&gt;&lt;strong&gt;Boosting as Entropy Projection&lt;/strong&gt;. Kivinen and Warmuth 1999.  An interesting and very different approach that minimizes convex divergence measures.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Logistic Regression, AdaBoost and Bregman Distances&lt;/strong&gt;.  Collins, Schapire, Singer 2000. Similar to Kivinen and Warmuth; however, it provides a few very practical results for converting AdaBoost to LogitBoost using an alternative loss function.  Also ties in well with some of the statistical approaches to boosting. &lt;/li&gt;&lt;li&gt;Linear Programming Boosting via Column Generation.  Demiriz, Bennett, and Shawe-Taylor 2002.  Introduction of LPBoost and general relationship to linear programming and boosting.  A very complete discussion, showing how LPBoost can be used in many of the classic statistical settings. &lt;/li&gt;&lt;li&gt;Totally Corrective Boosting Algorithms that Maximize the Margin. Warmuth, Liao, and Ratsch 2006.  Puts the LPBoost and geometric (Bregman divergence of Kivinen and Warmuth) together. Instead of minimizing the correlation of the hypothesis and the subsequent weighting of the training set, TotalBoost minimizes the corrleations between &lt;emph&gt;all&lt;/emph&gt; previous hypotheses and the next weighting.  This leads to sparser sets of hypotheses and a very nifty iteration bound.&lt;/li&gt;&lt;li&gt;Boosting Algorithms for Maximizing the Soft Margin.  Warmuth, Glocer, and Ratsch 2007. Simple moral: TotalBoost overfits, SoftBoost is noise resistant.  SoftBoost comes with an iteration bound and noise resistance using slack variables in SVM literature.&lt;/li&gt;&lt;/ul&gt;    &lt;h3&gt;Statistical Approaches to Boosting&lt;/h3&gt;  &lt;ul&gt;&lt;li&gt;Additive Logistic Regression: a Statistical View of Boosting. Friedman, Hastie, Tibshirani 1999.  An interesting paper that casts boosting into the classic log likelihood model that all of statistics follows.  The resulting algorithmic contribution, LogitBoost, can be implement in a AdaBoost framework (LogLossBoost in JBoost) using an alternative weighting.  Be sure to read rejoinders as some of them gave me a chuckle. &lt;/li&gt;&lt;li&gt;Friedman has a paper on \epsilon boosting which sounds very interesting, though I have yet to read it.&lt;/li&gt;&lt;li&gt;Tong Zhang has a lot of very good papers.  I'll list the highlights when I finish reading them... this may take a while.&lt;/li&gt;&lt;li&gt;The question of consistency was a big deal in the statistics community and was approached by a large variety of people.  They showed variants of boosting were consistent, but never AdaBoost.  I believe Peter Bartlett gets credit for finally showing that AdaBoost is consistent. &lt;/li&gt;&lt;li&gt; &lt;strong&gt;Evidence Contrary to the Statistcal View of Boosting&lt;/strong&gt;. Mease and Wyner 2008.  This paper is extremely important to read if you plan on doing research in boosting for practical purposes.  It is not bulletproof (I'm sure someone will be able to find issues with it), but it is a well thought out and executed idea that uses empirical evidence instead of theory to drive boosting research.  Some of the details of the paper may be proven slightly incorrect, but I believe taht the overall idea will stand up to scrutiny.&lt;/li&gt;&lt;/ul&gt;   &lt;h3&gt;Misc Background Reading&lt;/h3&gt;  &lt;ul&gt;&lt;li&gt;The strength of weak learnability.  Schapire 1990.  Cool algorithm, cool analysis, cool write up.  Unfortunately rendered useless by majority vote methods.  &lt;/li&gt;&lt;li&gt;Any of the tutorials.  There are a lot of really good boosting tutorials that cover the whole spectrum of applied to theoretical. &lt;/li&gt;&lt;li&gt; The alternating decision tree learning algorithm.  Freund and Mason 1999.  An interesting way to use boosting with decision trees/stumps.  &lt;/li&gt;&lt;li&gt; Any of the empirical comparisons of different voting methods.  &lt;/li&gt;&lt;li&gt; The ideas of bagging and arcing are frequently mentioned in boosting papers.  These are ideas of the extremely well respected statistician Leo Breiman.  While they haven't caught on in the same way that boosting has (see "Boosting the margin..." for an explanation) they are interesting ideas and bagging (along with bootstrapping) is widely used for variance reduction of any estimator.  &lt;/li&gt;&lt;/ul&gt;     &lt;/div&gt;    &lt;div class="section" align="left"&gt; &lt;h2 class="section_heading"&gt;Boosting Software&lt;/h2&gt;  In a non-accidental ordering:  &lt;ol&gt;&lt;li&gt;JBoost.  Powerful, extendible, highly tunable, efficient, and integratable into your own software.  A bit of a learning curve, but well worth it.  &lt;/li&gt;&lt;li&gt;BoosTexter (also an implementation available in JBoost). Schapire's code for the text categorizing BoosTexter. &lt;/li&gt;&lt;li&gt;GBM for R by Greg Ridgeway.  A powerful and standardized module used mostly by statisticians.  &lt;/li&gt;&lt;li&gt;WEKA.  User friendly.&lt;/li&gt;&lt;/ol&gt;  &lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-3559146256362007281?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/3559146256362007281/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=3559146256362007281' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3559146256362007281'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/3559146256362007281'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/tutorials-and-reviews-on-boosting.html' title='Tutorials and Reviews on Boosting'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-295904587075637119</id><published>2008-07-09T21:32:00.001+08:00</published><updated>2008-07-09T21:36:48.876+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='无心呢喃'/><title type='text'>很有哲理的一句话</title><content type='html'>上自习的忽然想起一句话:&lt;br /&gt;"忘记该忘记，记住该记住的；改变能改变的，接受不能改变的"&lt;br /&gt;&lt;br /&gt;可为什么该忘的总忘不掉，而该记住的却总不想去记；&lt;br /&gt;我能该改变什么呢？&lt;br /&gt;唯有无奈接受！&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-295904587075637119?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/295904587075637119/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=295904587075637119' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/295904587075637119'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/295904587075637119'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/blog-post_09.html' title='很有哲理的一句话'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-7154375821353045983</id><published>2008-07-02T21:20:00.001+08:00</published><updated>2008-09-19T08:40:23.181+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='百宝箱'/><category scheme='http://www.blogger.com/atom/ns#' term='NLP'/><title type='text'>Useful Tools for NLP</title><content type='html'>&lt;p&gt;&lt;strong&gt;Information Retrieval&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;Lemur/Indri&lt;/strong&gt;&lt;br /&gt;The Lemur Toolkit for Language Modeling and Information Retrieval&lt;br /&gt;http://www.lemurproject.org/&lt;br /&gt;Indri:&lt;br /&gt;Lemur's latest search engine&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Lucene/Nutch&lt;/strong&gt;&lt;br /&gt;Apache Lucene is a high-performance, full-featured text search engine library written entirely in Java.&lt;br /&gt;http://lucene.apache.org/&lt;br /&gt;http://www.nutch.org/&lt;/li&gt;&lt;li&gt;&lt;strong&gt;WGet&lt;/strong&gt;&lt;br /&gt;GNU Wget is a free software package for retrieving files using HTTP, HTTPS and FTP, the most widely-used Internet protocols. It is a non-interactive commandline tool, so it may easily be called from scripts, cron jobs, terminals without X-Windows support, etc.&lt;br /&gt;http://www.gnu.org/software/wget/wget.html&lt;br /&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;Natural Language Processing&lt;/strong&gt;&lt;br /&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;EGYPT: A Statistical Machine Translation Toolkit&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.clsp.jhu.edu/ws99/projects/mt/"&gt;&lt;u&gt;http://www.clsp.jhu.edu/ws99/projects/mt/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;GIZA++ (Statistical Machine Translation)&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.fjoch.com/GIZA++.html"&gt;&lt;u&gt;http://www.fjoch.com/GIZA++.html&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;GIZA++ is an extension of the program GIZA (part of the SMT toolkit EGYPT) which was developed by the Statistical Machine Translation team during the summer workshop in 1999 at the Center for Language and Speech Processing at Johns-Hopkins University (CLSP/JHU). GIZA++ includes a lot of additional features. The extensions of GIZA++ were designed and written by Franz Josef Och.&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;PHARAOH (Statistical Machine Translation)&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.isi.edu/licensed-sw/pharaoh/"&gt;&lt;u&gt;http://www.isi.edu/licensed-sw/pharaoh/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;a beam search decoder for phrase-based statistical machine translation models &lt;/li&gt;&lt;li&gt;&lt;strong&gt;OpenNLP: &lt;/strong&gt;&lt;br /&gt;&lt;a href="http://opennlp.sourceforge.net/"&gt;&lt;u&gt;http://opennlp.sourceforge.net/&lt;/u&gt;&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;MINIPAR by Dekang Lin (Univ. of Alberta, Canada)&lt;/strong&gt;&lt;br /&gt;MINIPAR is a broad-coverage parser for the English language. An evaluation with the SUSANNE corpus shows that MINIPAR achieves about 88% precision and 80% recall with respect to dependency relationships. MINIPAR is very efficient, on a Pentium II 300 with 128MB memory, it parses about 300 words per second.&lt;br /&gt;&lt;a href="http://www.cs.ualberta.ca/~lindek/minipar.htm"&gt;&lt;u&gt;http://www.cs.ualberta.ca/~lindek/minipar.htm&lt;/u&gt;&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;WordNet&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://wordnet.princeton.edu/"&gt;&lt;u&gt;http://wordnet.princeton.edu/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;WordNet is an online lexical reference system whose design is inspired by current psycholinguistic theories of human lexical memory. English nouns, verbs, adjectives and adverbs are organized into synonym sets, each representing one underlying lexical concept. Different relations link the synonym sets.&lt;br /&gt;WordNet was developed by the Cognitive Science Laboratory at Princeton University under the direction of Professor George A. Miller (Principal Investigator). &lt;/li&gt;&lt;li&gt;&lt;strong&gt;HowNet&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.keenage.com/"&gt;&lt;u&gt;http://www.keenage.com/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;HowNet is an on-line common-sense knowledge base unveiling inter-conceptual relations and inter-attribute relations of concepts as connoting in lexicons of the Chinese and their English equivalents.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Statistical Language Modeling Toolkit&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html"&gt;&lt;u&gt;http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;The CMU-Cambridge Statistical Language Modeling toolkit is a suite of UNIX software tools to facilitate the construction and testing of statistical language models. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;SRI Language Modeling Toolkit&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.speech.sri.com/projects/srilm/"&gt;&lt;u&gt;www.speech.sri.com/projects/srilm/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;SRILM is a toolkit for building and applying statistical language models (LMs), primarily for use in speech recognition, statistical tagging and segmentation. It has been under development in the SRI Speech Technology and Research Laboratory since 1995.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;ReWrite Decoder&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.isi.edu/licensed-sw/rewrite-decoder/"&gt;&lt;u&gt;http://www.isi.edu/licensed-sw/rewrite-decoder/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;The ISI ReWrite Decoder Release 1.0.0a by Daniel Marcu and Ulrich Germann. It is a program that translates from one natural languge into another using statistical machine translation.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;GATE (General Architecture for Text Engineering)&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://gate.ac.uk/"&gt;&lt;u&gt;http://gate.ac.uk/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;A Java Library for Text Engineering &lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;Machine Learning&lt;/strong&gt;&lt;br /&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;YASMET: Yet Another Small MaxEnt Toolkit (Statistical Machine Learning)&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.fjoch.com/YASMET.html"&gt;&lt;u&gt;http://www.fjoch.com/YASMET.html&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;LibSVM&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.csie.ntu.edu.tw/~cjlin/libsvm/"&gt;&lt;u&gt;http://www.csie.ntu.edu.tw/~cjlin/libsvm/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;LIBSVM is an integrated software for support vector classification, (C-SVC, nu-SVC ), regression (epsilon-SVR, nu-SVR) and distribution estimation (one-class SVM ). It supports multi-class classification. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;SVM Light&lt;/strong&gt;&lt;br /&gt;由cornell的Thorsten Joachims在dortmund大学时开发，成为LibSVM之后最为有名的SVM软件包。开源，用C语言编写，用于ranking问题&lt;br /&gt;&lt;a href="http://svmlight.joachims.org/"&gt;&lt;u&gt;http://svmlight.joachims.org/&lt;/u&gt;&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;CLUTO&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www-users.cs.umn.edu/~karypis/cluto/"&gt;&lt;u&gt;http://www-users.cs.umn.edu/~karypis/cluto/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;a software package for clustering low- and high-dimensional datasets&lt;/li&gt;&lt;li&gt;&lt;strong&gt;CRF++&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://chasen.org/~taku/software/CRF++/"&gt;&lt;u&gt;http://chasen.org/~taku/software/CRF++/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;Yet Another CRF toolkit for segmenting/labelling sequential data&lt;br /&gt;CRF(Conditional Random Fields)，由HMM/MEMM发展起来，广泛用于IE、IR、NLP领域&lt;/li&gt;&lt;li&gt;&lt;strong&gt;SVM Struct&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html"&gt;&lt;u&gt;http://www.cs.cornell.edu/People/tj/svm_light/svm_struct.html&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;SVMstruct is a Support Vector Machine (SVM) algorithm for predicting multivariate outputs. It performs supervised learning by approximating a mapping&lt;br /&gt;h: X --&gt; Y&lt;br /&gt;using labeled training examples (x1,y1), ..., (xn,yn).&lt;br /&gt;Unlike regular SVMs, however, which consider only univariate predictions like in classification and regression, SVMstruct can predict complex objects y like trees, sequences, or sets. Examples of problems with complex outputs are natural language parsing, sequence alignment in protein homology detection, and markov models for part-of-speech tagging.&lt;br /&gt;SVMstruct can be thought of as an API for implementing different kinds of complex prediction algorithms. Currently, we have implemented the following learning tasks:&lt;br /&gt;SVMmulticlass: Multi-class classification. Learns to predict one of k mutually exclusive classes. This is probably the simplest possible instance of SVMstruct and serves as a tutorial example of how to use the programming interface.&lt;br /&gt;SVMcfg: Learns a weighted context free grammar from examples. Training examples (e.g. for natural language parsing) specify the sentence along with the correct parse tree. The goal is to predict the parse tree of new sentences.&lt;br /&gt;SVMalign: Learning to align sequences. Given examples of how sequence pairs align, the goal is to learn the substitution matrix as well as the insertion and deletion costs of operations so that one can predict alignments of new sequences.&lt;br /&gt;SVMhmm: Learns a Markov model from examples. Training examples (e.g. for part-of-speech tagging) specify the sequence of words along with the correct assignment of tags (i.e. states). The goal is to predict the tag sequences for new sentences. &lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;Misc&lt;/strong&gt;&lt;br /&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;Notepad++&lt;/strong&gt;&lt;br /&gt;一个开源编辑器，支持C#，perl，CSS等几十种语言的关键字，功能可与新版的UltraEdit，Visual Studio .NET媲美&lt;br /&gt;&lt;a href="http://notepad-plus.sourceforge.net/"&gt;&lt;u&gt;http://notepad-plus.sourceforge.net&lt;/u&gt;&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;WinMerge&lt;/strong&gt;:&lt;br /&gt;用于文本内容比较，找出不同版本的两个程序的差异&lt;br /&gt;winmerge.sourceforge.net/&lt;/li&gt;&lt;li&gt;&lt;strong&gt;OpenPerlIDE&lt;/strong&gt;:&lt;br /&gt;开源的perl编辑器，内置编译、逐行调试功能&lt;br /&gt;open-perl-ide.sourceforge.net/&lt;br /&gt;ps: 论起编辑器偶见过的最好的还是VS.NET了，在每个function前面有+/-号支持expand/collapse，支持区域copy/cut /paste，使用ctrl+ c/ctrl+x/ctrl+v可以一次选取一行，使用ctrl+k+c/ctrl+k+u可以comment/uncomment多行，还有还 有...... Visual Studio .NET is really kool:D&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Berkeley DB&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.sleepycat.com/"&gt;&lt;u&gt;http://www.sleepycat.com/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;Berkeley DB不是一个关系数据库，它被称做是一个嵌入式数据库：对于c/s模型来说，它的client和server共用一个地址空间。由于数据库最初是从文件系 统中发展起来的，它更像是一个key-value pair的字典型数据库。而且数据库文件能够序列化到硬盘中，所以不受内存大小限制。BDB有个子版本Berkeley DB XML，它是一个xml数据库：以xml文件形式存储数据？BDB已被包括microsoft、google、HP、ford、motorola等公司嵌 入到自己的产品中去了&lt;br /&gt;Berkeley DB (libdb) is a programmatic toolkit that provides embedded database support for both traditional and client/server applications. It includes b+tree, queue, extended linear hashing, fixed, and variable-length record access methods, transactions, locking, logging, shared memory caching, database recovery, and replication for highly available systems. DB supports C, C++, Java, PHP, and Perl APIs.&lt;br /&gt;It turns out that at a basic level Berkeley DB is just a very high performance, reliable way of persisting dictionary style data structures - anything where a piece of data can be stored and looked up using a unique key. The key and the value can each be up to 4 gigabytes in length and can consist of anything that can be crammed in to a string of bytes, so what you do with it is completely up to you. The only operations available are "store this value under this key", "check if this key exists" and "retrieve the value for this key" so conceptually it's pretty simple - the complicated stuff all happens under the hood.&lt;br /&gt;case study:&lt;br /&gt;Ask Jeeves uses Berkeley DB to provide an easy-to-use tool for searching the Internet.&lt;br /&gt;Microsoft uses Berkeley DB for the Groove collaboration software&lt;br /&gt;AOL uses Berkeley DB for search tool meta-data and other services.&lt;br /&gt;Hitachi uses Berkeley DB in its directory services server product.&lt;br /&gt;Ford uses Berkeley DB to authenticate partners who access Ford's Web applications.&lt;br /&gt;Hewlett Packard uses Berkeley DB in serveral products, including storage, security and wireless software.&lt;br /&gt;Google uses Berkeley DB High Availability for Google Accounts.&lt;br /&gt;Motorola uses Berkeley DB to track mobile units in its wireless radio network products.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;LaTeX&lt;/strong&gt;&lt;br /&gt;LATEX, written as LaTeX in plain text, is a document preparation system for the TeX typesetting program.&lt;br /&gt;It offers programmable desktop publishing features and extensive facilities for automating most aspects of typesetting and desktop publishing, including numbering and cross-referencing, tables and figures, page layout, bibliographies, and much more. LaTeX was originally written in 1984 by Leslie Lamport and has become the dominant method for using TeX—few people write in plain TeX anymore. The current version is LaTeX2ε.&lt;br /&gt;中文套装可以在http://www.ctex.org找到&lt;br /&gt;&lt;a href="http://learn.tsinghua.edu.cn:8080/2001315450/comp.html"&gt;&lt;u&gt;http://learn.tsinghua.edu.cn:8080/2001315450/comp.html&lt;/u&gt;&lt;/a&gt; by王垠&lt;/li&gt;&lt;li&gt;&lt;strong&gt;EditPlus&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.editplus.com/"&gt;&lt;u&gt;http://www.editplus.com/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;EditPlus is an Internet-ready 32-bit text editor, HTML editor and programmers editor for Windows. While it can serve as a good replacement for Notepad, it also offers many powerful features for Web page authors and programmers.&lt;br /&gt;EditPlus当前最新版本是2.21，BrE和AmE的spell checker需要单独下载安装包安装&lt;/li&gt;&lt;li&gt;&lt;strong&gt;GVim: Vi IMproved&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.vim.org/index.php"&gt;&lt;u&gt;http://www.vim.org/index.php&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;Vim is an advanced text editor that seeks to provide the power of the de-facto Unix editor 'Vi', with a more complete feature set. It's useful whether you're already using vi or using a different editor. Users of Vim 5 should consider upgrading to Vim 6, which is greatly enhanced since Vim 5. Vim is often called a "programmer's editor," and so useful for programming that many consider it an entire IDE. It's not just for programmers, though. Vim is perfect for all kinds of text editing, from composing email to editing configuration files.&lt;br /&gt;普通windows用户可以从这个链接下载ftp://ftp.vim.org/pub/vim/pc/gvim64.exe&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Cygwin&lt;/strong&gt;: GNU + Cygnus + Windows&lt;br /&gt;&lt;a href="http://www.cygwin.com/"&gt;&lt;u&gt;http://www.cygwin.com/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;Cygwin is a Linux-like environment for Windows. It consists of two parts: A DLL (cygwin1.dll) which acts as a Linux API emulation layer providing substantial Linux API functionality. A collection of tools, which provide Linux look and feel.&lt;/li&gt;&lt;li&gt;&lt;strong&gt;MinGW: Minimalistic GNU for Windows&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.mingw.org/"&gt;&lt;u&gt;http://www.mingw.org/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;MinGW: A collection of freely available and freely distributable Windows specific header files and import libraries combined with GNU toolsets that allow one to produce native Windows programs that do not rely on any 3rd-party C runtime DLLs.&lt;br /&gt;在windows下编译、移植unix/linux平台的软件。cygwin相当于在windows系统层上模拟了一个POSIX-compliant的 layer(库文件是cygwin1.dll)；而mingw则是使用 windows自身的库文件(msvcrt.dll)实现了一些符合POSIX spec的功能，并不是完全POSIX-compliant。mingw其实是cygwin的一个branch，由于它没有实现linux api的模拟层，所以开销要比cygwin低些。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;CutePDF Writer&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.cutepdf.com/"&gt;&lt;u&gt;http://www.cutepdf.com&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;Portable Document format (PDF) is the de facto standard for the secure and reliable distribution and exchange of electronic documents and forms around the world. CutePDF Writer (formerly CutePDF Printer) is the free version of commercial PDF creation software. CutePDF Writer installs itself as a "printer subsystem". This enables virtually any Windows applications (must be able to print) to create professional quality PDF documents - with just a push of a button!&lt;br /&gt;比起acrobat来，一大优点就是它是免费的。而且一般word图表、公式的转换效果很好，what you see is what you get，哈哈。可能需要ps2pdf converter，在该站点有链接提供下载&lt;/li&gt;&lt;li&gt;&lt;strong&gt;R&lt;/strong&gt;&lt;br /&gt;&lt;a href="http://www.r-project.org/"&gt;&lt;u&gt;http://www.r-project.org/&lt;/u&gt;&lt;/a&gt;&lt;br /&gt;R is a language and environment for statistical computing and graphics. It is a GNU project which is similar to the S language and environment which was developed at Bell Laboratories (formerly AT&amp;amp;T, now Lucent Technologies) by John Chambers and colleagues. R can be considered as a different implementation of S. There are some important differences, but much code written for S runs unaltered under R.&lt;br /&gt;R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, ...) and graphical techniques, and is highly extensible. The S language is often the vehicle of choice for research in statistical methodology, and R provides an Open Source route to participation in that activity.&lt;br /&gt;One of R's strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. Great care has been taken over the defaults for the minor design choices in graphics, but the user retains full control.&lt;br /&gt;R is available as Free Software under the terms of the Free Software Foundation's GNU General Public License in source code form. It compiles and runs on a wide variety of UNIX platforms and similar systems (including FreeBSD and Linux), Windows and MacOS.&lt;/li&gt;&lt;/ul&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-7154375821353045983?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/7154375821353045983/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=7154375821353045983' title='2 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7154375821353045983'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7154375821353045983'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/useful-tools-for-nlp.html' title='Useful Tools for NLP'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-8625255927592242458</id><published>2008-07-02T15:19:00.009+08:00</published><updated>2008-07-02T15:32:25.263+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Algorithm'/><title type='text'>An algorithm for suffix stripping</title><content type='html'>&lt;h1&gt; &lt;center&gt;&lt;span style="font-size:100%;"&gt;An algorithm for suffix stripping&lt;/span&gt;&lt;/center&gt;&lt;/h1&gt;&lt;br /&gt;&lt;center&gt;M.F.Porter&lt;/center&gt; &lt;center&gt;1980&lt;/center&gt;&lt;br /&gt;Originally published in &lt;i&gt;Program&lt;/i&gt;, &lt;b&gt;14&lt;/b&gt; no.  3, pp 130-137, July 1980. &lt;p&gt; &lt;/p&gt;&lt;h2&gt;&lt;span style="font-size:100%;"&gt;1. Introduction&lt;/span&gt;&lt;/h2&gt;Removing suffixes by automatic means is an operation  which is especially useful in the field of information retrieval. In a typical  IR environment, one has a collection of documents, each described by the words  in the document title and possibly by words in the document abstract. Ignoring  the issue of precisely where the words originate, we can say that a document is  represented by a vetor of words, or &lt;i&gt;terms&lt;/i&gt;. Terms with a common stem will  usually have similar meanings, for example: &lt;pre&gt;        CONNECT&lt;br /&gt;       CONNECTED&lt;br /&gt;       CONNECTING&lt;br /&gt;       CONNECTION&lt;br /&gt;       CONNECTIONS&lt;br /&gt;&lt;/pre&gt;Frequently, the performance of an IR system will be improved if term  groups such as this are conflated into a single term. This may be done by  removal of the various suffixes -ED, -ING, -ION, IONS to leave the single term  CONNECT. In addition, the suffix stripping process will reduce the total number  of terms in the IR system, and hence reduce the size and complexity of the data  in the system, which is always advantageous. &lt;p&gt;Many strategies for suffix stripping have been reported in the  literature.&lt;sup&gt;(e.g. 1-6)&lt;/sup&gt; The nature of the task will vary considerably  depending on whether a stem dictionary is being used, whether a suffix list is  being used, and of course on the purpose for which the suffix stripping is being  done. Assuming that one is not making use of a stem dictionary, and that the  purpose of the task is to improve IR performance, the suffix stripping program  will usually be given an explicit list of siffixes, and, with each suffix, the  criterion under which it may be removed from a word to leave a valid stem. This  is the approach adopted here. The main merits of the present program are that it  is small (less than 400 lines of BCPL), fast (it will process a vocabulary of  10,000 different words in about 8.1 seconds on the IBM 370/165 at Cambridge  University), and reasonably simple. At any rate, it is simple enough to be  described in full as an algorithm in this paper. (The present version in BCPL is  freely available from the author. BCPL is itself available on a wide range of  different computers, but anyone wishing to use the program should have little  difficulty in coding it up in other programming languages.) Given the speed of  the program, it would be quite realistic to apply it to every word in a large  file of continuous text, although for historical reasons we have found it  convenient to apply it only to relatively small vocabulary lists derived from  continuous text files. &lt;/p&gt;&lt;p&gt;In any suffix stripping program for IR work, two points must be borne in  mind. Firstly, the suffixes are being removed simply to improve IR performance,  and not as a linguistic exercise. This means that it would not be at all obvious  under what circumstances a suffix should be removed, even if we could exactly  determine the suffixes of a word by automatic means. &lt;/p&gt;&lt;p&gt;Perhaps the best criterion for removing suffixes from two words W1 and W2 to  produce a single stem S, is to say that we do so if there appears to be no  difference between the two statements `a document is about W1' and `a document  is about W2'. So if W1=`CONNECTION' and W2=`CONNECTIONS' it seems very  reasonable to conflate them to a single stem. But if W1=`RELATE' and  W2=`RELATIVITY' it seems perhaps unreasonable, especially if the document  collection is concerned with theoretical physics. (It should perhaps be added  that RELATE and RELATIVITY &lt;i&gt;are&lt;/i&gt; conflated together in the algorithm  described here.) Between these two extremes there is a continuum of different  cases, and given two terms W1 and W2, there will be some variation in opinion as  to whether they should be conflated, just as there is with deciding the  relevance of some document to a query. The evaluation of the worth of a suffix  stripping system is correspondingly difficult. &lt;/p&gt;&lt;p&gt;The second point is that with the approach adopted here, i.e. the use of a  suffix list with various rules, the success rate for the suffix stripping will  be significantly less than 100% irrespective of how the process is evaluated.  For example, if SAND and SANDER get conflated, so most probably will WAND and  WANDER. The error here is that the -ER of WANDER has been treated as a suffix  when in fact it is part of the stem. Equally, a suffix may completely alter the  meaning of a word, in which case its removal is unhelpful. PROBE and PROBATE for  example, have quite distinct meanings in modern English. (In fact these would  not be conflated in our present algorithm.) There comes a stage in the  development of a suffix stripping program where the addition of more rules to  increase the performance in one area of the vocabulary causes an equal  degradation of performance elsewhere. Unless this phenomenon is noticed in time,  it is very easy for the program to become much more complex than is really  necessary. It is also easy to give undue emphasis to cases which appear to be  important, but which turn ut to be rather rare. For example, cases in which the  root of a word changes with the addition of a suffix, as in DECEIVE/DECEPTION,  RESUME/RESUMPTION, INDEX/INDICES occur much more rarely in real vocabularies  than one might at first suppose. In view of the error rate that must in any case  be expected, it did not seem worthwhile to try and cope with these cases. &lt;/p&gt;&lt;p&gt;It is not obvious that the simplicity of the present program is any demerit.  In a test on the well-known Cranfield 200 collection&lt;sup&gt;7&lt;/sup&gt; it gave an  improvement in retrieval performance when compared with a very much more  elaborate program which has been in use in IR research in Cambridge since  1971&lt;sup&gt;(2,6)&lt;/sup&gt;. The test was done as follows: the words of the titles and  abstracts in the documents were passed through the earlier suffix stripping  system, and the resultis stems were used to index the documents. The words of  the queries were reduced to stems in the same way, and the documents were ranked  for each query using term coordination matching of query against document. From  these rankings, recall and precision values were obtained using the standard  recall cutoff method. The entire process was then repeated using the suffix  stripping system described in this paper, and the results were as follows: &lt;/p&gt;&lt;pre&gt;        earlier system        present system&lt;br /&gt;       --------------        --------------&lt;br /&gt;     precision  recall     precision  recall&lt;br /&gt;          0      57.24          0      58.60&lt;br /&gt;         10      56.85         10      58.13&lt;br /&gt;         20      52.85         20      53.92&lt;br /&gt;         30      42.61         30      43.51&lt;br /&gt;         40      42.20         40      39.39&lt;br /&gt;         50      39.06         50      38.85&lt;br /&gt;         60      32.86         60      33.18&lt;br /&gt;         70      31.64         70      31.19&lt;br /&gt;         80      27.15         80      27.52&lt;br /&gt;         90      24.59         90      25.85&lt;br /&gt;        100      24.59        100      25.85&lt;br /&gt;&lt;/pre&gt;Cleary, the performance is not very different. The important point is that  the earlier, more elaborate system certainly performs no better than the  present, simple system. &lt;p&gt;(This test was done by prof. C.J. van Rijsbergen.) &lt;/p&gt;&lt;p&gt; &lt;/p&gt;&lt;h2&gt;&lt;span style="font-size:100%;"&gt;2. The Algorithm&lt;/span&gt;&lt;/h2&gt;To present the suffix stripping algorithm in its  entirety we will need a few difinitions. &lt;p&gt;A &lt;i&gt;consonant&lt;/i&gt; in a word is a letter other than A, E, I, O or U, and  other than Y preceded by a consonant. (The fact that the term `consonant' is  defined to some extent in terms of itself does not make it ambiguous.) So in TOY  the consonants are T and Y, and in SYZYGY they are S, Z and G. If a letter is  not a consonant it is a &lt;i&gt;vowel&lt;/i&gt;. &lt;/p&gt;&lt;p&gt;A consonant will be denoted by c, a vowel by v. A list ccc... of length  greater than 0 will be denoted by C, and a list vvv... of length greater than 0  will be denoted by V. Any word, or part of a word, therefore has one of the four  forms: &lt;/p&gt;&lt;pre&gt;    CVCV ... C&lt;br /&gt;   CVCV ... V&lt;br /&gt;   VCVC ... C&lt;br /&gt;   VCVC ... V&lt;br /&gt;&lt;/pre&gt;These may all be represented by the single form &lt;pre&gt;    [C]VCVC ... [V]&lt;br /&gt;&lt;/pre&gt;where the square brackets denote arbitrary presence of their contents.  Using (VC)&lt;sup&gt;m&lt;/sup&gt; to denote VC repeated m times, this may again be written  as &lt;pre&gt;    [C](VC)&lt;sup&gt;m&lt;/sup&gt;[V].&lt;br /&gt;&lt;/pre&gt;m will be called the &lt;i&gt;measure&lt;/i&gt; of any word or word part when  represented in this form. The case m = 0 covers the null word. Here are some  examples: &lt;pre&gt;    m=0    TR,  EE,  TREE,  Y,  BY.&lt;br /&gt;   m=1    TROUBLE,  OATS,  TREES,  IVY.&lt;br /&gt;   m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.&lt;br /&gt;&lt;/pre&gt;The &lt;i&gt;rules&lt;/i&gt; for removing a suffix will be given in the form &lt;pre&gt;    (condition) S1 -&gt; S2&lt;br /&gt;&lt;/pre&gt;This means that if a word ends with the suffix S1, and the stem before S1  satisfies the given condition, S1 is replaced by S2. The condition is usually  given in terms of m, e.g. &lt;pre&gt;    (m &gt; 1) EMENT -&gt;&lt;br /&gt;&lt;/pre&gt;Here S1 is `EMENT' and S2 is null. This would map REPLACEMENT to REPLAC,  since REPLAC is a word part for which m = 2. &lt;p&gt;The `condition' part may also contain the following: &lt;/p&gt;&lt;p&gt;*S - the stem ends with S (and similarly for the other letters). &lt;/p&gt;&lt;p&gt;*v* - the stem contains a vowel. &lt;/p&gt;&lt;p&gt;*d - the stem ends with a double consonant (e.g. -TT, -SS). &lt;/p&gt;&lt;p&gt;*o - the stem ends cvc, where the second c is not W, X or Y (e.g. -WIL,  -HOP). &lt;/p&gt;&lt;p&gt;And the condition part may also contain expressions with &lt;i&gt;and&lt;/i&gt;,  &lt;i&gt;or&lt;/i&gt; and &lt;i&gt;not&lt;/i&gt;, so that &lt;/p&gt;&lt;pre&gt;    (m&gt;1 and (*S or *T))&lt;br /&gt;&lt;/pre&gt;tests for a stem with m&gt;1 ending in S or T, while &lt;pre&gt;    (*d and not (*L or *S or *Z))&lt;br /&gt;&lt;/pre&gt;tests for a stem ending witha double consonant other than L, S or Z.  Elaborate conditions like this are required only rarely. &lt;p&gt;In a set of rules written beneath each other, only one is obeyed, and this  will be the one with the longest matching S1 for the given word. For example,  with &lt;/p&gt;&lt;pre&gt;    SSES -&gt; SS&lt;br /&gt;   IES  -&gt; I&lt;br /&gt;   SS   -&gt; SS&lt;br /&gt;   S    -&gt;&lt;br /&gt;&lt;/pre&gt;(here the conditions are all null) CARESSES maps to CARESS since SSES is  the longest match for S1. Equally CARESS maps to CARESS (S1=`SS') and CARES to  CARE (S1=`S'). &lt;p&gt;In the rules below, examples of their application, successful or otherwise,  are given on the right in lower case. The algorithm now follows: &lt;/p&gt;&lt;p&gt; &lt;/p&gt;&lt;h3&gt;Step 1a&lt;/h3&gt;&lt;pre&gt;    SSES -&gt; SS                         caresses  -&gt;  caress&lt;br /&gt;   IES  -&gt; I                          ponies    -&gt;  poni&lt;br /&gt;                                      ties      -&gt;  ti&lt;br /&gt;   SS   -&gt; SS                         caress    -&gt;  caress&lt;br /&gt;   S    -&gt;                            cats      -&gt;  cat&lt;br /&gt;&lt;/pre&gt; &lt;h3&gt;Step 1b&lt;/h3&gt;&lt;pre&gt;    (m&gt;0) EED -&gt; EE                    feed      -&gt;  feed&lt;br /&gt;                                      agreed    -&gt;  agree&lt;br /&gt;   (*v*) ED  -&gt;                       plastered -&gt;  plaster&lt;br /&gt;                                      bled      -&gt;  bled&lt;br /&gt;   (*v*) ING -&gt;                       motoring  -&gt;  motor&lt;br /&gt;                                      sing      -&gt;  sing&lt;br /&gt;&lt;/pre&gt;If the second or third of the rules in Step 1b is successful, the  following is done: &lt;pre&gt;    AT -&gt; ATE                       conflat(ed)  -&gt;  conflate&lt;br /&gt;   BL -&gt; BLE                       troubl(ed)   -&gt;  trouble&lt;br /&gt;   IZ -&gt; IZE                       siz(ed)      -&gt;  size&lt;br /&gt;   (*d and not (*L or *S or *Z))&lt;br /&gt;      -&gt; single letter&lt;br /&gt;                                   hopp(ing)    -&gt;  hop&lt;br /&gt;                                   tann(ed)     -&gt;  tan&lt;br /&gt;                                   fall(ing)    -&gt;  fall&lt;br /&gt;                                   hiss(ing)    -&gt;  hiss&lt;br /&gt;                                   fizz(ed)     -&gt;  fizz&lt;br /&gt;   (m=1 and *o) -&gt; E               fail(ing)    -&gt;  fail&lt;br /&gt;                                   fil(ing)     -&gt;  file&lt;br /&gt;&lt;/pre&gt;The rule to map to a single letter causes the removal of one of the double  letter pair. The -E is put back on -AT, -BL and -IZ, so that the suffixes -ATE,  -BLE and -IZE can be recognised later. This E may be removed in step 4. &lt;p&gt; &lt;/p&gt;&lt;h3&gt;Step 1c&lt;/h3&gt;&lt;pre&gt;    (*v*) Y -&gt; I                    happy        -&gt;  happi&lt;br /&gt;                                   sky          -&gt;  sky&lt;br /&gt;&lt;/pre&gt;Step 1 deals with plurals and past participles. The subsequent steps are  much more straightforward. &lt;p&gt; &lt;/p&gt;&lt;h3&gt;Step 2&lt;/h3&gt;&lt;pre&gt;    (m&gt;0) ATIONAL -&gt;  ATE           relational     -&gt;  relate&lt;br /&gt;   (m&gt;0) TIONAL  -&gt;  TION          conditional    -&gt;  condition&lt;br /&gt;                                   rational       -&gt;  rational&lt;br /&gt;   (m&gt;0) ENCI    -&gt;  ENCE          valenci        -&gt;  valence&lt;br /&gt;   (m&gt;0) ANCI    -&gt;  ANCE          hesitanci      -&gt;  hesitance&lt;br /&gt;   (m&gt;0) IZER    -&gt;  IZE           digitizer      -&gt;  digitize&lt;br /&gt;   (m&gt;0) ABLI    -&gt;  ABLE          conformabli    -&gt;  conformable&lt;br /&gt;   (m&gt;0) ALLI    -&gt;  AL            radicalli      -&gt;  radical&lt;br /&gt;   (m&gt;0) ENTLI   -&gt;  ENT           differentli    -&gt;  different&lt;br /&gt;   (m&gt;0) ELI     -&gt;  E             vileli        - &gt;  vile&lt;br /&gt;   (m&gt;0) OUSLI   -&gt;  OUS           analogousli    -&gt;  analogous&lt;br /&gt;   (m&gt;0) IZATION -&gt;  IZE           vietnamization -&gt;  vietnamize&lt;br /&gt;   (m&gt;0) ATION   -&gt;  ATE           predication    -&gt;  predicate&lt;br /&gt;   (m&gt;0) ATOR    -&gt;  ATE           operator       -&gt;  operate&lt;br /&gt;   (m&gt;0) ALISM   -&gt;  AL            feudalism      -&gt;  feudal&lt;br /&gt;   (m&gt;0) IVENESS -&gt;  IVE           decisiveness   -&gt;  decisive&lt;br /&gt;   (m&gt;0) FULNESS -&gt;  FUL           hopefulness    -&gt;  hopeful&lt;br /&gt;   (m&gt;0) OUSNESS -&gt;  OUS           callousness    -&gt;  callous&lt;br /&gt;   (m&gt;0) ALITI   -&gt;  AL            formaliti      -&gt;  formal&lt;br /&gt;   (m&gt;0) IVITI   -&gt;  IVE           sensitiviti    -&gt;  sensitive&lt;br /&gt;   (m&gt;0) BILITI  -&gt;  BLE           sensibiliti    -&gt;  sensible&lt;br /&gt;&lt;/pre&gt;The test for the string S1 can be made fast by doing a program switch on  the penultimate letter of the word being tested. This gives a fairly even  breakdown of the possible values of the string S1. It will be seen in fact that  the S1-strings in step 2 are presented here in the alphabetical order of their  penultimate letter. Similar techniques may be applied in the other steps. &lt;p&gt; &lt;/p&gt;&lt;h3&gt;Step 3&lt;/h3&gt;&lt;pre&gt;    (m&gt;0) ICATE -&gt;  IC              triplicate     -&gt;  triplic&lt;br /&gt;   (m&gt;0) ATIVE -&gt;                  formative      -&gt;  form&lt;br /&gt;   (m&gt;0) ALIZE -&gt;  AL              formalize      -&gt;  formal&lt;br /&gt;   (m&gt;0) ICITI -&gt;  IC              electriciti    -&gt;  electric&lt;br /&gt;   (m&gt;0) ICAL  -&gt;  IC              electrical     -&gt;  electric&lt;br /&gt;   (m&gt;0) FUL   -&gt;                  hopeful        -&gt;  hope&lt;br /&gt;   (m&gt;0) NESS  -&gt;                  goodness       -&gt;  good&lt;br /&gt;&lt;/pre&gt; &lt;h3&gt;Step 4&lt;/h3&gt;&lt;pre&gt;    (m&gt;1) AL    -&gt;                  revival        -&gt;  reviv&lt;br /&gt;   (m&gt;1) ANCE  -&gt;                  allowance      -&gt;  allow&lt;br /&gt;   (m&gt;1) ENCE  -&gt;                  inference      -&gt;  infer&lt;br /&gt;   (m&gt;1) ER    -&gt;                  airliner       -&gt;  airlin&lt;br /&gt;   (m&gt;1) IC    -&gt;                  gyroscopic     -&gt;  gyroscop&lt;br /&gt;   (m&gt;1) ABLE  -&gt;                  adjustable     -&gt;  adjust&lt;br /&gt;   (m&gt;1) IBLE  -&gt;                  defensible     -&gt;  defens&lt;br /&gt;   (m&gt;1) ANT   -&gt;                  irritant       -&gt;  irrit&lt;br /&gt;   (m&gt;1) EMENT -&gt;                  replacement    -&gt;  replac&lt;br /&gt;   (m&gt;1) MENT  -&gt;                  adjustment     -&gt;  adjust&lt;br /&gt;   (m&gt;1) ENT   -&gt;                  dependent      -&gt;  depend&lt;br /&gt;   (m&gt;1 and (*S or *T)) ION -&gt;     adoption       -&gt;  adopt&lt;br /&gt;   (m&gt;1) OU    -&gt;                  homologou      -&gt;  homolog&lt;br /&gt;   (m&gt;1) ISM   -&gt;                  communism      -&gt;  commun&lt;br /&gt;   (m&gt;1) ATE   -&gt;                  activate       -&gt;  activ&lt;br /&gt;   (m&gt;1) ITI   -&gt;                  angulariti     -&gt;  angular&lt;br /&gt;   (m&gt;1) OUS   -&gt;                  homologous     -&gt;  homolog&lt;br /&gt;   (m&gt;1) IVE   -&gt;                  effective      -&gt;  effect&lt;br /&gt;   (m&gt;1) IZE   -&gt;                  bowdlerize     -&gt;  bowdler&lt;br /&gt;&lt;/pre&gt;The suffixes are now removed. All that remains is a little tidying up. &lt;p&gt; &lt;/p&gt;&lt;h3&gt;Step 5a&lt;/h3&gt;&lt;pre&gt;    (m&gt;1) E     -&gt;                  probate        -&gt;  probat&lt;br /&gt;                                   rate           -&gt;  rate&lt;br /&gt;   (m=1 and not *o) E -&gt;           cease          -&gt;  ceas&lt;br /&gt;&lt;/pre&gt; &lt;h3&gt;Step 5b&lt;/h3&gt;&lt;pre&gt;    (m &gt; 1 and *d and *L) -&gt; single letter&lt;br /&gt;                                   controll       -&gt;  control&lt;br /&gt;                                   roll           -&gt;  roll&lt;br /&gt;&lt;/pre&gt; &lt;p&gt;The algorithm is careful not to remove a suffix when the stem is too short,  the length of the stem being given by its measure, m. There is no linguistic  basis for this approach. It was merely observed that m could be used quite  effectively to help decide whether or not it was wise to take off a suffix. For  example, in the following two lists: &lt;/p&gt;&lt;pre&gt;                  list A        list B&lt;br /&gt;                 ------        ------&lt;br /&gt;                 RELATE        DERIVATE&lt;br /&gt;                 PROBATE       ACTIVATE&lt;br /&gt;                 CONFLATE      DEMONSTRATE&lt;br /&gt;                 PIRATE        NECESSITATE&lt;br /&gt;                 PRELATE       RENOVATE&lt;br /&gt;&lt;/pre&gt;-ATE is removed from the list B words, but not from the list A words. This  means that the pairs DERIVATE/DERIVE, ACTIVATE/ACTIVE, DEMONSTRATE/DEMONS-  TRABLE, NECESSITATE/NECESSITOUS, will conflate together. The fact that no  attempt is made to identify prefixes can make the results look rather  inconsistent. Thus PRELATE does not lose the -ATE, but ARCHPRELATE becomes  ARCHPREL. In practice this does not matter too much, because the presence of the  prefix decreases the probability of an erroneous conflation. &lt;p&gt;Complex suffixes are removed bit by bit in the different steps. Thus  GENERALIZATIONS is stripped to GENERALIZATION (Step 1), then to GENERALIZE (Step  2), then to GENERAL (Step 3), and then to GENER (Step 4). OSCILLATORS is  stripped to OSCILLATOR (Step 1), then to OSCILLATE (Step 2), then to OSCILL  (Step 4), and then to OSCIL (Step 5). In a vocabulary of 10,000 words, the  reduction in size of the stem was distributed among the steps as follows: &lt;/p&gt;&lt;pre&gt;    Suffix stripping of a vocabulary of 10,000 words&lt;br /&gt;   ------------------------------------------------&lt;br /&gt;   Number of words reduced in step 1:   3597&lt;br /&gt;                 "                 2:    766&lt;br /&gt;                 "                 3:    327&lt;br /&gt;                 "                 4:   2424&lt;br /&gt;                 "                 5:   1373&lt;br /&gt;   Number of words not reduced:         3650&lt;br /&gt;&lt;/pre&gt;The resulting vocabulary of stems contained 6370 distinct entries. Thus  the suffix stripping process reduced the size of the vocabulary by about one  third. &lt;p&gt; &lt;/p&gt;&lt;h2&gt;&lt;span style="font-size:100%;"&gt;Referencies&lt;/span&gt;&lt;/h2&gt;1. LOVINS, J.B. Development of a Stemming Algorithm.  &lt;i&gt;Mechanical Translation and computation Linguistics&lt;/i&gt;. &lt;b&gt;11&lt;/b&gt; (1) March  1968 pp 23-31. &lt;p&gt;2. ANDREWS, K. The Development of a Fast Conflation Algorithm for English.  &lt;i&gt;Dissertation for the Diploma in Computer Science&lt;/i&gt;, Computer Laboratory,  University of Cambridge, 1971. &lt;/p&gt;&lt;p&gt;3. PETRARCA, A.E. and LAY W.M. Use of an automatically generated authority  list to eliminate scattering caused by some singular and plural main index  terms. &lt;i&gt;Proceedings of the American Society for Information Science&lt;/i&gt;,  &lt;b&gt;6&lt;/b&gt; 1969 pp 277-282. &lt;/p&gt;&lt;p&gt;4. DATTOLA, Robert T. &lt;i&gt;FIRST: Flexible Information Retrieval System for  Text&lt;/i&gt;. Webster N.Y: Xerox Corporation, 12 Dec 1975. &lt;/p&gt;&lt;p&gt;5. COLOMBO, D.S. and NIEHOFF R.T. &lt;i&gt;Final report on improved access to  scientific and technical information through automated vocabulary switching.&lt;/i&gt;  NSF Grant No. SIS75-12924 to the National Science Foundation. &lt;/p&gt;&lt;p&gt;6. DAWSON, J.L. Suffix Removal and Word Conflation. &lt;i&gt;ALLC Bulletin&lt;/i&gt;,  Michaelmas 1974 p.33-46. &lt;/p&gt;&lt;p&gt;7. CLEVERDON, C.W., MILLS J. and KEEN M. &lt;i&gt;Factors Determining the  Performance of Indexing Systems&lt;/i&gt; 2 vols. College of Aeronautics, Cranfield  1966. &lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-8625255927592242458?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/8625255927592242458/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=8625255927592242458' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8625255927592242458'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/8625255927592242458'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/algorithm-for-suffix-stripping.html' title='An algorithm for suffix stripping'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-204057834375420192</id><published>2008-07-01T19:38:00.005+08:00</published><updated>2008-07-01T19:47:28.974+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='Mathmatics'/><title type='text'>Pearson's Correlation Coefficient</title><content type='html'>&lt;span&gt;&lt;span style="font-size:85%;"&gt;&lt;span lang="EN-US"&gt;&lt;span style="font-size:130%;"&gt;Pearson系数法计算公式为：&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://3.bp.blogspot.com/_9-hI14wYsok/SGoXZmz0hTI/AAAAAAAAAFs/QxN5HfsBNgc/s1600-h/Pearson_thumb.jpg"&gt;&lt;img style="cursor: pointer;" src="http://3.bp.blogspot.com/_9-hI14wYsok/SGoXZmz0hTI/AAAAAAAAAFs/QxN5HfsBNgc/s320/Pearson_thumb.jpg" alt="" id="BLOGGER_PHOTO_ID_5218008846944208178" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;进一步可以转化为：&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://1.bp.blogspot.com/_9-hI14wYsok/SGoXgeUDkpI/AAAAAAAAAF0/-FSDFlT6lP8/s1600-h/pearson6.GIF"&gt;&lt;img style="cursor: pointer;" src="http://1.bp.blogspot.com/_9-hI14wYsok/SGoXgeUDkpI/AAAAAAAAAF0/-FSDFlT6lP8/s320/pearson6.GIF" alt="" id="BLOGGER_PHOTO_ID_5218008964922577554" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;或者&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://3.bp.blogspot.com/_9-hI14wYsok/SGoYaDau-GI/AAAAAAAAAGE/OAaaCP-PmGo/s1600-h/pearson2_thumb.jpg"&gt;&lt;img style="cursor: pointer;" src="http://3.bp.blogspot.com/_9-hI14wYsok/SGoYaDau-GI/AAAAAAAAAGE/OAaaCP-PmGo/s320/pearson2_thumb.jpg" alt="" id="BLOGGER_PHOTO_ID_5218009954135242850" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;结论：&lt;br /&gt;  r &gt; 0 =&gt; 正相关&lt;br /&gt;  r &lt; 0 =""&gt; 负相关&lt;br /&gt;  r = 0 =&gt; 不相关&lt;br /&gt; | r| 越大 =&gt; 越相关&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-204057834375420192?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/204057834375420192/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=204057834375420192' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/204057834375420192'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/204057834375420192'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/pearsons-correlation-coefficient.html' title='Pearson&apos;s Correlation Coefficient'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://3.bp.blogspot.com/_9-hI14wYsok/SGoXZmz0hTI/AAAAAAAAAFs/QxN5HfsBNgc/s72-c/Pearson_thumb.jpg' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-7965846475132296022</id><published>2008-07-01T13:48:00.001+08:00</published><updated>2008-09-19T08:42:01.843+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>最受欢迎的编程语言</title><content type='html'>&lt;p&gt;在最新一期的Computer杂志(&lt;a href="http://csdl2.computer.org/persagen/DLAbsToc.jsp?resourcePath=/dl/mags/co/&amp;amp;toc=comp/mags/co/2007/02/r2toc.xml"&gt;Feb. 2007, Vol. 40, No. 2&lt;/a&gt;) 里，有一篇叫&lt;a href="http://csdl2.computer.org/persagen/DLAbsToc.jsp?resourcePath=/dl/mags/co/&amp;amp;toc=comp/mags/co/2007/02/r2toc.xml&amp;amp;DOI=10.1109/MC.2007.53"&gt;Developers Shift to Dynamic Programming Languages&lt;/a&gt;的文章。文章简单介绍了一下&lt;a href="http://en.wikipedia.org/wiki/Dynamic_programming_language"&gt;dynamic language&lt;/a&gt;目前的发展和使用状况。其中给出了一个来自&lt;a href="http://www.tiobe.com/"&gt;Tiobe Software&lt;/a&gt;的关于计算机语言的受欢迎程度的调查。根据这个调查，目前最受欢迎的20种计算机语言排名如下:&lt;/p&gt;&lt;ol&gt;&lt;li&gt;Java&lt;/li&gt;&lt;li&gt;C&lt;/li&gt;&lt;li&gt;C++&lt;/li&gt;&lt;li&gt;Visual Basic&lt;/li&gt;&lt;li&gt;PHP&lt;/li&gt;&lt;li&gt;Perl&lt;/li&gt;&lt;li&gt;C#&lt;/li&gt;&lt;li&gt;Python&lt;/li&gt;&lt;li&gt;JavaScript&lt;/li&gt;&lt;li&gt;Ruby&lt;/li&gt;&lt;li&gt;SAS&lt;/li&gt;&lt;li&gt;Delphi&lt;/li&gt;&lt;li&gt;PL/SQL&lt;/li&gt;&lt;li&gt;D&lt;/li&gt;&lt;li&gt;ABAP&lt;/li&gt;&lt;li&gt;Lisp/Scheme&lt;/li&gt;&lt;li&gt;Ada&lt;/li&gt;&lt;li&gt;Cobol&lt;/li&gt;&lt;li&gt;Pascal&lt;/li&gt;&lt;li&gt;Transact/SQL&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;其中1-4，7，12，14，17，19，20是static language，其余的是dynamic language。Dynamic language中目前使用最广泛的是PHP。&lt;/p&gt;&lt;p&gt;文中还比较有意思的一个地方，是一位叫做&lt;a href="http://en.wikipedia.org/wiki/Les_Hatton"&gt;Les Hatton&lt;/a&gt;的教授的观点:&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;Computing has proven to be a fashion industry with little or no relationship with engineering. Many new programming approaches are just something new to try before something newer comes along. Dynamic languages are just the current software-development fashion. They will appear, hang around for a while, and then disappear. This is what happens when fashion dictates progress rather than engineering concepts such as measurement, validation, root-cause analysis, and defect prevention. &lt;/p&gt;&lt;/blockquote&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-7965846475132296022?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/7965846475132296022/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=7965846475132296022' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7965846475132296022'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/7965846475132296022'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/blog-post.html' title='最受欢迎的编程语言'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-6434430362528992090</id><published>2008-07-01T13:38:00.007+08:00</published><updated>2008-09-19T08:42:17.147+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='程序人生'/><title type='text'>Languages By Keyboard</title><content type='html'>&lt;p&gt;刚才无聊在网上瞎逛，逛到这页: &lt;a href="http://c2.com/cgi/wiki?LanguagesByKeyboard"&gt;Languages By Keyboard&lt;/a&gt;。&lt;/p&gt;&lt;p&gt;说是如何根据你的键盘的磨损情况来判断你编程使用的计算机语言，摘抄如下：&lt;/p&gt;&lt;blockquote&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;C Programmer:&lt;/strong&gt; Their ‘*’ and ‘;’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;C++ Programmer:&lt;/strong&gt; Their ‘&gt;’ and ‘&lt;' keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Lisp Programmer:&lt;/strong&gt; Their ‘(’ and ‘)’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;OCaml Programmer:&lt;/strong&gt; Their ‘;’ key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;ALGOL Programmer:&lt;/strong&gt; Their ‘:’ and ‘=’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Forth Programmer:&lt;/strong&gt; Their ‘:’ and ‘;’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;x86 ASM Programmer:&lt;/strong&gt; Their ‘%’ key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Haskell Programmer:&lt;/strong&gt; Their ‘-’ and ‘&gt;’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Ruby Programmer:&lt;/strong&gt; Their ‘e’, ‘n’ and ‘d’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Python Programmer:&lt;/strong&gt; Their tab key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Smalltalk Programmer:&lt;/strong&gt; Their ‘:’ key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;SQL Programmer:&lt;/strong&gt; Their ’s’, ‘e’, ‘l’, ‘c’, and ‘t’ keys are worn out. (Actually, ‘a’,'n’,'d’) &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Ada Programmer:&lt;/strong&gt; Their ‘i’ and ’s’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Java Programmer:&lt;/strong&gt; Their ‘p’, ‘u’, ‘b’, ‘l’, ‘i’, and ‘c’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Brainfuck Programmer:&lt;/strong&gt; Their ‘&gt;’, ‘&lt;' and '+', keys are worn out. The letter keys are untouched. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Perl Programmer:&lt;/strong&gt; Their punctuation keys (all of them) are worn out. And the letter keys are crisp and clean. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;COBOL Programmer:&lt;/strong&gt; Their caps-lock key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;VHDL Programmer:&lt;/strong&gt; Their ‘&lt;' and '=' keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Fortran Programmer:&lt;/strong&gt; Their shift keys and ‘c’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Fortran 95 Programmer:&lt;/strong&gt; Their shift keys and ‘1′ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Erlang Programmer:&lt;/strong&gt; Their ‘.’, ‘-’ and ‘&gt;’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;G-code Programmer:&lt;/strong&gt; No keys are worn, because there’s a rubber keyboard protector (with metal shavings embedded in it). &lt;/li&gt;&lt;li&gt;&lt;strong&gt;XML Programmer:&lt;/strong&gt; Their ‘&gt;’, ‘&lt;', and '/' keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;sh Programmer:&lt;/strong&gt; The “Ctrl” key is next to the ‘a’ key. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Newbie Programmer:&lt;/strong&gt; Their F1 key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;APL Programmer:&lt;/strong&gt; They have an APL keyboard, and their APL &lt;a href="http://c2.com/cgi/wiki?SelectricTypewriter"&gt;SelectricTypewriter&lt;/a&gt; ball is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;PHP Programmer:&lt;/strong&gt; The key mapped to ‘$’ is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Documentation Editor (using Word):&lt;/strong&gt; The ‘e’, ‘Ctrl’, and ‘Alt’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Experienced Documentation Editor (using Word):&lt;/strong&gt; The ‘Ctrl’ and ’s’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Documentation Editor (using LaTeX):&lt;/strong&gt; The ‘\’ key is completely worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Data-Entry Clerk:&lt;/strong&gt; The entire numeric keypad is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Unlucky Programmer:&lt;/strong&gt; The ‘m’, ‘o’, ‘n’, ’s’, ‘t’, ‘e’, ‘r’, ‘.’, and ‘c’ keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Slacking Programmer:&lt;/strong&gt; The ‘n’ key is worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Slacking, Opinionated Programmer:&lt;/strong&gt; The ‘n’ key and the ‘!’ key are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Slacking, Opinionated, Obnoxious Programmer:&lt;/strong&gt; The ‘n’ key, the ‘!’ key, and the caps-lock key are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;GWBASIC programmer:&lt;/strong&gt; The ? key and all the number keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Windows(tm) programmer:&lt;/strong&gt; The Ctrl, Alt and Delete keys are worn out. &lt;/li&gt;&lt;li&gt;&lt;strong&gt;Unsure programmer:&lt;/strong&gt; The Ctrl + ‘z’ keys are worn out.&lt;/li&gt;&lt;/ul&gt;&lt;span style="font-size:130%;"&gt;&lt;span style="FONT-WEIGHT: bold"&gt;What's your type , my friend?&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;/blockquote&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-6434430362528992090?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/6434430362528992090/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=6434430362528992090' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6434430362528992090'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/6434430362528992090'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/07/languages-by-keyboard.html' title='Languages By Keyboard'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-5898899077940729965</id><published>2008-06-30T18:49:00.004+08:00</published><updated>2008-06-30T18:53:42.350+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='WWW'/><title type='text'>WWW 2008 Papers</title><content type='html'>&lt;table width="90%"&gt;&lt;tbody&gt;&lt;tr&gt;&lt;td align="center"&gt;&lt;h2&gt;&lt;span style="font-size:85%;"&gt;Proceedings of the 17th International World Wide Web Conference&lt;br /&gt;(WWW2008)&lt;br /&gt;April 21-25, 2008&lt;br /&gt;Beijing, China &lt;/span&gt;&lt;/h2&gt; &lt;/td&gt; &lt;td&gt;&lt;span style="font-size:100%;"&gt;&lt;a href="http://www.iw3c2.org/"&gt;&lt;br /&gt;&lt;/a&gt;&lt;/span&gt;&lt;/td&gt; &lt;/tr&gt;  &lt;/tbody&gt;&lt;/table&gt;  &lt;h2&gt;&lt;span style="font-size:85%;"&gt;&lt;a href="http://www2008.org/papers/pdf/pp-WWW08-Gen-Chair-Message.pdf"&gt;Message from the General Chairs&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www2008.org/papers/pdf/pp-WWW08-IW3C2-message.pdf"&gt;Message from the Chair of IW3C2&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www2008.org/papers/pdf/pp-WWW08-PC-Message.pdf"&gt;Message from the Program Committee Chairs&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www2008.org/papers/pdf/pxxii-WWW08-organization.pdf"&gt;IW3C2 Organization&lt;/a&gt;&lt;br /&gt;&lt;a href="http://www2008.org/papers/pdf/pp-WWW08-sponsors.pdf"&gt;Sponsors &amp;amp; Supporters&lt;/a&gt;&lt;/span&gt;    &lt;/h2&gt;   &lt;h2&gt;Session: Browsers and UI&lt;/h2&gt; &lt;p&gt;Session Chair: Xing Xie &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1-ahnA.pdf"&gt;Personalized Web Exploration with Task Models&lt;/a&gt;            1&lt;br /&gt;Jae-wook Ahn, Peter Brusilovsky, Daqing He, Jonathan Grady, Qi Li &lt;i&gt;(University of Pittsburgh)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p11-yesilada.pdf"&gt;Validating the Use and Role of Visual Elements of Web Pages in Navigation with an Eye-Tracking Study&lt;/a&gt;                11&lt;br /&gt;Yeliz Yesilada, Caroline Jay, Robert Stevens, Simon Harper &lt;i&gt;(University of Manchester)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p21-liA.pdf"&gt;Improving Relevance Judgment of Web Search Results with Image Excerpts&lt;/a&gt;                 21&lt;br /&gt;Zhiwei Li, Shuming Shi, Lei Zhang &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p31-spalteholzA.pdf"&gt;KeySurf: A Character Controlled Browser for People with Physical Disabilities&lt;/a&gt;          31&lt;br /&gt;Leo Spalteholz, Kin Fun Li, Nigel Livingston, Foad Hamidi &lt;i&gt;(University of Victoria)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Data Mining – Log Analysis&lt;/h2&gt; &lt;p&gt;Session Chair: Masaru Kitsuregawa &lt;i&gt;(University of Tokyo)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p41-pobleteA.pdf"&gt;Query-Sets: Using Implicit Feedback and Query Patterns to Organize Web Documents&lt;/a&gt;                 41&lt;br /&gt;Barbara Poblete (University Pompeu Fabra),  Ricardo Baeza-Yates &lt;i&gt;(Yahoo! Research &amp;amp; Barcelona Media Innovation Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p51-bilenko.pdf"&gt;Mining the Search Trails of Surfing Crowds: Identifying Relevant Websites From User Activity&lt;/a&gt;                51&lt;br /&gt;Mikhail Bilenko, Ryen W. White &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p61-fuxmanA.pdf"&gt;Using the Wisdom of the Crowds for Keyword Generation&lt;/a&gt;          61&lt;br /&gt;Ariel Fuxman, Panayiotis Tsaparas, Kannan Achan, Rakesh Agrawal &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Data Mining – Learning&lt;/h2&gt; &lt;p&gt;Session Chair: Alex Ntoulas &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p71-zhang.pdf"&gt;FloatCascade Learning for Fast Imbalanced Web Mining&lt;/a&gt;          71&lt;br /&gt;Xiaoxun Zhang (IBM China Research Lab), Xueying Wang &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Honglei Guo, Zhili Guo, Xian Wu, Zhong Su &lt;i&gt;(IBM China Research Lab)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p81-cao.pdf"&gt;Recommending Questions Using the MDL-based Tree Cut Model&lt;/a&gt;          81&lt;br /&gt;Yunbo Cao  &lt;i&gt;(Shanghai Jiao Tong University and Microsoft Research Asia)&lt;/i&gt;,  Huizhong Duan  &lt;i&gt;(Shanghai Jiao Tong University)&lt;/i&gt;,&lt;br /&gt;Chin-Yew Lin  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;,&lt;br /&gt;Yong Yu  &lt;i&gt;(Shanghai Jiao Tong University)&lt;/i&gt;,&lt;br /&gt;Hsiao-Wuen Hon  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p91-phanA.pdf"&gt;Learning to Classify Short and Sparse Text &amp;amp; Web  with Hidden Topics from Large-scale Data Collections&lt;/a&gt;               91&lt;br /&gt;Xuan-Hieu Phan  &lt;i&gt;(Tohoku University)&lt;/i&gt;,&lt;br /&gt;Le-Minh Nguyen  &lt;i&gt;(Japan Advanced Institute of Science &amp;amp; Technology)&lt;/i&gt;,&lt;br /&gt;Susumu Horiguchi  &lt;i&gt;(Tohoku University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Data Mining – Modeling&lt;/h2&gt; &lt;p&gt;Session Chair: Kunal Punera  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p101-meiA.pdf"&gt;Topic Modeling with Network Regularization&lt;/a&gt;                     101&lt;br /&gt;Qiaozhu Mei, Deng Cai, Duo Zhang, ChengXiang Zhai  &lt;i&gt;(University of Illinois at Urbana-Champaign)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p111-titov.pdf"&gt;Modeling Online Reviews with Multi-grain Topic Models&lt;/a&gt;                111&lt;br /&gt;Ivan Titov  &lt;i&gt;(University of Illinois at Urbana-Champaign)&lt;/i&gt;,&lt;br /&gt;Ryan McDonald  &lt;i&gt;(Google Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p121-luA.pdf"&gt;Opinion Integration Through Semi-supervised Topic Modeling&lt;/a&gt;                      121&lt;br /&gt;Yue Lu, Cheng Xiang Zhai  &lt;i&gt;(University of Illinois at Urbana-Champaign)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Data Mining – Algorithms&lt;/h2&gt; &lt;p&gt;Session Chair: Ravi Kumar  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p131-xiaoA.pdf"&gt;Efficient Similarity Joins for Near Duplicate Detection&lt;/a&gt;          131&lt;br /&gt;Chuan Xiao, Wei Wang, Xuemin Lin, JeffreyXu Yu  &lt;i&gt;(Chinese University of Hong Kong)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p141-dzhou.pdf"&gt;Learning Multiple Graphs for Document Recommendations&lt;/a&gt;          141&lt;br /&gt;Ding Zhou  &lt;i&gt;(Facebook Inc.)&lt;/i&gt;,&lt;br /&gt;Shenghuo Zhu, Kai Yu  &lt;i&gt;(NEC Labs America)&lt;/i&gt;,&lt;br /&gt;Xiaodan Song  &lt;i&gt;(Google Inc)&lt;/i&gt;,&lt;br /&gt;Belle L. Tseng  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;,&lt;br /&gt;Hongyuan Zha  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;C. Lee Giles  &lt;i&gt;(The Pennsylvania State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p151-puneraA.pdf"&gt;Enhanced Hierarchical Classification via Isotonic Smoothing&lt;/a&gt;                      151&lt;br /&gt;Kunal Punera  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;,&lt;br /&gt;Joydeep Ghosh  &lt;i&gt;(University of Texas at Austin)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Internet Monetization – Online Advertising&lt;/h2&gt; &lt;p&gt;Session Chair: Ying Li  &lt;i&gt;(Microsoft AdCenter)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p161-ghoshA.pdf"&gt;Externalities in Online Advertising&lt;/a&gt;                      161&lt;br /&gt;Arpita Ghosh, Mohammad Mahdian  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p169-feigeA.pdf"&gt;A Combinatorial Allocation Mechanism With Penalties For Banner Advertising&lt;/a&gt;                       169&lt;br /&gt;Ureil Feige  &lt;i&gt;(Weizmann Institute)&lt;/i&gt;,&lt;br /&gt;Nicole Immorlica  &lt;i&gt;(Centrum voor Wiskunde en Informatica)&lt;/i&gt;,&lt;br /&gt;Vahab S. Mirrokni  &lt;i&gt;(Microsoft Research)&lt;/i&gt;,&lt;br /&gt;Hamid Nazerzadeh  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p179-nazerzadehA.pdf"&gt;Dynamic Cost-Per-Action Mechanisms and Applications to Online Advertising&lt;/a&gt;                       179&lt;br /&gt;Hamid Nazerzadeh, Amin Saberi  &lt;i&gt;(Stanford University)&lt;/i&gt;,&lt;br /&gt;Rakesh Vohra  &lt;i&gt;(Northwestern University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Internet Monetization – Recommendation and Security&lt;/h2&gt; &lt;p&gt;Session Chair: Nicole Immorlica  &lt;i&gt;(Northwestern University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p189-hartline.pdf"&gt;Optimal Marketing Strategies over Social Networks&lt;/a&gt;                189&lt;br /&gt;Jason Hartline  &lt;i&gt;(Northwestern University)&lt;/i&gt;,&lt;br /&gt;Vahab Mirrokni  &lt;i&gt;(Microsoft Resarch)&lt;/i&gt;,&lt;br /&gt;Mukund Sundararajan  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p199-andersen.pdf"&gt;Trust-Based Recommendation Systems: An Axiomatic Approach&lt;/a&gt;                199&lt;br /&gt;Reid Andersen, Christian Borgs, Jennifer Chayes  &lt;i&gt;(Microsoft Research)&lt;/i&gt;,&lt;br /&gt;Uriel Feige  &lt;i&gt;(Weizmann Institute of Science)&lt;/i&gt;,&lt;br /&gt;Abraham Flaxman  &lt;i&gt;(Microsoft Research)&lt;/i&gt;,&lt;br /&gt;Adam Kalai  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Vahab Mirrokni  &lt;i&gt;(Microsoft Research)&lt;/i&gt;,&lt;br /&gt;Moshe Tennenholtz  &lt;i&gt;(Technion-Israel Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p209-grossklagsA.pdf"&gt;Secure or Insure? A Game-Theoretic Analysis of Information Security Games&lt;/a&gt;                       209&lt;br /&gt;Jens Grossklags  &lt;i&gt;(University of California at Berkeley)&lt;/i&gt;,&lt;br /&gt;Nicolas Christin  &lt;i&gt;(Carnegie Mellon University)&lt;/i&gt;,&lt;br /&gt;John Chuang  &lt;i&gt;(University of California at Berkeley)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Internet Monetization – Sponsored Search&lt;/h2&gt; &lt;p&gt;Session Chair: Amin Saberi  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p219-ghose.pdf"&gt;Analyzing Search Engine Advertising:  Firm Behavior and Cross-Selling in Electronic Markets&lt;/a&gt;               219&lt;br /&gt;Anindya Ghose  &lt;i&gt;(New York University)&lt;/i&gt;,&lt;br /&gt;Sha Yang  &lt;i&gt;(New York University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p227-ciaramitaA.pdf"&gt;Online Learning from Click Data for Sponsored Search&lt;/a&gt;                      227&lt;br /&gt;Massimiliano Ciaramita, Vanessa Murdock, Vassilis Plachouras  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Mobility&lt;/h2&gt; &lt;p&gt;Session Chair: Wang-Chien Lee  &lt;i&gt;(Pennsylvania State University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p237-bambaA.pdf"&gt;Supporting Anonymous Location Queries in Mobile Environments with PrivacyGrid&lt;/a&gt;                      237&lt;br /&gt;Bhuvan Bamba, Ling Liu, Peter Pesti, Ting Wang  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p247-zhengA.pdf"&gt;Learning Transportation Mode from Raw GPS Data&lt;/a&gt;  for Geographic Applications on the Web                247&lt;br /&gt;Yu Zheng, Like Liu, Longhao Wang, Xing Xie  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/fp846-yi.pdf"&gt;Deciphering Mobile Search Patterns: A Study of Yahoo! Mobile Search Queries&lt;/a&gt;                257&lt;br /&gt;Jeonghee Yi, Farzin Maghoul, Jan Pedersen  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Performance and Scalability&lt;/h2&gt; &lt;p&gt;Session Chair: Anirban Mahanti  &lt;i&gt;(Indian Institute of Technology Delhi)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p267-weiA.pdf"&gt;Service-Oriented Data Denormalization for Scalable Web Applications&lt;/a&gt;                     267&lt;br /&gt;Zhou Wei, Jiang Dejun  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Guillaume Pierre  &lt;i&gt;(Vrije Universiteit)&lt;/i&gt;,&lt;br /&gt;Chi-Hung Chi  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Maarten van Steen  &lt;i&gt;(Vrije Universiteit)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p277-alzoubiA.pdf"&gt;Anycast CDNs Revisited&lt;/a&gt;                277&lt;br /&gt;Hussein A. Alzboubi  &lt;i&gt;(Case Western Reserve University)&lt;/i&gt;,&lt;br /&gt;Seungjoon Lee  &lt;i&gt;(AT&amp;amp;T Labs - Research)&lt;/i&gt;,&lt;br /&gt;Michael Rabinovich  &lt;i&gt;(Case Western Reserve University)&lt;/i&gt;,&lt;br /&gt;Oliver Spatscheck, Jacobus Van der Merwe  &lt;i&gt;(AT&amp;amp;T Labs - Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p287-basher.pdf"&gt;A Comparative Analysis of Web and Peer-to-Peer Traffic&lt;/a&gt;                287&lt;br /&gt;Naimul Basher, Aniket Mahanti  &lt;i&gt;(University of Calgary)&lt;/i&gt;,&lt;br /&gt;Anirban Mahanti  &lt;i&gt;(Indian Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Carey Williamson, Martin Arlitt  &lt;i&gt;(University of Calgary)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Rich Media&lt;/h2&gt; &lt;p&gt;Session Chair: Edward Chang  &lt;i&gt;(Google)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p297-kennedy.pdf"&gt;Generating Diverse and Representative Image Search Results for Landmarks&lt;/a&gt;                297&lt;br /&gt;Lyndon Kennedy  &lt;i&gt;(Columbia University)&lt;/i&gt;,&lt;br /&gt;Mor Naaman  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p307-jingA.pdf"&gt;PageRank for Product Image Search&lt;/a&gt;                307&lt;br /&gt;Yushi Jing  &lt;i&gt;(Georgia Institute of Technology and Google, Inc.)&lt;/i&gt;,&lt;br /&gt;Shumeet Baluja  &lt;i&gt;(Google Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p317-rege.pdf"&gt;Graph Theoretical Framework for Simultaneously Integrating Visual  and Textual Features for Efficient Web Image Clustering&lt;/a&gt;                317&lt;br /&gt;Manjeet Rege, Ming Dong, Jing Hua  &lt;i&gt;(Wayne State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p327-sigurbjornssonA.pdf"&gt;Flickr Tag Recommendation based on Collective Knowledge&lt;/a&gt;                      327&lt;br /&gt;Börkur Sigurbjörnsson, Roelof van Zwol  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Search – Query Analysis&lt;/h2&gt; &lt;p&gt;Session Chair: Nick Craswell  &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p337-fujiiA.pdf"&gt;Modeling Anchor Text and Classifying Queries  to Enhance Web Document Retrieval&lt;/a&gt;                      337&lt;br /&gt;Atsushi Fujii  &lt;i&gt;(University of Tsukuba)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p347-tan.pdf"&gt;Unsupervised Query Segmentation Using Generative  Language Models and Wikipedia&lt;/a&gt;                      347&lt;br /&gt;Bin Tan  &lt;i&gt;(University of Illinois at Urbana-Champaign)&lt;/i&gt;,&lt;br /&gt;Fuchun Peng  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p357-backstromA.pdf"&gt;Spatial Variation in Search Engine Queries&lt;/a&gt;                357&lt;br /&gt;Lars Backstrom, Jon Kleinberg  &lt;i&gt;(Cornell University)&lt;/i&gt;,&lt;br /&gt;Ravi Kumar, Jasmine Novak  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Search – Corpus Characterization &amp;amp; Search Performance&lt;/h2&gt; &lt;p&gt;Session Chair: Hongyuan Zha  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p367-baeza-yatesA.pdf"&gt;Genealogical Trees on the Web: A Search Engine User Perspective&lt;/a&gt;                      367&lt;br /&gt;Ricardo Baeza-Yates, Álvaro Pereira, Nivio Ziviani  &lt;i&gt;(Federal University of Minas Gerais)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p377-kumarA.pdf"&gt;A Graph-Theoretic Approach to Webpage Segmentation&lt;/a&gt;                377&lt;br /&gt;Deepayan Chakrabarti, Ravi Kumar, Kunal Punera  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p387-zhangA.pdf"&gt;Performance of Compressed Inverted List Caching in Search Engines&lt;/a&gt;                387&lt;br /&gt;Jiangong Zhang  &lt;i&gt;(Polytechnic University)&lt;/i&gt;,&lt;br /&gt;Xiaohui Long  &lt;i&gt;(Microsoft Corporation)&lt;/i&gt;,&lt;br /&gt;Torsten Suel  &lt;i&gt;(Polytechnic University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Search – Ranking and Retrieval Enhancement&lt;/h2&gt; &lt;p&gt;Session Chair: Ricardo Baeza-Yate  &lt;i&gt;(Yahoo!)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p397-jinA.pdf"&gt;Ranking Refinement and Its Application to Information Retrieval&lt;/a&gt;                397&lt;br /&gt;Rong Jin  &lt;i&gt;(Michigan State University)&lt;/i&gt;,&lt;br /&gt;Hamed Valizadegan  &lt;i&gt;(Michigan State University)&lt;/i&gt;,&lt;br /&gt;Hang Li  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p407-qinA.pdf"&gt;Learning to Rank Relational Objects and Its Application to Web Search&lt;/a&gt;                      407&lt;br /&gt;Tao Qin  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Tie-Yan Liu  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;,&lt;br /&gt;Xu-Dong Zhang, De-Sheng Wang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Wen-Ying Xiong  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Hang Li  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p417-chakrabarti.pdf"&gt;Contextual Advertising by Combining Relevance with Click Feedback&lt;/a&gt;                417&lt;br /&gt;Deepayan Chakrabarti, Deepak Agarwal, Vanja Josifovski  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Search – Crawlers&lt;/h2&gt; &lt;p&gt;Session Chair: Hang Li  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p427-leeA.pdf"&gt;IRLbot: Scaling to 6 Billion Pages and Beyond&lt;/a&gt;                427&lt;br /&gt;Hsin-Tsang Lee, Derek Leonard, Xiaoming Wang, Dmitri Loguinov  &lt;i&gt;(Texas A&amp;amp;M University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p437-olstonA4.pdf"&gt;Recrawl Scheduling Based on Information Longevity&lt;/a&gt;                      437&lt;br /&gt;Christopher Olston  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;,&lt;br /&gt;Sandeep Pandey  &lt;i&gt;(Carnegie Mellon University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p447-caiA.pdf"&gt;iRobot: An Intelligent Crawler for Web Forums&lt;/a&gt;                      447&lt;br /&gt;Rui Cai, Jiang-Ming Yang, Wei Lai, Yida Wang, Lei Zhang  &lt;i&gt;(Microsoft Research, Asia)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Search – Applications&lt;/h2&gt; &lt;p&gt;Session Chair: Ronny Lempel  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p457-wang.pdf"&gt;Automatic Online News Issue Construction in Web Environment&lt;/a&gt;                457&lt;br /&gt;Canhui Wang, Min Zhang, Shaoping Ma, Liyun Ru  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p467-bianA.pdf"&gt;Finding the Right Facts in the Crowd:  Factoid Question Answering over Social Media&lt;/a&gt;                467&lt;br /&gt;Jiang Bian  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Yandong Liu, Eugene Agichtein  &lt;i&gt;(Emory University)&lt;/i&gt;,&lt;br /&gt;Hongyuan Zha  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p477-korenA.pdf"&gt;Personalized Interactive Faceted Search&lt;/a&gt;                      477&lt;br /&gt;Jonathan Koren, Yi Zhang  &lt;i&gt;(University of California, Santa Cruz)&lt;/i&gt;,&lt;br /&gt;Xue Liu  &lt;i&gt;(McGill University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Security I – Misc&lt;/h2&gt; &lt;p&gt;Session Chair: Collin Jackson  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p487-mannanA.pdf"&gt;Privacy-Enhanced Sharing of Personal Content on the Web&lt;/a&gt;                      487&lt;br /&gt;Mohammad Mannan, Paul C. van Oorschot  &lt;i&gt;(Carleton University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p497-mehta.pdf"&gt;Detecting Image Spam using Visual Features and Near Duplicate Detection&lt;/a&gt;                      497&lt;br /&gt;Bhaskar Mehta  &lt;i&gt;(Google Inc.)&lt;/i&gt;,&lt;br /&gt;Saurabh Nangia, Manish Gupta  &lt;i&gt;(IIT Guwahati)&lt;/i&gt;,&lt;br /&gt;Wolfgang Nejdl  &lt;i&gt;(L3S Forschungszentrum)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p507-yuA.pdf"&gt;Better Abstractions for Secure Server-Side Scripting&lt;/a&gt;                507&lt;br /&gt;Dachuan Yu, Ajay Chander, Hiroshi Inamura, Igor Serikov  &lt;i&gt;(DoCoMo Communications Laboratories USA, Inc.)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Security II – Web Client Security&lt;/h2&gt; &lt;p&gt;Session Chair: Mary Ellen Zurko  &lt;i&gt;(IBM)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p517-adida.pdf"&gt;SessionLock: Securing Web Sessions against Eavesdropping&lt;/a&gt;                      517&lt;br /&gt;Ben Adida  &lt;i&gt;(Harvard University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p525-jacksonA.pdf"&gt;ForceHTTPS: Protecting High-Security Web Sites from Network Attacks&lt;/a&gt;                525&lt;br /&gt;Collin Jackson, Adam Barth  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p535-dekeukelaereA.pdf"&gt;SMash: Secure Component Model  for Cross-Domain Mashups on Unmodified Browsers&lt;/a&gt;                      535&lt;br /&gt;Frederik De Keukelaere  &lt;i&gt;(IBM Tokyo Research Laboratory)&lt;/i&gt;,&lt;br /&gt;Sumeer Bhola, Michael Steiner, Suresh Chari  &lt;i&gt;(IBM T.J. Watson Research Center)&lt;/i&gt;,&lt;br /&gt;Sachiko Yoshihama  &lt;i&gt;(IBM Tokyo Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p545-guo.pdf"&gt;CompoWeb: A Component-Oriented Web Architecture&lt;/a&gt;                      545&lt;br /&gt;Rui Guo  &lt;i&gt;(Beihang University)&lt;/i&gt;,&lt;br /&gt;Bin B. Zhu, Min Feng, Aimin Pan  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;,&lt;br /&gt;Bosheng Zhou  &lt;i&gt;(Beihang University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;   &lt;h2&gt;Session: Semantic Web I&lt;/h2&gt; &lt;p&gt;Session Chair: R V Guha  &lt;i&gt;(Google)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p555-motikA.pdf"&gt;Structured Objects in OWL: Representation and Reasoning&lt;/a&gt;                555&lt;br /&gt;Boris Motik, Bernardo Cuenca Grau  &lt;i&gt;(University of Oxford)&lt;/i&gt;,&lt;br /&gt;Ulrike Sattler  &lt;i&gt;(University of Manchester)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p565-du.pdf"&gt;Computing Minimum Cost Diagnoses to Repair Populated DL-based Ontologies&lt;/a&gt;                       565&lt;br /&gt;Jianfeng Du, Yi-Dong Shen  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p575-panA.pdf"&gt;Scalable Querying Services over Fuzzy Ontologies&lt;/a&gt;                      575&lt;br /&gt;Jeff Z. Pan  &lt;i&gt;(University of Aberdeen)&lt;/i&gt;,&lt;br /&gt;Giorgos Stamou, Giorgos Stoilos  &lt;i&gt;(NTUA)&lt;/i&gt;,&lt;br /&gt;Stuart Taylor, Edward Thomas  &lt;i&gt;(University of Aberdeen)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Semantic Web II&lt;/h2&gt; &lt;p&gt;Session Chair: Juanzi Li  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p585-schenkA4.pdf"&gt;Networked Graphs: A Declarative Mechanism for SPARQL Rules,  SPARQL Views and RDF Data Integration on the Web&lt;/a&gt;                      585&lt;br /&gt;Simon Schenk, Steffen Staab  &lt;i&gt;(University of Koblenz-Landau)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p595-stocker1.pdf"&gt;SPARQL Basic Graph Pattern Optimization Using Selectivity Estimation&lt;/a&gt;                595&lt;br /&gt;Markus Stocker, Andy Seaborne  &lt;i&gt;(HP Laboratories)&lt;/i&gt;,&lt;br /&gt;Abraham Bernstein, Christoph Kiefer  &lt;i&gt;(University of Zurich)&lt;/i&gt;,&lt;br /&gt;Dave Reynolds  &lt;i&gt;(HP Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p605-puglieseA.pdf"&gt;Saling RDF with Time&lt;/a&gt;                605&lt;br /&gt;Andrea Pugliese, Octavian Udrea, V. S. Subrahmanian  &lt;i&gt;(University of Maryland)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Semantic Web III&lt;/h2&gt; &lt;p&gt;Session Chair: Riichiro Mizoguchi  &lt;i&gt;(Osaka University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p615-diiorioA.pdf"&gt;Wiki Content Templating&lt;/a&gt;                      615&lt;br /&gt;Angelo Di Iorio, Fabio Vitali, Stefano Zacchiroli  &lt;i&gt;(University of Bologna)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p625-schueler.pdf"&gt;Querying for Meta Knowledge&lt;/a&gt;                625&lt;br /&gt;Bernhard Schueler, Sergej Sizov, Steffen Staab, Duc Thanh Tran  &lt;i&gt;(University of Karlsruhe)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p635-wu.pdf"&gt;Automatically Refining the Wikipedia Infobox Ontology&lt;/a&gt;                635&lt;br /&gt;Fei Wu, Daniel S. Weld  &lt;i&gt;(University of Washington)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Social Networks – Analysis of Social Networks &amp;amp; Online Interactive Spaces&lt;/h2&gt; &lt;p&gt;Session Chair: Yutaka Matsuo  &lt;i&gt;(University of Tokyo)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p645-gomezA.pdf"&gt;Statistical Analysis of the Social Network and Discussion Threads in Slashdot&lt;/a&gt;                645&lt;br /&gt;Vicenç Gómez  &lt;i&gt;(Barcelona Media Centre d'Innovació)&lt;/i&gt;,&lt;br /&gt;Andreas Kaltenbrunner  &lt;i&gt;(Universitat Pompeu Fabra)&lt;/i&gt;,&lt;br /&gt;Vicente López  &lt;i&gt;(Barcelona Media Centre d'Innovació)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p655-singla.pdf"&gt;Yes, There is a Correlation - From Social Networks  to Personal Behavior on the Web&lt;/a&gt;                655&lt;br /&gt;Parag Singla  &lt;i&gt;(University of Washington)&lt;/i&gt;,&lt;br /&gt;Matthew Richardson  &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p665-adamic.pdf"&gt;Knowledge Sharing and Yahoo Answers: Everyone Knows Something&lt;/a&gt;                665&lt;br /&gt;Lada A. Adamic, Jun Zhang, Eytan Bakshy, Mark S. Ackerman  &lt;i&gt;(University of Michigan)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Social Networks – Discovery &amp;amp; Evolution of Communities&lt;/h2&gt; &lt;p&gt;Session Chair: Matthew Hurst  &lt;i&gt;(Microsoft)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p675-liA.pdf"&gt;Tag-based Social Interest Discovery&lt;/a&gt;                675&lt;br /&gt;Xin Li, Lei Guo, Yihong Eric Zhao  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p685-linA.pdf"&gt;FacetNet: A Framework for Analyzing Communities  and Their Evolutions in Dynamic Networks&lt;/a&gt;                685&lt;br /&gt;Yu-Ru Lin  &lt;i&gt;(Arizona State University)&lt;/i&gt;,&lt;br /&gt;Yun Chi, Shenghuo Zhu  &lt;i&gt;(NEC Laboratories America)&lt;/i&gt;,&lt;br /&gt;Hari Sundaram  &lt;i&gt;(Arizona State University)&lt;/i&gt;,&lt;br /&gt;Belle L. Tseng  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p695-leskovecA.pdf"&gt;Statistical Properties of Community Structure in Large Social &amp;amp; Information Networks&lt;/a&gt;                  695&lt;br /&gt;Jure Leskovec  &lt;i&gt;(Carnegie Mellon University)&lt;/i&gt;,&lt;br /&gt;Kevin J. Lang, Anirban Dasgupta, Michael W. Mahoney  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Social Networks – Applications and Infrastructures for Web 2.0&lt;/h2&gt; &lt;p&gt;Session Chair: Lada Adamic  &lt;i&gt;(University of Michigan)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p705-ullrichA.pdf"&gt;Why Web 2.0 is Good for Learning and for Research: Principles and Prototypes&lt;/a&gt;                       705&lt;br /&gt;Carsten Ullrich  &lt;i&gt;(Shanghai Jiao Tong University)&lt;/i&gt;,&lt;br /&gt;Kerstin Borau  &lt;i&gt;(SJTU Network Education College)&lt;/i&gt;,&lt;br /&gt;Heng Luo, Xiaohong Tan, Liping Shen, Ruimin Shen  &lt;i&gt;(Shanghai Jiaotong University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p715-dzhouA.pdf"&gt;Exploring Social Annotations for Information Retrieval&lt;/a&gt;          715&lt;br /&gt;Ding Zhou  &lt;i&gt;(Facebook Inc.)&lt;/i&gt;,&lt;br /&gt;Jiang Bian  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Shuyi Zheng  &lt;i&gt;(The Pennsylvania State University)&lt;/i&gt;,&lt;br /&gt;Hongyuan Zha  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;C. Lee Giles  &lt;i&gt;(The Pennsylvania State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p725-jiangmingA.pdf"&gt;Lock-Free Consistency Control for Web 2.0 Applications&lt;/a&gt;                      725&lt;br /&gt;Jiangming Yang  &lt;i&gt;(Fudan University and Microsoft Research Asia)&lt;/i&gt;,&lt;br /&gt;Hai-xun Wang  &lt;i&gt;(IBM T. J. Watson Research Center)&lt;/i&gt;,&lt;br /&gt;Ning Gu, Yi-ming Liu, Chun-song Wang, Qi-wei Zhang  &lt;i&gt;(Fudan University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Web Engineering – Applications&lt;/h2&gt; &lt;p&gt;Session Chair: Daniel Schwabe  &lt;i&gt;(Catholic University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p735-sunA.pdf"&gt;Mining, Indexing, and Searching for Textual Chemical Molecule  Information on the Web&lt;/a&gt;                      735&lt;br /&gt;Bingjun Sun, Prasenjit Mitra, C. Lee Giles  &lt;i&gt;(The Pennsylvania State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p745-bolchini.pdf"&gt;Value-Driven Design for "Infosuasive" Web Applications&lt;/a&gt;                      745&lt;br /&gt;Davide Bolchini  &lt;i&gt;(University College London and University of Lugano)&lt;/i&gt;,&lt;br /&gt;Franca Garzotto  &lt;i&gt;(Politecnico di Milano)&lt;/i&gt;,&lt;br /&gt;Paolo Paolini  &lt;i&gt;(Politecnico di Miano and University of Lugano)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p755-geambasuA.pdf"&gt;Organizing and Sharing Distributed Personal Web-Service Data&lt;/a&gt;                      755&lt;br /&gt;Roxana Geambasu, Cherie Cheung, Alexander Moshchuk,  Steven D. Gribble, Henry M. Levy  &lt;i&gt;(University of Washington)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Web Engineering – Web Service Composition&lt;/h2&gt; &lt;p&gt;Session Chair: Martin Gaedke  &lt;i&gt;(Chemnitz University of Technology)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p765-gooneratneA.pdf"&gt;Matching Independent Global Constraints for Composite Web Services&lt;/a&gt;                      765&lt;br /&gt;Nalaka Gooneratne, Zahir Tari  &lt;i&gt;(RMIT University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p775-riabovA.pdf"&gt;Wishful Search: Interactive Composition of Data Mashups&lt;/a&gt;                      775&lt;br /&gt;Anton V. Riabov, Eric Bouillet, Mark D. Feblowitz,  Zhen Liu, Anand Ranganathan  &lt;i&gt;(IBM T. J. Watson Research Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p785-koenigA.pdf"&gt;Extending the Compatibility Notion for Abstract WS-BPEL Processes&lt;/a&gt;                 785&lt;br /&gt;Dieter König  &lt;i&gt;(IBM Böblingen Laboratory)&lt;/i&gt;,&lt;br /&gt;Niels Lohmann  &lt;i&gt;(Universität Rostock)&lt;/i&gt;,&lt;br /&gt;Simon Moser  &lt;i&gt;(IBM Böblingen Laboratory)&lt;/i&gt;,&lt;br /&gt;Christian Stahl  &lt;i&gt;(Humboldt-Universität zu Berlin)&lt;/i&gt;,&lt;br /&gt;Karsten Wolf  &lt;i&gt;(Universität Rostock)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Web Engineering – Web Service Deployment&lt;/h2&gt; &lt;p&gt;Session Chair: Geert-Jan Hoube  &lt;i&gt;(Vrije Universiteit Brussel)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p795-almasriA.pdf"&gt;Investigating Web Services on the World Wide Web&lt;/a&gt;                      795&lt;br /&gt;Eyhab Al-Masri, Qusay H. Mahmoud  &lt;i&gt;(University of Guelph)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p805-pautassoA.pdf"&gt;RESTful Web Services vs. "Big" Web Services:  Making the Right Architectural Decision&lt;/a&gt;             805 Cesare Pautasso  &lt;i&gt;(University of Lugano)&lt;/i&gt;,&lt;br /&gt;Olaf Zimmermann  &lt;i&gt;(IBM Zurich Research Laboratory)&lt;/i&gt;,&lt;br /&gt;Frank Leymann  &lt;i&gt;(University of Stuttgart)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p815-moser.pdf"&gt;Non-Intrusive Monitoring and Service Adaptation for WS-BPEL&lt;/a&gt;                      815&lt;br /&gt;Oliver Moser, Florian Rosenberg, Schahram Dustdar  &lt;i&gt;(Technical University Vienna)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;      &lt;h2&gt;Session: XML I&lt;/h2&gt; &lt;p&gt;Session Chair: Andrea Pugliese  &lt;i&gt;(University of Calabria)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p825-bexA.pdf"&gt;Learning Deterministic Regular Expressions for the Inference of Schemas from XML Data&lt;/a&gt;                 825&lt;br /&gt;Geert Jan Bex, Wouter Gelade, Frank Neven, Stijn Vansummeren   &lt;i&gt;(Hasselt University/Transnational University of Limburg)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p835-wuA.pdf"&gt;Efficient Evaluation of Generalized Path Pattern Queries on XML Data&lt;/a&gt;                      835&lt;br /&gt;Xiaoying Wu  &lt;i&gt;(NJIT)&lt;/i&gt;,&lt;br /&gt;Stefanos Souldatos  &lt;i&gt;(NTUA)&lt;/i&gt;,&lt;br /&gt;Dimitri Theodoratos  &lt;i&gt;(NJIT)&lt;/i&gt;,&lt;br /&gt;Theodore Dalamagas, Timos Sellis  &lt;i&gt;(NTUA)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p845-bramandia.pdf"&gt;On Incremental Maintenance of 2-hop Labeling of Graphs&lt;/a&gt;                 845&lt;br /&gt;Ramadhana Bramandia, Byron Choi, Wee Keong Ng  &lt;i&gt;(Nanyang Technological University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: XML II&lt;/h2&gt; &lt;p&gt;Session Chair: Geert-Jan Bex  &lt;i&gt;(Hasselt University/Transnational University of Limburg, Belgium)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p865-wei.pdf"&gt;XML Data Dissemination using Automata on Top of Structured Overlay Networks&lt;/a&gt;                      865&lt;br /&gt;Iris Miliaraki, Zoi Kaoudi, Manolis Koubarakis  &lt;i&gt;(National and Kapodistrian University of Athens)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p855-miliarakiA.pdf"&gt;Utility-driven Load Shedding for XML Stream Processing&lt;/a&gt;                      855&lt;br /&gt;Mingzhu Wei, Elke A. Rundensteiner, Murali Mani  &lt;i&gt;(Worcester Polytechnic Institute)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p875-mittal.pdf"&gt;SewNet - A Framework for Creating Services Utilizing Telecom Functionality&lt;/a&gt;                 875&lt;br /&gt;Sumit Mittal, Dipanjan Chakraborty, Sunil Goyal, Sougata Mukherjea  &lt;i&gt;(IBM India Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Industrial Track Session&lt;/h2&gt; &lt;p&gt;Session Chair: Jayavel Shanmugasundaram  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p885-sadagopanA.pdf"&gt;Characterizing Typical and Atypical User Sessions in Clickstreams&lt;/a&gt;                 885&lt;br /&gt;Narayanan Sadagopan  &lt;i&gt;(Yahoo!)&lt;/i&gt;,&lt;br /&gt;Jie Li  &lt;i&gt;(Yahoo!)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p895-svakumarA.pdf"&gt;Video Suggestion and Discovery for YouTube:  Taking Random Walks Through the View Graph&lt;/a&gt;                 895&lt;br /&gt;Shumeet Baluja, Rohan Seth, D. Sivakumar, Yushi Jing, Jay Yagnik,  Shankar Kumar, Deepak Ravichandran  &lt;i&gt;(Google Inc.)&lt;/i&gt;,&lt;br /&gt;Mohamed Aly  &lt;i&gt;(University of Pittsburgh)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p905-cui.pdf"&gt;How People Use the Web on Mobile Devices&lt;/a&gt;                 905&lt;br /&gt;Yanqing Cui, Virpi Roto  &lt;i&gt;(Nokia Research Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p915-leskovecA.pdf"&gt;Planetary-Scale Views on a Large Instant-Messaging Network&lt;/a&gt;                 915&lt;br /&gt;Jure Leskovec  &lt;i&gt;(Carnegie Mellon University)&lt;/i&gt;,&lt;br /&gt;Eric Horvitz  &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p925-huA.pdf"&gt;Online Auctions Efficiency: A Survey of eBay Auctions&lt;/a&gt;                 925&lt;br /&gt;Hu Wenyan, Alvaro Bolivar  &lt;i&gt;(eBay Inc.)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: Technology for Developing Regions&lt;/h2&gt; &lt;p&gt;Session Chair: Lakshminarayanan Subramanian  &lt;i&gt;(New York University)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p935-kumar.pdf"&gt;Organizing the Unorganized - Employing IT to Empower the Under-privileged&lt;/a&gt;                       935&lt;br /&gt;Arun Kumar, Nitendra Rajput, Sheetal Agarwal,  Dipanjan Chakraborty, Amit Anil Nanavati  &lt;i&gt;(IBM India Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p945-du4A.pdf"&gt;DTWiki: A Disconnection and Intermittency Tolerant Wiki&lt;/a&gt;                      945&lt;br /&gt;Bowei Du, Eric A. Brewer  &lt;i&gt;(University of California, Berkeley)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p953-chang.pdf"&gt;Action Science Approach to Nonprofit Housing  Services using Web 2.0 Mapping Tools&lt;/a&gt;                      953&lt;br /&gt;Yao-Jen Chang, Hsin-Yu Hsu  &lt;i&gt;(Chung Yuan Christian University)&lt;/i&gt;,&lt;br /&gt;Tsen-Yung Wang  &lt;i&gt;(National Yanh Ming University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;   &lt;h2&gt;Session: WWW in China – Mining the Chinese Web&lt;/h2&gt; &lt;p&gt;Session Chair: Zaiqing Nie  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p959-su.pdf"&gt;Hidden Sentiment Association in Chinese Web Opinion Mining&lt;/a&gt;                 959&lt;br /&gt;Qi Su, Xinying Xu  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Honglei Guo, Zhili Guo, Xian Wu, Xiaoxun Zhang  &lt;i&gt;(IBM China Research Laboratory)&lt;/i&gt;,&lt;br /&gt;Bin Swen  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Zhong Su  &lt;i&gt;(IBM China Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p969-lingA.pdf"&gt;Can Chinese Web Pages be Classified with English Data Source?&lt;/a&gt;                      969&lt;br /&gt;Xiao Ling, Gui-Rong Xue, Wenyuan Dai, Yun Jiang  &lt;i&gt;(Shanghai Jiao Tong University)&lt;/i&gt;,&lt;br /&gt;Qiang Yang  &lt;i&gt;(Hong Kong University of Science and Technology)&lt;/i&gt;,&lt;br /&gt;Yong Yu  &lt;i&gt;(Shanghai Jiao Tong University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p979-wang.pdf"&gt;Substructure Similarity Measurement in Chinese Recipes&lt;/a&gt;                      979&lt;br /&gt;Liping Wang, Qing Li, Na Li  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Guozhu Dong  &lt;i&gt;(Wright State University)&lt;/i&gt;,&lt;br /&gt;Yu Yang  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Session: WWW in China – Chinese Web Innovations&lt;/h2&gt; &lt;p&gt;Session Chair: Qing Li  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;&lt;/p&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p989-chenA.pdf"&gt;Efficient Multi-keyword Search over P2P Web&lt;/a&gt;                 989&lt;br /&gt;Hanhua Chen, Hai Jin, Jiliang Wang, Lei Chen, Yunhao Liu, Lionel M. Ni   &lt;i&gt;(Hong Kong University of Science and Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p999-yaoA.pdf"&gt;Towards a Global Schema for Web Entities&lt;/a&gt;                      999&lt;br /&gt;Conglei Yao, Yongjian Yu, Sicong Shou, Xiaoming Li  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1009-liu.pdf"&gt;Web Video Topic Discovery and Tracking  via Bipartite Graph Reinforcement Model&lt;/a&gt;                      1009&lt;br /&gt;Lu Liu, Lifeng Sun, Yong Rui, Yao Shi, Shiqiang Yang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Poster Session&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1019-yooA.pdf"&gt;The Seamless Browser: Enhancing the Speed of Web  Browsing by Zooming and Preview Thumbnails&lt;/a&gt;                 1019&lt;br /&gt;Byung In Yoo, Jong Ho Lea, Yeun Bae Kim  &lt;i&gt;(Samsung Advanced Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1021-liu.pdf"&gt;What Do They Think? Aggregating Local Views about News Events and Topics&lt;/a&gt;                       1021&lt;br /&gt;Jiahui Liu, Larry Birnbaum  &lt;i&gt;(Northwestern University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1023-tvarozekA.pdf"&gt;Personalized View-Based Search and Visualization  as a Means for Deep/Semantic Web Data Access&lt;/a&gt;                      1023&lt;br /&gt;Michal Tvarožek, Mária Bieliková  &lt;i&gt;(Slovak University of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1025-wu.pdf"&gt;Personalized Multimedia Web Summarizer for Tourist&lt;/a&gt;                      1025&lt;br /&gt;Xiao Wu, Jintao Li, Yongdong Zhang, Sheng Tang  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;,&lt;br /&gt;Shi-Yong Neo  &lt;i&gt;(National University of Singapore)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1027-zhitomirsky-geffet.pdf"&gt;A Generic Framework for Collaborative Multi-perspective Ontology Acquisition&lt;/a&gt;                 1027&lt;br /&gt;Maayan Zhitomirsky-Geffet, Judit Bar-Ilan, Yitzchak Miller, Snunith Shoham  &lt;i&gt;(Bar-Ilan University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1029-dmitriev.pdf"&gt;As We May Perceive:  Finding the Boundaries of Compound Documents on the Web&lt;/a&gt;                      1029&lt;br /&gt;Pavel Dmitriev  &lt;i&gt;(Cornell University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1031-braun.pdf"&gt;Personalized Search and Exploration with MyTag&lt;/a&gt;                 1031&lt;br /&gt;Max Braun, Klaas Dellschaft, Thomas Franz, Dominik Hering, Peter Jungen,  Hagen Metzler, Eugen Müller , Alexander Rostilov, Carsten Saathoff  &lt;i&gt;(University Koblenz-Landau)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1033-bodoff.pdf"&gt;Emergence of Terminological Conventions  as an Author-Searcher Coordination Game&lt;/a&gt;                1033&lt;br /&gt;David Bodoff, Sheizaf Rafaeli  &lt;i&gt;(University of Haifa)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1035-wuA.pdf"&gt;System: A Hypergraph Based Native RDF Repository&lt;/a&gt;                 1035&lt;br /&gt;Gang Wu, Juanzi Li, Kehong Wang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1037-li.pdf"&gt;Efficient Vectorial Operators for Processing XML Twig Queries&lt;/a&gt;                      1037&lt;br /&gt;Guoliang Li, Jianhua Feng, Jianyong Wang, Feng Lin, Lizhu Zhou  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1039-liu.pdf"&gt;User Behavior Oriented Web Spam Detection&lt;/a&gt;                      1039&lt;br /&gt;Yiqun Liu, Min Zhang, Shaoping Ma, Liyun Ru  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1041-debnath.pdf"&gt;Feature Weighting in Content Based Recommendation  System Using Social Network Analysis&lt;/a&gt;                      1041&lt;br /&gt;Souvik Debnath, Niloy Ganguly, Pabitra Mitra  &lt;i&gt;(Indian Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1043-ishida.pdf"&gt;Extracting Spam Blogs with Co-citation Clusters&lt;/a&gt;                 1043&lt;br /&gt;Kazunari Ishida  &lt;i&gt;(The University of Shimane)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1045-li.pdf"&gt;RACE: Finding and Ranking Compact Connected Trees  for Keyword Proximity Search over XML Documents&lt;/a&gt;                      1045&lt;br /&gt;Guoliang Li, Jianhua Feng, Jianyong Wang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Bei Yu  &lt;i&gt;(National University of Singapore)&lt;/i&gt;,&lt;br /&gt;Yukai He  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1047-zhang.pdf"&gt;The Scale-Free Nature of Semantic Web Ontology&lt;/a&gt;                      1047&lt;br /&gt;Hongyu Zhang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1049-liu.pdf"&gt;Asymmetrical Query Recommendation Method Based on Bipartite Network Resource Allocation&lt;/a&gt;                 1049&lt;br /&gt;Zhiyuan Liu, Maosong Sun  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1051-gao.pdf"&gt;Efficient Mining of Frequent Sequence Generators&lt;/a&gt;                      1051&lt;br /&gt;Chuancong Gao, Jianyong Wang, Yukai He, Lizhu Zhou  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1053-ying.pdf"&gt;Efficiently Querying RDF Data in Triple Stores&lt;/a&gt;                      1053&lt;br /&gt;Ying Yan  &lt;i&gt;(Fudan University)&lt;/i&gt;,&lt;br /&gt;Chen Wang  &lt;i&gt;(IBM China Research Laboratory)&lt;/i&gt;,&lt;br /&gt;Aoying Zhou  &lt;i&gt;(Fudan University, East China Normal University)&lt;/i&gt;,&lt;br /&gt;Weining Qian  &lt;i&gt;(East China Normal University)&lt;/i&gt;,&lt;br /&gt;Li Ma, Yue Pan  &lt;i&gt;(IBM China Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1055-shiehA.pdf"&gt;Collaborative Knowledge Semantic Graph Image Search&lt;/a&gt;                      1055&lt;br /&gt;Jyh-Ren Shieh, Yang-Ting Yeh, Chih-Hung Lin  &lt;i&gt;(National Taiwan University)&lt;/i&gt;,&lt;br /&gt;Ching-Yung Lin  &lt;i&gt;(IBM T. J. Watson Research Center)&lt;/i&gt;,&lt;br /&gt;Ja-Ling Wu  &lt;i&gt;(National Taiwan University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1057-liu.pdf"&gt;A Logical Framework for Modeling and Reasoning  about Semantic Web Services Contract&lt;/a&gt;                      1057&lt;br /&gt;Hai Liu  &lt;i&gt;(University of Science and Technology of China and City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Qing Li  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Naijie Gu  &lt;i&gt;(University of Science and Technology of China and City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;An Liu  &lt;i&gt;(University of Science and Technology of China)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1059-ni.pdf"&gt;Dissemination of Heterogeneous XML Data&lt;/a&gt;                      1059&lt;br /&gt;Yuan Ni  &lt;i&gt;(IBM China Research Laboratory)&lt;/i&gt;,&lt;br /&gt;Chee-Yong Chan  &lt;i&gt;(National University of Singapore)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1061-liA.pdf"&gt;SAILER: An Effective Search Engine for Unified Retrieval of Heterogeneous XML and Web Documents&lt;/a&gt;                      1061&lt;br /&gt;Guoliang Li, Jianhua Feng, Jianyong Wang, Xiaoming Song, Lizhu Zhou  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1063-garg.pdf"&gt;Personalized Tag Suggestion for Flickr&lt;/a&gt;                      1063&lt;br /&gt;Nikhil Garg, Ingmar Weber  &lt;i&gt;(Ecole Polytechnique Fédérale de Lausanne)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1065-jiangA.pdf"&gt;Larger is Better: Seed Selection in Link-based Anti-spamming Algorithms&lt;/a&gt;                      1065&lt;br /&gt;Qiancheng Jiang, Lei Zhang, Yizhen Zhu, Yan Zhang  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1067-chen.pdf"&gt;Using Subspace Analysis for Event Detection from Web Click-through Data&lt;/a&gt;                 1067&lt;br /&gt;Ling Chen, Yiqun Hu, Wolfgang Nejdl  &lt;i&gt;(L3S Research Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1069-freudensteinA.pdf"&gt;A Domain-specific Language for the Model-driven  Construction of Advanced Web-based Dialogs&lt;/a&gt;                     1069&lt;br /&gt;Patrick Freudenstein, Martin Nussbaumer, Florian Allerding  &lt;i&gt;(University of Karlsruhe (TH))&lt;/i&gt;,&lt;br /&gt;Martin Gaedke  &lt;i&gt;(Chemnitz University of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1071-sekine.pdf"&gt;Web People Search: Results of the first evaluation and plan for the second&lt;/a&gt;                      1071&lt;br /&gt;Javier Artiles  &lt;i&gt;(UNED NLP&amp;amp;IR Group)&lt;/i&gt;,&lt;br /&gt;Satoshi Sekine  &lt;i&gt;(New York University)&lt;/i&gt;,&lt;br /&gt;Julio Gonzalo  &lt;i&gt;(UNED NLP&amp;amp;IR Group)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1073-chengA.pdf"&gt;Context-Based Page Unit Recommendation for Web-Based Sensemaking Tasks&lt;/a&gt;                       1073&lt;br /&gt;Wen-Huang Cheng  &lt;i&gt;(National Taiwan University)&lt;/i&gt;,&lt;br /&gt;David Gotz  &lt;i&gt;(IBM T.J. Watson Research Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1075-vazirgiannisA.pdf"&gt;Web Page Rank Prediction with Markov Models&lt;/a&gt;                      1075&lt;br /&gt;Michalis Vazirgiannis  &lt;i&gt;(INRIA Futurs)&lt;/i&gt;,&lt;br /&gt;Dimitris Drosos  &lt;i&gt;(Athens University of Economics and Business)&lt;/i&gt;,&lt;br /&gt;Pierre Senellart  &lt;i&gt;(INRIA Futurs &amp;amp; Université Paris-Sud)&lt;/i&gt;,&lt;br /&gt;Akrivi Vlachou  &lt;i&gt;(Athens University of Economics and Business)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1077-hamdi.pdf"&gt;Ajax for Mobility: MobileWeaver Ajax Framework&lt;/a&gt;                      1077&lt;br /&gt;Louenas Hamdi, Huaigu Wu  &lt;i&gt;(SAP Research, SAP Labs Canada)&lt;/i&gt;,&lt;br /&gt;Serhan Dagtas  &lt;i&gt;(University of Arkansas Little Rock)&lt;/i&gt;,&lt;br /&gt;Abdel Benharref  &lt;i&gt;(SAP Research, SAP Labs Canada)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1079-wanA.pdf"&gt;CM-PMI: Improved Web-based Association Measure  with Contextual Label Matching&lt;/a&gt;                 1079&lt;br /&gt;Xiaojun Wan  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1081-zheng.pdf"&gt;Web User De-Identification in Personalization&lt;/a&gt;                      1081&lt;br /&gt;Jiaqian Zheng, Jing Yao, Junyu Niu  &lt;i&gt;(Fudan University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1083-liang.pdf"&gt;A Systematic Approach for Cell-phone Worm Containment&lt;/a&gt;                1083&lt;br /&gt;Liang Xie, Hui Song, Trent Jaeger, Sencun Zhu  &lt;i&gt;(The Pennsylvania State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1085-yuA.pdf"&gt;Information Retrieval and Knowledge Discovery  on the Semantic Web of Traditional Chinese Medicine&lt;/a&gt;                      1085&lt;br /&gt;Zhaohui Wu, Tong Yu, Huajun Chen, Xiaohong Jiang, Yi Feng,  Yuxin Mao, Heng Wang, Jingming Tang, Chunying Zhou  &lt;i&gt;(Zhejiang University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1087-fujimuraA.pdf"&gt;Topigraphy: Visualization for Large-scale Tag Clouds&lt;/a&gt;                 1087&lt;br /&gt;Ko Fujimura, Shigeru Fujimura  &lt;i&gt;(NTT Cyber Solutions Laboratories)&lt;/i&gt;,&lt;br /&gt;Tatsushi Matsubayashi, Takeshi Yamada  &lt;i&gt;(NTT Communication Science Laboratories)&lt;/i&gt;,&lt;br /&gt;Hidenori Okuda  &lt;i&gt;(NTT Cyber Solutions Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1089-sakuraiA.pdf"&gt;GSP-ExR: GSP Protocol with an Exclusive Right for Keyword Auctions&lt;/a&gt;                 1089&lt;br /&gt;Yuko Sakurai, Atsushi Iwasaki, Yasumasa Saito, Makoto Yokoo  &lt;i&gt;(Kyushu University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1091-penev.pdf"&gt;Finding Similar Pages in a Social Tagging Repository&lt;/a&gt;                      1091&lt;br /&gt;Alex Penev, Raymond K. Wong  &lt;i&gt;(NICTA and University of New South Wales)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1093-lee.pdf"&gt;FolksoViz: A Subsumption-based Folksonomy Visualization Using Wikipedia Texts&lt;/a&gt;                      1093&lt;br /&gt;Kangpyo Lee, Hyunwoo Kim, Chungsu Jang, Hyoung-Joo Kim  &lt;i&gt;(Seoul National University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1095-jblumenstock.pdf"&gt;Size Matters: Word Count as a Measure of Quality on Wikipedia&lt;/a&gt;                 1095&lt;br /&gt;JoshuaE. Blumenstock  &lt;i&gt;(University of California at Berkeley)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1097-zhang.pdf"&gt;Understanding Internet Video Sharing Site Workload:  A View from Data Center Design&lt;/a&gt;                      1097&lt;br /&gt;Xiaozhu Kang  &lt;i&gt;(Columbia University)&lt;/i&gt;,&lt;br /&gt;Hui Zhang, Guofei Jiang,  Haifeng Chen, Xiaoqiao Meng, Kenji Yoshihira  &lt;i&gt;(NEC Laboratories America)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1099-ndi.pdf"&gt;Representing a Web Page as Sets of Named Entities  of Multiple Types - A Model and Some Preliminary Applications&lt;/a&gt;                      1099&lt;br /&gt;Nan Di, Conglei Yao, Mengcheng Duan  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Jonathan J. H. Zhu  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Xiaoming Li  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1101-cheng.pdf"&gt;Falcons: Searching and Browsing Entities on the Semantic Web&lt;/a&gt;                      1101&lt;br /&gt;Gong Cheng, Weiyi Ge, Yuzhong Qu  &lt;i&gt;(Southeast University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1103-hsieh.pdf"&gt;Influencers and Their Barriers to Technology&lt;/a&gt;                 1103&lt;br /&gt;Ann Hsieh, Todd Hausman, Nerija Titus  &lt;i&gt;(Yahoo, Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1105-yehA.pdf"&gt;A Semantic Layer for Publishing and Localizing XML  Data for a P2P XQuery Mediator&lt;/a&gt;                 1105&lt;br /&gt;Florin Dragan, Georges Gardarin, Laurent Yeh  &lt;i&gt;(Université de Versailles Saint-Quentin-en-Yvelines)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1107-bollegala.pdf"&gt;Mining for Personal Name Aliases on the Web&lt;/a&gt;                      1107&lt;br /&gt;Danushka Bollegala, Taiki Honma, Yutaka Matsuo, Mitsuru Ishizuka  &lt;i&gt;(The University of Tokyo)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1109-fujiokaA.pdf"&gt;Application of Bitmap Index to Information Retrieval&lt;/a&gt;                      1109&lt;br /&gt;Kengo Fujioka, Yukio Uematsu, Makoto Onizuka  &lt;i&gt;(NTT CyberSpace Laboratories, NTT Corporation)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1111-liA.pdf"&gt;PivotBrowser: A Tag-Space Image Searching Prototype&lt;/a&gt;                      1111&lt;br /&gt;Xiaoyan Li, Lidan Shou, Gang Chen, Xiaolong Zhang, Tianlei Hu, Jinxiang Dong  &lt;i&gt;(Zhejiang University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1113-volkovich.pdf"&gt;Measuring Extremal Dependencies in Web Graphs&lt;/a&gt;                      1113&lt;br /&gt;Yana Volkovich, Nelly Litvak  &lt;i&gt;(University of Twente)&lt;/i&gt;,&lt;br /&gt;Bert Zwart  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1115-sanasam.pdf"&gt;Determining User's Interest in Real Time&lt;/a&gt;                 1115&lt;br /&gt;Sanasam Ranbir Singh, Hema A. Murthy, Timothy A. Gonsalves  &lt;i&gt;(Indian Institute of Technology Madras)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1117-hu.pdf"&gt;How to Influence My Customers? The Impact of Electronic Market Design&lt;/a&gt;                      1117&lt;br /&gt;Nan Hu  &lt;i&gt;(Singapore Management University)&lt;/i&gt;,&lt;br /&gt;Ling Liu  &lt;i&gt;(University of Texas at Dallas)&lt;/i&gt;,&lt;br /&gt;Bin Chen, Jialie Shen  &lt;i&gt;(Singapore Management University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1119-gengA.pdf"&gt;Improving Web Spam Detection with Re-Extracted Features&lt;/a&gt;                 1119&lt;br /&gt;Guang-Gang Geng, Chun-Heng Wang, Qiu-Dan Li  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1121-agarwalA.pdf"&gt;The World Wide Telecom Web Browser&lt;/a&gt;                      1121&lt;br /&gt;Sheetal Agarwal, Arun Kumar, Amit Anil Nanavati, Nitendra Rajput  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1123-agarwal.pdf"&gt;VoiKiosk: Increasing Reachability of Kiosks in Developing Regions&lt;/a&gt;                 1123&lt;br /&gt;Sheetal Agarwal, Arun Kumar, Amit Anil Nanavati, Nitendra Rajput  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1125-zhang.pdf"&gt;Semantic Similarity Based on Compact Concept Ontology&lt;/a&gt;                      1125&lt;br /&gt;Ce Zhang, Yu-Jing Wang, Bin Cui  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Gao Cong  &lt;i&gt;(Microsoft Research Asia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1127-diaz.pdf"&gt;Layman Tuning of Websites: Facing Change Resilience&lt;/a&gt;                      1127&lt;br /&gt;Oscar Díaz, Cristóbal Arellano, Jon Iturrioz  &lt;i&gt;(University of the Basque Country)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1129-cheng.pdf"&gt;Model Bloggers' Interests Based on Forgetting Mechanism&lt;/a&gt;                      1129&lt;br /&gt;Yuan Cheng, Guang Qiu, Jiajun Bu, Kangmiao Liu, Ye Han, Can Wang, Chun Chen &lt;i&gt;(Zhejiang University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1131-manjunath.pdf"&gt;Temporal Views Over RDF Data&lt;/a&gt;                 1131&lt;br /&gt;Geetha Manjunath, R. Badrinath, Craig Sayers, Venugopal K. S  &lt;i&gt;(Hewlett-Packard Company)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1133-Zhu.pdf"&gt;A Teapot Graph and Its Hierarchical Structure of the Chinese Web&lt;/a&gt;                 1133&lt;br /&gt;Jonathan J. H. Zhu  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Tao Meng, Zhengmao Xie, Geng Li, Xiaoming Li  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1135-banerjeeA.pdf"&gt;Collaborative Filtering on Skewed Datasets&lt;/a&gt;                     1135&lt;br /&gt;Somnath Banerjee, Krishnan Ramanathan  &lt;i&gt;(Hewlett-Packard Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1137-jankowskiA.pdf"&gt;2LIP: The Step Towards The Web3D&lt;/a&gt;                      1137&lt;br /&gt;Jacek Jankowski, Sebastian Ryszard Kruk  &lt;i&gt;(National University of Ireland)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1139-wangA.pdf"&gt;Protecting Web Services from Remote Exploit code:  A Static Analysis Approach&lt;/a&gt;                      1139&lt;br /&gt;Xinran Wang, Yoon-chan Jhi, Sencun Zhu, Peng Liu  &lt;i&gt;(Pennsylvania State University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1141-barhamgi.pdf"&gt;Composing and Optimizing Data Providing Web Services&lt;/a&gt;                      1141&lt;br /&gt;Mahmoud Barhamgi, Djamal Benslimane  &lt;i&gt;(Claude Bernard University)&lt;/i&gt;,&lt;br /&gt;Aris M. Ouksel  &lt;i&gt;(The University of Illinois)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1143-kleinbergA.pdf"&gt;PSST: A Web-Based System for Tracking Political Statements&lt;/a&gt;                      1143&lt;br /&gt;Samantha Kleinberg, Bud Mishra  &lt;i&gt;(New York University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1145-holzingerA.pdf"&gt;Exploiting Semantic Web Technologies to Model Web Form Interactions&lt;/a&gt;                 1145&lt;br /&gt;Wolfgang Holzinger, Bernhard Krüpl  &lt;i&gt;(TU Wien)&lt;/i&gt;,&lt;br /&gt;Robert Baumgartner  &lt;i&gt;(Lixto Software Gmbh)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1147-abelA.pdf"&gt;GroupMe! -- Where Information Meets&lt;/a&gt;                      1147&lt;br /&gt;Fabian Abel, Nicola Henze, Daniel Krause  &lt;i&gt;(Leibniz University Hannover)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1149-grimes.pdf"&gt;Microscale Evolution of Web Pages&lt;/a&gt;                      1149&lt;br /&gt;Carrie Grimes, Sean O'Brien  &lt;i&gt;(Google)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1151-mehtaA.pdf"&gt;Web Page Sectioning Using Regex-based Template&lt;/a&gt;                      1151&lt;br /&gt;Rupesh R. Mehta, Amit Madaan  &lt;i&gt;(Yahoo! R&amp;amp;D)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1153-kumarA.pdf"&gt;Towards a Programming Language for Services Computing&lt;/a&gt;                 1153&lt;br /&gt;Arun Kumar  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;,&lt;br /&gt;D Janakiram  &lt;i&gt;(Indian Institute of Technology Madras)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1155-huangA.pdf"&gt;HisTrace: Building a Search Engine of Historical Events&lt;/a&gt;                      1155&lt;br /&gt;Lian’en Huang  &lt;i&gt;(Peking University)&lt;/i&gt;,&lt;br /&gt;Jonathan J. H. Zhu  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Xiaoming Li  &lt;i&gt;(Peking University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1157-hofgesang.pdf"&gt;Online Change Detection in Individual Web User Behaviour&lt;/a&gt;                      1157&lt;br /&gt;Peter I. Hofgesang, Jan Peter Patist  &lt;i&gt;(VU University Amsterdam)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1059-ni.pdf"&gt;WebAnywhere: Enabling a Screen Reading Interface for the Web on Any Computer&lt;/a&gt;                      1159&lt;br /&gt;Jeffrey P. Bigham, Craig M. Prince, Richard E. Ladner  &lt;i&gt;(University of Washington)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1161-king.pdf"&gt;Guanxi in the Chinese Web – A Study of Mutual Linking&lt;/a&gt;                      1161&lt;br /&gt;Valerie King, Louis Lei Yu, Yan Zhuang  &lt;i&gt;(University of Victoria)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1163-caverlee.pdf"&gt;Towards Robust Trust Establishment in Web-Based  Social Networks with SocialTrust&lt;/a&gt;                      1163&lt;br /&gt;James Caverlee  &lt;i&gt;(Texas A&amp;amp;M University)&lt;/i&gt;,&lt;br /&gt;Ling Liu, Steve Webb  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1165-graham.pdf"&gt;Plurality: A Context-Aware Personalized Tagging System&lt;/a&gt;                      1165&lt;br /&gt;Robert Graham, Brian Eoff, James Caverlee  &lt;i&gt;(Texas A&amp;amp;M University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1167-papadimitriouA.pdf"&gt;Web Graph Similarity for Anomaly Detection (Poster)&lt;/a&gt;           1167&lt;br /&gt;Panagiotis Papadimitriou  &lt;i&gt;(Stanford University)&lt;/i&gt;,&lt;br /&gt;Ali Dasdan  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;,&lt;br /&gt;Hector Garcia-Molina  &lt;i&gt;(Stanford University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1169-ozcan.pdf"&gt;Static Query Result Caching Revisited&lt;/a&gt;                      1169&lt;br /&gt;Rifat Ozcan, Ismail Sengor Altingovde, Özgür Ulusoy  &lt;i&gt;(Bilkent University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1171-kolay.pdf"&gt;A Larger Scale Study of Robots.txt&lt;/a&gt;                     1171&lt;br /&gt;Santanu Kolay, Paolo D’Alberto, Ali Dasdan, Arnab Bhattacharjee  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1173-heathA.pdf"&gt;Defection Detection: Predicting Search Engine Switching&lt;/a&gt;                 1173&lt;br /&gt;Allison P. Heath  &lt;i&gt;(Rice University)&lt;/i&gt;,&lt;br /&gt;Ryen W. White  &lt;i&gt;(Microsoft Corporation)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1175-zhou.pdf"&gt;Algorithm for Stochastic Multiple-Choice Knapsack Problem  and Application to Keywords Bidding&lt;/a&gt;                      1175&lt;br /&gt;Yunhong Zhou  &lt;i&gt;(HP Labs)&lt;/i&gt;,&lt;br /&gt;Victor Naroditskiy  &lt;i&gt;(Brown University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1177-antonellisA.pdf"&gt;Simrank++: Query Rewriting through Link Analysis of the ClickGraph (Poster)&lt;/a&gt;           1177&lt;br /&gt;Ioannis Antonellis, Hector Garcia-Molina  &lt;i&gt;(Stanford University)&lt;/i&gt;,&lt;br /&gt;Chi-Chao Chang  &lt;i&gt;(Yahoo!)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1179-ding.pdf"&gt;An Initial Investigation on Evaluating Semantic Web Instance Data&lt;/a&gt;                      1179&lt;br /&gt;Li Ding, Jiao Tao, Deborah L. McGuinness  &lt;i&gt;(Rensselaer Polytechnic Institute)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1181-ganesan.pdf"&gt;Mining Tag Clouds and Emoticons behind Community Feedback&lt;/a&gt;                 1181&lt;br /&gt;Kavita A. Ganesan, Neelakantan Sundaresan, Harshal Deo  &lt;i&gt;(eBay Inc)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1183-bai.pdf"&gt;Investigation of Partial Query Proximity in Web Search&lt;/a&gt;                      1183&lt;br /&gt;Jing Bai, Yi Chang, Hang Cui, Zhaohui Zheng, Gordon Sun, Xin Li  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1185-vadrevuA.pdf"&gt;Identifying Regional Sensitive Queries in Web Search&lt;/a&gt;                      1185&lt;br /&gt;Srinivas, Ya Zhang, Belle Tseng, Gordon Sun, Xin Li  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1187-abbassi.pdf"&gt;Offline Matching Approximation Algorithms in ExchangeMarkets&lt;/a&gt;                1187&lt;br /&gt;Zeinab Abbassi, Laks V. S. Lakshmanan  &lt;i&gt;(University of British Columbia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1189-deng.pdf"&gt;An Efficient Two-Phase Service Discovery Mechanism&lt;/a&gt;                 1189&lt;br /&gt;Shuiguang Deng, Zhaohui Wu, Jian Wu, Ying Li  &lt;i&gt;(Zhejiang University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1191-zhuA.pdf"&gt;User Oriented Link Function Classification&lt;/a&gt;                      1191&lt;br /&gt;Mingliang Zhu, Weiming Hu, Ou Wu, Xi Li, Xiaoqin Zhang  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1193-tang.pdf"&gt;Extraction and Mining of an Academic Social Network&lt;/a&gt;                 1193&lt;br /&gt;Jie Tang, Jing Zhang, Limin Yao, Juanzi Li  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1195-wu.pdf"&gt;Keyword Extraction for Contextual Advertisement&lt;/a&gt;                      1195&lt;br /&gt;Xiaoyuan Wu, Alvaro Bolivar  &lt;i&gt;(eBay Research Labs)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1197-rahurkarA.pdf"&gt;Which "Apple" Are You Talking About?&lt;/a&gt;                 1197&lt;br /&gt;Mandar A. Rahurkar, Dan Roth, Thomas S. Huang  &lt;i&gt;(University of Illinois)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1199-Wu.pdf"&gt;Making BPEL Flexible – Adapting in the Context  of Coordination Constraints Using WS-BPEL&lt;/a&gt;                 1199&lt;br /&gt;Yunzhou Wu, Prashant Doshi  &lt;i&gt;(University of Georgia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1201-harney.pdf"&gt;Speeding Up Web Service Composition with Volatile External Information&lt;/a&gt;                 1201&lt;br /&gt;John F. Harney, Prashant Doshi  &lt;i&gt;(University of Georgia)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1203-zhou.pdf"&gt;Context-Sensitive QoS Model:  A Rule-Based Approach to Web Service Composition&lt;/a&gt;                 1203&lt;br /&gt;Tao Zhou, Xiaolin Zheng  &lt;i&gt;(Zhejiang University)&lt;/i&gt;,&lt;br /&gt;William Wei Song, Xiaofeng Du  &lt;i&gt;(Durham University)&lt;/i&gt;,&lt;br /&gt;Deren Chen  &lt;i&gt;(Zhejiang University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1205-tangA.pdf"&gt;A Unified Framework for Name Disambiguation&lt;/a&gt;                 1205&lt;br /&gt;Jie Tang, Jing Zhang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Duo Zhang  &lt;i&gt;(University of Illinois at Urbana Champaign)&lt;/i&gt;,&lt;br /&gt;Juanzi Li  &lt;i&gt;(Tsinghua University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1207-nakahiraA.pdf"&gt;Low-load Server Crawler: Design and Evaluation&lt;/a&gt;                      1207&lt;br /&gt;Katsuko T. Nakahira, Tetsuya Hoshino, Yoshiki Mikami  &lt;i&gt;(Nagaoka University of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1209-iwazume.pdf"&gt;KC3 Browser: Semantic Mash-up and Link-free Browsing&lt;/a&gt;                      1209&lt;br /&gt;Michiaki Iwazume, Ken Kaneiwa, Koji Zettsu, Takafumi Nakanishi,  Yutaka Kidawara  &lt;i&gt;(National Institute of Information and Communication Technology)&lt;/i&gt;,&lt;br /&gt;Yssushi Kiyoki  &lt;i&gt;(Keio University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1211-jin.pdf"&gt;Generating Hypotheses from the Web&lt;/a&gt;                      1211&lt;br /&gt;Wei Jin, Rohini Srihari, Abhishek Singh  &lt;i&gt;(State University of New York at Buffalo)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1213-ding.pdf"&gt;Using Graphics Processors for High-Performance IR Query Processing&lt;/a&gt;                 1213&lt;br /&gt;Shuai Ding, Jinru He, Hao Yan, Torsten Suel  &lt;i&gt;(Polytechnic University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1215-leonA.pdf"&gt;A Framework for Fast Community Extraction of Large-Scale Networks&lt;/a&gt;                      1215&lt;br /&gt;YutakaI. Leon-Suematsu, Kikuo Yuta  &lt;i&gt;(NiCT/ATR)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1217-jin4.pdf"&gt;Enabling Secure Digital Marketplace&lt;/a&gt;                 1217&lt;br /&gt;Hongxia Jin, Vladimir Zbarsky  &lt;i&gt;(IBM Almaden Research Center)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1219-eki.pdf"&gt;Extracting XML Schema from Multiple Implicit XML&lt;/a&gt;  Documents Based on Inductive Reasoning                      1219&lt;br /&gt;Masaya Eki, Tadachika Ozono, Toramatsu Shintani  &lt;i&gt;(Nagoya Institute of Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1221-Jatowt.pdf"&gt;Visualizing Historical Content of Web Pages&lt;/a&gt;                      1221&lt;br /&gt;Adam Jatowt  &lt;i&gt;(Kyoto University)&lt;/i&gt;,&lt;br /&gt;Yukiko Kawai  &lt;i&gt;(Kyoto Sangyo University)&lt;/i&gt;,&lt;br /&gt;Katsumi Tanaka  &lt;i&gt;(Kyoto University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1223-maoA.pdf"&gt;Integrating the IAC Neural Network in Ontology Mapping&lt;/a&gt;                      1223&lt;br /&gt;Ming Mao  &lt;i&gt;(SAP Research)&lt;/i&gt;,&lt;br /&gt;Yefei Peng  &lt;i&gt;(Yahoo!)&lt;/i&gt;,&lt;br /&gt;Michael Spring  &lt;i&gt;(University of Pittsburgh)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1225-gupta.pdf"&gt;Fast Algorithms for Top-k Personalized PageRank Queries&lt;/a&gt;                      1225&lt;br /&gt;Manish Gupta, Amit Pathak, Soumen Chakrabarti  &lt;i&gt;(IIT Bombay)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1227-yu.pdf"&gt;Reasoning about Similarity Queries in Text Retrieval Tasks&lt;/a&gt;                      1227&lt;br /&gt;Xiaohui Yu, Yang Liu  &lt;i&gt;(York University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1229-ghosh.pdf"&gt;Mashups for Semantic User Profiles&lt;/a&gt;                      1229&lt;br /&gt;Riddhiman Ghosh, Mohamed Dekhil  &lt;i&gt;(Hewlett-Packard Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1231-taherA.pdf"&gt;Using CEP Technology to Adapt Messages Exchanged by Web Services&lt;/a&gt;                 1231&lt;br /&gt;Yehia Taher  &lt;i&gt;(Claude Bernard Lyon1 University and University of Grenoble)&lt;/i&gt;,&lt;br /&gt;Marie-Christine Fauvet  &lt;i&gt;(University of Grenoble)&lt;/i&gt;,&lt;br /&gt;Marlon Dumas  &lt;i&gt;(University of Tartu)&lt;/i&gt;,&lt;br /&gt;Djamal Benslimane  &lt;i&gt;(Claude Bernard Lyon1 University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1233-chenA.pdf"&gt;Finding Core Members in Virtual Communities&lt;/a&gt;                      1233&lt;br /&gt;Haiqiang Chen, Xueqi Cheng, Yue Liu  &lt;i&gt;(Institute of Computing Technology)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1235-liA.pdf"&gt;Improving Personalized Services in Mobile Commerce  by a Novel Multicriteria Rating Approach&lt;/a&gt;                 1235&lt;br /&gt;Qiudan Li, Chunheng Wang, Guanggang Geng  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1237-yanaiA.pdf"&gt;Automatic Web Image Selection with a Probabilistic Latent Topic Model&lt;/a&gt;                      1237&lt;br /&gt;Keiji Yanai  &lt;i&gt;(The University of Electro-Communications)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1239-Banerjee.pdf"&gt;R-U-In? : Doing What You Like, With People Whom You Like&lt;/a&gt;                 1239&lt;br /&gt;Nilanjan Banerjee, Dipanjan Chakraborty, Koustuv Dasgupta,  Sumit Mittal, Seema Nagar  &lt;i&gt;(IBM India Research Laboratory)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1241-szummerA.pdf"&gt;Behavioral Classification on the Click Graph&lt;/a&gt;                 1241&lt;br /&gt;Martin Szummer, Nick Craswell  &lt;i&gt;(Microsoft Research Cambridge)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1243-zhou.pdf"&gt;Budget Constrained Bidding in Keyword Auctions  and Online Knapsack Problems&lt;/a&gt;                      1243&lt;br /&gt;Yunhong Zhou  &lt;i&gt;(Hewlett-Packard Laboratories)&lt;/i&gt;,&lt;br /&gt;Deeparnab Chakrabarty  &lt;i&gt;(Georgia Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Rajan Lukose  &lt;i&gt;(Hewlett-Packard Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1245-wu.pdf"&gt;Social and Semantics Analysis Via Non-negative Matrix Factorization&lt;/a&gt;                 1245&lt;br /&gt;Zhi-li Wu, Chi-Wa Cheng, Chun-hung Li  &lt;i&gt;(Hong Kong Baptist University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1247-wang.pdf"&gt;Incremental Web Page Template Detection&lt;/a&gt;                      1247&lt;br /&gt;Yu Wang, Bingxing Fang, Xueqi Cheng, Li Guo, Hongbo Xu  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1249-gaogang.pdf"&gt;Rogue Access Point Detection Using Segmental TCP Jitter&lt;/a&gt;                      1249&lt;br /&gt;Gaogang Xie, Tingting He, Guangxing Zhang  &lt;i&gt;(Chinese Academy of Sciences)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Panel Sessions&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1251-iannella.pdf"&gt;Towards the Policy-Aware Web: The Real Web 3.0?&lt;/a&gt;                 1251&lt;br /&gt;Renato Iannella  &lt;i&gt;(NICTA)&lt;/i&gt;,&lt;br /&gt;Elisa Bertino  &lt;i&gt;(Purdue University)&lt;/i&gt;,&lt;br /&gt;Piero Bonatti  &lt;i&gt;(Universitá di Napoli Federico II)&lt;/i&gt;,&lt;br /&gt;Marco Casassa-Mont  &lt;i&gt;(Hewlett-Packard)&lt;/i&gt;,&lt;br /&gt;Lalana Kagal  &lt;i&gt;(Massachusetts Institute of Technology)&lt;/i&gt;,&lt;br /&gt;Irene Pollach  &lt;i&gt;(University of Aarhus)&lt;/i&gt;,&lt;br /&gt;Thomas Roessler  &lt;i&gt;(W3C)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1253-aaron.pdf"&gt;Protecting the Web: Phishing, Malware, and Other Security Threats&lt;/a&gt;                      1253&lt;br /&gt;Greg Aaron  &lt;i&gt;(Afilias)&lt;/i&gt;,&lt;br /&gt;Katharine A. Bostik  &lt;i&gt;(Microsoft Corporation)&lt;/i&gt;,&lt;br /&gt;Rod Rasmussen  &lt;i&gt;(Internet Identity)&lt;/i&gt;,&lt;br /&gt;Edmon Chung  &lt;i&gt;(DotASIA Organisation)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1255-john.pdf"&gt;The Future of Online Social Interactions: What to Expect in 2020&lt;/a&gt;                 1255&lt;br /&gt;Ajita John  &lt;i&gt;(Avaya Labs)&lt;/i&gt;,&lt;br /&gt;Lada Adamic  &lt;i&gt;(University of Michigan)&lt;/i&gt;,&lt;br /&gt;Marc Davis  &lt;i&gt;(Yahoo Inc.)&lt;/i&gt;,&lt;br /&gt;Frank Nack  &lt;i&gt;(University of Amsterdam)&lt;/i&gt;,&lt;br /&gt;David A. Shamma  &lt;i&gt;(Yahoo Inc.)&lt;/i&gt;,&lt;br /&gt;Doree D. Seligmann  &lt;i&gt;(Avaya Laboratories)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1257-kumarA.pdf"&gt;Information "Uptrieval": Exploring Models for Content Assimilation  and Aggregation for Developing Regions&lt;/a&gt;                      1257&lt;br /&gt;Sheetal K. Agarwal, Arun Kumar, Sougata Mukherjea,  Amit Anil Nanavati, Nitendra Rajput  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1259-chang.pdf"&gt;Rich Media and Web 2.0&lt;/a&gt;                      1259&lt;br /&gt;Edward Chang  &lt;i&gt;(Google Research, China)&lt;/i&gt;,&lt;br /&gt;Ken Ong  &lt;i&gt;(Google Inc.)&lt;/i&gt;,&lt;br /&gt;Susanne Boll  &lt;i&gt;(University of Oldenburg)&lt;/i&gt;,&lt;br /&gt;Wei-Ying Ma  &lt;i&gt;(Microsoft Research, Asia)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;h2&gt;Workshops&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1261-locweb.pdf"&gt;Location and the Web (LocWeb 2008)&lt;/a&gt;          1261&lt;br /&gt;Susanne Boll  &lt;i&gt;(University of Oldenburg)&lt;/i&gt;,&lt;br /&gt;Christopher Jones  &lt;i&gt;(Cardiff University)&lt;/i&gt;,&lt;br /&gt;Eric Kansa  &lt;i&gt;(University of California, Berkeley)&lt;/i&gt;,&lt;br /&gt;Puneet Kishor  &lt;i&gt;(University of Wisconsin-Madison)&lt;/i&gt;,&lt;br /&gt;Mor Naaman  &lt;i&gt;(Yahoo! Inc.)&lt;/i&gt;,&lt;br /&gt;Ross Purves  &lt;i&gt;(University of Zurich)&lt;/i&gt;,&lt;br /&gt;Arno Scharl  &lt;i&gt;(MODUL University Vienna)&lt;/i&gt;,&lt;br /&gt;Erik Wilde  &lt;i&gt;(University of California, Berkeley)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1263-shengA.pdf"&gt;International Workshop on Context-Enabled Source  and Service Selection, Integration and Adaptation (CSSSIA 2008)&lt;/a&gt;                      1263&lt;br /&gt;Quan Z. Sheng  &lt;i&gt;(The University of Adelaide)&lt;/i&gt;,&lt;br /&gt;Ullas Nambiar  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;,&lt;br /&gt;Amit P. Sheth  &lt;i&gt;(Wright State University)&lt;/i&gt;,&lt;br /&gt;Biplav Srivastava  &lt;i&gt;(IBM India Research Lab)&lt;/i&gt;,&lt;br /&gt;Zakaria Maamar  &lt;i&gt;(Zayed University)&lt;/i&gt;,&lt;br /&gt;Said Elnaffar  &lt;i&gt;(UAE University)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1265-bizer.pdf"&gt;Linked Data on the Web (LDOW2008)&lt;/a&gt;                 1265&lt;br /&gt;Christian Bizer  &lt;i&gt;(Freie Universität Berlin)&lt;/i&gt;,&lt;br /&gt;Tom Heath  &lt;i&gt;(Talis)&lt;/i&gt;,&lt;br /&gt;Kingsley Idehen  &lt;i&gt;(OpenLink Software)&lt;/i&gt;,&lt;br /&gt;Tim Berners-Lee  &lt;i&gt;(W3C)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1267-castilloA.pdf"&gt;Fourth International Workshop on Adversarial  Information Retrieval on the Web (AIRWeb 2008)&lt;/a&gt;                 1267&lt;br /&gt;Carlos Castillo  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;,&lt;br /&gt;Kumar Chellapilla  &lt;i&gt;(Microsoft Live Labs)&lt;/i&gt;,&lt;br /&gt;Dennis Fetterly  &lt;i&gt;(Microsoft Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1269-dominowska.pdf"&gt;First Workshop on Targeting and Ranking for Online Advertising&lt;/a&gt;                      1269&lt;br /&gt;Ewa Dominowska  &lt;i&gt;(Microsoft Corporation)&lt;/i&gt;,&lt;br /&gt;Vanja Josifovski  &lt;i&gt;(Yahoo! Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1171-kolay.pdf"&gt;MobEA VI: Personal Rich Social Media&lt;/a&gt;            1271&lt;br /&gt;Rittwik Jana  &lt;i&gt;(AT&amp;amp;T Labs Research)&lt;/i&gt;,&lt;br /&gt;Daniel Appelquist  &lt;i&gt;(Vodafone Group R&amp;amp;D)&lt;/i&gt;,&lt;br /&gt;Galit Zadok  &lt;i&gt;(MilkMore Ltd)&lt;/i&gt;,&lt;br /&gt;Bin Wei  &lt;i&gt;(AT&amp;amp;T Labs Research)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1273-chen.pdf"&gt;Report on Semantic Web for Health Care and Life Sciences Workshop&lt;/a&gt;                      1273&lt;br /&gt;Huajun Chen  &lt;i&gt;(Zhejiang University)&lt;/i&gt;,&lt;br /&gt;Kei Cheung  &lt;i&gt;(Yale University)&lt;/i&gt;,&lt;br /&gt;Michel Dumontier  &lt;i&gt;(Carleton University)&lt;/i&gt;,&lt;br /&gt;Eric Prud’hommeaux  &lt;i&gt;(World Wide Web Consortium)&lt;/i&gt;,&lt;br /&gt;Alan Ruttenberg  &lt;i&gt;(Science Commons)&lt;/i&gt;,&lt;br /&gt;Susie Stephens  &lt;i&gt;(Eli Lilly and Company)&lt;/i&gt;,&lt;br /&gt;Yimin Wang  &lt;i&gt;(University of Karlsruhe)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1275-wenyin.pdf"&gt;International Workshop on Question Answering on the Web (QAWeb2008)&lt;/a&gt;                      1275&lt;br /&gt;Liu Wenyin, Qing Li  &lt;i&gt;(City University of Hong Kong)&lt;/i&gt;,&lt;br /&gt;Xuedong Huang  &lt;i&gt;(Microsoft Corporation)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1277-nakagawa.pdf"&gt;WWW 2008 Workshop: NLPIX2008 Summary&lt;/a&gt;                      1277&lt;br /&gt;Hiroshi Nakagawa  &lt;i&gt;(The University of Tokyo)&lt;/i&gt;,&lt;br /&gt;Kentaro Torisawa  &lt;i&gt;(Japan Advanced Institute of Science &amp;amp; Technology)&lt;/i&gt;,&lt;br /&gt;Marasu Kitsuregawa  &lt;i&gt;(The University of Tokyo)&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1279-dologA.pdf"&gt;WS10A – Workshop on Social Web and Knowledge Management (SWKM2008)&lt;/a&gt;                 1279&lt;br /&gt;Peter Dolog  &lt;i&gt;(Aalborg University)&lt;/i&gt;,&lt;br /&gt;Markus Kroetzsch  &lt;i&gt;(Universitaet Karlsruhe (TH))&lt;/i&gt;,&lt;br /&gt;Sebastian Schaffert  &lt;i&gt;(Salzburg Research)&lt;/i&gt;,&lt;br /&gt;Denny Vrandecic  &lt;i&gt;(Universitaet Karlsruhe (TH))&lt;/i&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://www2008.org/papers/pdf/p1281-li.pdf"&gt;WWW 2008 Workshop on Social Web Search and Mining&lt;/a&gt;                 1281&lt;br /&gt;Juanzi Li  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Gui-rong Xue  &lt;i&gt;(Shanghai Jiaotong University)&lt;/i&gt;,&lt;br /&gt;Jie Tang  &lt;i&gt;(Tsinghua University)&lt;/i&gt;,&lt;br /&gt;Ying Ding  &lt;i&gt;(University of Innsbruck)&lt;/i&gt;&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;&lt;/h2&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-5898899077940729965?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/5898899077940729965/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=5898899077940729965' title='1 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5898899077940729965'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5898899077940729965'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/06/www-2008.html' title='WWW 2008 Papers'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-4518747863025359572</id><published>2008-06-29T00:09:00.008+08:00</published><updated>2008-09-19T08:40:59.563+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='百宝箱'/><category scheme='http://www.blogger.com/atom/ns#' term='NLP'/><title type='text'>NLP常用开源/免费工具</title><content type='html'>&lt;p&gt;（转载自水木社区NLP版）&lt;/p&gt;&lt;p&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Computational Linguistics Toolbox&lt;/span&gt;&lt;br /&gt;CLT &lt;a href="http://complingone.georgetown.edu/~linguist/compling.html"&gt;http://complingone.georgetown.edu/~linguist/compling.html&lt;/a&gt;&lt;br /&gt;GATE &lt;a href="http://gate.ac.uk/"&gt;http://gate.ac.uk/&lt;/a&gt;&lt;br /&gt;Natural Language Toolkit(NLTK) &lt;a href="http://nltk.org/"&gt;http://nltk.org/&lt;/a&gt;&lt;br /&gt;MALLET &lt;a href="http://mallet.cs.umass.edu/index.php/Main_Page"&gt;http://mallet.cs.umass.edu/index.php/Main_Page&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*English Stemmer&lt;/span&gt;&lt;br /&gt;Snowball &lt;a href="http://snowball.tartarus.org/"&gt;http://snowball.tartarus.org/&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*English POS Tagger&lt;/span&gt;&lt;br /&gt;Stanford POS Tagger &lt;a href="http://nlp.stanford.edu/software/tagger.shtml"&gt;http://nlp.stanford.edu/software/tagger.shtml&lt;/a&gt;&lt;br /&gt;TreeTagger &lt;a href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/"&gt;http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*English Parser&lt;/span&gt;&lt;br /&gt;Stanford Parser &lt;a href="http://nlp.stanford.edu/software/lex-parser.shtml"&gt;http://nlp.stanford.edu/software/lex-parser.shtml&lt;/a&gt;&lt;br /&gt;Berkeley Parser &lt;a href="http://nlp.cs.berkeley.edu/Main.html#Parsing"&gt;http://nlp.cs.berkeley.edu/Main.html#Parsing&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*English Keyphrase Extractor&lt;/span&gt;&lt;br /&gt;KEA &lt;a href="http://www.nzdl.org/Kea/index_old.html"&gt;http://www.nzdl.org/Kea/index_old.html&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*English Name Entity Recognizer&lt;/span&gt;&lt;br /&gt;Stanford NER &lt;a href="http://nlp.stanford.edu/software/CRF-NER.shtml"&gt;http://nlp.stanford.edu/software/CRF-NER.shtml&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Chinese Word Segmentator&lt;/span&gt;&lt;br /&gt;中科院ICTCLAS &lt;a href="http://www.nlp.org.cn/project/project.php?proj_id=6"&gt;http://www.nlp.org.cn/project/project.php?proj_id=6&lt;/a&gt;&lt;br /&gt;Stanford Word Segmenter &lt;a href="http://nlp.stanford.edu/software/segmenter.shtml"&gt;http://nlp.stanford.edu/software/segmenter.shtml&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Topic Modeling Tools&lt;/span&gt;&lt;br /&gt;Matlab &lt;a href="http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm"&gt;http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Machine Learning Methods&lt;/span&gt;&lt;br /&gt;CRF++ &lt;a href="http://crfpp.sourceforge.net/"&gt;http://crfpp.sourceforge.net/&lt;/a&gt;&lt;br /&gt;LIBSVM &lt;a href="http://www.csie.ntu.edu.tw/~cjlin/libsvm/"&gt;http://www.csie.ntu.edu.tw/~cjlin/libsvm/&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;br /&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Search Engines&lt;/span&gt;&lt;br /&gt;Lucene &lt;a href="http://lucene.apache.org/"&gt;http://lucene.apache.org/&lt;/a&gt;&lt;br /&gt;中科院FirteX &lt;a href="http://www.firtex.org/"&gt;http://www.firtex.org/&lt;/a&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="FONT-WEIGHT: bold"&gt;*Data Mining Toolbox&lt;/span&gt;&lt;br /&gt;Weka &lt;a href="http://www.cs.waikato.ac.nz/ml/weka/"&gt;http://www.cs.waikato.ac.nz/ml/weka/&lt;/a&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-4518747863025359572?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/4518747863025359572/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=4518747863025359572' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4518747863025359572'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/4518747863025359572'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/06/nlp.html' title='NLP常用开源/免费工具'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-5189796823742994890</id><published>2008-06-25T20:14:00.002+08:00</published><updated>2008-06-29T00:41:52.535+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='SIGIR'/><title type='text'>SIGIR 2008 Accepted Papers</title><content type='html'>The 31&lt;sup&gt;st&lt;/sup&gt; Annual International ACM SIGIR Conference&lt;br /&gt;20-24 July 2008, Singapore&lt;br /&gt;&lt;h2&gt;Full Papers&lt;/h2&gt;            &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Boosting Algorithm for  Learning Bipartite Ranking Functions with Partially Labeled Data&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Amini, V. Truong and C.  Goutte  (National Research Council  Canada/LIP6)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Affective Feedback: An  Investigation into the Role of Emotions in the Information Seeking Process&lt;/span&gt;&lt;br /&gt;&lt;em&gt;I. Arapakis J. M. Jose, and  P. D. Gray  (University of Glasgow)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Evaluation Over Thousands  of Queries&lt;/span&gt;&lt;br /&gt;&lt;em&gt;B. Carterette, V. Pavlu, E.  Kanoulas, J. Allan, and J. A. Aslam  (University of Massachusetts Amherst/Northeastern  University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Personalized Active  Learning for Collaborative Filtering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;H. Abhay and Y. Yang  (Carnegie Mellon University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;The Good and the Bad  System: Does the Test Collection Predict Users’ Effectiveness?&lt;/span&gt;&lt;br /&gt;&lt;em&gt;A. Al-Maskari, M. Sanderson  and P. Clough  (University of Sheffield)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Few Examples Go A Long  Way: Constructing Query Models from Elaborate Query Formulations&lt;/span&gt;&lt;br /&gt;&lt;em&gt;K. Balog, W. Weerkamp and  M. de Rijke  (University of Amsterdam)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Discovering Key Concepts in  Verbose Queries&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Bendersky and B.  Croft  ( University of Massachusetts)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Query Expansion Using  Gaze-Based Feedback on the Subdocument Level&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Buscher, A. Dengel and  L. van Elst  (DFKI)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Relevance Assessment: Are  Judges Exchangeable and Does it Matter&lt;/span&gt;&lt;br /&gt;&lt;em&gt;P. Bailey, N. Craswell, I. Soboroff, P. Thomas, A. de Vries and E. Yilmaz  (NIST/Northeastern University/Microsoft/CWI/CSIRO ICT Centre)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Lattice-Based Approach to  Query-by-Example Spoken Document Retrieval&lt;/span&gt;&lt;br /&gt;&lt;em&gt;T.K. Chia, K.C. Sim, H. Li  and H.T. Ng  (Institute for Infocomm  Research/National University of Singapore)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Finding Question-Answer  Pairs from Online Forums&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Cong, L. Wang, C.Y. Lin, Y.I. Song and Y. Sun  (Aalborg University/Tianjin University/Microsoft Research Asia/Korea University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Novelty and Diversity in  Information Retrieval Evaluation&lt;/span&gt;&lt;br /&gt;&lt;em&gt;C. Clarke, M. Kolla, G. Cormack,  O. Vechtomova, A. Ashkan, S. Büttcher, and I. MacKinnon  (University of Waterloo)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Selecting Good Expansion  Terms for Pseudo-Relevance Feedback&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Cao, J.Y. Nie, J. Gao  and S. Robertson  (Microsoft  Research/University of Montreal)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;TSCAN: A Novel Method for  Topic Summarization and Content Anatomy&lt;/span&gt;&lt;br /&gt;&lt;em&gt;C.C. Chen and M.C.  Chen  (Academia Sinica/National Taiwan  University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A User Browsing Model to  Predict Search Engine Click Data from Past Observations.&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Dupret and B. Piwowarski   (Yahoo! Research Latin America)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Asymmetric Distance  Estimation with Sketches for Similarity Search in High-Dimensional Spaces&lt;/span&gt;&lt;br /&gt;&lt;em&gt;W. Dong, M. Charikar and K.  Li (Princeton University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning from Labeled  Features using Generalized Expectation Criteria&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Druck, G. Mann and A.  McCallum  (University of Massachusetts  Amherst)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning to Rank with  Partially-Labeled Data&lt;/span&gt;&lt;br /&gt;&lt;em&gt;K. Duh and K.  Kirchhoff  (University of Washington)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Retrieval and Feedback  Models for Blog Feed Search&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Elsas, J. Arguello, J.  Callan and J. Carbonell  (Carnegie Mellon  University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Unified and  Discriminative Model for Query Refinement&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Guo, G. Xu, H. Li andX.  Cheng  (Microsoft Research  Asia/Information Security Center, ICT)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning to Rank with  SoftRank and Gaussian Processes&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Guiver and E.  Snelson  (Microsoft Research)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Query Dependent Ranking  Using K-Nearest Neighbor&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Geng, T.Y. Liu, T. Qin, A. Arnold, H. Li and H.Y. Shum  (Institue of Computing Technology, Chinese Academy of Sciences/Microsoft Research Asia/Tsinghua University/ Carnegie Mellon University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Comments-Oriented Document  Summarization: Understanding Documents with Readers’ Feedback&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Hu, A. Sun and E.P.  Lim  (Nanyang Technological University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Enhancing Text Clustering  by Leveraging Wikipedia Semantics&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Hu, L. Fang, Y. Cao, H. J. Zeng, H. Li, Q. Yang, and Z. Chen  (Microsoft Research Asia/Fudan University/Shanghai Jiao Tong Univeristy/ Hong Kong University of Science &amp;amp; Technology)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Retrieval Sensitivity Under  Training Using Different Measures&lt;/span&gt;&lt;br /&gt;&lt;em&gt;B. He, C. Macdonald and I.  Ounis  (University of Glasgow)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Social Tag Prediction&lt;/span&gt;&lt;br /&gt;&lt;em&gt;P. Heymann, D. Ramage and  H. Garcia-Molina  (Stanford University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Crosslingual Location  Search&lt;/span&gt;&lt;br /&gt;&lt;em&gt;T. Joshi, J. Joy, T.  Kellner, U. Khurana, A. Kumaran and V. Sengar   (Microsoft Research India)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Directly Optimizing  Evaluation Measures in Learning to Rank&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Xu, T.Y. Liu, M. Lu, H.  Li, and W.Y. Ma (Microsoft Research Asia)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Optimizing Relevance and  Revenue in Ad Search: A Query Substitution Approach&lt;/span&gt;&lt;br /&gt;&lt;em&gt;F. Radlinski, A. Broder, P. Ciccolo, E.  Gabrilovich,  V. Josifovski and L. Riedel  (Yahoo! Research/Cornell University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A rank-aggregation approach  to searching for optimal query-specific clusters&lt;/span&gt;&lt;br /&gt;&lt;em&gt;O. Kurland and C.  Domshlak  (Technion)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Effective and Efficient  User Interaction for Long Queries&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Kumaran and J.  Allan  (University of Massachusetts  Amherst)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Intuition-Supporting  Visualization of User’s Performance Based on Explicit Negative Higher-Order  Relevance&lt;/span&gt;&lt;br /&gt;&lt;em&gt;H. Keskustalo, K. Jarvelin,  A. Pirkola and J. Kekalainen  (University  of Tampere)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;The opposite of smoothing:  A language model approach to ranking query-specific document clusters&lt;/span&gt;&lt;br /&gt;&lt;em&gt;O. Kurland  (Technion)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Cluster-Based Resampling  Method for Pseudo-Relevance Feedback&lt;/span&gt;&lt;br /&gt;&lt;em&gt;K.S. Lee, B. Croft and J.  Allan  (University of Massachusetts  Amherst/Chonbuk National University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;BrowseRank: Letting Web  Users Vote for Page Importance&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Liu, B. Gao, T.Y. Liu,  Y. Zhang, Z. Ma, S. He and H. Li   (Microsoft Research Asia)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;EigenRank: A  Ranking-Oriented Approach to Collaborative Filtering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;N. Liu and Q. Yang  (Hong Kong University of Science &amp;amp;  Technology)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;How Do Users Find Things  with PubMed?  Towards Automatic Utility  Evaluation with User Simulations&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Lin and M. Smucker  (University of Maryland/University of  Massachusetts, Amherst)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Knowledge Transformation  from Word Space to Document Space&lt;/span&gt;&lt;br /&gt;&lt;em&gt;T. Li, C. Ding, Y. Zhang  and B. Shao  (Florida International  University/University of Texas at Arlington)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning Query Intent from  Regularized Click Graphs&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Li, Y. Y. Wang and A.  Acero  (Microsoft Research)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;On Iterative Intelligent  Medical Search&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Luo and C. Tang  (IBM T.J. Watson Research Center)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Predicting Information  Seeker Satisfaction in Community Question Answering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Liu, J. Bian and E.  Agichtein  (Emory University/Georgia  Institue of Technology)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Reorganizing Compressed  Text&lt;/span&gt;&lt;br /&gt;&lt;em&gt;N. R. Brisaboa, A. Fariña  S. Ladra and G. Navarro  (University of  Chile/University of A Coruña)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Spectral Geometry for  Simultaneously Clustering and Ranking Query Search Results&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Liu, W. Li, Y. Lin and  L. Jing  (The University of Texas at  Dallas)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Generation Model to Unify  Topic Relevance and Lexicon-based Sentiment for Opinion Retrieval&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Zhang and X. Ye  (Tsinghua University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Attack Resistant  Collaborative Filtering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;B. Mehta and W. Nejdl  (Google Inc./L3S Research Center)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A General Optimization  Framework for Smoothing Language Models on Graph Structures&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Q. Mei, D. Zhang and C.  Zhai  (University of Illinois at  Urbana-Champaign)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Separate and Inequal:  Preserving Heterogeneity in Topical Authority Flows&lt;/span&gt;&lt;br /&gt;&lt;em&gt;L. Nie and B. Davison  (Lehigh University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Algorithmic Mediation for  Collaborative Exploratory Search&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Pickens, G.  Golovchinsky, C. Shah, P. Qvarfordt and M. Back   ( FX Palo Alto Lab,  Inc./ University of North  Carolina)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Classifiers Without  Borders: Incorporating Fielded Text From Neighboring Web Pages&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Qi and B. Davison  (Lehigh University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;TF-IDF Uncovered: A Study  of Theories and Probabilities&lt;/span&gt;&lt;br /&gt;&lt;em&gt;T. Roelleke and J.  Wang  (Queen Mary, University of London)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Towards Breaking the  Quality Curse. A Web-Querying Approach to Web People Search.&lt;/span&gt;&lt;br /&gt;&lt;em&gt;D.V.Kalashnikov,  R.Nuray-Turan and S.Mehrotra (University of California, Irvine)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Efficient Top-k Querying  over Social-Tagging Networks&lt;/span&gt;&lt;br /&gt;&lt;em&gt;R. Schenkel, T. Crecelius, M. Kacimi, S. Michel, T. Neumann, J. Xavier Parreira and G. Weikum  (EPFL/Max Planck Institute for Computer Science/Max-Planck-Institut Informatik)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Local Text Reuse Detection&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Seo and B. Croft  (University of Massachusetts, Amherst)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Ambiguous Queries: Test  Collections Need More Sense&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Sanderson  (University of Sheffield)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Real-time Automatic Tag  Recommendation&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Song, Z. Zhuang, H. Li,  Q. Zhao, J. Li, W.c. Lee and C.L. Giles   (The Pennsylvania State University/AOL Research Lab)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;ResIn: A Combination of  Results Caching and Index Pruning for High-performance Web Search Engines&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G. Skobeltsyn, F. Junqueira,  V. Plachouras and R. Baeza-Yates (EPFL/Yahoo! Research, Barcelona)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;User Adaptation: Good  Results from Poor Systems&lt;/span&gt;&lt;br /&gt;&lt;em&gt;C. Smith and P. Kantor  (Rutgers University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Study of Learning a Merge  Model for Multilingual Information Retrieval&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M.F. Tsai, Y. Wang and H.H.  Chen  (National Taiwan University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;SpotSigs: Robust and  Efficient Near Duplicate Detection in Large Web Collections&lt;/span&gt;&lt;br /&gt;&lt;em&gt; M. Theobald, J. Siddharth  and A. Paepcke  (Stanford University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;To Personalize or Not to  Personalize: Modeling Queries with Variation in User Intent&lt;/span&gt;&lt;br /&gt;&lt;em&gt;J. Teevan, S.T. Dumais and  D.J. Liebling  (Microsoft Research)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning to Rank at  Query-Time using Association Rules&lt;/span&gt;&lt;br /&gt;&lt;em&gt;A. Veloso, H. Almeida, M.  Gonçalves and W. Meira Jr.  (UFMG)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Study of Methods for  Negative Relevance Feedback&lt;/span&gt;&lt;br /&gt;&lt;span lang="EN-US"&gt;&lt;em&gt; X. Wang, H. Fang, and C. Zhai  (University  of Illinois at Urbana-Champaign/The Ohio State   University)&lt;/em&gt;&lt;/span&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;An Unsupervised Framework  for Extracting and Normalizing Product Attributes from Multiple Web Sites&lt;/span&gt;&lt;br /&gt;&lt;em&gt;T.L. Wong, W. Lam and T.S.  Wong  (The Chinese University of Hong  Kong)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Automatically Identifying  Localizable Queries&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Welch and J.J. Cho  (UCLA)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Bilingual Topic Aspect  Classification with A Few Training Examples&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Wu and D. Oard  (University of Maryland)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Discriminative  Probabilistic Models for Passage Based Retrieval&lt;/span&gt;&lt;br /&gt;&lt;em&gt;M. Wang and L. Si  (Purdue University/Stanford University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Enhancing Web Search by  Promoting Multiple Search Engine Use&lt;/span&gt;&lt;br /&gt;&lt;em&gt;R. White, M. Richardson, M.  Bilenko and A. Heath  (Microsoft  Research)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Exploring Traversal  Strategy for Web Forum Crawling&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Y. Wang, J. M. Yang, W. Lai,  R. Cai, L. Zhang and W. Y. Ma   (Chinese  Academy of Science/Microsft Research Asia)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning to Reduce the  Semantic Gap in Web Image Retrieval and Annotation&lt;/span&gt;&lt;br /&gt;&lt;em&gt;C. Wang, L. Zhang and H.J.  Zhang  (Microsoft Research  Asia/University of Science and Technology of China)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Multi-Document  Summarization Using Cluster-Based Link Analysis&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Wan and J. Yang (Peking  University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Multi-Document  Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix  Factorization&lt;/span&gt;&lt;br /&gt;&lt;em&gt;D. Wang, T. Li, S. Zhu and  C. Ding  (Florida International  University/NEC Labs. America, Inc/University of Texas at Arlington)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Query-Sensitive Mutual  Reinforcement Chain and Its Application in Query-Oriented Multi-Document  Summarization&lt;/span&gt;&lt;br /&gt;&lt;em&gt;F. Wei, W. Li, Q. Lu and Y.  He  (The Hong Kong Polytechnic  University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Score Standardization for  Inter-Collection Comparison of Retrieval Systems&lt;/span&gt;&lt;br /&gt;&lt;em&gt;W. Webber, A. Moffat and J.  Zobel  (University of Melbourne)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Bayesian Logistic  Regression Model for Active Relevance Feedback&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Z. Xu and R. Akella  (University of California, Santa Cruz)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A New Probabilistic  Retrieval Model Based on the DirichletCompound Multinomial Distribution&lt;/span&gt;&lt;br /&gt;&lt;em&gt;Z. Xu and R. Akella  (University of California, Santa Cruz)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Deep Classification in  Large-scale Text Hierarchies&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G.R. Xue, D. Xing, Q. Yang  and Y. Yu  (Hong Kong Science &amp;amp;  Technology University/Shanghai Jiao-Tong University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Exploring Folksonomy for  Personalized Search&lt;/span&gt;&lt;br /&gt;&lt;em&gt;S. Xu, S. Bao, B. Fei, Z.  Su and Y. Yu  (IBM China Research  Lab/Shanghai Jiao Tong University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Retrieval Models for  Question and Answer Archives&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Xue, J. Jeon and B.  Croft  (University of Massachusetts  Amherst/Google, Inc.)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Topic-bridged PLSA for  Cross-Domain Text Classification&lt;/span&gt;&lt;br /&gt;&lt;em&gt;G.R. Xue, W. Dai, Q. Yang  and Y. Yu  (Hong Kong Science &amp;amp;  Technology University/Shanghai Jiao-Tong University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A New Rank Correlation Coefficient  for Information Retrieval&lt;/span&gt;&lt;br /&gt;&lt;em&gt;E. Yilmaz, J. Aslam and S.  Robertson  (Microsoft  Research/Northeastern University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Simple and Efficient  Sampling Method for Estimating AP and NDCG&lt;/span&gt;&lt;br /&gt;&lt;em&gt;E. Yilmaz, E. Kanoulas and  J. Aslam  (Northeastern University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Non-greedy Active Learning  for Text Categorization using Convex Transductive Experimental Design&lt;/span&gt;&lt;br /&gt;&lt;em&gt;K. Yu, S. Zhu, W. Xu and Y.  Gong  (NEC Labs America)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;A Comparative Evaluation of  Different Link Types on Enhancing Document Clustering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;X. Zhang, X. Hu and X.  Zhou  (Drexel University)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Exploiting Correlated  Keywords to Improve Approximate Information Filtering&lt;/span&gt;&lt;br /&gt;&lt;em&gt;C. Zimmer, C. Tryfonopoulos  and G. Weikum  (Max-Planck-Institute for  Informatics/Max-Planck Institute for Computer Science)&lt;/em&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-weight: bold;"&gt;Learning to Rank with Ties&lt;/span&gt;&lt;br /&gt;&lt;em&gt;K. Zhou, G.R. Xue, H. Zha  and Y. Yu  (Georgia Tech/Shanghai  Jiao-Tong University)&lt;/em&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-5189796823742994890?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/5189796823742994890/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=5189796823742994890' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5189796823742994890'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/5189796823742994890'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/06/sigir-2008-accepted-papers.html' title='SIGIR 2008 Accepted Papers'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-2012445424931068342</id><published>2008-06-25T20:08:00.000+08:00</published><updated>2008-06-25T20:13:44.099+08:00</updated><title type='text'>2008 美国最好大学排行榜</title><content type='html'>&lt;span style="font-size:100%;"&gt;最近从网上看到的，不一定准确，只做参考。&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style="font-family:Arial;font-size:100%;"&gt;&lt;strong&gt;&lt;/strong&gt;&lt;span style="font-family:Arial;"&gt;&lt;strong&gt;&lt;span style="color: rgb(0, 0, 255);"&gt;一、最好的117所综合性大学排名&lt;/span&gt;&lt;br /&gt;&lt;/strong&gt;          &lt;/span&gt;&lt;span style="font-family:Arial;"&gt;                  &lt;/span&gt;&lt;/span&gt; &lt;p align="left"&gt;&lt;span style="font-family:Arial;font-size:100%;"&gt;&lt;span style=";font-family:Arial;" &gt;1　Princeton University 普林斯顿大学&lt;br /&gt;                 2　Harvard University 哈佛大学&lt;br /&gt;                 3　Yale University耶鲁大学&lt;br /&gt;                 4　Stanford University斯坦福大学&lt;br /&gt;                 5　University of Pennsylvania宾夕法尼亚大学&lt;br /&gt;                 5　California Institute of Technology加州理工学院&lt;br /&gt;                 7　Massachusetts Institute of Technology麻省理工学院&lt;br /&gt;                 8　Duke University杜克大学&lt;br /&gt;                 9　Columbia University哥伦比亚大学&lt;br /&gt;                 9　University of Chicago芝加哥大学&lt;br /&gt;                 11　Dartmouth College达特茅斯学院&lt;br /&gt;                 12　Washington University in St. Louis华盛顿大学-圣路易斯&lt;br /&gt;                 12　Cornell University康奈尔大学&lt;br /&gt;                 14　Brown University布朗大学&lt;br /&gt;                 14　Northwestern University西北大学&lt;br /&gt;                 14　Johns Hopkins University约翰霍普金斯大学&lt;br /&gt;                 17　Rice University莱斯大学&lt;br /&gt;                 17　Emory University埃默里大学&lt;br /&gt;                 19　Vanderbilt University范德堡大学&lt;br /&gt;                 19　University of Notre Dame圣母大学&lt;br /&gt;                 21　University of California-Berkeley加州大学伯克利分校&lt;br /&gt;                 22　Carnegie Mellon University卡内基梅隆大学&lt;br /&gt;                 23　University of Virginia弗吉尼亚大学&lt;br /&gt;                 23　Georgetown University乔治敦大学&lt;br /&gt;                 25　University of California-Los Angeles加州大学洛杉矶分校&lt;br /&gt;                 25　University of Michigan-Ann Arbor密歇根大学&lt;br /&gt;                 27　University of Southern California南加州大学&lt;br /&gt;                 28　University of North Carolina-Chapel Hill北卡罗莱纳大学&lt;br /&gt;                 28　Tufts University塔夫茨大学&lt;br /&gt;                 30　Wake Forest University维克森林大学&lt;br /&gt;                 31　Lehigh University里海大学&lt;br /&gt;                 31　Brandeis University布兰迪斯大学&lt;br /&gt;                 33　College of William and Mary威廉玛利学院&lt;br /&gt;                 34　New York University纽约大学&lt;br /&gt;                 35　University of Rochester罗切斯特大学&lt;br /&gt;                 35　Georgia Institute of Technology乔治亚理工学院&lt;br /&gt;                 35　Boston College波士顿学院&lt;br /&gt;                 38　University of Wisconsin-Madison威斯康星大学麦迪逊分校&lt;br /&gt;                 38　University of California-San Diego加州大学圣地亚哥分校&lt;br /&gt;                 38　University of Illinois, Urbana-Champaign伊利诺伊大学香槟分校&lt;br /&gt;                 41　Case Western Reserve University西储大学&lt;br /&gt;                 42　University of Washington华盛顿大学-西雅图&lt;br /&gt;                 42　University of California-Davis加州大学戴维斯分校&lt;br /&gt;                 44　Rensselaer Polytechnic Institute伦斯勒理工学院&lt;br /&gt;                 44　University of Texas-Austin德克萨斯大学奥斯汀分校&lt;br /&gt;                 44　University of California-Santa Barbara加州大学圣塔芭芭拉分校&lt;br /&gt;                 44　University of California-Irvine加州大学尔湾分校&lt;br /&gt;                 48　Pennsylvania State University-Univ. Park宾夕法尼亚州立大学&lt;br /&gt;                 49　University of Florida佛罗里达大学&lt;br /&gt;                 50　Syracuse University雪城大学&lt;br /&gt;                 50　Tulane University杜兰大学&lt;br /&gt;                 52　Yeshiva University犹太大学&lt;br /&gt;                 52　University of Miami迈阿密大学(佛罗里达)&lt;br /&gt;                 54　Pepperdine University佩波戴恩大学&lt;br /&gt;                 54　George Washington University乔治华盛顿大学&lt;br /&gt;                 54　University of Maryland-College Park马里兰大学&lt;br /&gt;                 57　Ohio State University-Columbus俄亥俄州立大学&lt;br /&gt;                 57　Boston University波士顿大学&lt;br /&gt;                 59　Rutgers, the State University of New Jersey—New&lt;br /&gt;                 　　Brunswick新泽西州立罗格斯大学新伯朗士威分校&lt;br /&gt;                 59　University of Pittsburgh匹兹堡大学&lt;br /&gt;                 59　University of Georgia乔治亚大学&lt;br /&gt;                 62　Texas A&amp;amp;M University-College Station德州农工大学&lt;br /&gt;                 62　Worcester Polytechnic Institute伍斯特理工学院&lt;br /&gt;                 64　University of Connecticut康涅狄格大学&lt;br /&gt;                 64　Purdue University-West Lafayette普渡大学-西拉法叶&lt;br /&gt;                 64　University of Iowa爱荷华大学&lt;br /&gt;                 67　Fordham University福德汉姆大学&lt;br /&gt;                 67　Miami University-Oxford迈阿密大学-牛津&lt;br /&gt;                 67　Clemson University克莱姆森大学&lt;br /&gt;                 67　Southern Methodist University南卫理公会大学&lt;br /&gt;                 71　University of Minnesota-Twin Cities明尼苏达大学-双城&lt;br /&gt;                 71　Virginia Tech弗吉尼亚理工大学&lt;br /&gt;                 71　University of Delaware特拉华大学&lt;br /&gt;                 71　Michigan State University密歇根州立大学&lt;br /&gt;                 75　Stevens Institute of Technology斯蒂文斯理工学院&lt;br /&gt;                 75　Baylor University贝勒大学&lt;br /&gt;                 75　Colorado School of Mines科罗拉多矿业学院&lt;br /&gt;                 75　Indiana University-Bloomington印地安那大学伯明顿分校&lt;br /&gt;                 79　Brigham Young University-Provo杨百翰大学&lt;br /&gt;                 79　University of California-Santa Cruz加州大学圣塔克鲁斯分校&lt;br /&gt;                 79　University of Colorado-Boulder科罗拉多大学&lt;br /&gt;                 82　St. Louis University圣路易斯大学&lt;br /&gt;                 82　SUNY-Binghamton纽约州立大学宾厄姆顿分校&lt;br /&gt;                 82　Marquette University马凯特大学&lt;br /&gt;                 85　SUNY College of Environmental Sci. &amp;amp;&lt;br /&gt;                　　 Forestry纽约州立大学环境科学与林业科学学院&lt;br /&gt;                 85　North Carolina State University-Raleigh北卡罗来纳州立大学&lt;br /&gt;                 85　University of Denver丹佛大学&lt;br /&gt;                 85　American University美国大学&lt;br /&gt;                 85　Iowa State University爱荷华州立大学&lt;br /&gt;                 85　University of Kansas堪萨斯大学&lt;br /&gt;                 91　University of Alabama阿拉巴马大学&lt;br /&gt;                 91　University of Missouri-Columbia密苏里大学哥伦比亚分校&lt;br /&gt;                 91　University of Nebraska-Lincoln内布拉斯加大学林肯分校&lt;br /&gt;                 91　University of Tulsa塔尔萨大学&lt;br /&gt;                 91　Clark University克拉克大学&lt;br /&gt;                 96　Auburn University奥本大学&lt;br /&gt;                 96　SUNY-Stony Brook纽约州立大学石溪分校&lt;br /&gt;                 96　University of Tennessee田纳西大学&lt;br /&gt;                 96　University of Vermont佛蒙特大学&lt;br /&gt;                 96　University of Arizona亚利桑那大学&lt;br /&gt;                 96　University of the Pacific太平洋大学&lt;br /&gt;                 96　University of California-Riverside加州大学河滨分校&lt;br /&gt;                 96　Howard University霍华德大学&lt;br /&gt;                 96　Illinois Institute of Technology伊利诺伊理工学院&lt;br /&gt;                 96　Northeastern University东北大学&lt;br /&gt;                 96　University of Massachusetts-Amherst马萨诸塞大学安姆斯特分校&lt;br /&gt;                 107　University of San Diego圣地亚哥大学&lt;br /&gt;                 108　University of New Hampshire新罕布什尔大学&lt;br /&gt;                 108　Texas Christian University德克萨斯基督教大学&lt;br /&gt;                 108　Drexel University德雷塞尔大学&lt;br /&gt;                 108　University of Oklahoma俄克拉荷马大学&lt;br /&gt;                 112　University of South Carolina-Columbia南卡罗来纳大学哥伦比亚分校&lt;br /&gt;                 112　University of Oregon俄勒冈大学&lt;br /&gt;                 112　Loyola University Chicago芝加哥洛约拉大学&lt;br /&gt;                 112　University of Dayton戴顿大学&lt;br /&gt;                 112　Florida State University佛罗里达州立大学&lt;br /&gt;                 112　Ohio University俄亥俄大学&lt;br /&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt; &lt;p align="left"&gt;&lt;span style="font-family:Arial;font-size:100%;"&gt;&lt;span style=";font-family:Arial;" &gt;           &lt;strong&gt;&lt;span style="color: rgb(0, 0, 255);"&gt;二、最好的50所文理学院排名&lt;/span&gt;&lt;/strong&gt;&lt;br /&gt;                 &lt;/span&gt;&lt;/span&gt;&lt;/p&gt; &lt;p&gt;&lt;span style=";font-family:Arial;font-size:100%;"  &gt;                  1　Williams College威廉姆斯学院&lt;br /&gt;                 2　Amherst College安姆斯特学院&lt;br /&gt;                 3　Swarthmore College斯沃斯莫尔学院&lt;br /&gt;                 4　Wellesley College卫尔斯利学院(女校)&lt;br /&gt;                 5　Carleton College卡尔顿学院&lt;br /&gt;                 5　Middlebury College明德学院&lt;br /&gt;                 7　Pomona College波莫纳学院&lt;br /&gt;                 7　Bowdoin College鲍登学院&lt;br /&gt;                 9　Davidson College戴维森学院&lt;br /&gt;                 10　Haverford College哈弗福德学院&lt;br /&gt;                 11　Claremont McKenna College克莱蒙特·麦肯纳学院&lt;br /&gt;                 11　Wesleyan University卫斯理大学&lt;br /&gt;                 11　Grinnell College格林内尔学院&lt;br /&gt;                 11　Vassar College瓦萨尔学院&lt;br /&gt;                 15　Harvey Mudd College哈维马地学院&lt;br /&gt;                 15　Washington and Lee University华盛顿与李大学&lt;br /&gt;                 17　Smith College史密斯学院(女校)&lt;br /&gt;                 17　Hamilton College汉密尔顿学院&lt;br /&gt;                 17　Colgate University科尔盖特大学&lt;br /&gt;                 20　Oberlin College奥伯林学院&lt;br /&gt;                 22　Colby College科尔比学院&lt;br /&gt;                 24　Bates College贝茨学院&lt;br /&gt;                 24　Bryn Mawr College布尔茅尔学院(女校)&lt;br /&gt;                 26　Colorado College科罗拉多学院&lt;br /&gt;                 26　Macalester College麦卡利斯特学院&lt;br /&gt;                 28　Scripps College斯克利普斯学院(女校)&lt;br /&gt;                 28　Mount Holyoke College霍山学院(女校)&lt;br /&gt;                 30　Barnard College巴纳德学院(女校)&lt;br /&gt;                 30　Bucknell University巴克内尔大学&lt;br /&gt;                 32　Kenyon College凯尼恩学院&lt;br /&gt;                 33　College of the Holy Cross圣十字学院&lt;br /&gt;                 34　Trinity College圣三一学院&lt;br /&gt;                 34　Lafayette College拉法叶学院&lt;br /&gt;                 36　Occidental College西方学院&lt;br /&gt;                 37　Bard College巴德学院&lt;br /&gt;                 37　Furman University傅尔曼大学&lt;br /&gt;                 37　Whitman College惠特曼学院&lt;br /&gt;                 40　Union College联合学院&lt;br /&gt;                 40　Franklin and Marshall College富兰克林马绍尔学院&lt;br /&gt;                 40　Sewanee-University of the South西沃恩南方大学&lt;br /&gt;                 40　University of Richmond瑞奇蒙大学&lt;br /&gt;                 44　Connecticut College康涅狄格学院&lt;br /&gt;                 44　Centre College森特学院&lt;br /&gt;                 44　Dickinson College迪金森学院&lt;br /&gt;                 47　Skidmore College斯基德莫尔大学&lt;br /&gt;                 48　Gettysburg College盖茨堡学院&lt;br /&gt;                 49　Pitzer College匹泽学院&lt;br /&gt;                 49　DePauw University迪堡大学&lt;br /&gt;                 49　Rhodes College罗德学院&lt;/span&gt;&lt;/p&gt; &lt;p&gt;&lt;span style=";font-family:Arial;font-size:100%;"  &gt;           　　&lt;strong&gt;&lt;br /&gt;&lt;span style="color: rgb(0, 0, 255);"&gt;三、最好的47所大学的本科商科管理专业排名&lt;/span&gt;&lt;br /&gt;&lt;/strong&gt;                &lt;/span&gt;&lt;/p&gt; &lt;p&gt;&lt;span style="font-family:Arial;font-size:100%;"&gt;                  1　University of Pennsylvania宾夕法尼亚大学&lt;br /&gt;                 2　Massachusetts Institute of Technology麻省理工学院&lt;br /&gt;                 3　University of California-Berkeley加州大学伯克利分校&lt;br /&gt;                 3　University of Michigan-Ann Arbor密歇根大学&lt;br /&gt;                 5　New York University纽约大学&lt;br /&gt;                 5　University of North Carolina-Chapel Hill北卡罗莱纳大学&lt;br /&gt;                 7　Carnegie Mellon University卡内基梅隆大学&lt;br /&gt;                 7University of Texas-Austin德克萨斯大学奥斯汀分校&lt;br /&gt;                 9　University of Southern California南加州大学&lt;br /&gt;                 9　University of Virginia弗吉尼亚大学&lt;br /&gt;                 11　Indiana University-Bloomington印地安那大学伯明顿分校&lt;br /&gt;                 12　Cornell University康奈尔大学&lt;br /&gt;                 12　Emory University埃默里大学&lt;br /&gt;                 12　Ohio State University-Columbus俄亥俄州立大学&lt;br /&gt;                 12　University of Illinois, Urbana-Champaign伊利诺伊大学香槟分校&lt;br /&gt;                 12　University of Wisconsin-Madison威斯康星大学麦迪逊分校&lt;br /&gt;                 12　Washington University in St. Louis华盛顿大学-圣路易斯&lt;br /&gt;                 18　Pennsylvania State University-Univ. Park宾夕法尼亚州立大学&lt;br /&gt;                 18　University of Minnesota-Twin Cities明尼苏达大学-双城&lt;br /&gt;                 18　University of Notre Dame圣母大学&lt;br /&gt;                 21　Georgetown University乔治敦大学&lt;br /&gt;                 21　Purdue University-West Lafayette普渡大学-西拉法叶&lt;br /&gt;                 21　University of Arizona亚利桑那大学&lt;br /&gt;                 21　University of Maryland-College Park马里兰大学&lt;br /&gt;                 25　Arizona State University亚利桑那州立大学&lt;br /&gt;                 25　University of Washington华盛顿大学-西雅图&lt;br /&gt;                 27　Babson College巴布森学院&lt;br /&gt;                 27　Boston College波士顿学院&lt;br /&gt;                 27　Michigan State University密歇根州立大学&lt;br /&gt;                 27　University of Florida佛罗里达大学&lt;br /&gt;                 27　University of Georgia乔治亚大学&lt;br /&gt;                 27　Wake Forest University维克森林大学&lt;br /&gt;                 33　Case Western Reserve University西储大学&lt;br /&gt;                 33　Georgia Institute of Technology乔治亚理工学院&lt;br /&gt;                 33　Southern Methodist University南卫理公会大学&lt;br /&gt;                 33　Texas A&amp;amp;M University-College Station德州农工大学&lt;br /&gt;                 33　University of Iowa爱荷华大学&lt;br /&gt;                 38　Boston University波士顿大学&lt;br /&gt;                 38　Brigham Young University-Provo杨百翰大学&lt;br /&gt;                 38　University of Pittsburgh匹兹堡大学&lt;br /&gt;                 41　CUNY-Baruch College纽约市立大学&lt;br /&gt;                 41　George Washington University乔治华盛顿大学&lt;br /&gt;                 41　Syracuse University雪城大学&lt;br /&gt;                 41　University of Arkansas阿肯色大学&lt;br /&gt;                 41　University of Colorado-Boulder科罗拉多大学&lt;br /&gt;                 41　University of South Carolina-Columbia南卡罗来纳大学哥伦比亚分校&lt;br /&gt;                 41　Virginia Tech弗吉尼亚理工大学&lt;/span&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/2968860058225780941-2012445424931068342?l=su-sui.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://su-sui.blogspot.com/feeds/2012445424931068342/comments/default' title='帖子评论'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=2968860058225780941&amp;postID=2012445424931068342' title='0 条评论'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2012445424931068342'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/2968860058225780941/posts/default/2012445424931068342'/><link rel='alternate' type='text/html' href='http://su-sui.blogspot.com/2008/06/2008.html' title='2008 美国最好大学排行榜'/><author><name>苏绥</name><uri>http://www.blogger.com/profile/07862966103420919477</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='32' height='24' src='http://1.bp.blogspot.com/_9-hI14wYsok/SMjM-tawDAI/AAAAAAAAAaI/iAtVKCcBRDk/S220/DSCN3289.JPG'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-2968860058225780941.post-7541604875602195502</id><published>2008-06-25T12:47:00.001+08:00</published><updated>2008-06-29T00:45:17.241+08:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='SIGIR'/><title type='text'>SIGIR 2006 Accepted Papers</title><content type='html'>&lt;span style="font-weight: bold;"&gt;The 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, WA, USA&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Accepted Papers&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;a name="2006" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/e/Efthimiadis:Efthimis_N=.html"&gt;Efthimis N. Efthimiadis&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dumais:Susan_T=.html"&gt;Susan T. Dumais&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hawking:David.html"&gt;David Hawking&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/j/J=auml=rvelin:Kalervo.html"&gt;Kalervo Järvelin&lt;/a&gt; (Eds.): SIGIR 2006: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington, USA, August 6-11, 2006. ACM 2006, ISBN 1-59593-369-7 &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/2006"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;   &lt;ul&gt;&lt;li&gt;&lt;a name="Rijsbergen06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Rijsbergen:C=_J=_van.html"&gt;C. J. van Rijsbergen&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Quantum haystacks. &lt;/b&gt;1-2&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148171"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Rijsbergen06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;User behavior and modeling&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="AgichteinBDR06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Agichtein:Eugene.html"&gt;Eugene Agichtein&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Brill:Eric.html"&gt;Eric Brill&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dumais:Susan_T=.html"&gt;Susan T. Dumais&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Ragno:Robert.html"&gt;Robert Ragno&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Learning user interaction models for predicting web search result preferences. &lt;/b&gt;3-10&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148175"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/AgichteinBDR06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="TurpinS06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Turpin:Andrew.html"&gt;Andrew Turpin&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Scholer:Falk.html"&gt;Falk Scholer&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;User performance versus precision measures for simple search tasks. &lt;/b&gt;11-18&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148176"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/TurpinS06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="AgichteinBD06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Agichtein:Eugene.html"&gt;Eugene Agichtein&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Brill:Eric.html"&gt;Eric Brill&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dumais:Susan_T=.html"&gt;Susan T. Dumais&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Improving web search ranking by incorporating user behavior information. &lt;/b&gt;19-26&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148177"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/AgichteinBD06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Handling messages and finding experts&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="MinkovCN06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Minkov:Einat.html"&gt;Einat Minkov&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cohen:William_W=.html"&gt;William W. Cohen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/n/Ng:Andrew_Y=.html"&gt;Andrew Y. Ng&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Contextual search and name disambiguation in email using graphs. &lt;/b&gt;27-34&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148179"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/MinkovCN06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="ShenYSC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Shen:Dou.html"&gt;Dou Shen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/y/Yang:Qiang.html"&gt;Qiang Yang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sun:Jian=Tao.html"&gt;Jian-Tao Sun&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chen:Zheng.html"&gt;Zheng Chen&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Thread detection in dynamic text message streams. &lt;/b&gt;35-42&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148180"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ShenYSC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="BalogAR06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Balog:Krisztian.html"&gt;Krisztian Balog&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Azzopardi:Leif.html"&gt;Leif Azzopardi&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Rijke:Maarten_de.html"&gt;Maarten de Rijke&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Formal models for expert finding in enterprise corpora. &lt;/b&gt;43-50&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148181"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/BalogAR06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Speech and music&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="MamouCH06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Mamou:Jonathan.html"&gt;Jonathan Mamou&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Carmel:David.html"&gt;David Carmel&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hoory:Ron.html"&gt;Ron Hoory&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Spoken document retrieval from call-center conversations. &lt;/b&gt;51-58&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148183"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/MamouCH06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="ShenCST06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Shen:Jialie.html"&gt;Jialie Shen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cui:Bin.html"&gt;Bin Cui&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Shepherd:John.html"&gt;John Shepherd&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Tan:Kian=Lee.html"&gt;Kian-Lee Tan&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Towards efficient automated singer identification in large music databases. &lt;/b&gt;59-66&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148184"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ShenCST06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="MaddageLK06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Maddage:Namunu_Chinthaka.html"&gt;Namunu Chinthaka Maddage&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Li:Haizhou.html"&gt;Haizhou Li&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Kankanhalli:Mohan_S=.html"&gt;Mohan S. Kankanhalli&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Music structure based vector space retrieval. &lt;/b&gt;67-74&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148185"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/MaddageLK06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Web 1 - exploiting graph structure&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="FengLWBMZM06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/f/Feng:Guang.html"&gt;Guang Feng&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Liu:Tie=Yan.html"&gt;Tie-Yan Liu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wang:Ying.html"&gt;Ying Wang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Bao:Ying.html"&gt;Ying Bao&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Ma:Zhiming.html"&gt;Zhiming Ma&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhang:Xu=Dong.html"&gt;Xu-Dong Zhang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Ma:Wei=Ying.html"&gt;Wei-Ying Ma&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;AggregateRank: bringing order to web sites. &lt;/b&gt;75-82&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148187"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/FengLWBMZM06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="KurlandL06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Kurland:Oren.html"&gt;Oren Kurland&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lee:Lillian.html"&gt;Lillian Lee&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Respect my authority!: HITS without hyperlinks, utilizing cluster-based language models. &lt;/b&gt;83-90&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148188"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/KurlandL06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="NieDQ06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/n/Nie:Lan.html"&gt;Lan Nie&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Davison:Brian_D=.html"&gt;Brian D. Davison&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/q/Qi:Xiaoguang.html"&gt;Xiaoguang Qi&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Topical link analysis for web search. &lt;/b&gt;91-98&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148189"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/NieDQ06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Semantics&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="LinD06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lin:Jimmy_J=.html"&gt;Jimmy J. Lin&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Demner=Fushman:Dina.html"&gt;Dina Demner-Fushman&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;The role of knowledge in conceptual retrieval: a study in the domain of clinical medicine. &lt;/b&gt;99-106&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148191"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/LinD06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="RollekeW06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/R=ouml=lleke:Thomas.html"&gt;Thomas Rölleke&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wang:Jun.html"&gt;Jun Wang&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;A parallel derivation of probabilistic information retrieval models. &lt;/b&gt;107-114&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148192"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/RollekeW06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="FangZ06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/f/Fang:Hui.html"&gt;Hui Fang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhai:ChengXiang.html"&gt;ChengXiang Zhai&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Semantic term matching in axiomatic approaches to information retrieval. &lt;/b&gt;115-122&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148193"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/FangZ06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Fusion and spam&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="LynamCC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lynam:Thomas_R=.html"&gt;Thomas R. Lynam&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cormack:Gordon_V=.html"&gt;Gordon V. Cormack&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cheriton:David_R=.html"&gt;David R. Cheriton&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;On-line spam filter fusion. &lt;/b&gt;123-130&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148195"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/LynamCC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="ShenSYC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Shen:Dou.html"&gt;Dou Shen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sun:Jian=Tao.html"&gt;Jian-Tao Sun&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/y/Yang:Qiang.html"&gt;Qiang Yang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chen:Zheng.html"&gt;Zheng Chen&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Building bridges for web query classification. &lt;/b&gt;131-138&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148196"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ShenSYC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="LillisTCD06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lillis:David.html"&gt;David Lillis&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Toolan:Fergus.html"&gt;Fergus Toolan&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Collier:Rem_W=.html"&gt;Rem W. Collier&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dunnion:John.html"&gt;John Dunnion&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;ProbFuse: a probabilistic approach to data fusion. &lt;/b&gt;139-146&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148197"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/LillisTCD06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Relevance feedback&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="VassilvitskiiB06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/v/Vassilvitskii:Sergei.html"&gt;Sergei Vassilvitskii&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Brill:Eric.html"&gt;Eric Brill&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Using web-graph distance for relevance feedback in web search. &lt;/b&gt;147-153&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148199"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/VassilvitskiiB06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="DiazM06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Diaz:Fernando.html"&gt;Fernando Diaz&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Metzler:Donald.html"&gt;Donald Metzler&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Improving the estimation of relevance models using large external corpora. &lt;/b&gt;154-161&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148200"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/DiazM06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="TaoZ06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Tao:Tao.html"&gt;Tao Tao&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhai:ChengXiang.html"&gt;ChengXiang Zhai&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Regularized estimation of mixture models for robust pseudo-relevance feedback. &lt;/b&gt;162-169&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148201"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/TaoZ06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Formal models&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="ZhouHZLS06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhou:Xiaohua.html"&gt;Xiaohua Zhou&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hu:Xiaohua.html"&gt;Xiaohua Hu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhang:Xiaodan.html"&gt;Xiaodan Zhang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lin:Xia.html"&gt;Xia Lin&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Song:Il=Yeol.html"&gt;Il-Yeol Song&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Context-sensitive semantic smoothing for the language modeling approach to genomic IR. &lt;/b&gt;170-177&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148203"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ZhouHZLS06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="WeiC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wei:Xing.html"&gt;Xing Wei&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Croft:W=_Bruce.html"&gt;W. Bruce Croft&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;LDA-based document models for ad-hoc retrieval. &lt;/b&gt;178-185&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148204"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/WeiC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="CaoXLLHH06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cao:Yunbo.html"&gt;Yunbo Cao&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/x/Xu:Jun.html"&gt;Jun Xu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Liu:Tie=Yan.html"&gt;Tie-Yan Liu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Li:Hang.html"&gt;Hang Li&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Huang:Yalou.html"&gt;Yalou Huang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hon:Hsiao=Wuen.html"&gt;Hsiao-Wuen Hon&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Adapting ranking SVM to document retrieval. &lt;/b&gt;186-193&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148205"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/CaoXLLHH06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Cross language&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="GaoN06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/g/Gao:Jianfeng.html"&gt;Jianfeng Gao&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/n/Nie:Jian=Yun.html"&gt;Jian-Yun Nie&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;A study of statistical models for query translation: finding a good unit of translation. &lt;/b&gt;194-201&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148207"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/GaoN06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="WangO06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wang:Jianqiang.html"&gt;Jianqiang Wang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/o/Oard:Douglas_W=.html"&gt;Douglas W. Oard&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Combining bidirectional translation and synonymy for cross-language information retrieval. &lt;/b&gt;202-209&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148208"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/WangO06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Kleinberg06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Kleinberg:Jon_M=.html"&gt;Jon M. Kleinberg&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Social networks, incentives, and search. &lt;/b&gt;210-211&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148172"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Kleinberg06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Question and answering&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="HanSR06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Han:Kyoung=Soo.html"&gt;Kyoung-Soo Han&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Song:Young=In.html"&gt;Young-In Song&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Rim:Hae=Chang.html"&gt;Hae-Chang Rim&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Probabilistic model for definitional question answering. &lt;/b&gt;212-219&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148210"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/HanSR06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="HarabagiuLH06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Harabagiu:Sanda_M=.html"&gt;Sanda M. Harabagiu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lacatusu:V=_Finley.html"&gt;V. Finley Lacatusu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hickl:Andrew.html"&gt;Andrew Hickl&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Answering complex questions with random walk models. &lt;/b&gt;220-227&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148211"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/HarabagiuLH06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="JeonCLP06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/j/Jeon:Jiwoon.html"&gt;Jiwoon Jeon&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Croft:W=_Bruce.html"&gt;W. Bruce Croft&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lee:Joon_Ho.html"&gt;Joon Ho Lee&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/p/Park:Soyeon.html"&gt;Soyeon Park&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;A framework to predict the quality of answers with non-textual features. &lt;/b&gt;228-235&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148212"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/JeonCLP06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Machine learning&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="WangSCZ06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wang:Xuanhui.html"&gt;Xuanhui Wang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sun:Jian=Tao.html"&gt;Jian-Tao Sun&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chen:Zheng.html"&gt;Zheng Chen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zhai:ChengXiang.html"&gt;ChengXiang Zhai&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Latent semantic analysis for multiple-type interrelated data objects. &lt;/b&gt;236-243&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148214"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/WangSCZ06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="JindalL06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/j/Jindal:Nitin.html"&gt;Nitin Jindal&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Liu:Bing.html"&gt;Bing Liu&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Identifying comparative sentences in text documents. &lt;/b&gt;244-251&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148215"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/JindalL06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Forman06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/f/Forman:George.html"&gt;George Forman&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Tackling concept drift by temporal inductive transfer. &lt;/b&gt;252-259&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148216"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Forman06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Evaluation 1 - user models and test collections&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="PiwowarskiD06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/p/Piwowarski:Benjamin.html"&gt;Benjamin Piwowarski&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dupret:Georges.html"&gt;Georges Dupret&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Evaluation in (XML) information retrieval: expected precision-recall with user modelling (EPRUM). &lt;/b&gt;260-267&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148218"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/PiwowarskiD06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="CarteretteAS06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Carterette:Ben.html"&gt;Ben Carterette&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Allan:James.html"&gt;James Allan&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sitaraman:Ramesh_K=.html"&gt;Ramesh K. Sitaraman&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Minimal test collections for retrieval evaluation. &lt;/b&gt;268-275&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148219"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/CarteretteAS06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Soboroff06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Soboroff:Ian.html"&gt;Ian Soboroff&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Dynamic test collections: measuring search effectiveness on the live web. &lt;/b&gt;276-283&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148220"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Soboroff06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Web 2&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="Henzinger06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Henzinger:Monika_Rauch.html"&gt;Monika Rauch Henzinger&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Finding near-duplicate web pages: a large-scale evaluation of algorithms. &lt;/b&gt;284-291&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148222"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Henzinger06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="VidalSMC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/v/Vidal:M=aacute=rcio_L=_A=.html"&gt;Márcio L. A. Vidal&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Silva:Altigran_Soares_da.html"&gt;Altigran Soares da Silva&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Moura:Edleno_Silva_de.html"&gt;Edleno Silva de Moura&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cavalcanti:Jo=atilde=o_M=_B=.html"&gt;João M. B. Cavalcanti&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Structure-driven crawler generation by example. &lt;/b&gt;292-299&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148223"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/VidalSMC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="XuM06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/x/Xu:Gu.html"&gt;Gu Xu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Ma:Wei=Ying.html"&gt;Wei-Ying Ma&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Building implicit links from content for forum search. &lt;/b&gt;300-307&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148224"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/XuM06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Baeza-YatesBC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Baeza=Yates:Ricardo_A=.html"&gt;Ricardo A. Baeza-Yates&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Boldi:Paolo.html"&gt;Paolo Boldi&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Castillo:Carlos.html"&gt;Carlos Castillo&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Generalizing PageRank: damping functions for link-based ranking algorithms. &lt;/b&gt;308-315&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148225"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Baeza-YatesBC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Distributed IR&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="ShokouhiZST06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Shokouhi:Milad.html"&gt;Milad Shokouhi&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zobel:Justin.html"&gt;Justin Zobel&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Scholer:Falk.html"&gt;Falk Scholer&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Tahaghoghi:Seyed_M=_M=.html"&gt;Seyed M. M. Tahaghoghi&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Capturing collection size for distributed non-cooperative retrieval. &lt;/b&gt;316-323&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148227"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ShokouhiZST06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="YanH06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/y/Yan:Rong.html"&gt;Rong Yan&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Hauptmann:Alexander_G=.html"&gt;Alexander G. Hauptmann&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Probabilistic latent query analysis for combining multiple retrieval sources. &lt;/b&gt;324-331&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148228"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/YanH06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="LuC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lu:Jie.html"&gt;Jie Lu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Callan:James_P=.html"&gt;James P. Callan&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;User modeling for full-text federated search in peer-to-peer networks. &lt;/b&gt;332-339&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148229"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/LuC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="CaverleeLB06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Caverlee:James.html"&gt;James Caverlee&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Liu:Ling.html"&gt;Ling Liu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Bae:Joonsoo.html"&gt;Joonsoo Bae&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Distributed query sampling: a quality-conscious approach. &lt;/b&gt;340-347&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148230"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/CaverleeLB06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Efficiency&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="MoffatWZ06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Moffat:Alistair.html"&gt;Alistair Moffat&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Webber:William.html"&gt;William Webber&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/z/Zobel:Justin.html"&gt;Justin Zobel&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Load balancing for term-distributed parallel retrieval. &lt;/b&gt;348-355&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148232"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/MoffatWZ06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="ButtcherCL06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/B=uuml=ttcher:Stefan.html"&gt;Stefan Büttcher&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Clarke:Charles_L=_A=.html"&gt;Charles L. A. Clarke&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lushman:Brad.html"&gt;Brad Lushman&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Hybrid index maintenance for growing text collections. &lt;/b&gt;356-363&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148233"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ButtcherCL06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="BastW06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Bast:Holger.html"&gt;Holger Bast&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Weber:Ingmar.html"&gt;Ingmar Weber&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Type less, find more: fast autocompletion search with a succinct index. &lt;/b&gt;364-371&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148234"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/BastW06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="AnhM06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Anh:Vo_Ngoc.html"&gt;Vo Ngoc Anh&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Moffat:Alistair.html"&gt;Alistair Moffat&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Pruned query evaluation using pre-computed impacts. &lt;/b&gt;372-379&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148235"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/AnhM06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Radhakrishnan06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Radhakrishnan:Radha.html"&gt;Radha Radhakrishnan&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Information retrieval at Boeing: plans and successes. &lt;/b&gt;380-381&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148173"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Radhakrishnan06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Queries&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="SunOC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sun:Renxu.html"&gt;Renxu Sun&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/o/Ong:Chai=Huat.html"&gt;Chai-Huat Ong&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chua:Tat=Seng.html"&gt;Tat-Seng Chua&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Mining dependency relations for query expansion in passage retrieval. &lt;/b&gt;382-389&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148237"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/SunOC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="CarmelYDP06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Carmel:David.html"&gt;David Carmel&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/y/Yom=Tov:Elad.html"&gt;Elad Yom-Tov&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Darlow:Adam.html"&gt;Adam Darlow&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/p/Pelleg:Dan.html"&gt;Dan Pelleg&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;What makes a query difficult? &lt;/b&gt;390-397&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148238"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/CarmelYDP06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="VinayCMW06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/v/Vinay:Vishwa.html"&gt;Vishwa Vinay&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Cox:Ingemar_J=.html"&gt;Ingemar J. Cox&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Milic=Frayling:Natasa.html"&gt;Natasa Milic-Frayling&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wood:Kenneth_R=.html"&gt;Kenneth R. Wood&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;On ranking the effectiveness of searches. &lt;/b&gt;398-404&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148239"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/VinayCMW06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Clustering&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="JiX06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/j/Ji:Xiang.html"&gt;Xiang Ji&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/x/Xu:Wei.html"&gt;Wei Xu&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Document clustering with prior knowledge. &lt;/b&gt;405-412&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148241"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/JiX06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="HuangM06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/h/Huang:Yifen.html"&gt;Yifen Huang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Mitchell:Tom_M=.html"&gt;Tom M. Mitchell&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Text clustering with extended user feedback. &lt;/b&gt;413-420&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148242"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/HuangM06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="YangC06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/y/Yang:Hui.html"&gt;Hui Yang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Callan:James_P=.html"&gt;James P. Callan&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Near-duplicate detection by instance-level constrained clustering. &lt;/b&gt;421-428&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148243"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/YangC06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;The first page of results&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="ChenK06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chen:Harr.html"&gt;Harr Chen&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Karger:David_R=.html"&gt;David R. Karger&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Less is more: probabilistic models for retrieving fewer relevant documents. &lt;/b&gt;429-436&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148245"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/ChenK06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="MatveevaBBLW06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Matveeva:Irina.html"&gt;Irina Matveeva&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Burges:Chris.html"&gt;Chris Burges&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/b/Burkard:Timo.html"&gt;Timo Burkard&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Laucius:Andy.html"&gt;Andy Laucius&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wong:Leon.html"&gt;Leon Wong&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;High accuracy retrieval with multiple nested ranker. &lt;/b&gt;437-444&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148246"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/MatveevaBBLW06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="Chu-CarrollPCFD06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Chu=Carroll:Jennifer.html"&gt;Jennifer Chu-Carroll&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/p/Prager:John_M=.html"&gt;John M. Prager&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/c/Czuba:Krzysztof.html"&gt;Krzysztof Czuba&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/f/Ferrucci:David_A=.html"&gt;David A. Ferrucci&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dubou=eacute=:Pablo_Ariel.html"&gt;Pablo Ariel Duboué&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Semantic search via XML fragments: a high-precision approach to IR. &lt;/b&gt;445-452&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148247"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/Chu-CarrollPCFD06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Users: clarification, feedback, and browsing&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="KellyF06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Kelly:Diane.html"&gt;Diane Kelly&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/f/Fu:Xin.html"&gt;Xin Fu&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Elicitation of term relevance feedback: an investigation of term source and context. &lt;/b&gt;453-460&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148249"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/KellyF06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="SmuckerA06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Smucker:Mark_D=.html"&gt;Mark D. Smucker&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Allan:James.html"&gt;James Allan&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Find-similar: similarity browsing as a search tool. &lt;/b&gt;461-468&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148250"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/SmuckerA06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="LinWDA06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lin:Jimmy_J=.html"&gt;Jimmy J. Lin&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wu:Philip.html"&gt;Philip Wu&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Demner=Fushman:Dina.html"&gt;Dina Demner-Fushman&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Abels:Eileen_G=.html"&gt;Eileen G. Abels&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Exploring the limits of single-iteration clarification dialogs. &lt;/b&gt;469-476&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148251"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/LinWDA06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Classification and machine learning&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="SindhwaniK06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sindhwani:Vikas.html"&gt;Vikas Sindhwani&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/k/Keerthi:S=_Sathiya.html"&gt;S. Sathiya Keerthi&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Large scale semi-supervised linear SVMs. &lt;/b&gt;477-484&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148253"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/SindhwaniK06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="AngelovaW06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/a/Angelova:Ralitsa.html"&gt;Ralitsa Angelova&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Weikum:Gerhard.html"&gt;Gerhard Weikum&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Graph-based text classification: learn from your neighbors. &lt;/b&gt;485-492&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148254"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/AngelovaW06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="DayanikLMMG06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/d/Dayanik:Aynur_A=.html"&gt;Aynur A. Dayanik&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lewis:David_D=.html"&gt;David D. Lewis&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Madigan:David.html"&gt;David Madigan&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Menkov:Vladimir.html"&gt;Vladimir Menkov&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/g/Genkin:Alexander.html"&gt;Alexander Genkin&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Constructing informative prior distributions from domain knowledge in text classification. &lt;/b&gt;493-500&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148255"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/DayanikLMMG06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;Recommendation: use and abuse&lt;/h2&gt;  &lt;ul&gt;&lt;li&gt;&lt;a name="WangVR06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/w/Wang:Jun.html"&gt;Jun Wang&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/v/Vries:Arjen_P=_de.html"&gt;Arjen P. de Vries&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/r/Reinders:Marcel_J=_T=.html"&gt;Marcel J. T. Reinders&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Unifying user-based and item-based collaborative filtering approaches by similarity fusion. &lt;/b&gt;501-508&lt;br /&gt;&lt;a href="http://doi.acm.org/10.1145/1148170.1148257"&gt;&lt;i&gt;Electronic Edition&lt;/i&gt;&lt;/a&gt; (&lt;a href="http://www.acm.org/dl/"&gt;ACM DL&lt;/a&gt;) &lt;span style=""&gt;&lt;a href="http://dblp.uni-trier.de/rec/bibtex/conf/sigir/WangVR06"&gt;BibTeX&lt;/a&gt;&lt;/span&gt;  &lt;/li&gt;&lt;li&gt;&lt;a name="SongTLS06" href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Song:Xiaodan.html"&gt;Xiaodan Song&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/t/Tseng:Belle_L=.html"&gt;Belle L. Tseng&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/l/Lin:Ching=Yung.html"&gt;Ching-Yung Lin&lt;/a&gt;, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/s/Sun:Ming=Ting.html"&gt;Ming-Ting Sun&lt;/a&gt;:&lt;br /&gt;&lt;b&gt;Personalized recommendation driven by information flow. &lt;/b&g
