项目团队就应用成果进行深入讨论(图片来源:科技日报)
办公桌、地铁上、茶余饭后、工作间隙……无论是电脑还是手机,搜索让我们从海量的信息中,快速找到自己所需要的信息。
在互联网时代,搜索是我们几乎每天都要用到的工具之一。随着网络数据的爆炸性增长,搜索引擎已经成为信息化社会不可或缺的基础互联网应用。
正如2014年图灵奖获得者Vinton Cerf指出,搜索引擎已经成为人类记忆的延伸。这充分说明了搜索已经在人类的认知过程中发挥了重要的作用。
互联网搜索技术看似简单实则复杂。它就像一个桥梁,一边连接着海量规模的数据,一边连接着高度复杂的用户信息需求,而如何正确合理地实现两者的匹配则面临着一系列的挑战,尤其是如何避免经常出现“答非所问”的情况。
对此,清华大学与搜狗公司建立了“清华—搜狗技术联合实验室”,在技术和产业层面密切配合,尝试解决相应难题。在国家自然科学基金、863计划项目和智能与系统国家重点实验室的支持下,课题组从互联网搜索用户的群体交互规律和个体认知过程两方面着手,在宏观和微观两个方面对网络用户行为中蕴含的丰富反馈信息进行挖掘,利用用户群体智慧解决搜索引擎面临的挑战性技术问题。
经过八年研发实践,课题组在三大方面取得显著成果:从用户看似无序的点击行为中,挖掘规律,改进搜索引擎查询理解的性能;借助用户浏览行为模式的差异,监测网页质量,让垃圾和非法信息无处遁形;通过认知心理实验建立用户行为模型,改进搜索引擎结果排序的性能。
值得一提的是,团队成果不仅促进了搜索引擎技术相关领域的创新发展,为全球相关领域科研工作提供了更好的研究平台,更将技术实际应用于搜狗公司产品中让用户获益,带来了良好的经济效益和社会效益。据统计,2012年—2014年3年期间搜狗实现总营收约47亿,其中,在此项目技术推动下获得的收入约15亿。在2015年度北京市科学技术奖励评审中,该项目荣获一等奖。
搜索引擎面临多项挑战
对于用户而言,搜索引擎的界面非常的简单,只需要一个简单的输入框,当用户输入查询词之后,搜索引擎就会迅速给出搜索结果。搜索引擎就像一个“百科全书”,回答着用户的“十万个为什么”。这一看似简单的过程,从搜索引擎的角度却并没有那么简单。
尽管搜索引擎在应用层面已经取得了很大的成功,但搜索技术发展中仍然面临着巨大的技术挑战:一方面,网络空间数据资源的规模庞大而内容繁杂,目前中文网页的规模已经达到数千亿的规模。CNNIC的数据显示:中文网页数量达到1900亿。但其中的低质量网页、垃圾信息乃至非法内容为数不少。另一方面,搜索用户信息需求的内容复杂而表述模糊,搜索引擎每日需要处理数以亿计的用户查询,但这些查询的平均长度仅有6个字左右。
“这些技术挑战互相交织,从本质上说是用户个体有限的认知能力与拥有近乎无限资源的网络空间之间的不匹配问题。”课题负责人之一、清华大学计算机系副教授刘奕群告诉记者,如何才能让搜索引擎从“百科全书”进化到“先知”,从“有问必答”到“有答必准”是课题组持续要解决的问题。
基于此,计算机科学提出采用群体智能(Wisdom of Crowds)方法来应对这类技术挑战。
据了解,群体智能方法,就是利用用户群体决策,协助解决在认知与信息处理方面用传统计算方法难以直接完成的任务。
“计算方法在处理问题时具有存储、处理效率较高的优势,但是其应对认知、推理任务的能力有限。而人类个体具有较强的认知、推理能力,但是反馈效率较低、质量也不甚稳定。”刘奕群介绍说,“群体智能很大程度上结合了两者之间的优势,借助搜索引擎记录的规模庞大的匿名用户群体行为信息,就可以从中挖掘提炼出群体智能,协助其解决面临的各种挑战性问题。”
让搜索引擎不再“答非所问”
对于搜索引擎而言,最严重的问题就是“答非所问”。可是,“巧妇难为无米之炊”,如果用户提出的关键词不明晰,搜索引擎也就很难准确地给出想要的搜索结果了。
刘奕群告诉记者:“主流中文商业搜索引擎每日处理查询达到数亿次,而中文用户平均查询长度只有6个字,很难避免查询意图歧义模糊的情况。”
显然,作为一个工具,搜索引擎只能依靠“自我进化”,只有准确地了解用户到底想要什么,才能更好地为人类服务。
课题组面对搜索引擎用户需求理解方面的技术挑战,提出了基于用户查询行为结构图挖掘的查询推荐和信息需求分类算法,在简短的搜索词中精准理解用户的需求,以此来提供给用户互联网信息。
该算法提升了搜索引擎对于长尾查询和歧义查询的处理性能,提高了网络信息获取效率。将上述研究成果应用于搜狗搜索引擎的查询推荐系统改进,取得了明显的效果提升,在近万个用户查询组成的测试集合上的应用效果显示,相应查询推荐结果的点击通过率提升了39.5%,明显改进了现有查询推荐算法的效果。
研究成果被来自微软研究院等机构的国际同行在论文中称为“Top achiever techniques”(顶尖技术),“the most effective”(最为有效)。
该算法即使与国外搜索引擎相比,也毫不逊色。基于该算法的用户需求挖掘系统在国际著名的NTCIR评测中连续两届获得多项任务第一名。
“火眼金睛”轻松识别垃圾网页
网络信息资源在拥有巨大数据量的同时,也包含了大量的垃圾页面甚至是恶意的欺诈页面。尤其是如今提升搜索结果中的排名已经成为一些商家获取用户关注的最有效途径之一。这也造成了大量网页作者企图采用非正当手段提高其网页在搜索排序中的排名,以获得更高的经济收益或用户关注。
搜索引擎要有一双“火眼金睛”,能将这些垃圾和恶意页面甄别出来,并在搜索结果中过滤。
然而,“道高一尺、魔高一丈”,垃圾和恶意网页的制造者为了躲避搜索引擎反垃圾技术的打击,经常变换作弊形式,因此垃圾制造者和反垃圾模块之间一直展开着一场进攻与反进攻的胶着战。
有没有一种包打天下的反作弊方法呢?如何能够以不变应万变呢?类似问题一直困扰项目研发团队。通过对搜索数据、用户行为的不断解读与挖掘,他们发现用户在遇到垃圾页面时会产生和正常页面不一样的行为,例如快速关闭页面、减少与垃圾网页的交互等。
“当你看到垃圾网页时,人们都会迅速关闭,注意力也会从当前网页迅速偏移,用户群体表现出来的异常的用户行为能够较为准确反映出页面的异常。”刘奕群说。
近年的研究成果也表明,用户的视觉注视行为和认知理解过程并非同时完成。课题组国内最早提出将认知心理普遍认可的“选择性注意理论”融合到网络信息获取的应用场景。
课题组提出了采用收集成本更加低廉的鼠标移动行为代替眼动注视信息进行检验概率预测的学习方法,从而首次将鼠标移动信息应用于点击模型和搜索结果排序算法中,在点击预测和搜索结果相关性预测方面取得了显著的提升。
团队顺着这个思路通过群体用户行为模式挖掘开发出一套通用的反垃圾方法应对日益变化的作弊手段。同时还利用这种思想改进Google 著名的PageRank算法,在原算法的用户随机选择超链点击的假设下,加入用户的选择偏置,从而提升页面权威度的计算方法,既提升了垃圾页面的识别率和精度,也挖掘出大量的高质量页面。
“该算法在搜狗搜索引擎得到直接应用,将其搜索性能大大提升。”刘奕群说。
“两栖实验室”打通产学研
“这个项目成果的取得很大程度上正是获益于校企合作模式。”刘奕群坦言,“大规模数据的处理项目,单纯依靠高校是很难完成的。一方面在计算和存储资源上有限,最重要的是高校很难收集到大量用户的真实行为数据。”
而对于搜狗公司来说,清华在互联网技术的领先实力和研发力量让他们十分看重。
据刘奕群介绍,清华大学计算机系与搜狗公司的成功合作,首先得益于双方对此项目重视程度非常高;其次,经过策略和具体合作方式层面的深入讨论,双方建立了两栖创新生态系统合作机制,这是双方最终得以长期合作并取得极佳成果的关键。
两栖创新生态系统下技术分工十分清晰,研究者追求卓越、立足于技术创新和解决问题,而企业则洞察市场和用户需求,提出问题并将技术解决方案进行市场化应用实践。
清华大学为联合实验室提供前沿技术,如基础算法和模型,涉及引擎结果排序、搜索性能评价、垃圾网页识别、查询纠错、用户行为分析、网页质量评估等。这些前沿技术在联合实验室进行测试,检验和提高算法的正确性和可靠性,再通过公司技术系统检测,最后融入到搜狗产品之中。
搜狗方面不仅为联合实验室的技术前期开发提供了研究经费,还在清华和搜狗的办公楼之间铺设了一条光缆,长期提供反映互联网实际情况的海量数据。
“这些数据对提高研究质量具有重要的推动作用。”刘奕群说,“因为信息检索研究很大程度上是实验科学,使用海量数据比使用构造的小量数据更能检验各种算法的实用性、准确性和可靠性。”
在社会效益和经济效益方面,团队的成果也十分卓著。相关技术成功应用于北京市工商行政管理局电子商务监管系统和北京市食品药品监督管理局食品药品互联网监测系统,取得了可观的经济效益和显著的社会效益。
该项目为首都发展高科技产业提供了产学研结合的良好案例,实现了从基础理论研究—关键技术突破—产品系统研制—应用示范与推广的无缝产业衔接,探索了科技创新与实际应用相互促进的有效机制。(记者 申明)