全部
科普中国科学百科
版权归原作者所有,如有侵权,请联系我们
邻里成分分析(Neighbourhood components analysis,Nca)是一种监督式学习的方法,根据一种给定的距离度量算法对样本数据进行度量,然后对多元变量数据进行分类。在功能上其和k近邻算法的目的相同,直接利用随即近邻的概念确定与测试样本临近的有标签的训练样本。
2018-06-19
梅特罗波利斯-黑斯廷斯算法(英语:Metropolis–Hastings algorithm)是统计学与统计物理中的一种马尔科夫蒙特卡洛(MCMC)方法,用于在难以直接采样时从某一概率分布中抽取随机样本序列。
光学划记符号辨识(Optical mark recognition, OMR)是一种资料的取得方式,透过把光束(通常是红色的)打在扫描器上的文件或条码的记号来辨识一些简单的东西,而原理是有记号(或条码的黑色)的部分比没有记号(或条码的白色部分)反射较少的光。
BabelNet是一个多语词汇语义网络和本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念和命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki、英语维基词典、维基数据、FrameNet、VerbNet等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。
蒙特卡洛树搜索又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡洛树搜索方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。
在传统的向量空间模型中,文档集合中的文档被抽取成为若干个索引项,每个文档由索引项构成一个文档向量空间,而每个项在文档集合中的各个文档中的权值集合则构成了一个项向嚣空间。两者结合在一起构成了文档集合的向量空间。此模型存在两个缺陷:向量模型假设所有的索引项是独立无关的,但实际上可能存在两个索引项(如索引项“电扇”和“电风扇”)是同义的;索引项的数量有时会很多,造成向量空间过大,不利于存储和计算。为了解决向量空间存在的问题,在向量空间基础上提出了一个潜在语义索引的方法,此方法被证实比在Salton的SMART系统中使用的传统向量空间技术性能更好。