How to classify documents indexed with lucene(如何对用 lucene 索引的文档进行分类)
问题描述
我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档?
I have classified a set of documents with Lucene (fields: content, category). Each document has it's own category, but some of them are labeled as uncategorized. Is there any way to classify these documents easily in java?
推荐答案
从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器.
As of Lucene 5.2.1, you can use indexed documents to classify new documents. Out of the box, Lucene offers a naive Bayes classifier, a k-Nearest Neighbor classifier (based on the MoreLikeThis class) and a Perceptron based classifier.
缺点是所有这些类都标有实验性警告,并附有维基百科的链接.
The drawback is that all of these classes are marked with experimental warnings and documented with links to Wikipedia.
这篇关于如何对用 lucene 索引的文档进行分类的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:如何对用 lucene 索引的文档进行分类
- Java包名称中单词分隔符的约定是什么? 2022-01-01
- Jersey REST 客户端:发布多部分数据 2022-01-01
- Eclipse 插件更新错误日志在哪里? 2022-01-01
- 从 finally 块返回时 Java 的奇怪行为 2022-01-01
- value & 是什么意思?0xff 在 Java 中做什么? 2022-01-01
- Spring Boot连接到使用仲裁器运行的MongoDB副本集 2022-01-01
- 如何使用WebFilter实现授权头检查 2022-01-01
- 将log4j 1.2配置转换为log4j 2配置 2022-01-01
- Safepoint+stats 日志,输出 JDK12 中没有 vmop 操作 2022-01-01
- C++ 和 Java 进程之间的共享内存 2022-01-01