BM25(Best Matching 25),一种经典的信息检索方法
- BM25 综合考虑了 TF-IDF 和文档长度等信息,计算效率高,实用性强
- BM25 在信息检索领域使用广泛,是 Elasticsearch 的默认检索方法
- BM25 的语义理解能力不足,无法有效捕捉词序信息和上下文关系
- BM25 可以通过调整参数来适用不同的应用场景,但个性化能力有限
TF-IDF
词频 TF(Term Frequency),词语 $t$ 在文档 $d$ 中出现的频率
$$ \text{TF}(t, d) = \frac{\text{词t在文档d中的