Separator

 

Стеммер на базе алгоритма Портера, определение основы слова

Если перед вами встала задача определения основы слова, то вы в трудной ситуации. Это тяжёлая задача, решение которой не возможно на 100% без баз "основ" слов. Однако есть вариант - Стеммер Портера. Данный алгоритм дает неплохие результаты, однако как оказалось он совсем плохо знаком с суффиксами. Я постарался решить эту проблему, реализовав на PHP. И вот что получилось:

2 комментария:

  1. Как это работает - можно пример?

    ОтветитьУдалить
    Ответы
    1. Лучше поздно чем никогда :) Пример разместил. Вообще скрипт конечно много неточностей выдаёт. Уверен сейчас можно найти лучшие аналоги

      Удалить