Рассматриваются алгоритмы индуктивного построения текстовых классификато-ров, способы индексации документов, а также применение данных методик к определе-
нию значений многозначных слов на основе контекста. В качестве нового подхода к реше-
нию данной проблемы предлагается использование различных глобальных характеристик
контекста, т.е. классификация документа одновременно по нескольким независимым кате-
гориям. В эксперименте по разрешению многозначности используются такие свойства
контекста, как тема текста и его функциональный стиль. Определяются оптимальные зна-
чения параметров алгоритма обучения, а также производится отбор признаков для темати-
ческой и стилистической категоризации.
Ключевые слова: ТЕКСТОВАЯ КАТЕГОРИЗАЦИЯ, МАШИННОЕ ОБУЧЕНИЕ, ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ, РАЗРЕШЕНИЕ МНОГОЗНАЧНОСТИ, ОБУЧАЮ- ЩЕЕ МНОЖЕСТВО, КЛАССИФИКАТОР.