В статье рассматриваются частотная, дисперсионная и степенно-показательная модели, позволяющие проводить автоматическое выделение ключевых слов документа с целью решения целого ряда задач, связанных с информационным поиском. Анализируется эффективность данных моделей на экспериментальных данных.
Введение
На сегодняшний день проблема определения ключевых слов (терминов) документа является весьма актуальной для различных систем обработки текстовой информации. В качестве примера можно привести задачи поиска информации и формирования запросов, классификации, автореферирования и автоаннотирования текстовых документов. Как правило, подобные системы строятся на основе статистического подхода к распределению терминов в тексте.
В рамках статистического подхода документ рассматривается как последовательность слов, которые могут группироваться в более крупные структуры (предложения, абзацы и т. п.). При этом не анализируется смысл отдельных слов, предложений и всего текста документа. Учитывается информация только о структуре текста документа, прежде всего о частоте вхождения в текст отдельных слов. Самые простые методы определяют вес термина для документа как отношение частоты встречаемости данного термина в документе к суммарной частоте встречаемости термина в наборе документов, или к общему числу документов, содержащих данный термин.
Помимо частотных существует ряд других методов выделения терминов, например, метод на основе различительной силы термина [1], дисперсионный и степенно-показательный методы [2].
В данной статье рассматриваются результаты проведения экспериментов по выделению ключевых слов документа на основе различных моделей.
Основные понятия
Будем считать размытым такое множество языковых единиц, которое представляет собой их непредсказуемую последовательность. Четким называется такое множество языковых единиц, в котором существует четкая граница между группами слов, принадлежащих разным лексическим классам. Назовем приемлемо четким такое множество, в котором существует предсказуемая по месту и составу последовательность языковых единиц, принадлежащих одному и тому же лексическому классу.
Кластером общеупотребительной, терминологической и т. д. лексики назовем приемлемо однородные (четкие) множества слов, локализованные в определенных зонах упорядоченного множества. Будем считать приемлемо четким или приемлемо однородным такой кластер, который содержит не менее 80% языковых единиц, принадлежащих одному и тому же лексическому классу. В принципе этот уровень задается исследователем произвольно и его можно изменить в ту или иную сторону в зависимости от требований, предъявляемых к чистоте выделяемой группы.
Будем называть лингво-математической моделью текста множество языковых единиц, упорядоченное в соответствии с тем или иным количественным признаком:
• Частотной моделью - множество слов, упорядоченное по убыванию частоты их встречаемости в данном тексте
• Дисперсионной моделью текста – множество слов, упорядоченное по убыванию дисперсии их распределения в данном тексте;
• Степенно-функциональной моделью текста – множество слов, упорядоченное по убыванию степени соответствующей функции их распределения в данном тексте.
Условия эксперимента
В качестве экспериментального документа был использован текст по классификации терминов объемом 1900 словоупотреблений. В результате отбора лексических единиц было сформировано множество из 500 элементов, где термины составляют приблизительно 17%. Первоначально выделенная группа представляла классический пример нечеткого множества, поскольку любая случайная выборка из этого множества содержала непредсказуемую последовательность общеупотребительной и терминологической лексики. Все дальнейшие процедуры проводятся с целью преобразования размытой совокупности лексических единиц в такое приемлемо четкое множество, структура которого позволила бы выделять термины с заданным уровнем однородности, равным 80%.
Классификация лексических единиц с помощью частотной модели
Наиболее часто применяется, так называемый TFxIDF-метод, который опирается на понятия частоты термина в документе (Term Frequency) и инверсной частоты термина (Inverted Document Frequency). Инверсная частота термина представляет собой величину, обратную частоте, с которой данный термин встречается во всей совокупности документов, и вычисляемую по формуле:
(форм 1)
где idfk - инверсная частота термина k,|D| - общее количество документов в массиве, dfk - количество документов, содержащих термин k.
Тогда вес (форм 2) (или системообразующий признак), термина k в документе i определяется как произведение частоты встречаемости (форм 3) термина k в документе i на инверсную частоту термина k:
(форм 4).
Используем в эксперименте 3 документа (объем каждого из трех документов не превосходит 1900 словоупотреблений). Все использованные документы по одной тематике – классификация терминов. В первом случае используем 2 документа для анализа, а во втором – 3 документа. Результаты представлены ниже.
Для совокупности из двух документов мы получили следующий результат. Таблица 1.1 отражает распределение весов терминов для первого документа, таблица 1.2 для второго документа.
Табл. 1.1.
Табл. 1.2.
Для совокупности из трех документов таблицы 2.1, 2.2, 2.3 отражают распределение весов терминов в первом, втором, третьем документе соответственно.
Табл. 2.1.
Табл. 2.2.
Табл. 2.3.
По результатам испытаний частотной модели можем заключить, что применение данной модели оправдано только в тех случаях, когда мы имеем дело с большой совокупностью документов. Использование TFxIDF метода для одного документа не имеет смысла, так как инверсная частота термина и веса всех терминов будут равняться нулю.
Классификация лексических единиц с помощью дисперсионной модели
Опираясь на предположение о том, что распределение общеупотребительных слов в техническом тексте более равномерно, чем распределение терминов, и что с количественной стороны это может быть выражено, соответственно, меньшими и большими значениями дисперсии, построим дисперсионную модель для нашего множества. В качестве системообразующего признака берем
(форм 5),
где k – количество фрагментов, на которое разбит анализируемый текст, Fi – частота употребления лексической единицы в i-м фрагменте текста, (форм 6) – средняя частота употребления лексической единицы в тексте.
Упорядочив лексические единицы по этому признаку, получаем следующую группировку.
(схема 1)
На графике все лексические единицы объединены в группы по 5 (для простоты отображения). Выводы:
• наблюдается концентрация терминологической лексики в начале множества, где доля единиц этого класса составляет 100% в довольно широком интервале 1 = i = 3, одновременно столь же отчетливо выражена концентрация общеупотребительной лексики в конце множества, что вполне характеризует его как искомую совокупность лексических единиц с приемлемо четкой периферией и размытым ядром;
• несмотря на некоторое, снижение доли терминов в интервале 4 = i = 8, можно считать, что приемлемо однородный терминологический кластер в нашем случае занимает ранги 1 = i = 8, а кластер общеупотребительной лексики - соответственно ранги 9 = i = 100.
Заключаем, что дисперсионная модель позволяет выделять приемлемо однородные группы терминов и общеупотребительных слов, которые локализуются на перифериях ранжированного множества.
Табл.3.1. Пример выделения терминов с помощью дисперсионной модели.
Классификация лексических единиц с помощью степенно-функциональной модели
Рассмотрим степенно-показательную модель, в которой в качестве системообразующего признака используется показатель степени γ функции
N = kFγ,
где N – объем текста в словоупотреблениях, F – частота употребления лексической единицы, k и γ – константы, которые следует вычислить. Подготовка и вычисление для этого метода предельно просты. Для этого нам достаточно взять две точки: максимальную частоту употребления лексической единицы в одном из фрагментов текста и ее абсолютную частоту. Упорядочив лексические единицы по γ, получим степенно-показательную модель.
(схема 2)
Выводы:
• мы видим кластеризацию терминов в начале множества, 1 = i = 7;
• остальная часть множества 8 = i = 100 представляет собой зону размытости, где ни один лексический класс не достигает заданного уровня однородности;
Наличие только одного кластера позволяет охарактеризовать степенно-функциональную модель как разновидность приемлемо четкого множества, в котором имеется кластер терминологической лексики, строго локализованный в зоне больших значений показателя степени и зона размытости, где ни один лексический класс не достигает приемлемого уровня однородности.
Табл.4.1. Пример выделения терминов с помощью степенно-функциональной модели.
Результаты
Частотные методы далеко не всегда дают хорошие результаты и выявляют в документах термины, обладающие высокой разрешающей способностью. Такие методы применимы в том случае, когда массивы анализируемых документов являются достаточно представительными по объему. На практике же нередки случаи, когда необходимо определять ключевые слова в очень небольшой выборке документов.
При этом дисперсионная модель и степенно-показательная модель эффективно выделяют кластер терминологической лексики. Можно полагать, что эти модели практически равноценны. Главное их преимущество перед частотными моделями – незначительная степень их зависимости от частоты употребления термина в документе.
Нашел интересный блог, сразу видно его ведет дружелюбный человек. Вот и его пост про весну вызвал у меня самые теплые чувства и пробудил положительные весенние эмоции!
Забавные компьютерные игры, есть чем занятся в будний вечер!
А тут я узнал, что такое дизайн интерьера и научился ремонтировать некоторые предметы самостоятельно!