Попробуйте через вокабулу.
Вокабулы — это отбираемые по определенным критериям лексемы, которые могут являться терминами в рассматриваемой предметной области. Поскольку вокабулы есть подмножество лексем, которые связаны с некоторыми конкретными словоформами в исходном корпусе текстов, то для них можно определить частотный параметр.
Вокабулы будут отбираться с помощью комбинации ручного и формального метода и должны представлять лексемы, характерные для исследуемой предметной области.
Подробно все здесь:
http://it-claim.ru/Library/Books/Semantics_IT/gl1_3/glava1_3.htm
Можно еще через лемму.
Лемма Lk – каноническая форма лексемы k, k=1..M (M-размерность множества лемм коллекции документов) .
Вот здесь:
http://www.altertrader.com/publications16.html