原词是一组相关词的规范形式,或词典形式 — paying
、 paid
和 pays
的原词是 pay
。 通常原词很像与其相关的词,但有时也不像 — is
、 was
、 am
和 being
的原词是 be
。
词形还原,很像词干提取,试图归类相关单词,但是它比词干提取先进一步的是它企图按单词的 词义 ,或意义归类。 同样的单词可能表现出两种意思—例如, wake 可以表现为 to wake up 或 a funeral 。然而词形还原试图区分两个词的词义,词干提取却会将其混为一谈。
词形还原是一种更复杂和高资源消耗的过程,它需要理解单词出现的上下文来决定词的意思。实践中,词干提取似乎比词形还原更高效,且代价更低。