Number of Features

Split documents into training set (T) and validation set (V)
- Compute Fisher index of each term based on T
- Classify V using various prefixes Fk
- Nk is number of misclassified documents using Fk
- Minimize Nk

Pick k most discriminating terms