Copy of Snowball Stemming Library
[libstemmer_c.git] / libstemmer / modules.txt
1 # This file contains a list of stemmers to include in the distribution.
2 # The format is a set of space separated lines - on each line:
3 #  First item is name of stemmer.
4 #  Second item is comma separated list of character sets.
5 #  Third item is comma separated list of names to refer to the stemmer by.
6 #
7 # Lines starting with a #, or blank lines, are ignored.
8
9 # List all the main algorithms for each language, in UTF-8, and also with
10 # the most commonly used encoding.
11
12 danish          UTF_8,ISO_8859_1        danish,da,dan
13 dutch           UTF_8,ISO_8859_1        dutch,nl,dut,nld
14 english         UTF_8,ISO_8859_1        english,en,eng
15 finnish         UTF_8,ISO_8859_1        finnish,fi,fin
16 french          UTF_8,ISO_8859_1        french,fr,fre,fra
17 german          UTF_8,ISO_8859_1        german,de,ger,deu
18 hungarian       UTF_8,ISO_8859_1        hungarian,hu,hun
19 italian         UTF_8,ISO_8859_1        italian,it,ita
20 norwegian       UTF_8,ISO_8859_1        norwegian,no,nor
21 portuguese      UTF_8,ISO_8859_1        portuguese,pt,por
22 romanian        UTF_8,ISO_8859_2        romanian,ro,rum,ron
23 russian         UTF_8,KOI8_R            russian,ru,rus
24 spanish         UTF_8,ISO_8859_1        spanish,es,esl,spa
25 swedish         UTF_8,ISO_8859_1        swedish,sv,swe
26 turkish         UTF_8                   turkish,tr,tur
27
28 # Also include the traditional porter algorithm for english.
29 # The porter algorithm is included in the libstemmer distribution to assist
30 # with backwards compatibility, but for new systems the english algorithm
31 # should be used in preference.
32 porter          UTF_8,ISO_8859_1        porter
33
34 # Some other stemmers in the snowball project are not included in the standard
35 # distribution. To compile a libstemmer with them in, add them to this list,
36 # and regenerate the distribution. (You will need a full source checkout for
37 # this.) They are included in the snowball website as curiosities, but are not
38 # intended for general use, and use of them is is not fully supported.  These
39 # algorithms are:
40 #
41 # german2          - This is a slight modification of the german stemmer.
42 #german2          UTF_8,ISO_8859_1        german2
43 #
44 # kraaij_pohlmann  - This is a different dutch stemmer.
45 #kraaij_pohlmann  UTF_8,ISO_8859_1        kraaij_pohlmann
46 #
47 # lovins           - This is an english stemmer, but fairly outdated, and
48 #                    only really applicable to a restricted type of input text
49 #                    (keywords in academic publications).
50 #lovins           UTF_8,ISO_8859_1        lovins