テキスト処理パイプライン
Lindera Node.js は、トークナイズ前に文字フィルタを適用し、トークナイズ後にトークンフィルタを適用する、組み合わせ可能なテキスト処理パイプラインをサポートしています。フィルタは TokenizerBuilder に追加され、追加された順序で実行されます。
Input Text
--> Character Filters (preprocessing)
--> Tokenization
--> Token Filters (postprocessing)
--> Output Tokens
文字フィルタ
文字フィルタはトークナイズ前に入力テキストを変換します。
unicode_normalize
入力テキストに Unicode 正規化を適用します。
const { TokenizerBuilder } = require("lindera-nodejs");
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendCharacterFilter("unicode_normalize", { kind: "nfkc" })
.build();
サポートされる正規化形式: "nfc"、"nfkc"、"nfd"、"nfkd"。
mapping
マッピングテーブルに従って文字や文字列を置換します。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendCharacterFilter("mapping", {
mapping: {
"\u30fc": "-",
"\uff5e": "~",
},
})
.build();
japanese_iteration_mark
日本語の踊り字(繰り返し記号)を完全な形に展開します。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendCharacterFilter("japanese_iteration_mark", {
normalize_kanji: true,
normalize_kana: true,
})
.build();
トークンフィルタ
トークンフィルタはトークナイズ後にトークンを変換または除去します。
lowercase
トークンの表層形を小文字に変換します。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendTokenFilter("lowercase", {})
.build();
japanese_base_form
辞書の形態素情報を使用して、活用形を基本形(辞書形)に置換します。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendTokenFilter("japanese_base_form", {})
.build();
japanese_stop_tags
指定されたタグに一致する品詞のトークンを除去します。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendTokenFilter("japanese_stop_tags", {
tags: ["助詞", "助動詞"],
})
.build();
japanese_keep_tags
指定されたタグに一致する品詞のトークンのみを保持します。その他のトークンはすべて除去されます。
const tokenizer = new TokenizerBuilder()
.setDictionary("embedded://ipadic")
.appendTokenFilter("japanese_keep_tags", {
tags: ["名詞"],
})
.build();
パイプラインの完全な例
以下の例では、複数の文字フィルタとトークンフィルタを1つのパイプラインに組み合わせています:
const { TokenizerBuilder } = require("lindera-nodejs");
const tokenizer = new TokenizerBuilder()
.setMode("normal")
.setDictionary("embedded://ipadic")
// Preprocessing
.appendCharacterFilter("unicode_normalize", { kind: "nfkc" })
.appendCharacterFilter("japanese_iteration_mark", {
normalize_kanji: true,
normalize_kana: true,
})
// Postprocessing
.appendTokenFilter("japanese_base_form", {})
.appendTokenFilter("japanese_stop_tags", {
tags: ["助詞", "助動詞", "記号"],
})
.appendTokenFilter("lowercase", {})
.build();
const tokens = tokenizer.tokenize("Linderaは形態素解析を行うライブラリです。");
for (const token of tokens) {
console.log(`${token.surface}\t${token.details.join(",")}`);
}
このパイプラインでは:
unicode_normalizeが全角文字を半角に変換(NFKC 正規化)japanese_iteration_markが踊り字を展開japanese_base_formが活用形のトークンを基本形に変換japanese_stop_tagsが助詞、助動詞、記号を除去lowercaseがアルファベットを小文字に正規化