Tokenizer API

TokenizerBuilder

TokenizerBuilder はビルダーパターンを使用して Tokenizer インスタンスを設定・構築します。

コンストラクタ

`new TokenizerBuilder()`

デフォルト設定で新しいビルダーを作成します。

const { TokenizerBuilder } = require("lindera-nodejs");

const builder = new TokenizerBuilder();

`new TokenizerBuilder().fromFile(filePath)`

JSON ファイルから設定を読み込み、新しいビルダーを返します。

const builder = new TokenizerBuilder().fromFile("config.json");

設定メソッド

すべてのセッターメソッドはメソッドチェーンのために this を返します。

`setMode(mode)`

トークナイズモードを設定します。

"normal" -- 標準的なトークナイズ（デフォルト）
"decompose" -- 複合語をより小さな単位に分解

builder.setMode("normal");

`setDictionary(path)`

システム辞書のパスまたは URI を設定します。

// 埋め込み辞書を使用
builder.setDictionary("embedded://ipadic");

// 外部辞書を使用
builder.setDictionary("/path/to/dictionary");

`setUserDictionary(uri)`

ユーザー辞書の URI を設定します。

builder.setUserDictionary("/path/to/user_dictionary");

`setKeepWhitespace(keep)`

出力に空白トークンを含めるかどうかを制御します。

builder.setKeepWhitespace(true);

`appendCharacterFilter(kind, args?)`

前処理パイプラインに文字フィルタを追加します。

builder.appendCharacterFilter("unicode_normalize", { kind: "nfkc" });

`appendTokenFilter(kind, args?)`

後処理パイプラインにトークンフィルタを追加します。

builder.appendTokenFilter("lowercase", {});

ビルド

`build()`

設定された内容で Tokenizer をビルドして返します。

const tokenizer = builder.build();

Tokenizer

Tokenizer はテキストに対して形態素解析を行います。

Tokenizer の作成

`new Tokenizer(dictionary, mode?, userDictionary?)`

読み込み済みの辞書から直接トークナイザーを作成します。

const { Tokenizer, loadDictionary } = require("lindera-nodejs");

const dictionary = loadDictionary("embedded://ipadic");
const tokenizer = new Tokenizer(dictionary, "normal");

Tokenizer メソッド

`tokenize(text)`

入力テキストをトークナイズし、Token オブジェクトの配列を返します。

const tokens = tokenizer.tokenize("形態素解析");

パラメータ:

名前	型	説明
`text`	`string`	トークナイズするテキスト

戻り値: Token[]

`tokenizeNbest(text, n, unique?, costThreshold?)`

N-best トークナイズ結果を返します。各結果はトークン配列とトータルパスコストを含みます。

const results = tokenizer.tokenizeNbest("すもももももももものうち", 3);
for (const { tokens, cost } of results) {
  console.log(cost, tokens.map((t) => t.surface));
}

パラメータ:

名前	型	説明
`text`	`string`	トークナイズするテキスト
`n`	`number`	返す結果の数
`unique`	`boolean`	結果の重複を排除（デフォルト: `false`）
`costThreshold`	`number \| undefined`	最良パスからの最大コスト差（デフォルト: `undefined`）

戻り値: Array<{ tokens: Token[], cost: number }>

Token

Token は単一の形態素トークンを表します。

プロパティ

プロパティ	型	説明
`surface`	`string`	トークンの表層形
`byteStart`	`number`	元テキストでの開始バイト位置
`byteEnd`	`number`	元テキストでの終了バイト位置
`position`	`number`	トークンの位置インデックス
`wordId`	`number`	辞書の単語 ID
`isUnknown`	`boolean`	辞書に登録されていない単語の場合 `true`
`details`	`string[] \| null`	形態素の詳細情報（品詞、読みなど）

Token メソッド

`getDetail(index)`

指定されたインデックスの詳細文字列を返します。インデックスが範囲外の場合は null を返します。

const token = tokenizer.tokenize("東京")[0];
const pos = token.getDetail(0);      // 例: "名詞"
const subpos = token.getDetail(1);   // 例: "固有名詞"
const reading = token.getDetail(7);  // 例: "トウキョウ"

パラメータ:

名前	型	説明
`index`	`number`	details 配列へのゼロベースインデックス

戻り値: string | null

details の構造は辞書によって異なります：

IPADIC: [品詞, 品詞細分類1, 品詞細分類2, 品詞細分類3, 活用型, 活用形, 原形, 読み, 発音]
UniDic: UniDic 仕様に準拠した詳細な形態素情報
ko-dic / CC-CEDICT / Jieba: 各辞書固有の詳細フォーマット

Lindera ドキュメント