Tokenizer API
TokenizerBuilder
TokenizerBuilder はビルダーパターンを使用して Tokenizer インスタンスを設定・構築します。
コンストラクタ
TokenizerBuilder()
デフォルト設定で新しいビルダーを作成します。
from lindera import TokenizerBuilder
builder = TokenizerBuilder()
TokenizerBuilder().from_file(file_path)
JSON ファイルから設定を読み込み、新しいビルダーを返します。
builder = TokenizerBuilder().from_file("config.json")
設定メソッド
すべてのセッターメソッドはメソッドチェーンのために self を返します。
set_mode(mode)
トークナイズモードを設定します。
"normal"-- 標準的なトークナイズ(デフォルト)"decompose"-- 複合語をより小さな単位に分解
builder.set_mode("normal")
set_dictionary(path)
システム辞書のパスまたは URI を設定します。
# 埋め込み辞書を使用
builder.set_dictionary("embedded://ipadic")
# 外部辞書を使用
builder.set_dictionary("/path/to/dictionary")
set_user_dictionary(uri)
ユーザー辞書の URI を設定します。
builder.set_user_dictionary("/path/to/user_dictionary")
set_keep_whitespace(keep)
出力に空白トークンを含めるかどうかを制御します。
builder.set_keep_whitespace(True)
append_character_filter(kind, args=None)
前処理パイプラインに文字フィルタを追加します。
builder.append_character_filter("unicode_normalize", {"kind": "nfkc"})
append_token_filter(kind, args=None)
後処理パイプラインにトークンフィルタを追加します。
builder.append_token_filter("lowercase", {})
ビルド
build()
設定された内容で Tokenizer をビルドして返します。
tokenizer = builder.build()
Tokenizer
Tokenizer はテキストに対して形態素解析を行います。
Tokenizer の作成
Tokenizer(dictionary, mode="normal", user_dictionary=None)
読み込み済みの辞書から直接トークナイザーを作成します。
from lindera import Tokenizer, load_dictionary
dictionary = load_dictionary("embedded://ipadic")
tokenizer = Tokenizer(dictionary, mode="normal")
Tokenizer メソッド
tokenize(text)
入力テキストをトークナイズし、Token オブジェクトのリストを返します。
tokens = tokenizer.tokenize("形態素解析")
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
text | str | トークナイズするテキスト |
戻り値: list[Token]
tokenize_nbest(text, n, unique=False, cost_threshold=None)
N-best トークナイズ結果を返します。各結果はトータルパスコストとペアになっています。
results = tokenizer.tokenize_nbest("すもももももももものうち", n=3)
for tokens, cost in results:
print(cost, [t.surface for t in tokens])
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
text | str | トークナイズするテキスト |
n | int | 返す結果の数 |
unique | bool | 結果の重複を排除(デフォルト: False) |
cost_threshold | int または None | 最良パスからの最大コスト差(デフォルト: None) |
戻り値: list[tuple[list[Token], int]]
Token
Token は単一の形態素トークンを表します。
プロパティ
| プロパティ | 型 | 説明 |
|---|---|---|
surface | str | トークンの表層形 |
byte_start | int | 元テキストでの開始バイト位置 |
byte_end | int | 元テキストでの終了バイト位置 |
position | int | トークンの位置インデックス |
word_id | int | 辞書の単語 ID |
is_unknown | bool | 辞書に登録されていない単語の場合 True |
details | list[str] または None | 形態素の詳細情報(品詞、読みなど) |
Token メソッド
get_detail(index)
指定されたインデックスの詳細文字列を返します。インデックスが範囲外の場合は None を返します。
token = tokenizer.tokenize("東京")[0]
pos = token.get_detail(0) # 例: "名詞"
subpos = token.get_detail(1) # 例: "固有名詞"
reading = token.get_detail(7) # 例: "トウキョウ"
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
index | int | details リストへのゼロベースインデックス |
戻り値: str または None
details の構造は辞書によって異なります:
- IPADIC:
[品詞, 品詞細分類1, 品詞細分類2, 品詞細分類3, 活用型, 活用形, 原形, 読み, 発音] - UniDic: UniDic 仕様に準拠した詳細な形態素情報
- ko-dic / CC-CEDICT / Jieba: 各辞書固有の詳細フォーマット