トークナイザー API
TokenizerBuilder
TokenizerBuilder はビルダーパターンを使用して Tokenizer インスタンスを設定・構築します。
コンストラクタ
new Lindera\TokenizerBuilder()
デフォルト設定で新しいビルダーを作成します。
<?php
$builder = new Lindera\TokenizerBuilder();
設定メソッド
すべてのセッターメソッドはメソッドチェーンのために $this を返します。
setMode($mode)
トークナイズモードを設定します。
"normal"-- 標準的なトークナイズ(デフォルト)"decompose"-- 複合語をより小さな単位に分解
$builder->setMode('normal');
setDictionary($uri)
システム辞書のパスまたは URI を設定します。
// 埋め込み辞書を使用
$builder->setDictionary('embedded://ipadic');
// 外部辞書を使用
$builder->setDictionary('/path/to/dictionary');
setUserDictionary($uri)
ユーザー辞書の URI を設定します。
$builder->setUserDictionary('/path/to/user_dictionary');
setKeepWhitespace($keep)
出力に空白トークンを含めるかどうかを制御します。
$builder->setKeepWhitespace(true);
appendCharacterFilter($kind, $args)
前処理パイプラインに文字フィルタを追加します。
$builder->appendCharacterFilter('unicode_normalize', ['kind' => 'nfkc']);
appendTokenFilter($kind, $args)
後処理パイプラインにトークンフィルタを追加します。
$builder->appendTokenFilter('lowercase');
$builder->appendTokenFilter('japanese_stop_tags', ['tags' => ['助詞', '助動詞']]);
ビルド
build()
設定された内容で Tokenizer をビルドして返します。
$tokenizer = $builder->build();
Tokenizer
Tokenizer はテキストに対して形態素解析を行います。
Tokenizer の作成
new Lindera\Tokenizer($dictionary, $mode, $userDictionary)
読み込み済みの辞書から直接トークナイザーを作成します。
<?php
$dictionary = Lindera\Dictionary::load('embedded://ipadic');
$tokenizer = new Lindera\Tokenizer($dictionary, 'normal');
ユーザー辞書を指定する場合:
<?php
$dictionary = Lindera\Dictionary::load('embedded://ipadic');
$metadata = $dictionary->metadata();
$userDictionary = Lindera\Dictionary::loadUser('/path/to/user_dictionary', $metadata);
$tokenizer = new Lindera\Tokenizer($dictionary, 'normal', $userDictionary);
Tokenizer メソッド
tokenize($text)
入力テキストをトークナイズし、Token オブジェクトの配列を返します。
$tokens = $tokenizer->tokenize('形態素解析');
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
$text | string | トークナイズするテキスト |
戻り値: array<Token>
tokenizeNbest($text, $n)
N-best トークナイズ結果を返します。各結果は NbestResult オブジェクトで、トークン配列とトータルパスコストを含みます。
$results = $tokenizer->tokenizeNbest('すもももももももものうち', 3);
foreach ($results as $result) {
echo "Cost: {$result->cost}\n";
foreach ($result->tokens as $token) {
echo " {$token->surface}\n";
}
}
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
$text | string | トークナイズするテキスト |
$n | int | 返す結果の数 |
戻り値: array<NbestResult>
NbestResult
NbestResult は N-best トークナイズの個別の結果を表します。
NbestResult プロパティ
| プロパティ | 型 | 説明 |
|---|---|---|
tokens | array<Token> | トークンの配列 |
cost | int | トータルパスコスト |
Token
Token は単一の形態素トークンを表します。
Token プロパティ
| プロパティ | 型 | 説明 |
|---|---|---|
surface | string | トークンの表層形 |
byte_start | int | 元テキストでの開始バイト位置 |
byte_end | int | 元テキストでの終了バイト位置 |
position | int | トークンの位置インデックス |
word_id | int | 辞書の単語 ID |
is_unknown | bool | 辞書に登録されていない単語の場合 true |
details | array<string> | 形態素の詳細情報(品詞、読みなど) |
Token メソッド
getDetail($index)
指定されたインデックスの詳細文字列を返します。インデックスが範囲外の場合は null を返します。
$token = $tokenizer->tokenize('東京')[0];
$pos = $token->getDetail(0); // 例: "名詞"
$subpos = $token->getDetail(1); // 例: "固有名詞"
$reading = $token->getDetail(7); // 例: "トウキョウ"
パラメータ:
| 名前 | 型 | 説明 |
|---|---|---|
$index | int | details 配列へのゼロベースインデックス |
戻り値: string または null
details の構造は辞書によって異なります:
- IPADIC:
[品詞, 品詞細分類1, 品詞細分類2, 品詞細分類3, 活用型, 活用形, 原形, 読み, 発音] - UniDic: UniDic 仕様に準拠した詳細な形態素情報
- ko-dic / CC-CEDICT / Jieba: 各辞書固有の詳細フォーマット
Mode
Mode はトークナイズの動作モードを表します。
Mode の作成
new Lindera\Mode($name)
$mode = new Lindera\Mode('normal');
$mode = new Lindera\Mode('decompose');
$mode = new Lindera\Mode(); // デフォルト: 'normal'
Mode プロパティ
| プロパティ | 型 | 説明 |
|---|---|---|
name | string | モード名("normal" または "decompose") |
Mode メソッド
| メソッド | 戻り値 | 説明 |
|---|---|---|
isNormal() | bool | Normal モードの場合 true |
isDecompose() | bool | Decompose モードの場合 true |