Lindera

Rust製の形態素解析ライブラリです。このプロジェクトは kuromoji-rs からフォークされました。

Linderaは、インストールが簡単で、様々なRustアプリケーション向けに簡潔なAPIを提供することを目指しています。

インストール

Cargo.tomlに以下を追加してください：

[dependencies]
lindera = { version = "2.1.1", features = ["embed-ipadic"] }

環境変数

LINDERA_DICTIONARIES_PATH

LINDERA_DICTIONARIES_PATH 環境変数は、辞書ソースファイルをキャッシュするディレクトリを指定します。これにより以下のメリットがあります：

オフラインビルド: 一度ダウンロードすれば、将来のビルドのために辞書ソースファイルが保存されます
ビルドの高速化: 有効なキャッシュファイルが存在する場合、次回のビルドではダウンロードがスキップされます
再現可能なビルド: ビルド間での辞書バージョンの一貫性を保ちます

使用方法：

export LINDERA_DICTIONARIES_PATH=/path/to/dicts
cargo build --features=ipadic

設定された場合、辞書ソースファイルは $LINDERA_DICTIONARIES_PATH/<version>/ （<version> は lindera-dictionary クレートのバージョン）に保存されます。キャッシュはMD5チェックサムを使用してファイルを検証し、無効なファイルは自動的に再ダウンロードされます。

[!NOTE] LINDERA_CACHE は非推奨ですが、後方互換性のために引き続きサポートされています。LINDERA_DICTIONARIES_PATH が設定されていない場合に使用されます。

LINDERA_CONFIG_PATH

LINDERA_CONFIG_PATH 環境変数は、トークナイザーの設定ファイル（YAML形式）へのパスを指定します。これにより、Rustコードを変更せずにトークナイザーの動作を設定できます。

export LINDERA_CONFIG_PATH=./resources/config/lindera.yml

設定フォーマットの詳細は設定セクションを参照してください。

[!NOTE] LINDERA_CONFIG_PATH は非推奨ですが、後方互換性のために引き続きサポートされています。LINDERA_CONFIG_PATH が設定されていない場合に使用されます。

DOCS_RS

DOCS_RS 環境変数は、docs.rsでドキュメントをビルドする際に自動的に設定されます。この変数が検出されると、Linderaは実際の辞書データをダウンロードする代わりにダミーの辞書ファイルを作成します。これにより、ネットワークアクセスや大容量ファイルのダウンロードなしでドキュメントをビルドできます。

これは主にdocs.rs内部で使用されるものであり、通常ユーザーが設定する必要はありません。

LINDERA_WORKDIR

LINDERA_WORKDIR 環境変数は、ビルドプロセス中に lindera-dictionary クレートによって自動的に設定されます。これはビルドされた辞書データファイルを含むディレクトリを指し、辞書クレートがデータファイルの場所を特定するために内部で使用されます。

この変数は自動的に設定されるため、ユーザーが変更する必要はありません。

クイックスタート

この例では、Linderaの基本的な使い方を説明します。

以下の処理を行います：

Normalモードでトークナイザーを作成
入力テキストをトークナイズ（形態素解析）
トークンを出力

use lindera::dictionary::load_dictionary;
use lindera::mode::Mode;
use lindera::segmenter::Segmenter;
use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    let dictionary = load_dictionary("embedded://ipadic")?;
    let segmenter = Segmenter::new(Mode::Normal, dictionary, None);
    let tokenizer = Tokenizer::new(segmenter);

    let text = "関西国際空港限定トートバッグ";
    let mut tokens = tokenizer.tokenize(text)?;
    println!("text:\t{}", text);
    for token in tokens.iter_mut() {
        let details = token.details().join(",");
        println!("token:\t{}\t{}", token.surface.as_ref(), details);
    }

    Ok(())
}

上記の例は以下のように実行できます：

% cargo run --features=embed-ipadic --example=tokenize

実行結果は以下のようになります：

text:   関西国際空港限定トートバッグ
token:  関西国際空港    名詞,固有名詞,組織,*,*,*,関西国際空港,カンサイコクサイクウコウ,カンサイコクサイクーコー
token:  限定    名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
token:  トートバッグ    名詞,一般,*,*,*,*,*,*,*

辞書

Linderaは様々な辞書をサポートしています。このセクションでは、各辞書のフォーマットおよびユーザー辞書のフォーマットについて説明します。

IPADIC - 日本語で最も一般的な辞書。
IPADIC NEologd - 新語に対応したIPADIC。
UniDic - 均一な単語単位定義を持つ辞書。
ko-dic - 韓国語用辞書。
CC-CEDICT - 中国語用辞書。

Lindera IPADIC

辞書バージョン

このリポジトリは mecab-ipadic を含んでいます。

辞書フォーマット

IPADICの辞書フォーマットと品詞タグの詳細についてはマニュアルを参照してください。

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Part-of-speech
5	品詞細分類1	Part-of-speech subcategory 1
6	品詞細分類2	Part-of-speech subcategory 2
7	品詞細分類3	Part-of-speech subcategory 3
8	活用形	Conjugation form
9	活用型	Conjugation type
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation

ユーザー辞書フォーマット (CSV)

シンプル版 (Simple version)

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	品詞	Part-of-speech
2	読み	Reading

詳細版 (Detailed version)

インデックス	名前 (日本語)	名前 (英語)	備考
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Part-of-speech
5	品詞細分類1	Part-of-speech subcategory 1
6	品詞細分類2	Part-of-speech subcategory 2
7	品詞細分類3	Part-of-speech subcategory 3
8	活用形	Conjugation form
9	活用型	Conjugation type
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation
13	-	-	13以降は自由に拡張可能です。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-ipadic

Lindera IPADIC NEologd

辞書バージョン

このリポジトリは mecab-ipadic-neologd を含んでいます。

辞書フォーマット

IPADICの辞書フォーマットと品詞タグの詳細についてはマニュアルを参照してください。

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Part-of-speech
5	品詞細分類1	Part-of-speech subcategory 1
6	品詞細分類2	Part-of-speech subcategory 2
7	品詞細分類3	Part-of-speech subcategory 3
8	活用形	Conjugation form
9	活用型	Conjugation type
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation

ユーザー辞書フォーマット (CSV)

シンプル版 (Simple version)

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	品詞	Part-of-speech
2	読み	Reading

詳細版 (Detailed version)

インデックス	名前 (日本語)	名前 (英語)	備考
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞	Part-of-speech
5	品詞細分類1	Part-of-speech subcategory 1
6	品詞細分類2	Part-of-speech subcategory 2
7	品詞細分類3	Part-of-speech subcategory 3
8	活用形	Conjugation form
9	活用型	Conjugation type
10	原形	Base form
11	読み	Reading
12	発音	Pronunciation
13	-	-	13以降は自由に拡張可能です。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-ipadic-neologd

Lindera UniDic

辞書バージョン

このリポジトリは unidic-mecab を含んでいます。

辞書フォーマット

unidic-mecabの辞書フォーマットと品詞タグの詳細についてはマニュアルを参照してください。

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞大分類	Part-of-speech
5	品詞中分類	Part-of-speech subcategory 1
6	品詞小分類	Part-of-speech subcategory 2
7	品詞細分類	Part-of-speech subcategory 3
8	活用型	Conjugation type
9	活用形	Conjugation form
10	語彙素読み	Reading
11	語彙素（語彙素表記 + 語彙素細分類）	Lexeme
12	書字形出現形	Orthographic surface form
13	発音形出現形	Phonological surface form
14	書字形基本形	Orthographic base form
15	発音形基本形	Phonological base form
16	語種	Word type
17	語頭変化型	Initial mutation type
18	語頭変化形	Initial mutation form
19	語末変化型	Final mutation type
20	語末変化形	Final mutation form

ユーザー辞書フォーマット (CSV)

シンプル版 (Simple version)

インデックス	名前 (日本語)	名前 (英語)
0	表層形	Surface
1	品詞大分類	Part-of-speech
2	語彙素読み	Reading

詳細版 (Detailed version)

インデックス	名前 (日本語)	名前 (英語)	備考
0	表層形	Surface
1	左文脈ID	Left context ID
2	右文脈ID	Right context ID
3	コスト	Cost
4	品詞大分類	Part-of-speech
5	品詞中分類	Part-of-speech subcategory 1
6	品詞小分類	Part-of-speech subcategory 2
7	品詞細分類	Part-of-speech subcategory 3
8	活用型	Conjugation type
9	活用形	Conjugation form
10	語彙素読み	Reading
11	語彙素（語彙素表記 + 語彙素細分類）	Lexeme
12	書字形出現形	Orthographic surface form
13	発音形出現形	Phonological surface form
14	書字形基本形	Orthographic base form
15	発音形基本形	Phonological base form
16	語種	Word type
17	語頭変化型	Initial mutation type
18	語頭変化形	Initial mutation form
19	語末変化型	Final mutation type
20	語末変化形	Final mutation form
21	-	-	21以降は自由に拡張可能です。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-unidic

Lindera ko-dic

辞書バージョン

このリポジトリは mecab-ko-dic を含んでいます。

辞書フォーマット

mecab-ko-dicで使用されている辞書フォーマットと品詞タグに関する情報は、mecab-ko-dicのリポジトリreadme からリンクされている Googleスプレッドシートにドキュメント化されています。

ko-dicはNAIST JDICよりも機能列が1つ少なく、全く異なる情報セットを持っています（例：「原形」を提供していません）。

タグはSejongによって指定されたものを少し修正したものです。Sejongからmecab-ko-dicのタグ名へのマッピングは、上記スプレッドシートの 태그 v2.0 タブに記載されています。

辞書フォーマットは、スプレッドシートの 사전 형식 v2.0 タブに（韓国語で）完全に指定されています。空の値は * がデフォルトとなります。

インデックス	名前 (韓国語)	名前 (英語)	備考
0	표면	Surface
1	왼쪽 문맥 ID	Left context ID
2	오른쪽 문맥 ID	Right context ID
3	비용	Cost
4	품사 태그	Part-of-speech tag	スプレッドシートの `태그 v2.0` タブを参照
5	의미 부류	Meaning
6	종성 유무	Presence or absence	`T` (真)、`F` (偽)、その他は `*`
7	읽기	Reading	通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります
8	타입	Type	次のいずれか: `Inflect` (활용)、`Compound` (복합명사)、または `Preanalysis` (기분석)
9	첫번째 품사	First part-of-speech	例: 品詞タグが "VV+EM+VX+EP" の場合、`VV` を返します
10	마지막 품사	Last part-of-speech	例: 品詞タグが "VV+EM+VX+EP" の場合、`EP` を返します
11	표현	Expression	`활용, 복합명사, 기분석이 어떻게 구성되는지 알려주는 필드` – 活用、複合名詞、既分析がどのように構成されているかを示すフィールド

ユーザー辞書フォーマット (CSV)

シンプル版 (Simple version)

インデックス	名前 (韓国語)	名前 (英語)	備考
0	표면	Surface
1	품사 태그	part-of-speech tag	スプレッドシートの `태그 v2.0` タブを参照
2	읽기	reading	通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります

詳細版 (Detailed version)

インデックス	名前 (韓国語)	名前 (英語)	備考
0	표면	Surface
1	왼쪽 문맥 ID	Left context ID
2	오른쪽 문맥 ID	Right context ID
3	비용	Cost
4	품사 태그	part-of-speech tag	スプレッドシートの `태그 v2.0` タブを参照
5	의미 부류	meaning
6	종성 유무	presence or absence	`T` (真)、`F` (偽)、その他は `*`
7	읽기	reading	通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります
8	타입	type	次のいずれか: `Inflect` (활용)、`Compound` (복합명사)、または `Preanalysis` (기분석)
9	첫번째 품사	first part-of-speech	例: 品詞タグが "VV+EM+VX+EP" の場合、`VV` を返します
10	마지막 품사	last part-of-speech	例: 品詞タグが "VV+EM+VX+EP" の場合、`EP` を返します
11	표현	expression	`활용, 복합명사, 기분석이 어떻게 구성되는지 알려주는 필드` – 活用、複合名詞、既分析がどのように構成されているかを示すフィールド
12	-	-	12以降は自由に拡張可能です。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-ko-dic

Lindera CC-CE-DICT

辞書バージョン

このリポジトリは CC-CEDICT-MeCab を含んでいます。

辞書フォーマット

辞書フォーマットと品詞タグの詳細についてはマニュアルを参照してください。

インデックス	名前 (中国語)	名前 (英語)
0	表面形式	Surface
1	左语境ID	Left context ID
2	右语境ID	Right context ID
3	成本	Cost
4	词类	Part-of-speech
5	词类1	Part-of-speech subcategory 1
6	词类2	Part-of-speech subcategory 2
7	词类3	Part-of-speech subcategory 3
8	併音	Pinyin
9	繁体字	Traditional
10	簡体字	Simplified
11	定义	Definition

ユーザー辞書フォーマット (CSV)

シンプル版 (Simple version)

インデックス	名前 (中国語)	名前 (英語)
0	表面形式	Surface
1	词类	Part-of-speech
2	併音	Pinyin

詳細版 (Detailed version)

インデックス	名前 (中国語)	名前 (英語)	備考
0	表面形式	Surface
1	左语境ID	Left context ID
2	右语境ID	Right context ID
3	成本	Cost
4	词类	Part-of-speech
5	词类1	Part-of-speech subcategory 1
6	词类2	Part-of-speech subcategory 2
7	词类3	Part-of-speech subcategory 3
8	併音	Pinyin
9	繁体字	Traditional
10	簡体字	Simplified
11	定义	Definition
12	-	-	12以降は自由に拡張可能です。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-cc-cedict

設定

LinderaはYAML形式の設定ファイルを読み込むことができます。環境変数 LINDERA_CONFIG_PATH にファイルのパスを指定してください。Rustコードでトークナイザーの動作をコーディングすることなく、簡単に利用できます。

segmenter:
  mode: "normal"
  dictionary:
    kind: "ipadic"
  user_dictionary:
    path: "./resources/user_dict/ipadic_simple.csv"
    kind: "ipadic"

character_filters:
  - kind: "unicode_normalize"
    args:
      kind: "nfkc"
  - kind: "japanese_iteration_mark"
    args:
      normalize_kanji: true
      normalize_kana: true
  - kind: mapping
    args:
       mapping:
         リンデラ: Lindera

token_filters:
  - kind: "japanese_compound_word"
    args:
      tags:
        - "名詞,数"
        - "名詞,接尾,助数詞"
      new_tag: "名詞,数"
  - kind: "japanese_number"
    args:
      tags:
        - "名詞,数"
  - kind: "japanese_stop_tags"
    args:
      tags:
        - "接続詞"
        - "助詞"
        - "助詞,格助詞"
        - "助詞,格助詞,一般"
        - "助詞,格助詞,引用"
        - "助詞,格助詞,連語"
        - "助詞,係助詞"
        - "助詞,副助詞"
        - "助詞,間投助詞"
        - "助詞,並立助詞"
        - "助詞,終助詞"
        - "助詞,副助詞／並立助詞／終助詞"
        - "助詞,連体化"
        - "助詞,副詞化"
        - "助詞,特殊"
        - "助動詞"
        - "記号"
        - "記号,一般"
        - "記号,読点"
        - "記号,句点"
        - "記号,空白"
        - "記号,括弧閉"
        - "その他,間投"
        - "フィラー"
        - "非言語音"
  - kind: "japanese_katakana_stem"
    args:
      min: 3
  - kind: "remove_diacritical_mark"
    args:
      japanese: false

% export LINDERA_CONFIG_PATH=./resources/config/lindera.yml

use std::path::PathBuf;

use lindera::tokenizer::TokenizerBuilder;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    // 設定ファイルからトークナイザーの設定を読み込む
    let path = PathBuf::from(env!("CARGO_MANIFEST_DIR"))
        .join("../resources")
        .join("config")
        .join("lindera.yml");

    let builder = TokenizerBuilder::from_file(&path)?;

    let tokenizer = builder.build()?;

    let text = "Ｌｉｎｄｅｒａは形態素解析ｴﾝｼﾞﾝです。ユーザー辞書も利用可能です。".to_string();
    println!("text: {text}");

    let tokens = tokenizer.tokenize(&text)?;

    for token in tokens {
        println!(
            "token: {:?}, start: {:?}, end: {:?}, details: {:?}",
            token.surface, token.byte_start, token.byte_end, token.details
        );
    }

    Ok(())
}

高度な使い方

ユーザー辞書を使用したトークナイズ

デフォルトのシステム辞書に加えて、ユーザー辞書のエントリーを指定することができます。ユーザー辞書は以下のフォーマットのCSVである必要があります。

<surface>,<part_of_speech>,<reading>

Cargo.tomlに以下を追加してください：

[dependencies]
lindera = { version = "2.1.1", features = ["embed-ipadic"] }

例：

% cat ./resources/user_dict/ipadic_simple_userdic.csv
東京スカイツリー,カスタム名詞,トウキョウスカイツリー
東武スカイツリーライン,カスタム名詞,トウブスカイツリーライン
とうきょうスカイツリー駅,カスタム名詞,トウキョウスカイツリーエキ

ユーザー辞書を使用する場合、Tokenizer は以下のように作成します：

use std::fs::File;
use std::path::PathBuf;

use lindera::dictionary::{Metadata, load_dictionary, load_user_dictionary};
use lindera::error::LinderaErrorKind;
use lindera::mode::Mode;
use lindera::segmenter::Segmenter;
use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    let user_dict_path = PathBuf::from(env!("CARGO_MANIFEST_DIR"))
        .join("../resources")
        .join("user_dict")
        .join("ipadic_simple_userdic.csv");

    let metadata_file = PathBuf::from(env!("CARGO_MANIFEST_DIR"))
        .join("../lindera-ipadic")
        .join("metadata.json");
    let metadata: Metadata = serde_json::from_reader(
        File::open(metadata_file)
            .map_err(|err| LinderaErrorKind::Io.with_error(anyhow::anyhow!(err)))
            .unwrap(),
    )
    .map_err(|err| LinderaErrorKind::Io.with_error(anyhow::anyhow!(err)))
    .unwrap();

    let dictionary = load_dictionary("embedded://ipadic")?;
    let user_dictionary = load_user_dictionary(user_dict_path.to_str().unwrap(), &metadata)?;
    let segmenter = Segmenter::new(
        Mode::Normal,
        dictionary,
        Some(user_dictionary), // 読み込んだユーザー辞書を使用
    );

    // トークナイザーを作成
    let tokenizer = Tokenizer::new(segmenter);

    // テキストをトークナイズ
    let text = "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です";
    let mut tokens = tokenizer.tokenize(text)?;

    // テキストとトークンを表示
    println!("text:\t{}", text);
    for token in tokens.iter_mut() {
        let details = token.details().join(",");
        println!("token:\t{}\t{}", token.surface.as_ref(), details);
    }

    Ok(())
}

上記の例は以下のように実行できます：

% cargo run --features=embed-ipadic --example=tokenize_with_user_dict
text:   東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です
token:  東京スカイツリー        カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
token:  の      助詞,連体化,*,*,*,*,の,ノ,ノ
token:  最寄り駅        名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
token:  は      助詞,係助詞,*,*,*,*,は,ハ,ワ
token:  とうきょうスカイツリー駅        カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
token:  です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス

フィルタを使用したトークナイズ

Cargo.tomlに以下を追加してください：

[dependencies]
lindera = { version = "2.1.1", features = ["embed-ipadic"] }

この例では、Lindera解析フレームワークの基本的な使い方を説明します。

以下の処理を行います：

Unicode正規化(NFKC)のための文字フィルタを適用
IPADICで入力テキストをトークナイズ
ストップタグ（品詞）の除去と日本語カタカナ語幹フィルタのためのトークンフィルタを適用

use lindera::character_filter::BoxCharacterFilter;
use lindera::character_filter::japanese_iteration_mark::JapaneseIterationMarkCharacterFilter;
use lindera::character_filter::unicode_normalize::{
    UnicodeNormalizeCharacterFilter, UnicodeNormalizeKind,
};
use lindera::dictionary::load_dictionary;
use lindera::mode::Mode;
use lindera::segmenter::Segmenter;
use lindera::token_filter::BoxTokenFilter;
use lindera::token_filter::japanese_compound_word::JapaneseCompoundWordTokenFilter;
use lindera::token_filter::japanese_number::JapaneseNumberTokenFilter;
use lindera::token_filter::japanese_stop_tags::JapaneseStopTagsTokenFilter;
use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    let dictionary = load_dictionary("embedded://ipadic")?;
    let segmenter = Segmenter::new(
        Mode::Normal,
        dictionary,
        None, // この例ではユーザー辞書は使用しません
    );

    let unicode_normalize_char_filter =
        UnicodeNormalizeCharacterFilter::new(UnicodeNormalizeKind::NFKC);

    let japanese_iteration_mark_char_filter =
        JapaneseIterationMarkCharacterFilter::new(true, true);

    let japanese_compound_word_token_filter = JapaneseCompoundWordTokenFilter::new(
        vec!["名詞,数".to_string(), "名詞,接尾,助数詞".to_string()]
            .into_iter()
            .collect(),
        Some("複合語".to_string()),
    );

    let japanese_number_token_filter =
        JapaneseNumberTokenFilter::new(Some(vec!["名詞,数".to_string()].into_iter().collect()));

    let japanese_stop_tags_token_filter = JapaneseStopTagsTokenFilter::new(
        vec![
            "接続詞".to_string(),
            "助詞".to_string(),
            "助詞,格助詞".to_string(),
            "助詞,格助詞,一般".to_string(),
            "助詞,格助詞,引用".to_string(),
            "助詞,格助詞,連語".to_string(),
            "助詞,係助詞".to_string(),
            "助詞,副助詞".to_string(),
            "助詞,間投助詞".to_string(),
            "助詞,並立助詞".to_string(),
            "助詞,終助詞".to_string(),
            "助詞,副助詞／並立助詞／終助詞".to_string(),
            "助詞,連体化".to_string(),
            "助詞,副詞化".to_string(),
            "助詞,特殊".to_string(),
            "助動詞".to_string(),
            "記号".to_string(),
            "記号,一般".to_string(),
            "記号,読点".to_string(),
            "記号,句点".to_string(),
            "記号,空白".to_string(),
            "記号,括弧閉".to_string(),
            "その他,間投".to_string(),
            "フィラー".to_string(),
            "非言語音".to_string(),
        ]
        .into_iter()
        .collect(),
    );

    // トークナイザーを作成
    let mut tokenizer = Tokenizer::new(segmenter);

    tokenizer
        .append_character_filter(BoxCharacterFilter::from(unicode_normalize_char_filter))
        .append_character_filter(BoxCharacterFilter::from(
            japanese_iteration_mark_char_filter,
        ))
        .append_token_filter(BoxTokenFilter::from(japanese_compound_word_token_filter))
        .append_token_filter(BoxTokenFilter::from(japanese_number_token_filter))
        .append_token_filter(BoxTokenFilter::from(japanese_stop_tags_token_filter));

    // テキストをトークナイズ
    let text = "Ｌｉｎｄｅｒａは形態素解析ｴﾝｼﾞﾝです。ユーザー辞書も利用可能です。";
    let tokens = tokenizer.tokenize(text)?;

    // テキストとトークンを表示
    println!("text: {}", text);
    for token in tokens {
        println!(
            "token: {:?}, start: {:?}, end: {:?}, details: {:?}",
            token.surface, token.byte_start, token.byte_end, token.details
        );
    }

    Ok(())
}

上記の例は以下のように実行できます：

% cargo run --features=embed-ipadic --example=tokenize_with_filters

実行結果は以下のようになります：

text: Ｌｉｎｄｅｒａは形態素解析ｴﾝｼﾞﾝです。ユーザー辞書も利用可能です。
token: "Lindera", start: 0, end: 21, details: Some(["名詞", "固有名詞", "組織", "*", "*", "*", "*", "*", "*"])
token: "形態素", start: 24, end: 33, details: Some(["名詞", "一般", "*", "*", "*", "*", "形態素", "ケイタイソ", "ケイタイソ"])
token: "解析", start: 33, end: 39, details: Some(["名詞", "サ変接続", "*", "*", "*", "*", "解析", "カイセキ", "カイセキ"])
token: "エンジン", start: 39, end: 54, details: Some(["名詞", "一般", "*", "*", "*", "*", "エンジン", "エンジン", "エンジン"])
token: "ユーザー", start: 63, end: 75, details: Some(["名詞", "一般", "*", "*", "*", "*", "ユーザー", "ユーザー", "ユーザー"])
token: "辞書", start: 75, end: 81, details: Some(["名詞", "一般", "*", "*", "*", "*", "辞書", "ジショ", "ジショ"])
token: "利用", start: 84, end: 90, details: Some(["名詞", "サ変接続", "*", "*", "*", "*", "利用", "リヨウ", "リヨー"])
token: "可能", start: 90, end: 96, details: Some(["名詞", "形容動詞語幹", "*", "*", "*", "*", "可能", "カノウ", "カノー"])

N-Best トークナイズ

Linderaは N-Best トークナイズをサポートしており、パスの総コスト順（低コスト＝高精度）に上位 N 件のトークナイズ候補を列挙します。これは MeCab の N-Best 実装と互換性のある Forward-DP Backward-A* アルゴリズムに基づいています。

基本的な N-Best の使い方

Cargo.tomlに以下を追加してください：

[dependencies]
lindera = { version = "2.1.1", features = ["embed-ipadic"] }

use lindera::dictionary::load_dictionary;
use lindera::mode::Mode;
use lindera::segmenter::Segmenter;
use lindera::tokenizer::Tokenizer;
use lindera::LinderaResult;

fn main() -> LinderaResult<()> {
    let dictionary = load_dictionary("embedded://ipadic")?;
    let segmenter = Segmenter::new(Mode::Normal, dictionary, None);
    let tokenizer = Tokenizer::new(segmenter);

    let text = "すもももももももものうち";

    // 上位3件のトークナイズ結果を取得
    let results = tokenizer.tokenize_nbest(text, 3, false, None)?;

    for (rank, (tokens, cost)) in results.iter().enumerate() {
        println!("--- NBEST {} (cost={}) ---", rank + 1, cost);
        for token in tokens {
            let details = token.details().join(",");
            println!("{}\t{}", token.surface.as_ref(), details);
        }
    }

    Ok(())
}

出力:

--- NBEST 1 (cost=7546) ---
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
--- NBEST 2 (cost=7914) ---
...

ユニーク結果とコスト閾値を使用した N-Best

tokenize_nbest メソッドは以下のパラメータを受け取ります:

text: トークナイズするテキスト。
n: 返す N-best 結果の数。
unique: true の場合、同じ分割（同じ単語境界位置）を生成する結果の重複を排除します。
cost_threshold: Some(threshold) の場合、best_cost + threshold 以内のコストを持つパスのみを返します。

#![allow(unused)]
fn main() {
// コスト閾値5000以内のユニークな上位10件を取得
let results = tokenizer.tokenize_nbest(text, 10, true, Some(5000))?;
}

Lattice を再利用した N-Best

繰り返しトークナイズを行う場合、Lattice を再利用してメモリ割り当てを削減できます:

#![allow(unused)]
fn main() {
use lindera_dictionary::viterbi::Lattice;

let mut lattice = Lattice::default();
let results = tokenizer.tokenize_nbest_with_lattice(text, &mut lattice, 3, false, None)?;
}

辞書の学習（実験的機能）

Linderaは、カスタム形態素解析モデルを作成するためのCRFベースの辞書学習機能を提供しています。

概要

Lindera Trainerは、以下の高度な機能を備えたCondition Random Field (CRF)ベースの形態素解析器学習システムです：

CRFベースの統計学習: rucrfクレートを使用した効率的な実装
L1正則化: 過学習の防止
マルチスレッド学習: 並行処理による学習の高速化
包括的なUnicodeサポート: CJK拡張の完全サポート
高度な未知語処理: インテリジェントな混合文字種分類
多段階の重み最適化: 学習済み重みのための高度な正規化システム
Lindera辞書互換性: 既存の辞書フォーマットとの完全互換

CLIの使用方法

詳細なCLIコマンドの使用方法については、lindera-cli/README.md を参照してください。

必須ファイルフォーマット仕様

1. 語彙辞書 (seed.csv)

役割: 基礎語彙辞書 フォーマット: MeCab形式のCSV

外国,0,0,0,名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人,0,0,0,名詞,接尾,一般,*,*,*,人,ジン,ジン
参政,0,0,0,名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ

目的: 学習のための基本的な単語とその品詞情報を定義
構造: 表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音

2. 未知語定義 (unk.def)

役割: 未知語処理の定義 フォーマット: 文字種ごとの未知語パラメータ

DEFAULT,0,0,0,名詞,一般,*,*,*,*,*,*,*
HIRAGANA,0,0,0,名詞,一般,*,*,*,*,*,*,*
KATAKANA,0,0,0,名詞,一般,*,*,*,*,*,*,*
KANJI,0,0,0,名詞,一般,*,*,*,*,*,*,*
ALPHA,0,0,0,名詞,固有名詞,一般,*,*,*,*,*,*
NUMERIC,0,0,0,名詞,数,*,*,*,*,*,*,*

目的: 文字種ごとの未知語の処理方法を定義
注意: これらのラベルは内部処理用であり、最終的な辞書ファイルには出力されません

3. 学習コーパス (corpus.txt)

役割: 学習データ（注釈付きコーパス） フォーマット: タブ区切りの分かち書きテキスト

外国	名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人	名詞,接尾,一般,*,*,*,人,ジン,ジン
参政	名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ
権	名詞,接尾,一般,*,*,*,権,ケン,ケン
EOS

これ	連体詞,*,*,*,*,*,これ,コレ,コレ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト	名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
EOS

目的: 学習のための文と正解の解析結果
フォーマット: 各行は 表層形\t品詞情報、文は EOS で終了
重要: 学習の質はこのコーパスの量と質に大きく依存します

4. 文字種定義 (char.def)

役割: 文字種の定義 フォーマット: 文字カテゴリと文字コード範囲

# Character category definition (category_name compatibility_flag continuity_flag length)
DEFAULT 0 1 0
HIRAGANA 1 1 0
KATAKANA 1 1 0
KANJI 0 0 2
ALPHA 1 1 0
NUMERIC 1 1 0

# Character range mapping
0x3041..0x3096 HIRAGANA  # Hiragana
0x30A1..0x30F6 KATAKANA  # Katakana
0x4E00..0x9FAF KANJI     # Kanji
0x0030..0x0039 NUMERIC   # Numbers
0x0041..0x005A ALPHA     # Uppercase letters
0x0061..0x007A ALPHA     # Lowercase letters

目的: どの文字がどのカテゴリに属するかを定義
パラメータ: 互換性、連続性、デフォルト長などの設定

5. 機能テンプレート (feature.def)

役割: 素性テンプレート定義 フォーマット: 素性抽出パターン

# Unigram features (word-level features)
UNIGRAM:%F[0]         # POS (feature element 0)
UNIGRAM:%F[1]         # POS detail 1
UNIGRAM:%F[6]         # Base form
UNIGRAM:%F[7]         # Reading (Katakana)

# Left context features
LEFT:%L[0]            # POS of left word
LEFT:%L[1]            # POS detail of left word

# Right context features
RIGHT:%R[0]           # POS of right word
RIGHT:%R[1]           # POS detail of right word

# Bigram features (combination features)
UNIGRAM:%F[0]/%F[1]   # POS + POS detail
UNIGRAM:%F[0]/%F[6]   # POS + base form

目的: どの情報から素性を抽出するかを定義
テンプレート: %F[n] (素性), %L[n] (左文脈), %R[n] (右文脈)

6. 素性正規化ルール (rewrite.def)

役割: 素性正規化ルール フォーマット: 置換ルール（タブ区切り）

# Normalize numeric expressions
数	NUM
*	UNK

# Normalize proper nouns
名詞,固有名詞	名詞,一般

# Simplify auxiliary verbs
助動詞,*,*,*,特殊・デス	助動詞
助動詞,*,*,*,特殊・ダ	助動詞

目的: 素性を正規化して学習効率を向上させる
フォーマット: original_pattern\treplacement_pattern
効果: 希少な素性を一般化し、スパース性の問題を軽減する

7. 出力モデルフォーマット

役割: 出力モデルファイル フォーマット: 標準はバイナリ(rkyv)形式、JSON形式もサポート

モデルには以下の情報が含まれます：

{
  "feature_weights": [0.0, 0.084, 0.091, ...],
  "labels": ["外国", "人", "参政", "権", ...],
  "pos_info": ["名詞,一般,*,*,*,*,*,*,*", "名詞,接尾,一般,*,*,*,*,*,*", ...],
  "feature_templates": ["UNIGRAM:%F[0]", ...],
  "metadata": {
    "version": "1.0.0",
    "regularization": 0.01,
    "iterations": 100,
    "feature_count": 13,
    "label_count": 19
  }
}

目的: 後の辞書生成のために学習結果を保存

学習パラメータ仕様

正則化係数 (lambda): L1正則化の強さを制御 (デフォルト: 0.01)
最大反復回数 (iter): 学習の最大反復回数 (デフォルト: 100)
並列スレッド数 (threads): 並行処理スレッド数 (デフォルト: 1)

API使用例

#![allow(unused)]
fn main() {
use std::fs::File;
use lindera_dictionary::trainer::{Corpus, Trainer, TrainerConfig};

// Load configuration from files
let seed_file = File::open("resources/training/seed.csv")?;
let char_file = File::open("resources/training/char.def")?;
let unk_file = File::open("resources/training/unk.def")?;
let feature_file = File::open("resources/training/feature.def")?;
let rewrite_file = File::open("resources/training/rewrite.def")?;

let config = TrainerConfig::from_readers(
    seed_file,
    char_file,
    unk_file,
    feature_file,
    rewrite_file
)?;

// Initialize and configure trainer
let trainer = Trainer::new(config)?
    .regularization_cost(0.01)
    .max_iter(100)
    .num_threads(4);

// Load corpus
let corpus_file = File::open("resources/training/corpus.txt")?;
let corpus = Corpus::from_reader(corpus_file)?;

// Execute training
let model = trainer.train(corpus)?;

// Save model (binary format)
let mut output = File::create("trained_model.dat")?;
model.write_model(&mut output)?;

// Output in Lindera dictionary format
let mut lex_out = File::create("output_lex.csv")?;
let mut conn_out = File::create("output_conn.dat")?;
let mut unk_out = File::create("output_unk.def")?;
let mut user_out = File::create("output_user.csv")?;
model.write_dictionary(&mut lex_out, &mut conn_out, &mut unk_out, &mut user_out)?;

Ok::<(), Box<dyn std::error::Error>>(())
}

実装状況

完了した機能

コア機能

コアアーキテクチャ: トレーナーモジュール構造の完成
CRF学習: rucrf統合によるCondition Random Field学習
CLI統合: パラメータを完全にサポートした lindera train コマンド
コーパス処理: MeCab形式コーパスの完全サポート
辞書統合: seed.csv, char.def, unk.def からの辞書構築
素性抽出: ユニグラム/バイグラム素性の抽出と変換
モデル保存: JSON/rkyv形式での学習済みモデル出力
辞書出力: Lindera形式辞書ファイルの生成

高度な未知語処理

包括的なUnicodeサポート: CJK拡張、カタカナ拡張、ひらがな拡張の完全サポート
カテゴリ別の品詞割り当て: 文字種による適切な品詞情報の自動割り当て
- DEFAULT: 名詞,一般 (未知の文字種)
- HIRAGANA/KATAKANA/KANJI: 名詞,一般 (日本語文字)
- ALPHA: 名詞,固有名詞 (アルファベット)
- NUMERIC: 名詞,数 (数字)
表層形分析: 文字パターン、長さ、位置情報に基づく素性生成
動的コスト計算: 文字種と文脈を考慮した適応的コスト計算

リファクタリング（2024年9月最新）

定数管理: cost_constantsモジュールによるマジックナンバーの排除
メソッド分割: 大きなメソッドの分割による可読性向上
- train() → build_lattices_from_corpus(), extract_labels(), train_crf_model(), create_final_model()
統一されたコスト計算: 重複コードの統一による保守性向上
- calculate_known_word_cost(): 既知語コスト計算
- calculate_unknown_word_cost(): 未知語コスト計算
整理されたデバッグ出力: log_debug!マクロによる構造化ロギング
強化されたエラーハンドリング: 包括的なエラーハンドリングとドキュメント

アーキテクチャ

lindera-dictionary/src/trainer.rs  # Main Trainer struct
lindera-dictionary/src/trainer/
├── config.rs           # Configuration management
├── corpus.rs           # Corpus processing
├── feature_extractor.rs # Feature extraction
├── feature_rewriter.rs  # Feature rewriting
└── model.rs            # Trained model

高度な未知語処理システム

包括的なUnicode文字種検出

最新の実装では、基本的なUnicode範囲を大幅に拡張し、以下の文字セットを完全にサポートしています。（上記の「高度な未知語処理」セクションの「カテゴリ別の品詞割り当て」の詳細を参照してください。）

素性重み最適化

コスト計算定数

#![allow(unused)]
fn main() {
mod cost_constants {
    // Known word cost calculation
    pub const KNOWN_WORD_BASE_COST: i16 = 1000;
    pub const KNOWN_WORD_COST_MULTIPLIER: f64 = 500.0;
    pub const KNOWN_WORD_COST_MIN: i16 = 500;
    pub const KNOWN_WORD_COST_MAX: i16 = 3000;
    pub const KNOWN_WORD_DEFAULT_COST: i16 = 1500;

    // Unknown word cost calculation
    pub const UNK_BASE_COST: i32 = 3000;
    pub const UNK_COST_MULTIPLIER: f64 = 500.0;
    pub const UNK_COST_MIN: i32 = 2500;
    pub const UNK_COST_MAX: i32 = 4500;

    // Category-specific adjustments
    pub const UNK_DEFAULT_ADJUSTMENT: i32 = 0;     // DEFAULT
    pub const UNK_HIRAGANA_ADJUSTMENT: i32 = 200;  // HIRAGANA - minor penalty
    pub const UNK_KATAKANA_ADJUSTMENT: i32 = 0;    // KATAKANA - medium
    pub const UNK_KANJI_ADJUSTMENT: i32 = 400;     // KANJI - high penalty
    pub const UNK_ALPHA_ADJUSTMENT: i32 = 100;     // ALPHA - mild penalty
    pub const UNK_NUMERIC_ADJUSTMENT: i32 = -100;  // NUMERIC - bonus (regular)
}
}

統一されたコスト計算

#![allow(unused)]
fn main() {
// Known word cost calculation
fn calculate_known_word_cost(&self, feature_weight: f64) -> i16 {
    let scaled_weight = (feature_weight * cost_constants::KNOWN_WORD_COST_MULTIPLIER) as i32;
    let final_cost = cost_constants::KNOWN_WORD_BASE_COST as i32 + scaled_weight;
    final_cost.clamp(
        cost_constants::KNOWN_WORD_COST_MIN as i32,
        cost_constants::KNOWN_WORD_COST_MAX as i32
    ) as i16
}

// Unknown word cost calculation
fn calculate_unknown_word_cost(&self, feature_weight: f64, category: usize) -> i32 {
    let base_cost = cost_constants::UNK_BASE_COST;
    let category_adjustment = match category {
        0 => cost_constants::UNK_DEFAULT_ADJUSTMENT,
        1 => cost_constants::UNK_HIRAGANA_ADJUSTMENT,
        2 => cost_constants::UNK_KATAKANA_ADJUSTMENT,
        3 => cost_constants::UNK_KANJI_ADJUSTMENT,
        4 => cost_constants::UNK_ALPHA_ADJUSTMENT,
        5 => cost_constants::UNK_NUMERIC_ADJUSTMENT,
        _ => 0,
    };
    let scaled_weight = (feature_weight * cost_constants::UNK_COST_MULTIPLIER) as i32;
    let final_cost = base_cost + category_adjustment + scaled_weight;
    final_cost.clamp(
        cost_constants::UNK_COST_MIN,
        cost_constants::UNK_COST_MAX
    )
}
}

パフォーマンス最適化

メモリ効率

遅延評価: 必要な場合にのみ merged_model を作成
未使用素性の削除: 学習後に不要な素性を自動削除
効率的なバイナリ形式: rkyvを使用した高速シリアライゼーション

並列処理サポート

#![allow(unused)]
fn main() {
let trainer = rucrf::Trainer::new()
    .regularization(rucrf::Regularization::L1, regularization_cost)?
    .max_iter(max_iter)?
    .n_threads(self.num_threads)?;  // Multi-threaded training
}

実践的な学習データ要件

推奨コーパス仕様

実際のアプリケーション向けに効果的な辞書を生成するための推奨事項：

コーパスサイズ
- 最小: 100文 (基本的な動作検証用)
- 推奨: 1,000文以上 (実用レベル)
- 理想: 10,000文以上 (商用品質)
語彙の多様性
- 異なる品詞のバランスの取れた分布
- 活用語尾や接尾辞の網羅
- 専門用語や固有名詞の適切な包含
品質管理
- 形態素解析結果の手動検証
- 解析基準の一貫した適用
- エラー率を5%以下に維持

Lindera CLI

Lindera のための形態素解析コマンドラインインターフェースです。

インストール

cargo経由でバイナリをインストールできます：

% cargo install lindera-cli

または、以下のリリースページからバイナリをダウンロードすることもできます：

https://github.com/lindera/lindera/releases

ビルド

IPADIC（日本語辞書）を含めてビルド

"ipadic" 機能フラグを使用すると、LinderaにIPADICを含めることができます。

% cargo build --release --features=embed-ipadic

UniDic（日本語辞書）を含めてビルド

"unidic" 機能フラグを使用すると、LinderaにUniDicを含めることができます。

% cargo build --release --features=embed-unidic

ko-dic（韓国語辞書）を含めてビルド

"ko-dic" 機能フラグを使用すると、Linderaにko-dicを含めることができます。

% cargo build --release --features=embed-ko-dic

CC-CEDICT（中国語辞書）を含めてビルド

"cc-cedict" 機能フラグを使用すると、LinderaにCC-CEDICTを含めることができます。

% cargo build --release --features=embed-cc-cedict

辞書なしでビルド

Linderaのバイナリサイズを削減するには、機能フラグを省略します。これにより、辞書が含まれなくなるため、トークナイザーとトレーナーのみを含むバイナリになります。

% cargo build --release

全機能を含めてビルド

% cargo build --release --all-features

辞書のビルド

Linderaで使用するための形態素解析辞書をCSVソースファイルからビルド（コンパイル）します。

基本的なビルド方法

# システム辞書のビルド
lindera build \
  --src /path/to/dictionary/csv \
  --dest /path/to/output/dictionary \
  --metadata ./lindera-ipadic/metadata.json

# ユーザー辞書のビルド
lindera build \
  --src ./user_dict.csv \
  --dest ./user_dictionary \
  --metadata ./lindera-ipadic/metadata.json \
  --user

ビルドパラメータ

--src / -s: 辞書CSVファイルを含むソースディレクトリ（ユーザー辞書の場合は単一CSVファイル）
--dest / -d: コンパイルされた辞書の出力先ディレクトリ
--metadata / -m: 辞書構造を定義するメタデータ設定ファイル (metadata.json)
--user / -u: システム辞書の代わりにユーザー辞書をビルドする（オプションフラグ）

辞書の種類

システム辞書 (System dictionary)

以下を含む完全な形態素解析辞書です：

語彙エントリ（単語定義）
接続コスト行列
未知語処理ルール
文字種定義

ユーザー辞書 (User dictionary)

システム辞書と一緒に動作する、カスタム単語のための補助辞書です。

例

IPADIC（日本語辞書）のビルド

# IPADICソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ipadic-2.7.0-20250920.tar.gz "https://Lindera.dev/mecab-ipadic-2.7.0-20250920.tar.gz"
% tar zxvf /tmp/mecab-ipadic-2.7.0-20250920.tar.gz -C /tmp

# 辞書のビルド
% lindera build \
  --src /tmp/mecab-ipadic-2.7.0-20250920 \
  --dest /tmp/lindera-ipadic-2.7.0-20250920 \
  --metadata ./lindera-ipadic/metadata.json

% ls -al /tmp/lindera-ipadic-2.7.0-20250920
% (cd /tmp && zip -r lindera-ipadic-2.7.0-20250920.zip lindera-ipadic-2.7.0-20250920/)
% tar -czf /tmp/lindera-ipadic-2.7.0-20250920.tar.gz -C /tmp lindera-ipadic-2.7.0-20250920

IPADIC NEologd（日本語辞書）のビルド

# IPADIC NEologdソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ipadic-neologd-0.0.7-20200820.tar.gz "https://lindera.dev/mecab-ipadic-neologd-0.0.7-20200820.tar.gz"
% tar zxvf /tmp/mecab-ipadic-neologd-0.0.7-20200820.tar.gz -C /tmp

# 辞書のビルド
% lindera build \
  --src /tmp/mecab-ipadic-neologd-0.0.7-20200820 \
  --dest /tmp/lindera-ipadic-neologd-0.0.7-20200820 \
  --metadata ./lindera-ipadic-neologd/metadata.json

% ls -al /tmp/lindera-ipadic-neologd-0.0.7-20200820
% (cd /tmp && zip -r lindera-ipadic-neologd-0.0.7-20200820.zip lindera-ipadic-neologd-0.0.7-20200820/)
% tar -czf /tmp/lindera-ipadic-neologd-0.0.7-20200820.tar.gz -C /tmp lindera-ipadic-neologd-0.0.7-20200820

UniDic（日本語辞書）のビルド

# UniDicソースファイルのダウンロードと展開
% curl -L -o /tmp/unidic-mecab-2.1.2.tar.gz "https://Lindera.dev/unidic-mecab-2.1.2.tar.gz"
% tar zxvf /tmp/unidic-mecab-2.1.2.tar.gz -C /tmp

# 辞書のビルド
% lindera build \
  --src /tmp/unidic-mecab-2.1.2 \
  --dest /tmp/lindera-unidic-2.1.2 \
  --metadata ./lindera-unidic/metadata.json

% ls -al /tmp/lindera-unidic-2.1.2
% (cd /tmp && zip -r lindera-unidic-2.1.2.zip lindera-unidic-2.1.2/)
% tar -czf /tmp/lindera-unidic-2.1.2.tar.gz -C /tmp lindera-unidic-2.1.2

CC-CEDICT（中国語辞書）のビルド

# CC-CEDICTソースファイルのダウンロードと展開
% curl -L -o /tmp/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz "https://lindera.dev/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz"
% tar zxvf /tmp/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz -C /tmp

# 辞書のビルド
% lindera build \
  --src /tmp/CC-CEDICT-MeCab-0.1.0-20200409 \
  --dest /tmp/lindera-cc-cedict-0.1.0-20200409 \
  --metadata ./lindera-cc-cedict/metadata.json

% ls -al /tmp/lindera-cc-cedict-0.1.0-20200409
% (cd /tmp && zip -r lindera-cc-cedict-0.1.0-20200409.zip lindera-cc-cedict-0.1.0-20200409/)
% tar -czf /tmp/lindera-cc-cedict-0.1.0-20200409.tar.gz -C /tmp lindera-cc-cedict-0.1.0-20200409

ko-dic（韓国語辞書）のビルド

# ko-dicソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ko-dic-2.1.1-20180720.tar.gz "https://Lindera.dev/mecab-ko-dic-2.1.1-20180720.tar.gz"
% tar zxvf /tmp/mecab-ko-dic-2.1.1-20180720.tar.gz -C /tmp

# 辞書のビルド
% lindera build \
  --src /tmp/mecab-ko-dic-2.1.1-20180720 \
  --dest /tmp/lindera-ko-dic-2.1.1-20180720 \
  --metadata ./lindera-ko-dic/metadata.json

% ls -al /tmp/lindera-ko-dic-2.1.1-20180720
% (cd /tmp && zip -r lindera-ko-dic-2.1.1-20180720.zip lindera-ko-dic-2.1.1-20180720/)
% tar -czf /tmp/lindera-ko-dic-2.1.1-20180720.tar.gz -C /tmp lindera-ko-dic-2.1.1-20180720

ユーザー辞書のビルド

IPADICユーザー辞書（日本語）のビルド

ユーザー辞書フォーマットの詳細については、以下のURLを参照してください：

Lindera IPADIC Builder/User Dictionary Format

% lindera build \
  --src ./resources/user_dict/ipadic_simple_userdic.csv \
  --dest ./resources/user_dict \
  --metadata ./lindera-ipadic/metadata.json \
  --user

UniDicユーザー辞書（日本語）のビルド

ユーザー辞書フォーマットの詳細については、以下のURLを参照してください：

Lindera UniDic Builder/User Dictionary Format

% lindera build \
  --src ./resources/user_dict/unidic_simple_userdic.csv \
  --dest ./resources/user_dict \
  --metadata ./lindera-unidic/metadata.json \
  --user

CC-CEDICTユーザー辞書（中国語）のビルド

ユーザー辞書フォーマットの詳細については、以下のURLを参照してください：

Lindera CC-CEDICT Builder/User Dictionary Format

% lindera build \
  --src ./resources/user_dict/cc-cedict_simple_userdic.csv \
  --dest ./resources/user_dict \
  --metadata ./lindera-cc-cedict/metadata.json \
  --user

ko-dicユーザー辞書（韓国語）のビルド

ユーザー辞書フォーマットの詳細については、以下のURLを参照してください：

Lindera ko-dic Builder/User Dictionary Format

% lindera build \
  --src ./resources/user_dict/ko-dic_simple_userdic.csv \
  --dest ./resources/user_dict \
  --metadata ./lindera-ko-dic/metadata.json \
  --user

テキストのトークナイズ

様々な辞書を使用して、日本語、中国語、または韓国語のテキストに対して形態素解析（トークナイズ）を行います。

基本的なトークナイズ方法

# 辞書ディレクトリを指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict /path/to/dictionary

# 埋め込み辞書を指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict embedded://ipadic

# 出力形式を指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict embedded://ipadic \
  --output json

# ファイルからテキストを読み込んでトークナイズ
lindera tokenize \
  --dict /path/to/dictionary \
  --output wakati \
  input.txt

トークナイズパラメータ

--dict / -d: 辞書のパスまたはURI（必須）
- ファイルパス: /path/to/dictionary
- 埋め込み: embedded://ipadic, embedded://unidic, etc.
--output / -o: 出力形式 (デフォルト: mecab)
- mecab: 品詞情報を含むMeCab互換形式
- wakati: スペース区切りのトークンのみ
- json: すべてのトークン情報を含む詳細なJSON形式
--user-dict / -u: ユーザー辞書のパス（オプション）
--mode / -m: トークナイズモード (デフォルト: normal)
- normal: 標準的なトークナイズ
- decompose: 複合語を分解する
--char-filter / -c: 文字フィルタ設定 (JSON)
--token-filter / -t: トークンフィルタ設定 (JSON)
入力ファイル: オプションのファイルパス (デフォルト: 標準入力)

外部辞書を使用した例

外部IPADIC（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict /tmp/lindera-ipadic-2.7.0-20250920

日本語  名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
形態素  名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析    名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う    動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき    動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます    助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。      記号,句点,*,*,*,*,。,。,。
EOS

外部IPADIC NEologd（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict /tmp/lindera-ipadic-neologd-0.0.7-20200820

日本語  名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
形態素解析      名詞,固有名詞,一般,*,*,*,形態素解析,ケイタイソカイセキ,ケイタイソカイセキ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う    動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき    動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます    助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。      記号,句点,*,*,*,*,。,。,。
EOS

外部UniDic（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict /tmp/lindera-unidic-2.1.2

日本    名詞,固有名詞,地名,国,*,*,ニッポン,日本,日本,ニッポン,日本,ニッポン,固,*,*,*,*
語      名詞,普通名詞,一般,*,*,*,ゴ,語,語,ゴ,語,ゴ,漢,*,*,*,*
の      助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,*
形態    名詞,普通名詞,一般,*,*,*,ケイタイ,形態,形態,ケータイ,形態,ケータイ,漢,*,*,*,*
素      接尾辞,名詞的,一般,*,*,*,ソ,素,素,ソ,素,ソ,漢,*,*,*,*
解析    名詞,普通名詞,サ変可能,*,*,*,カイセキ,解析,解析,カイセキ,解析,カイセキ,漢,*,*,*,*
を      助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
行う    動詞,一般,*,*,五段-ワア行,連体形-一般,オコナウ,行う,行う,オコナウ,行う,オコナウ,和,*,*,*,*
こと    名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,*
が      助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
でき    動詞,非自立可能,*,*,上一段-カ行,連用形-一般,デキル,出来る,でき,デキ,できる,デキル,和,*,*,*,*
ます    助動詞,*,*,*,助動詞-マス,終止形-一般,マス,ます,ます,マス,ます,マス,和,*,*,*,*
。      補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS

外部ko-dic（韓国語辞書）を使用したトークナイズ

% echo "한국어의형태해석을실시할수있습니다." | lindera tokenize \
  --dict /tmp/lindera-ko-dic-2.1.1-20180720

한국어  NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
의      JKG,*,F,의,*,*,*,*
형태    NNG,*,F,형태,*,*,*,*
해석    NNG,행위,T,해석,*,*,*,*
을      JKO,*,T,을,*,*,*,*
실시    NNG,행위,F,실시,*,*,*,*
할      XSV+ETM,*,T,할,Inflect,XSV,ETM,하/XSV/*+ᆯ/ETM/*
수      NNB,*,F,수,*,*,*,*
있      VX,*,T,있,*,*,*,*
습니다  EF,*,F,습니다,*,*,*,*
.       SF,*,*,*,*,*,*,*
EOS

外部CC-CEDICT（中国語辞書）を使用したトークナイズ

% echo "可以进行中文形态学分析。" | lindera tokenize \
  --dict /tmp/lindera-cc-cedict-0.1.0-20200409

可以    *,*,*,*,ke3 yi3,可以,可以,can/may/possible/able to/not bad/pretty good/
进行    *,*,*,*,jin4 xing2,進行,进行,to advance/to conduct/underway/in progress/to do/to carry out/to carry on/to execute/
中文    *,*,*,*,Zhong1 wen2,中文,中文,Chinese language/
形态学  *,*,*,*,xing2 tai4 xue2,形態學,形态学,morphology (in biology or linguistics)/
分析    *,*,*,*,fen1 xi1,分析,分析,to analyze/analysis/CL:個|个[ge4]/
。      *,*,*,*,*,*,*,*
EOS

埋め込み辞書を使用した例

Linderaは、特定の機能フラグを指定してビルドすることで、バイナリに辞書を直接含めることができます。これにより、外部辞書ファイルなしでトークナイズが可能になります。

埋め込みIPADIC（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict embedded://ipadic

日本語  名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
形態素  名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析    名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う    動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき    動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます    助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。      記号,句点,*,*,*,*,。,。,。
EOS

注意: IPADIC辞書をバイナリに含めるには、--features=embed-ipadic オプションを使用してビルドする必要があります。

埋め込みUniDic（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict embedded://unidic

日本    名詞,固有名詞,地名,国,*,*,ニッポン,日本,日本,ニッポン,日本,ニッポン,固,*,*,*,*
語      名詞,普通名詞,一般,*,*,*,ゴ,語,語,ゴ,語,ゴ,漢,*,*,*,*
の      助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,*
形態    名詞,普通名詞,一般,*,*,*,ケイタイ,形態,形態,ケータイ,形態,ケータイ,漢,*,*,*,*
素      接尾辞,名詞的,一般,*,*,*,ソ,素,素,ソ,素,ソ,漢,*,*,*,*
解析    名詞,普通名詞,サ変可能,*,*,*,カイセキ,解析,解析,カイセキ,解析,カイセキ,漢,*,*,*,*
を      助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
行う    動詞,一般,*,*,五段-ワア行,連体形-一般,オコナウ,行う,行う,オコナウ,行う,オコナウ,和,*,*,*,*
こと    名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,*
が      助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
でき    動詞,非自立可能,*,*,上一段-カ行,連用形-一般,デキル,出来る,でき,デキ,できる,デキル,和,*,*,*,*
ます    助動詞,*,*,*,助動詞-マス,終止形-一般,マス,ます,ます,マス,ます,マス,和,*,*,*,*
。      補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS

注意: UniDic辞書をバイナリに含めるには、--features=embed-unidic オプションを使用してビルドする必要があります。

埋め込みIPADIC NEologd（日本語辞書）を使用したトークナイズ

% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
  --dict embedded://ipadic-neologd

日本語  名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
形態素解析      名詞,固有名詞,一般,*,*,*,形態素解析,ケイタイソカイセキ,ケイタイソカイセキ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う    動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき    動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます    助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。      記号,句点,*,*,*,*,。,。,。
EOS

注意: IPADIC NEologd辞書をバイナリに含めるには、--features=embed-ipadic-neologd オプションを使用してビルドする必要があります。

埋め込みko-dic（韓国語辞書）を使用したトークナイズ

% echo "한국어의형태해석을실시할수있습니다." | lindera tokenize \
  --dict embedded://ko-dic

한국어  NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
의      JKG,*,F,의,*,*,*,*
형태    NNG,*,F,형태,*,*,*,*
해석    NNG,행위,T,해석,*,*,*,*
을      JKO,*,T,을,*,*,*,*
실시    NNG,행위,F,실시,*,*,*,*
할      XSV+ETM,*,T,할,Inflect,XSV,ETM,하/XSV/*+ᆯ/ETM/*
수      NNB,*,F,수,*,*,*,*
있      VX,*,T,있,*,*,*,*
습니다  EF,*,F,습니다,*,*,*,*
.       SF,*,*,*,*,*,*,*
EOS

注意: ko-dic辞書をバイナリに含めるには、--features=embed-ko-dic オプションを使用してビルドする必要があります。

埋め込みCC-CEDICT（中国語辞書）を使用したトークナイズ

% echo "可以进行中文形态学分析。" | lindera tokenize \
  --dict embedded://cc-cedict

可以    *,*,*,*,ke3 yi3,可以,可以,can/may/possible/able to/not bad/pretty good/
进行    *,*,*,*,jin4 xing2,進行,进行,to advance/to conduct/underway/in progress/to do/to carry out/to carry on/to execute/
中文    *,*,*,*,Zhong1 wen2,中文,中文,Chinese language/
形态学  *,*,*,*,xing2 tai4 xue2,形態學,形态学,morphology (in biology or linguistics)/
分析    *,*,*,*,fen1 xi1,分析,分析,to analyze/analysis/CL:個|个[ge4]/
。      *,*,*,*,*,*,*,*
EOS

注意: CC-CEDICT辞書をバイナリに含めるには、--features=embed-cc-cedict オプションを使用してビルドする必要があります。

ユーザー辞書の例

Linderaは、システム辞書と一緒にカスタム単語を追加するためのユーザー辞書をサポートしています。ユーザー辞書はCSVまたはバイナリ形式にすることができます。

ユーザー辞書の使用（CSV形式）

% echo "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です" | lindera tokenize \
  --dict embedded://ipadic \
  --user-dict ./resources/user_dict/ipadic_simple_userdic.csv

東京スカイツリー        カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
最寄り駅        名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
とうきょうスカイツリー駅        カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS

ユーザー辞書の使用（バイナリ形式）

% echo "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です" | lindera tokenize \
  --dict /tmp/lindera-ipadic-2.7.0-20250920 \
  --user-dict ./resources/user_dict/ipadic_simple_userdic.bin

東京スカイツリー        カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
最寄り駅        名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
とうきょうスカイツリー駅        カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS

トークナイズモード

Linderaは2つのトークナイズモードを提供します：normal と decompose です。

Normal モード（デフォルト）

辞書に登録された単語に基づいて忠実にトークナイズします：

% echo "関西国際空港限定トートバッグ" | lindera tokenize \
  --dict embedded://ipadic \
  --mode normal

関西国際空港    名詞,固有名詞,組織,*,*,*,関西国際空港,カンサイコクサイクウコウ,カンサイコクサイクーコー
限定    名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
トートバッグ    名詞,一般,*,*,*,*,*,*,*
EOS

Decompose モード

複合語をさらに分解してトークナイズします：

% echo "関西国際空港限定トートバッグ" | lindera tokenize \
  --dict embedded://ipadic \
  --mode decompose

関西    名詞,固有名詞,地域,一般,*,*,関西,カンサイ,カンサイ
国際    名詞,一般,*,*,*,*,国際,コクサイ,コクサイ
空港    名詞,一般,*,*,*,*,空港,クウコウ,クーコー
限定    名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
トートバッグ    名詞,一般,*,*,*,*,*,*,*
EOS

出力形式

Linderaは3つの出力形式を提供します：mecab, wakati, json。

MeCab 形式（デフォルト）

品詞情報を含むMeCab互換形式で結果を出力します：

% echo "お待ちしております。" | lindera tokenize \
  --dict embedded://ipadic \
  --output mecab

お待ち  名詞,サ変接続,*,*,*,*,お待ち,オマチ,オマチ
し  動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て  助詞,接続助詞,*,*,*,*,て,テ,テ
おり  動詞,非自立,*,*,五段・ラ行,連用形,おる,オリ,オリ
ます  助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。  記号,句点,*,*,*,*,。,。,。
EOS

Wakati 形式

トークンテキストのみをスペース区切りで出力します：

% echo "お待ちしております。" | lindera tokenize \
  --dict embedded://ipadic \
  --output wakati

お待ち し て おり ます 。

JSON 形式

すべてのトークン情報を含む詳細なJSON形式で出力します：

% echo "お待ちしております。" | lindera tokenize \
  --dict embedded://ipadic \
  --output json

[
  {
    "base_form": "お待ち",
    "byte_end": 9,
    "byte_start": 0,
    "conjugation_form": "*",
    "conjugation_type": "*",
    "part_of_speech": "名詞",
    "part_of_speech_subcategory_1": "サ変接続",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "オマチ",
    "reading": "オマチ",
    "surface": "お待ち",
    "word_id": 14698
  },
  {
    "base_form": "する",
    "byte_end": 12,
    "byte_start": 9,
    "conjugation_form": "サ変・スル",
    "conjugation_type": "連用形",
    "part_of_speech": "動詞",
    "part_of_speech_subcategory_1": "自立",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "シ",
    "reading": "シ",
    "surface": "し",
    "word_id": 30763
  },
  {
    "base_form": "て",
    "byte_end": 15,
    "byte_start": 12,
    "conjugation_form": "*",
    "conjugation_type": "*",
    "part_of_speech": "助詞",
    "part_of_speech_subcategory_1": "接続助詞",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "テ",
    "reading": "テ",
    "surface": "て",
    "word_id": 46603
  },
  {
    "base_form": "おる",
    "byte_end": 21,
    "byte_start": 15,
    "conjugation_form": "五段・ラ行",
    "conjugation_type": "連用形",
    "part_of_speech": "動詞",
    "part_of_speech_subcategory_1": "非自立",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "オリ",
    "reading": "オリ",
    "surface": "おり",
    "word_id": 14239
  },
  {
    "base_form": "ます",
    "byte_end": 27,
    "byte_start": 21,
    "conjugation_form": "特殊・マス",
    "conjugation_type": "基本形",
    "part_of_speech": "助動詞",
    "part_of_speech_subcategory_1": "*",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "マス",
    "reading": "マス",
    "surface": "ます",
    "word_id": 68733
  },
  {
    "base_form": "。",
    "byte_end": 30,
    "byte_start": 27,
    "conjugation_form": "*",
    "conjugation_type": "*",
    "part_of_speech": "記号",
    "part_of_speech_subcategory_1": "句点",
    "part_of_speech_subcategory_2": "*",
    "part_of_speech_subcategory_3": "*",
    "pronunciation": "。",
    "reading": "。",
    "surface": "。",
    "word_id": 101
  }
]

N-Best トークナイズ

Linderaは N-Best トークナイズをサポートしており、コスト順（低コスト＝高精度）に上位 N 件のトークナイズ候補を返します。これは MeCab の N-Best 実装と互換性のある Forward-DP Backward-A* アルゴリズムに基づいています。

N-Best パラメータ

--nbest / -N: 返す N-best 結果の数（デフォルト: 1）。2 以上に設定すると N-best 出力が有効になります。
--nbest-unique: 同じ分割を生成するパスの重複を排除します。同じ位置で分割される異なるトークナイズは1つにまとめられます。
--nbest-cost-threshold: 最良パスからの最大コスト差。best_cost + threshold 以内のコストを持つパスのみが返されます。ありそうにないトークナイズを除外するのに便利です。

基本的な N-Best の例

% echo "すもももももももものうち" | lindera tokenize \
  --dict embedded://ipadic \
  -N 3

NBEST 1 (cost=7546)
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
NBEST 2 (cost=7914)
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
NBEST 3 (cost=10060)
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
も      助詞,係助詞,*,*,*,*,も,モ,モ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

ユニーク結果を使用した N-Best

同じ分割が複数のパスに現れる場合（内部的な Viterbi 状態のみが異なる場合）、--nbest-unique を使用して重複を排除します:

% echo "営業部長谷川です" | lindera tokenize \
  --dict embedded://ipadic \
  -N 5 --nbest-unique -o wakati

NBEST 1 (cost=15760)
営業 部長 谷川 です
NBEST 2 (cost=17758)
営業 部長 谷 川 です
NBEST 3 (cost=18816)
営業 部 長谷川 です
NBEST 4 (cost=19320)
営業 部長 谷川 で す
NBEST 5 (cost=20814)
営業 部 長谷 川 です

コスト閾値を使用した N-Best

--nbest-cost-threshold を使用して、最良パスから一定のコスト範囲内の結果に制限します:

% echo "営業部長谷川です" | lindera tokenize \
  --dict embedded://ipadic \
  -N 10 --nbest-unique --nbest-cost-threshold 5000 -o wakati

NBEST 1 (cost=15760)
営業 部長 谷川 です
NBEST 2 (cost=17758)
営業 部長 谷 川 です
NBEST 3 (cost=18816)
営業 部 長谷川 です

残りの候補は 15760 + 5000 = 20760 を超えるため、3 件の結果のみが返されます。

高度なトークナイズ

Linderaは、文字フィルタ、トークナイザー、トークンフィルタを組み合わせた分析フレームワークを提供します。フィルタはJSONを使用して構成します。

文字フィルタとトークンフィルタの使用

% echo "すもももももももものうち" | lindera tokenize \
  --dict embedded://ipadic \
  --char-filter 'unicode_normalize:{"kind":"nfkc"}' \
  --token-filter 'japanese_keep_tags:{"tags":["名詞,一般"]}'

すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
EOS

辞書の学習（実験的機能）

注釈付きコーパスデータから新しい形態素解析モデルを学習します。この機能を使用するには、train 機能フラグを有効にしてビルドする必要があります。（train 機能フラグはデフォルトで有効になっています。）

学習パラメータ

--seed / -s: 重み付けを行うシード語彙ファイル（CSV形式）
--corpus / -c: 学習用コーパス（注釈付きテキスト）
--char-def / -C: 文字定義ファイル (char.def)
--unk-def / -u: 未知語定義ファイル (unk.def) - 重み付けの対象
--feature-def / -f: 素性定義ファイル (feature.def)
--rewrite-def / -r: 書換えルール定義ファイル (rewrite.def)
--output / -o: 出力モデルファイル
--lambda / -l: L1正則化 (0.0-1.0) (デフォルト: 0.01)
--max-iterations / -i: 学習の最大反復回数 (デフォルト: 100)
--max-threads / -t: 最大スレッド数 (デフォルトはCPUコア数、データセットサイズに基づいて自動調整)

基本的なワークフロー

1. 学習用ファイルの準備

シード語彙ファイル (seed.csv):

シード語彙ファイルは、CRFモデルの学習に使用される初期辞書エントリを含みます。各行はカンマ区切りのフィールドを持つ単語エントリを表します。具体的なフィールド構成は辞書フォーマットによって異なります：

表層形
左文脈ID
右文脈ID
単語コスト
品詞タグ（複数のフィールド）
原形
読み（カタカナ）
発音

注意: 正確なフィールド定義は辞書フォーマット（IPADIC, UniDic, ko-dic, CC-CEDICT）によって異なります。詳細は各辞書のフォーマット仕様を参照してください。

外国,0,0,0,名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人,0,0,0,名詞,接尾,一般,*,*,*,人,ジン,ジン

学習用コーパス (corpus.txt):

学習用コーパスファイルは、CRFモデルの学習に使用される注釈付きテキストデータを含みます。各行は以下で構成されます：

表層形（単語）とそれに続くタブ文字
カンマ区切りの形態素素性（品詞タグ、原形、読み、発音）
文は "EOS" (End Of Sentence) マーカーで区切られます

注意: 形態素素性のフォーマットは辞書（IPADIC, UniDic, ko-dic, CC-CEDICT）によって異なります。詳細は各辞書のフォーマット仕様を参照してください。

外国	名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人	名詞,接尾,一般,*,*,*,人,ジン,ジン
参政	名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ
権	名詞,接尾,一般,*,*,*,権,ケン,ケン
EOS

これ	連体詞,*,*,*,*,*,これ,コレ,コレ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト	名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
EOS

形態	名詞,一般,*,*,*,*,形態,ケイタイ,ケイタイ
素	名詞,接尾,一般,*,*,*,素,ソ,ソ
解析	名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う	動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
EOS

ファイルフォーマットや高度な機能の詳細については、TRAINER_README.md を参照してください。

2. モデルの学習

lindera train \
  --seed ./resources/training/seed.csv \
  --corpus ./resources/training/corpus.txt \
  --unk-def ./resources/training/unk.def \
  --char-def ./resources/training/char.def \
  --feature-def ./resources/training/feature.def \
  --rewrite-def ./resources/training/rewrite.def \
  --output /tmp/lindera/training/model.dat \
  --lambda 0.01 \
  --max-iterations 100

3. 学習結果

学習済みモデルには以下が含まれます：

既存単語: 新しく学習された重みを持つすべてのシード辞書レコード
新語: シード辞書にはないがコーパスに含まれる単語（適切な重み付きで追加）

学習済みモデルの辞書へのエクスポート

学習済みモデルファイルをLindera辞書フォーマットのファイルにエクスポートします。この機能を使用するには、train 機能フラグを有効にしてビルドする必要があります。

基本的なエクスポート方法

# 学習済みモデルを辞書ファイルにエクスポート
lindera export \
  --model /tmp/lindera/training/model.dat \
  --metadata ./resources/training/metadata.json \
  --output /tmp/lindera/training/dictionary

エクスポートパラメータ

--model / -m: 学習済みモデルファイル（.dat形式）のパス
--output / -o: 辞書ファイルの出力先ディレクトリ
--metadata: オプションの metadata.json ファイル（学習済みモデル情報で更新されます）

出力ファイル

エクスポートコマンドは出力ディレクトリに以下の辞書ファイルを作成します：

lex.csv: 学習された重みを持つ語彙ファイル
matrix.def: 接続コスト行列
unk.def: 未知語定義
char.def: 文字種定義
metadata.json: 更新されたメタデータファイル（--metadata オプションが指定された場合）

完全なワークフロー例

1. モデルの学習

lindera train \
  --seed ./resources/training/seed.csv \
  --corpus ./resources/training/corpus.txt \
  --unk-def ./resources/training/unk.def \
  --char-def ./resources/training/char.def \
  --feature-def ./resources/training/feature.def \
  --rewrite-def ./resources/training/rewrite.def \
  --output /tmp/lindera/training/model.dat \
  --lambda 0.01 \
  --max-iterations 100

2. 辞書フォーマットへのエクスポート

lindera export \
  --model /tmp/lindera/training/model.dat \
  --metadata ./resources/training/metadata.json \
  --output /tmp/lindera/training/dictionary

3. 辞書のビルド

lindera build \
  --src /tmp/lindera/training/dictionary \
  --dest /tmp/lindera/training/compiled_dictionary \
  --metadata /tmp/lindera/training/dictionary/metadata.json

4. 学習済み辞書の使用

echo "これは外国人参政権です。" | lindera tokenize \
  -d /tmp/lindera/training/compiled_dictionary

メタデータ更新機能

--metadata オプションが指定されると、エクスポートコマンドは以下の処理を行います：

ベースとなる metadata.json ファイルを読み込み、既存の設定を保持します
特定のフィールドを学習済みモデルの値で更新します：
- default_left_context_id: 学習済みモデルからの最大左文脈ID
- default_right_context_id: 学習済みモデルからの最大右文脈ID
- default_word_cost: 素性重みの中央値から計算された値
- model_info: 以下の学習統計情報を含む：
  - feature_count: モデル内の素性数
  - label_count: モデル内のラベル数
  - max_left_context_id: 最大左文脈ID
  - max_right_context_id: 最大右文脈ID
  - connection_matrix_size: 接続コスト行列のサイズ
  - training_iterations: 実行された学習反復回数
  - regularization: 使用されたL1正則化パラメータ
  - version: モデルバージョン
  - updated_at: モデルがエクスポートされたタイムスタンプ
既存の設定を保持します（以下など）：
- 辞書名
- 文字エンコード設定
- スキーマ定義
- その他のユーザー定義設定

これにより、基本となる辞書設定を維持しながら、学習中に最適化されたパラメータを取り込むことができます。

APIリファレンス

APIリファレンスは以下で公開されています：

lindera-cli

APIリファレンス

APIリファレンスは以下で公開されています：

lindera

貢献ガイド

(貢献ガイドの内容をここに記述します)

Lindera ユーザーガイド