Lindera
Rust製の形態素解析ライブラリです。このプロジェクトは kuromoji-rs からフォークされました。
Linderaは、インストールが簡単で、様々なRustアプリケーション向けに簡潔なAPIを提供することを目指しています。
インストール
Cargo.tomlに以下を追加してください:
[dependencies]
lindera = { version = "1.2.0", features = ["embedded-ipadic"] }
環境変数
LINDERA_CACHE
LINDERA_CACHE 環境変数は、辞書ソースファイルをキャッシュするディレクトリを指定します。これにより以下のメリットがあります:
- オフラインビルド: 一度ダウンロードすれば、将来のビルドのために辞書ソースファイルが保存されます
- ビルドの高速化: 有効なキャッシュファイルが存在する場合、次回のビルドではダウンロードがスキップされます
- 再現可能なビルド: ビルド間での辞書バージョンの一貫性を保ちます
使用方法:
export LINDERA_CACHE=/path/to/cache
cargo build --features=ipadic
設定された場合、辞書ソースファイルは $LINDERA_CACHE/<version>/ (<version> は lindera-dictionary クレートのバージョン)に保存されます。キャッシュはMD5チェックサムを使用してファイルを検証し、無効なファイルは自動的に再ダウンロードされます。
LINDERA_CONFIG_PATH
LINDERA_CONFIG_PATH 環境変数は、トークナイザーの設定ファイル(YAML形式)へのパスを指定します。これにより、Rustコードを変更せずにトークナイザーの動作を設定できます。
export LINDERA_CONFIG_PATH=./resources/config/lindera.yml
設定フォーマットの詳細は 設定 セクションを参照してください。
DOCS_RS
DOCS_RS 環境変数は、docs.rsでドキュメントをビルドする際に自動的に設定されます。この変数が検出されると、Linderaは実際の辞書データをダウンロードする代わりにダミーの辞書ファイルを作成します。これにより、ネットワークアクセスや大容量ファイルのダウンロードなしでドキュメントをビルドできます。
これは主にdocs.rs内部で使用されるものであり、通常ユーザーが設定する必要はありません。
LINDERA_WORKDIR
LINDERA_WORKDIR 環境変数は、ビルドプロセス中に lindera-dictionary クレートによって自動的に設定されます。これはビルドされた辞書データファイルを含むディレクトリを指し、辞書クレートがデータファイルの場所を特定するために内部で使用されます。
この変数は自動的に設定されるため、ユーザーが変更する必要はありません。
クイックスタート
この例では、Linderaの基本的な使い方を説明します。
以下の処理を行います:
- Normalモードでトークナイザーを作成
- 入力テキストをトークナイズ(形態素解析)
- トークンを出力
use lindera::dictionary::load_dictionary; use lindera::mode::Mode; use lindera::segmenter::Segmenter; use lindera::tokenizer::Tokenizer; use lindera::LinderaResult; fn main() -> LinderaResult<()> { let dictionary = load_dictionary("embedded://ipadic")?; let segmenter = Segmenter::new(Mode::Normal, dictionary, None); let tokenizer = Tokenizer::new(segmenter); let text = "関西国際空港限定トートバッグ"; let mut tokens = tokenizer.tokenize(text)?; println!("text:\t{}", text); for token in tokens.iter_mut() { let details = token.details().join(","); println!("token:\t{}\t{}", token.surface.as_ref(), details); } Ok(()) }
上記の例は以下のように実行できます:
% cargo run --features=embedded-ipadic --example=tokenize
実行結果は以下のようになります:
text: 関西国際空港限定トートバッグ
token: 関西国際空港 名詞,固有名詞,組織,*,*,*,関西国際空港,カンサイコクサイクウコウ,カンサイコクサイクーコー
token: 限定 名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
token: トートバッグ UNK
辞書
Linderaは様々な辞書をサポートしています。このセクションでは、各辞書のフォーマットおよびユーザー辞書のフォーマットについて説明します。
- IPADIC - 日本語で最も一般的な辞書。
- IPADIC NEologd - 新語に対応したIPADIC。
- UniDic - 均一な単語単位定義を持つ辞書。
- ko-dic - 韓国語用辞書。
- CC-CEDICT - 中国語用辞書。
Lindera IPADIC
辞書バージョン
このリポジトリは mecab-ipadic を含んでいます。
辞書フォーマット
IPADICの辞書フォーマットと品詞タグの詳細については マニュアル を参照してください。
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞 | Part-of-speech | |
| 5 | 品詞細分類1 | Part-of-speech subcategory 1 | |
| 6 | 品詞細分類2 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類3 | Part-of-speech subcategory 3 | |
| 8 | 活用形 | Conjugation form | |
| 9 | 活用型 | Conjugation type | |
| 10 | 原形 | Base form | |
| 11 | 読み | Reading | |
| 12 | 発音 | Pronunciation |
ユーザー辞書フォーマット (CSV)
シンプル版 (Simple version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 品詞 | Part-of-speech | |
| 2 | 読み | Reading |
詳細版 (Detailed version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞 | Part-of-speech | |
| 5 | 品詞細分類1 | Part-of-speech subcategory 1 | |
| 6 | 品詞細分類2 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類3 | Part-of-speech subcategory 3 | |
| 8 | 活用形 | Conjugation form | |
| 9 | 活用型 | Conjugation type | |
| 10 | 原形 | Base form | |
| 11 | 読み | Reading | |
| 12 | 発音 | Pronunciation | |
| 13 | - | - | 13以降は自由に拡張可能です。 |
APIリファレンス
APIリファレンスは以下で公開されています:
Lindera IPADIC NEologd
辞書バージョン
このリポジトリは mecab-ipadic-neologd を含んでいます。
辞書フォーマット
IPADICの辞書フォーマットと品詞タグの詳細については マニュアル を参照してください。
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞 | Part-of-speech | |
| 5 | 品詞細分類1 | Part-of-speech subcategory 1 | |
| 6 | 品詞細分類2 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類3 | Part-of-speech subcategory 3 | |
| 8 | 活用形 | Conjugation form | |
| 9 | 活用型 | Conjugation type | |
| 10 | 原形 | Base form | |
| 11 | 読み | Reading | |
| 12 | 発音 | Pronunciation |
ユーザー辞書フォーマット (CSV)
シンプル版 (Simple version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 品詞 | Part-of-speech | |
| 2 | 読み | Reading |
詳細版 (Detailed version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞 | Part-of-speech | |
| 5 | 品詞細分類1 | Part-of-speech subcategory 1 | |
| 6 | 品詞細分類2 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類3 | Part-of-speech subcategory 3 | |
| 8 | 活用形 | Conjugation form | |
| 9 | 活用型 | Conjugation type | |
| 10 | 原形 | Base form | |
| 11 | 読み | Reading | |
| 12 | 発音 | Pronunciation | |
| 13 | - | - | 13以降は自由に拡張可能です。 |
APIリファレンス
APIリファレンスは以下で公開されています:
Lindera UniDic
辞書バージョン
このリポジトリは unidic-mecab を含んでいます。
辞書フォーマット
unidic-mecabの辞書フォーマットと品詞タグの詳細については マニュアル を参照してください。
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞大分類 | Part-of-speech | |
| 5 | 品詞中分類 | Part-of-speech subcategory 1 | |
| 6 | 品詞小分類 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類 | Part-of-speech subcategory 3 | |
| 8 | 活用型 | Conjugation type | |
| 9 | 活用形 | Conjugation form | |
| 10 | 語彙素読み | Reading | |
| 11 | 語彙素(語彙素表記 + 語彙素細分類) | Lexeme | |
| 12 | 書字形出現形 | Orthographic surface form | |
| 13 | 発音形出現形 | Phonological surface form | |
| 14 | 書字形基本形 | Orthographic base form | |
| 15 | 発音形基本形 | Phonological base form | |
| 16 | 語種 | Word type | |
| 17 | 語頭変化型 | Initial mutation type | |
| 18 | 語頭変化形 | Initial mutation form | |
| 19 | 語末変化型 | Final mutation type | |
| 20 | 語末変化形 | Final mutation form |
ユーザー辞書フォーマット (CSV)
シンプル版 (Simple version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 品詞大分類 | Part-of-speech | |
| 2 | 語彙素読み | Reading |
詳細版 (Detailed version)
| インデックス | 名前 (日本語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表層形 | Surface | |
| 1 | 左文脈ID | Left context ID | |
| 2 | 右文脈ID | Right context ID | |
| 3 | コスト | Cost | |
| 4 | 品詞大分類 | Part-of-speech | |
| 5 | 品詞中分類 | Part-of-speech subcategory 1 | |
| 6 | 品詞小分類 | Part-of-speech subcategory 2 | |
| 7 | 品詞細分類 | Part-of-speech subcategory 3 | |
| 8 | 活用型 | Conjugation type | |
| 9 | 活用形 | Conjugation form | |
| 10 | 語彙素読み | Reading | |
| 11 | 語彙素(語彙素表記 + 語彙素細分類) | Lexeme | |
| 12 | 書字形出現形 | Orthographic surface form | |
| 13 | 発音形出現形 | Phonological surface form | |
| 14 | 書字形基本形 | Orthographic base form | |
| 15 | 発音形基本形 | Phonological base form | |
| 16 | 語種 | Word type | |
| 17 | 語頭変化型 | Initial mutation type | |
| 18 | 語頭変化形 | Initial mutation form | |
| 19 | 語末変化型 | Final mutation type | |
| 20 | 語末変化形 | Final mutation form | |
| 21 | - | - | 21以降は自由に拡張可能です。 |
APIリファレンス
APIリファレンスは以下で公開されています:
Lindera ko-dic
辞書バージョン
このリポジトリは mecab-ko-dic を含んでいます。
辞書フォーマット
mecab-ko-dicで使用されている辞書フォーマットと品詞タグに関する情報は、mecab-ko-dicの リポジトリreadme からリンクされている Googleスプレッドシート にドキュメント化されています。
ko-dicはNAIST JDICよりも機能列が1つ少なく、全く異なる情報セットを持っています(例:「原形」を提供していません)。
タグはSejongによって指定されたものを少し修正したものです。Sejongからmecab-ko-dicのタグ名へのマッピングは、上記スプレッドシートの 태그 v2.0 タブに記載されています。
辞書フォーマットは、スプレッドシートの 사전 형식 v2.0 タブに(韓国語で)完全に指定されています。空の値は * がデフォルトとなります。
| インデックス | 名前 (韓国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 표면 | Surface | |
| 1 | 왼쪽 문맥 ID | Left context ID | |
| 2 | 오른쪽 문맥 ID | Right context ID | |
| 3 | 비용 | Cost | |
| 4 | 품사 태그 | Part-of-speech tag | スプレッドシートの 태그 v2.0 タブを参照 |
| 5 | 의미 부류 | Meaning | |
| 6 | 종성 유무 | Presence or absence | T (真)、F (偽)、その他は * |
| 7 | 읽기 | Reading | 通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります |
| 8 | 타입 | Type | 次のいずれか: Inflect (활용)、Compound (복합명사)、または Preanalysis (기분석) |
| 9 | 첫번째 품사 | First part-of-speech | 例: 品詞タグが "VV+EM+VX+EP" の場合、VV を返します |
| 10 | 마지막 품사 | Last part-of-speech | 例: 品詞タグが "VV+EM+VX+EP" の場合、EP を返します |
| 11 | 표현 | Expression | 활용, 복합명사, 기분석이 어떻게 구성되는지 알려주는 필드 – 活用、複合名詞、既分析がどのように構成されているかを示すフィールド |
ユーザー辞書フォーマット (CSV)
シンプル版 (Simple version)
| インデックス | 名前 (韓国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 표면 | Surface | |
| 1 | 품사 태그 | part-of-speech tag | スプレッドシートの 태그 v2.0 タブを参照 |
| 2 | 읽기 | reading | 通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります |
詳細版 (Detailed version)
| インデックス | 名前 (韓国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 표면 | Surface | |
| 1 | 왼쪽 문맥 ID | Left context ID | |
| 2 | 오른쪽 문맥 ID | Right context ID | |
| 3 | 비용 | Cost | |
| 4 | 품사 태그 | part-of-speech tag | スプレッドシートの 태그 v2.0 タブを参照 |
| 5 | 의미 부류 | meaning | |
| 6 | 종성 유무 | presence or absence | T (真)、F (偽)、その他は * |
| 7 | 읽기 | reading | 通常は表層形と一致しますが、漢字語などの外来語では異なる場合があります |
| 8 | 타입 | type | 次のいずれか: Inflect (활용)、Compound (복합명사)、または Preanalysis (기분석) |
| 9 | 첫번째 품사 | first part-of-speech | 例: 品詞タグが "VV+EM+VX+EP" の場合、VV を返します |
| 10 | 마지막 품사 | last part-of-speech | 例: 品詞タグが "VV+EM+VX+EP" の場合、EP を返します |
| 11 | 표현 | expression | 활용, 복합명사, 기분석이 어떻게 구성되는지 알려주는 필드 – 活用、複合名詞、既分析がどのように構成されているかを示すフィールド |
| 12 | - | - | 12以降は自由に拡張可能です。 |
APIリファレンス
APIリファレンスは以下で公開されています:
Lindera CC-CE-DICT
辞書バージョン
このリポジトリは CC-CEDICT-MeCab を含んでいます。
辞書フォーマット
辞書フォーマットと品詞タグの詳細については マニュアル を参照してください。
| インデックス | 名前 (中国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表面形式 | Surface | |
| 1 | 左语境ID | Left context ID | |
| 2 | 右语境ID | Right context ID | |
| 3 | 成本 | Cost | |
| 4 | 词类 | Part-of-speech | |
| 5 | 词类1 | Part-of-speech subcategory 1 | |
| 6 | 词类2 | Part-of-speech subcategory 2 | |
| 7 | 词类3 | Part-of-speech subcategory 3 | |
| 8 | 併音 | Pinyin | |
| 9 | 繁体字 | Traditional | |
| 10 | 簡体字 | Simplified | |
| 11 | 定义 | Definition |
ユーザー辞書フォーマット (CSV)
シンプル版 (Simple version)
| インデックス | 名前 (中国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表面形式 | Surface | |
| 1 | 词类 | Part-of-speech | |
| 2 | 併音 | Pinyin |
詳細版 (Detailed version)
| インデックス | 名前 (中国語) | 名前 (英語) | 備考 |
|---|---|---|---|
| 0 | 表面形式 | Surface | |
| 1 | 左语境ID | Left context ID | |
| 2 | 右语境ID | Right context ID | |
| 3 | 成本 | Cost | |
| 4 | 词类 | Part-of-speech | |
| 5 | 词类1 | Part-of-speech subcategory 1 | |
| 6 | 词类2 | Part-of-speech subcategory 2 | |
| 7 | 词类3 | Part-of-speech subcategory 3 | |
| 8 | 併音 | Pinyin | |
| 9 | 繁体字 | Traditional | |
| 10 | 簡体字 | Simplified | |
| 11 | 定义 | Definition | |
| 12 | - | - | 12以降は自由に拡張可能です。 |
APIリファレンス
APIリファレンスは以下で公開されています:
設定
LinderaはYAML形式の設定ファイルを読み込むことができます。
環境変数 LINDERA_CONFIG_PATH にファイルのパスを指定してください。Rustコードでトークナイザーの動作をコーディングすることなく、簡単に利用できます。
segmenter:
mode: "normal"
dictionary:
kind: "ipadic"
user_dictionary:
path: "./resources/user_dict/ipadic_simple.csv"
kind: "ipadic"
character_filters:
- kind: "unicode_normalize"
args:
kind: "nfkc"
- kind: "japanese_iteration_mark"
args:
normalize_kanji: true
normalize_kana: true
- kind: mapping
args:
mapping:
リンデラ: Lindera
token_filters:
- kind: "japanese_compound_word"
args:
tags:
- "名詞,数"
- "名詞,接尾,助数詞"
new_tag: "名詞,数"
- kind: "japanese_number"
args:
tags:
- "名詞,数"
- kind: "japanese_stop_tags"
args:
tags:
- "接続詞"
- "助詞"
- "助詞,格助詞"
- "助詞,格助詞,一般"
- "助詞,格助詞,引用"
- "助詞,格助詞,連語"
- "助詞,係助詞"
- "助詞,副助詞"
- "助詞,間投助詞"
- "助詞,並立助詞"
- "助詞,終助詞"
- "助詞,副助詞/並立助詞/終助詞"
- "助詞,連体化"
- "助詞,副詞化"
- "助詞,特殊"
- "助動詞"
- "記号"
- "記号,一般"
- "記号,読点"
- "記号,句点"
- "記号,空白"
- "記号,括弧閉"
- "その他,間投"
- "フィラー"
- "非言語音"
- kind: "japanese_katakana_stem"
args:
min: 3
- kind: "remove_diacritical_mark"
args:
japanese: false
% export LINDERA_CONFIG_PATH=./resources/config/lindera.yml
use std::path::PathBuf; use lindera::tokenizer::TokenizerBuilder; use lindera::LinderaResult; fn main() -> LinderaResult<()> { // 設定ファイルからトークナイザーの設定を読み込む let path = PathBuf::from(env!("CARGO_MANIFEST_DIR")) .join("../resources") .join("config") .join("lindera.yml"); let builder = TokenizerBuilder::from_file(&path)?; let tokenizer = builder.build()?; let text = "Linderaは形態素解析エンジンです。ユーザー辞書も利用可能です。".to_string(); println!("text: {text}"); let tokens = tokenizer.tokenize(&text)?; for token in tokens { println!( "token: {:?}, start: {:?}, end: {:?}, details: {:?}", token.surface, token.byte_start, token.byte_end, token.details ); } Ok(()) }
高度な使い方
ユーザー辞書を使用したトークナイズ
デフォルトのシステム辞書に加えて、ユーザー辞書のエントリーを指定することができます。ユーザー辞書は以下のフォーマットのCSVである必要があります。
<surface>,<part_of_speech>,<reading>
Cargo.tomlに以下を追加してください:
[dependencies]
lindera = { version = "1.2.0", features = ["embedded-ipadic"] }
例:
% cat ./resources/user_dict/ipadic_simple_userdic.csv
東京スカイツリー,カスタム名詞,トウキョウスカイツリー
東武スカイツリーライン,カスタム名詞,トウブスカイツリーライン
とうきょうスカイツリー駅,カスタム名詞,トウキョウスカイツリーエキ
ユーザー辞書を使用する場合、Tokenizer は以下のように作成します:
use std::fs::File; use std::path::PathBuf; use lindera::dictionary::{Metadata, load_dictionary, load_user_dictionary}; use lindera::error::LinderaErrorKind; use lindera::mode::Mode; use lindera::segmenter::Segmenter; use lindera::tokenizer::Tokenizer; use lindera::LinderaResult; fn main() -> LinderaResult<()> { let user_dict_path = PathBuf::from(env!("CARGO_MANIFEST_DIR")) .join("../resources") .join("user_dict") .join("ipadic_simple_userdic.csv"); let metadata_file = PathBuf::from(env!("CARGO_MANIFEST_DIR")) .join("../lindera-ipadic") .join("metadata.json"); let metadata: Metadata = serde_json::from_reader( File::open(metadata_file) .map_err(|err| LinderaErrorKind::Io.with_error(anyhow::anyhow!(err))) .unwrap(), ) .map_err(|err| LinderaErrorKind::Io.with_error(anyhow::anyhow!(err))) .unwrap(); let dictionary = load_dictionary("embedded://ipadic")?; let user_dictionary = load_user_dictionary(user_dict_path.to_str().unwrap(), &metadata)?; let segmenter = Segmenter::new( Mode::Normal, dictionary, Some(user_dictionary), // 読み込んだユーザー辞書を使用 ); // トークナイザーを作成 let tokenizer = Tokenizer::new(segmenter); // テキストをトークナイズ let text = "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です"; let mut tokens = tokenizer.tokenize(text)?; // テキストとトークンを表示 println!("text:\t{}", text); for token in tokens.iter_mut() { let details = token.details().join(","); println!("token:\t{}\t{}", token.surface.as_ref(), details); } Ok(()) }
上記の例は以下のように実行できます:
% cargo run --features=embedded-ipadic --example=tokenize_with_user_dict
text: 東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です
token: 東京スカイツリー カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
token: の 助詞,連体化,*,*,*,*,の,ノ,ノ
token: 最寄り駅 名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
token: は 助詞,係助詞,*,*,*,*,は,ハ,ワ
token: とうきょうスカイツリー駅 カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
token: です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
フィルタを使用したトークナイズ
Cargo.tomlに以下を追加してください:
[dependencies]
lindera = { version = "1.2.0", features = ["embedded-ipadic"] }
この例では、Lindera解析フレームワークの基本的な使い方を説明します。
以下の処理を行います:
- Unicode正規化(NFKC)のための文字フィルタを適用
- IPADICで入力テキストをトークナイズ
- ストップタグ(品詞)の除去と日本語カタカナ語幹フィルタのためのトークンフィルタを適用
use lindera::character_filter::BoxCharacterFilter; use lindera::character_filter::japanese_iteration_mark::JapaneseIterationMarkCharacterFilter; use lindera::character_filter::unicode_normalize::{ UnicodeNormalizeCharacterFilter, UnicodeNormalizeKind, }; use lindera::dictionary::load_dictionary; use lindera::mode::Mode; use lindera::segmenter::Segmenter; use lindera::token_filter::BoxTokenFilter; use lindera::token_filter::japanese_compound_word::JapaneseCompoundWordTokenFilter; use lindera::token_filter::japanese_number::JapaneseNumberTokenFilter; use lindera::token_filter::japanese_stop_tags::JapaneseStopTagsTokenFilter; use lindera::tokenizer::Tokenizer; use lindera::LinderaResult; fn main() -> LinderaResult<()> { let dictionary = load_dictionary("embedded://ipadic")?; let segmenter = Segmenter::new( Mode::Normal, dictionary, None, // この例ではユーザー辞書は使用しません ); let unicode_normalize_char_filter = UnicodeNormalizeCharacterFilter::new(UnicodeNormalizeKind::NFKC); let japanese_iteration_mark_char_filter = JapaneseIterationMarkCharacterFilter::new(true, true); let japanese_compound_word_token_filter = JapaneseCompoundWordTokenFilter::new( vec!["名詞,数".to_string(), "名詞,接尾,助数詞".to_string()] .into_iter() .collect(), Some("複合語".to_string()), ); let japanese_number_token_filter = JapaneseNumberTokenFilter::new(Some(vec!["名詞,数".to_string()].into_iter().collect())); let japanese_stop_tags_token_filter = JapaneseStopTagsTokenFilter::new( vec![ "接続詞".to_string(), "助詞".to_string(), "助詞,格助詞".to_string(), "助詞,格助詞,一般".to_string(), "助詞,格助詞,引用".to_string(), "助詞,格助詞,連語".to_string(), "助詞,係助詞".to_string(), "助詞,副助詞".to_string(), "助詞,間投助詞".to_string(), "助詞,並立助詞".to_string(), "助詞,終助詞".to_string(), "助詞,副助詞/並立助詞/終助詞".to_string(), "助詞,連体化".to_string(), "助詞,副詞化".to_string(), "助詞,特殊".to_string(), "助動詞".to_string(), "記号".to_string(), "記号,一般".to_string(), "記号,読点".to_string(), "記号,句点".to_string(), "記号,空白".to_string(), "記号,括弧閉".to_string(), "その他,間投".to_string(), "フィラー".to_string(), "非言語音".to_string(), ] .into_iter() .collect(), ); // トークナイザーを作成 let mut tokenizer = Tokenizer::new(segmenter); tokenizer .append_character_filter(BoxCharacterFilter::from(unicode_normalize_char_filter)) .append_character_filter(BoxCharacterFilter::from( japanese_iteration_mark_char_filter, )) .append_token_filter(BoxTokenFilter::from(japanese_compound_word_token_filter)) .append_token_filter(BoxTokenFilter::from(japanese_number_token_filter)) .append_token_filter(BoxTokenFilter::from(japanese_stop_tags_token_filter)); // テキストをトークナイズ let text = "Linderaは形態素解析エンジンです。ユーザー辞書も利用可能です。"; let tokens = tokenizer.tokenize(text)?; // テキストとトークンを表示 println!("text: {}", text); for token in tokens { println!( "token: {:?}, start: {:?}, end: {:?}, details: {:?}", token.surface, token.byte_start, token.byte_end, token.details ); } Ok(()) }
上記の例は以下のように実行できます:
% cargo run --features=embedded-ipadic --example=tokenize_with_filters
実行結果は以下のようになります:
text: Linderaは形態素解析エンジンです。ユーザー辞書も利用可能です。
token: "Lindera", start: 0, end: 21, details: Some(["UNK"])
token: "形態素", start: 24, end: 33, details: Some(["名詞", "一般", "*", "*", "*", "*", "形態素", "ケイタイソ", "ケイタイソ"])
token: "解析", start: 33, end: 39, details: Some(["名詞", "サ変接続", "*", "*", "*", "*", "解析", "カイセキ", "カイセキ"])
token: "エンジン", start: 39, end: 54, details: Some(["名詞", "一般", "*", "*", "*", "*", "エンジン", "エンジン", "エンジン"])
token: "ユーザー", start: 63, end: 75, details: Some(["名詞", "一般", "*", "*", "*", "*", "ユーザー", "ユーザー", "ユーザー"])
token: "辞書", start: 75, end: 81, details: Some(["名詞", "一般", "*", "*", "*", "*", "辞書", "ジショ", "ジショ"])
token: "利用", start: 84, end: 90, details: Some(["名詞", "サ変接続", "*", "*", "*", "*", "利用", "リヨウ", "リヨー"])
token: "可能", start: 90, end: 96, details: Some(["名詞", "形容動詞語幹", "*", "*", "*", "*", "可能", "カノウ", "カノー"])
辞書の学習(実験的機能)
Linderaは、カスタム形態素解析モデルを作成するためのCRFベースの辞書学習機能を提供しています。
概要
Lindera Trainerは、以下の高度な機能を備えたCondition Random Field (CRF)ベースの形態素解析器学習システムです:
- CRFベースの統計学習: rucrfクレートを使用した効率的な実装
- L1正則化: 過学習の防止
- マルチスレッド学習: 並行処理による学習の高速化
- 包括的なUnicodeサポート: CJK拡張の完全サポート
- 高度な未知語処理: インテリジェントな混合文字種分類
- 多段階の重み最適化: 学習済み重みのための高度な正規化システム
- Lindera辞書互換性: 既存の辞書フォーマットとの完全互換
CLIの使用方法
詳細なCLIコマンドの使用方法については、lindera-cli/README.md を参照してください。
必須ファイルフォーマット仕様
1. 語彙辞書 (seed.csv)
役割: 基礎語彙辞書 フォーマット: MeCab形式のCSV
外国,0,0,0,名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人,0,0,0,名詞,接尾,一般,*,*,*,人,ジン,ジン
参政,0,0,0,名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ
- 目的: 学習のための基本的な単語とその品詞情報を定義
- 構造:
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
2. 未知語定義 (unk.def)
役割: 未知語処理の定義 フォーマット: 文字種ごとの未知語パラメータ
DEFAULT,0,0,0,名詞,一般,*,*,*,*,*,*,*
HIRAGANA,0,0,0,名詞,一般,*,*,*,*,*,*,*
KATAKANA,0,0,0,名詞,一般,*,*,*,*,*,*,*
KANJI,0,0,0,名詞,一般,*,*,*,*,*,*,*
ALPHA,0,0,0,名詞,固有名詞,一般,*,*,*,*,*,*
NUMERIC,0,0,0,名詞,数,*,*,*,*,*,*,*
- 目的: 文字種ごとの未知語の処理方法を定義
- 注意: これらのラベルは内部処理用であり、最終的な辞書ファイルには出力されません
3. 学習コーパス (corpus.txt)
役割: 学習データ(注釈付きコーパス) フォーマット: タブ区切りの分かち書きテキスト
外国 名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人 名詞,接尾,一般,*,*,*,人,ジン,ジン
参政 名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ
権 名詞,接尾,一般,*,*,*,権,ケン,ケン
EOS
これ 連体詞,*,*,*,*,*,これ,コレ,コレ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
EOS
- 目的: 学習のための文と正解の解析結果
- フォーマット: 各行は
表層形\t品詞情報、文はEOSで終了 - 重要: 学習の質はこのコーパスの量と質に大きく依存します
4. 文字種定義 (char.def)
役割: 文字種の定義 フォーマット: 文字カテゴリと文字コード範囲
# Character category definition (category_name compatibility_flag continuity_flag length)
DEFAULT 0 1 0
HIRAGANA 1 1 0
KATAKANA 1 1 0
KANJI 0 0 2
ALPHA 1 1 0
NUMERIC 1 1 0
# Character range mapping
0x3041..0x3096 HIRAGANA # Hiragana
0x30A1..0x30F6 KATAKANA # Katakana
0x4E00..0x9FAF KANJI # Kanji
0x0030..0x0039 NUMERIC # Numbers
0x0041..0x005A ALPHA # Uppercase letters
0x0061..0x007A ALPHA # Lowercase letters
- 目的: どの文字がどのカテゴリに属するかを定義
- パラメータ: 互換性、連続性、デフォルト長などの設定
5. 機能テンプレート (feature.def)
役割: 素性テンプレート定義 フォーマット: 素性抽出パターン
# Unigram features (word-level features)
UNIGRAM:%F[0] # POS (feature element 0)
UNIGRAM:%F[1] # POS detail 1
UNIGRAM:%F[6] # Base form
UNIGRAM:%F[7] # Reading (Katakana)
# Left context features
LEFT:%L[0] # POS of left word
LEFT:%L[1] # POS detail of left word
# Right context features
RIGHT:%R[0] # POS of right word
RIGHT:%R[1] # POS detail of right word
# Bigram features (combination features)
UNIGRAM:%F[0]/%F[1] # POS + POS detail
UNIGRAM:%F[0]/%F[6] # POS + base form
- 目的: どの情報から素性を抽出するかを定義
- テンプレート:
%F[n](素性),%L[n](左文脈),%R[n](右文脈)
6. 素性正規化ルール (rewrite.def)
役割: 素性正規化ルール フォーマット: 置換ルール(タブ区切り)
# Normalize numeric expressions
数 NUM
* UNK
# Normalize proper nouns
名詞,固有名詞 名詞,一般
# Simplify auxiliary verbs
助動詞,*,*,*,特殊・デス 助動詞
助動詞,*,*,*,特殊・ダ 助動詞
- 目的: 素性を正規化して学習効率を向上させる
- フォーマット:
original_pattern\treplacement_pattern - 効果: 希少な素性を一般化し、スパース性の問題を軽減する
7. 出力モデルフォーマット
役割: 出力モデルファイル フォーマット: 標準はバイナリ(rkyv)形式、JSON形式もサポート
モデルには以下の情報が含まれます:
{
"feature_weights": [0.0, 0.084, 0.091, ...],
"labels": ["外国", "人", "参政", "権", ...],
"pos_info": ["名詞,一般,*,*,*,*,*,*,*", "名詞,接尾,一般,*,*,*,*,*,*", ...],
"feature_templates": ["UNIGRAM:%F[0]", ...],
"metadata": {
"version": "1.0.0",
"regularization": 0.01,
"iterations": 100,
"feature_count": 13,
"label_count": 19
}
}
- 目的: 後の辞書生成のために学習結果を保存
学習パラメータ仕様
- 正則化係数 (lambda): L1正則化の強さを制御 (デフォルト: 0.01)
- 最大反復回数 (iter): 学習の最大反復回数 (デフォルト: 100)
- 並列スレッド数 (threads): 並行処理スレッド数 (デフォルト: 1)
API使用例
#![allow(unused)] fn main() { use std::fs::File; use lindera_dictionary::trainer::{Corpus, Trainer, TrainerConfig}; // Load configuration from files let seed_file = File::open("resources/training/seed.csv")?; let char_file = File::open("resources/training/char.def")?; let unk_file = File::open("resources/training/unk.def")?; let feature_file = File::open("resources/training/feature.def")?; let rewrite_file = File::open("resources/training/rewrite.def")?; let config = TrainerConfig::from_readers( seed_file, char_file, unk_file, feature_file, rewrite_file )?; // Initialize and configure trainer let trainer = Trainer::new(config)? .regularization_cost(0.01) .max_iter(100) .num_threads(4); // Load corpus let corpus_file = File::open("resources/training/corpus.txt")?; let corpus = Corpus::from_reader(corpus_file)?; // Execute training let model = trainer.train(corpus)?; // Save model (binary format) let mut output = File::create("trained_model.dat")?; model.write_model(&mut output)?; // Output in Lindera dictionary format let mut lex_out = File::create("output_lex.csv")?; let mut conn_out = File::create("output_conn.dat")?; let mut unk_out = File::create("output_unk.def")?; let mut user_out = File::create("output_user.csv")?; model.write_dictionary(&mut lex_out, &mut conn_out, &mut unk_out, &mut user_out)?; Ok::<(), Box<dyn std::error::Error>>(()) }
実装状況
完了した機能
コア機能
- コアアーキテクチャ: トレーナーモジュール構造の完成
- CRF学習: rucrf統合によるCondition Random Field学習
- CLI統合: パラメータを完全にサポートした
lindera trainコマンド - コーパス処理: MeCab形式コーパスの完全サポート
- 辞書統合: seed.csv, char.def, unk.def からの辞書構築
- 素性抽出: ユニグラム/バイグラム素性の抽出と変換
- モデル保存: JSON/rkyv形式での学習済みモデル出力
- 辞書出力: Lindera形式辞書ファイルの生成
高度な未知語処理
- 包括的なUnicodeサポート: CJK拡張、カタカナ拡張、ひらがな拡張の完全サポート
- カテゴリ別の品詞割り当て: 文字種による適切な品詞情報の自動割り当て
- DEFAULT: 名詞,一般 (未知の文字種)
- HIRAGANA/KATAKANA/KANJI: 名詞,一般 (日本語文字)
- ALPHA: 名詞,固有名詞 (アルファベット)
- NUMERIC: 名詞,数 (数字)
- 表層形分析: 文字パターン、長さ、位置情報に基づく素性生成
- 動的コスト計算: 文字種と文脈を考慮した適応的コスト計算
リファクタリング(2024年9月最新)
- 定数管理: cost_constantsモジュールによるマジックナンバーの排除
- メソッド分割: 大きなメソッドの分割による可読性向上
train()→build_lattices_from_corpus(),extract_labels(),train_crf_model(),create_final_model()
- 統一されたコスト計算: 重複コードの統一による保守性向上
calculate_known_word_cost(): 既知語コスト計算calculate_unknown_word_cost(): 未知語コスト計算
- 整理されたデバッグ出力: log_debug!マクロによる構造化ロギング
- 強化されたエラーハンドリング: 包括的なエラーハンドリングとドキュメント
アーキテクチャ
lindera-dictionary/src/trainer.rs # Main Trainer struct
lindera-dictionary/src/trainer/
├── config.rs # Configuration management
├── corpus.rs # Corpus processing
├── feature_extractor.rs # Feature extraction
├── feature_rewriter.rs # Feature rewriting
└── model.rs # Trained model
高度な未知語処理システム
包括的なUnicode文字種検出
最新の実装では、基本的なUnicode範囲を大幅に拡張し、以下の文字セットを完全にサポートしています。(上記の「高度な未知語処理」セクションの「カテゴリ別の品詞割り当て」の詳細を参照してください。)
素性重み最適化
コスト計算定数
#![allow(unused)] fn main() { mod cost_constants { // Known word cost calculation pub const KNOWN_WORD_BASE_COST: i16 = 1000; pub const KNOWN_WORD_COST_MULTIPLIER: f64 = 500.0; pub const KNOWN_WORD_COST_MIN: i16 = 500; pub const KNOWN_WORD_COST_MAX: i16 = 3000; pub const KNOWN_WORD_DEFAULT_COST: i16 = 1500; // Unknown word cost calculation pub const UNK_BASE_COST: i32 = 3000; pub const UNK_COST_MULTIPLIER: f64 = 500.0; pub const UNK_COST_MIN: i32 = 2500; pub const UNK_COST_MAX: i32 = 4500; // Category-specific adjustments pub const UNK_DEFAULT_ADJUSTMENT: i32 = 0; // DEFAULT pub const UNK_HIRAGANA_ADJUSTMENT: i32 = 200; // HIRAGANA - minor penalty pub const UNK_KATAKANA_ADJUSTMENT: i32 = 0; // KATAKANA - medium pub const UNK_KANJI_ADJUSTMENT: i32 = 400; // KANJI - high penalty pub const UNK_ALPHA_ADJUSTMENT: i32 = 100; // ALPHA - mild penalty pub const UNK_NUMERIC_ADJUSTMENT: i32 = -100; // NUMERIC - bonus (regular) } }
統一されたコスト計算
#![allow(unused)] fn main() { // Known word cost calculation fn calculate_known_word_cost(&self, feature_weight: f64) -> i16 { let scaled_weight = (feature_weight * cost_constants::KNOWN_WORD_COST_MULTIPLIER) as i32; let final_cost = cost_constants::KNOWN_WORD_BASE_COST as i32 + scaled_weight; final_cost.clamp( cost_constants::KNOWN_WORD_COST_MIN as i32, cost_constants::KNOWN_WORD_COST_MAX as i32 ) as i16 } // Unknown word cost calculation fn calculate_unknown_word_cost(&self, feature_weight: f64, category: usize) -> i32 { let base_cost = cost_constants::UNK_BASE_COST; let category_adjustment = match category { 0 => cost_constants::UNK_DEFAULT_ADJUSTMENT, 1 => cost_constants::UNK_HIRAGANA_ADJUSTMENT, 2 => cost_constants::UNK_KATAKANA_ADJUSTMENT, 3 => cost_constants::UNK_KANJI_ADJUSTMENT, 4 => cost_constants::UNK_ALPHA_ADJUSTMENT, 5 => cost_constants::UNK_NUMERIC_ADJUSTMENT, _ => 0, }; let scaled_weight = (feature_weight * cost_constants::UNK_COST_MULTIPLIER) as i32; let final_cost = base_cost + category_adjustment + scaled_weight; final_cost.clamp( cost_constants::UNK_COST_MIN, cost_constants::UNK_COST_MAX ) } }
パフォーマンス最適化
メモリ効率
- 遅延評価: 必要な場合にのみ merged_model を作成
- 未使用素性の削除: 学習後に不要な素性を自動削除
- 効率的なバイナリ形式: rkyvを使用した高速シリアライゼーション
並列処理サポート
#![allow(unused)] fn main() { let trainer = rucrf::Trainer::new() .regularization(rucrf::Regularization::L1, regularization_cost)? .max_iter(max_iter)? .n_threads(self.num_threads)?; // Multi-threaded training }
実践的な学習データ要件
推奨コーパス仕様
実際のアプリケーション向けに効果的な辞書を生成するための推奨事項:
-
コーパスサイズ
- 最小: 100文 (基本的な動作検証用)
- 推奨: 1,000文以上 (実用レベル)
- 理想: 10,000文以上 (商用品質)
-
語彙の多様性
- 異なる品詞のバランスの取れた分布
- 活用語尾や接尾辞の網羅
- 専門用語や固有名詞の適切な包含
-
品質管理
- 形態素解析結果の手動検証
- 解析基準の一貫した適用
- エラー率を5%以下に維持
Lindera CLI
Lindera のための形態素解析コマンドラインインターフェースです。
インストール
cargo経由でバイナリをインストールできます:
% cargo install lindera-cli
または、以下のリリースページからバイナリをダウンロードすることもできます:
ビルド
IPADIC(日本語辞書)を含めてビルド
"ipadic" 機能フラグを使用すると、LinderaにIPADICを含めることができます。
% cargo build --release --features=embedded-ipadic
UniDic(日本語辞書)を含めてビルド
"unidic" 機能フラグを使用すると、LinderaにUniDicを含めることができます。
% cargo build --release --features=embedded-unidic
ko-dic(韓国語辞書)を含めてビルド
"ko-dic" 機能フラグを使用すると、Linderaにko-dicを含めることができます。
% cargo build --release --features=embedded-ko-dic
CC-CEDICT(中国語辞書)を含めてビルド
"cc-cedict" 機能フラグを使用すると、LinderaにCC-CEDICTを含めることができます。
% cargo build --release --features=embedded-cc-cedict
辞書なしでビルド
Linderaのバイナリサイズを削減するには、機能フラグを省略します。 これにより、辞書が含まれなくなるため、トークナイザーとトレーナーのみを含むバイナリになります。
% cargo build --release
全機能を含めてビルド
% cargo build --release --all-features
辞書のビルド
Linderaで使用するための形態素解析辞書をCSVソースファイルからビルド(コンパイル)します。
基本的なビルド方法
# システム辞書のビルド
lindera build \
--src /path/to/dictionary/csv \
--dest /path/to/output/dictionary \
--metadata ./lindera-ipadic/metadata.json
# ユーザー辞書のビルド
lindera build \
--src ./user_dict.csv \
--dest ./user_dictionary \
--metadata ./lindera-ipadic/metadata.json \
--user
ビルドパラメータ
--src/-s: 辞書CSVファイルを含むソースディレクトリ(ユーザー辞書の場合は単一CSVファイル)--dest/-d: コンパイルされた辞書の出力先ディレクトリ--metadata/-m: 辞書構造を定義するメタデータ設定ファイル (metadata.json)--user/-u: システム辞書の代わりにユーザー辞書をビルドする(オプションフラグ)
辞書の種類
システム辞書 (System dictionary)
以下を含む完全な形態素解析辞書です:
- 語彙エントリ(単語定義)
- 接続コスト行列
- 未知語処理ルール
- 文字種定義
ユーザー辞書 (User dictionary)
システム辞書と一緒に動作する、カスタム単語のための補助辞書です。
例
IPADIC(日本語辞書)のビルド
# IPADICソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ipadic-2.7.0-20250920.tar.gz "https://Lindera.dev/mecab-ipadic-2.7.0-20250920.tar.gz"
% tar zxvf /tmp/mecab-ipadic-2.7.0-20250920.tar.gz -C /tmp
# 辞書のビルド
% lindera build \
--src /tmp/mecab-ipadic-2.7.0-20250920 \
--dest /tmp/lindera-ipadic-2.7.0-20250920 \
--metadata ./lindera-ipadic/metadata.json
% ls -al /tmp/lindera-ipadic-2.7.0-20250920
% (cd /tmp && zip -r lindera-ipadic-2.7.0-20250920.zip lindera-ipadic-2.7.0-20250920/)
% tar -czf /tmp/lindera-ipadic-2.7.0-20250920.tar.gz -C /tmp lindera-ipadic-2.7.0-20250920
IPADIC NEologd(日本語辞書)のビルド
# IPADIC NEologdソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ipadic-neologd-0.0.7-20200820.tar.gz "https://lindera.dev/mecab-ipadic-neologd-0.0.7-20200820.tar.gz"
% tar zxvf /tmp/mecab-ipadic-neologd-0.0.7-20200820.tar.gz -C /tmp
# 辞書のビルド
% lindera build \
--src /tmp/mecab-ipadic-neologd-0.0.7-20200820 \
--dest /tmp/lindera-ipadic-neologd-0.0.7-20200820 \
--metadata ./lindera-ipadic-neologd/metadata.json
% ls -al /tmp/lindera-ipadic-neologd-0.0.7-20200820
% (cd /tmp && zip -r lindera-ipadic-neologd-0.0.7-20200820.zip lindera-ipadic-neologd-0.0.7-20200820/)
% tar -czf /tmp/lindera-ipadic-neologd-0.0.7-20200820.tar.gz -C /tmp lindera-ipadic-neologd-0.0.7-20200820
UniDic(日本語辞書)のビルド
# UniDicソースファイルのダウンロードと展開
% curl -L -o /tmp/unidic-mecab-2.1.2.tar.gz "https://Lindera.dev/unidic-mecab-2.1.2.tar.gz"
% tar zxvf /tmp/unidic-mecab-2.1.2.tar.gz -C /tmp
# 辞書のビルド
% lindera build \
--src /tmp/unidic-mecab-2.1.2 \
--dest /tmp/lindera-unidic-2.1.2 \
--metadata ./lindera-unidic/metadata.json
% ls -al /tmp/lindera-unidic-2.1.2
% (cd /tmp && zip -r lindera-unidic-2.1.2.zip lindera-unidic-2.1.2/)
% tar -czf /tmp/lindera-unidic-2.1.2.tar.gz -C /tmp lindera-unidic-2.1.2
CC-CEDICT(中国語辞書)のビルド
# CC-CEDICTソースファイルのダウンロードと展開
% curl -L -o /tmp/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz "https://lindera.dev/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz"
% tar zxvf /tmp/CC-CEDICT-MeCab-0.1.0-20200409.tar.gz -C /tmp
# 辞書のビルド
% lindera build \
--src /tmp/CC-CEDICT-MeCab-0.1.0-20200409 \
--dest /tmp/lindera-cc-cedict-0.1.0-20200409 \
--metadata ./lindera-cc-cedict/metadata.json
% ls -al /tmp/lindera-cc-cedict-0.1.0-20200409
% (cd /tmp && zip -r lindera-cc-cedict-0.1.0-20200409.zip lindera-cc-cedict-0.1.0-20200409/)
% tar -czf /tmp/lindera-cc-cedict-0.1.0-20200409.tar.gz -C /tmp lindera-cc-cedict-0.1.0-20200409
ko-dic(韓国語辞書)のビルド
# ko-dicソースファイルのダウンロードと展開
% curl -L -o /tmp/mecab-ko-dic-2.1.1-20180720.tar.gz "https://Lindera.dev/mecab-ko-dic-2.1.1-20180720.tar.gz"
% tar zxvf /tmp/mecab-ko-dic-2.1.1-20180720.tar.gz -C /tmp
# 辞書のビルド
% lindera build \
--src /tmp/mecab-ko-dic-2.1.1-20180720 \
--dest /tmp/lindera-ko-dic-2.1.1-20180720 \
--metadata ./lindera-ko-dic/metadata.json
% ls -al /tmp/lindera-ko-dic-2.1.1-20180720
% (cd /tmp && zip -r lindera-ko-dic-2.1.1-20180720.zip lindera-ko-dic-2.1.1-20180720/)
% tar -czf /tmp/lindera-ko-dic-2.1.1-20180720.tar.gz -C /tmp lindera-ko-dic-2.1.1-20180720
ユーザー辞書のビルド
IPADICユーザー辞書(日本語)のビルド
ユーザー辞書フォーマットの詳細については、以下のURLを参照してください:
% lindera build \
--src ./resources/user_dict/ipadic_simple_userdic.csv \
--dest ./resources/user_dict \
--metadata ./lindera-ipadic/metadata.json \
--user
UniDicユーザー辞書(日本語)のビルド
ユーザー辞書フォーマットの詳細については、以下のURLを参照してください:
% lindera build \
--src ./resources/user_dict/unidic_simple_userdic.csv \
--dest ./resources/user_dict \
--metadata ./lindera-unidic/metadata.json \
--user
CC-CEDICTユーザー辞書(中国語)のビルド
ユーザー辞書フォーマットの詳細については、以下のURLを参照してください:
% lindera build \
--src ./resources/user_dict/cc-cedict_simple_userdic.csv \
--dest ./resources/user_dict \
--metadata ./lindera-cc-cedict/metadata.json \
--user
ko-dicユーザー辞書(韓国語)のビルド
ユーザー辞書フォーマットの詳細については、以下のURLを参照してください:
% lindera build \
--src ./resources/user_dict/ko-dic_simple_userdic.csv \
--dest ./resources/user_dict \
--metadata ./lindera-ko-dic/metadata.json \
--user
テキストのトークナイズ
様々な辞書を使用して、日本語、中国語、または韓国語のテキストに対して形態素解析(トークナイズ)を行います。
基本的なトークナイズ方法
# 辞書ディレクトリを指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict /path/to/dictionary
# 埋め込み辞書を指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict embedded://ipadic
# 出力形式を指定してトークナイズ
echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict embedded://ipadic \
--output json
# ファイルからテキストを読み込んでトークナイズ
lindera tokenize \
--dict /path/to/dictionary \
--output wakati \
input.txt
トークナイズパラメータ
--dict/-d: 辞書のパスまたはURI(必須)- ファイルパス:
/path/to/dictionary - 埋め込み:
embedded://ipadic,embedded://unidic, etc.
- ファイルパス:
--output/-o: 出力形式 (デフォルト: mecab)mecab: 品詞情報を含むMeCab互換形式wakati: スペース区切りのトークンのみjson: すべてのトークン情報を含む詳細なJSON形式
--user-dict/-u: ユーザー辞書のパス(オプション)--mode/-m: トークナイズモード (デフォルト: normal)normal: 標準的なトークナイズdecompose: 複合語を分解する
--char-filter/-c: 文字フィルタ設定 (JSON)--token-filter/-t: トークンフィルタ設定 (JSON)- 入力ファイル: オプションのファイルパス (デフォルト: 標準入力)
外部辞書を使用した例
外部IPADIC(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict /tmp/lindera-ipadic-2.7.0-20250920
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う 動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき 動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
外部IPADIC NEologd(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict /tmp/lindera-ipadic-neologd-0.0.7-20200820
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
形態素解析 名詞,固有名詞,一般,*,*,*,形態素解析,ケイタイソカイセキ,ケイタイソカイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う 動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき 動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
外部UniDic(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict /tmp/lindera-unidic-2.1.2
日本 名詞,固有名詞,地名,国,*,*,ニッポン,日本,日本,ニッポン,日本,ニッポン,固,*,*,*,*
語 名詞,普通名詞,一般,*,*,*,ゴ,語,語,ゴ,語,ゴ,漢,*,*,*,*
の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,*
形態 名詞,普通名詞,一般,*,*,*,ケイタイ,形態,形態,ケータイ,形態,ケータイ,漢,*,*,*,*
素 接尾辞,名詞的,一般,*,*,*,ソ,素,素,ソ,素,ソ,漢,*,*,*,*
解析 名詞,普通名詞,サ変可能,*,*,*,カイセキ,解析,解析,カイセキ,解析,カイセキ,漢,*,*,*,*
を 助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
行う 動詞,一般,*,*,五段-ワア行,連体形-一般,オコナウ,行う,行う,オコナウ,行う,オコナウ,和,*,*,*,*
こと 名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,*
が 助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
でき 動詞,非自立可能,*,*,上一段-カ行,連用形-一般,デキル,出来る,でき,デキ,できる,デキル,和,*,*,*,*
ます 助動詞,*,*,*,助動詞-マス,終止形-一般,マス,ます,ます,マス,ます,マス,和,*,*,*,*
。 補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS
外部ko-dic(韓国語辞書)を使用したトークナイズ
% echo "한국어의형태해석을실시할수있습니다." | lindera tokenize \
--dict /tmp/lindera-ko-dic-2.1.1-20180720
한국어 NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
의 JKG,*,F,의,*,*,*,*
형태 NNG,*,F,형태,*,*,*,*
해석 NNG,행위,T,해석,*,*,*,*
을 JKO,*,T,을,*,*,*,*
실시 NNG,행위,F,실시,*,*,*,*
할 VV+ETM,*,T,할,Inflect,VV,ETM,하/VV/*+ᆯ/ETM/*
수 NNG,*,F,수,*,*,*,*
있 VX,*,T,있,*,*,*,*
습니다 EF,*,F,습니다,*,*,*,*
. UNK
EOS
外部CC-CEDICT(中国語辞書)を使用したトークナイズ
% echo "可以进行中文形态学分析。" | lindera tokenize \
--dict /tmp/lindera-cc-cedict-0.1.0-20200409
可以 *,*,*,*,ke3 yi3,可以,可以,can/may/possible/able to/not bad/pretty good/
进行 *,*,*,*,jin4 xing2,進行,进行,to advance/to conduct/underway/in progress/to do/to carry out/to carry on/to execute/
中文 *,*,*,*,Zhong1 wen2,中文,中文,Chinese language/
形态学 *,*,*,*,xing2 tai4 xue2,形態學,形态学,morphology (in biology or linguistics)/
分析 *,*,*,*,fen1 xi1,分析,分析,to analyze/analysis/CL:個|个[ge4]/
。 UNK
EOS
埋め込み辞書を使用した例
Linderaは、特定の機能フラグを指定してビルドすることで、バイナリに辞書を直接含めることができます。これにより、外部辞書ファイルなしでトークナイズが可能になります。
埋め込みIPADIC(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict embedded://ipadic
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う 動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき 動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
注意: IPADIC辞書をバイナリに含めるには、--features=embedded-ipadic オプションを使用してビルドする必要があります。
埋め込みUniDic(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict embedded://unidic
日本 名詞,固有名詞,地名,国,*,*,ニッポン,日本,日本,ニッポン,日本,ニッポン,固,*,*,*,*
語 名詞,普通名詞,一般,*,*,*,ゴ,語,語,ゴ,語,ゴ,漢,*,*,*,*
の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,*
形態 名詞,普通名詞,一般,*,*,*,ケイタイ,形態,形態,ケータイ,形態,ケータイ,漢,*,*,*,*
素 接尾辞,名詞的,一般,*,*,*,ソ,素,素,ソ,素,ソ,漢,*,*,*,*
解析 名詞,普通名詞,サ変可能,*,*,*,カイセキ,解析,解析,カイセキ,解析,カイセキ,漢,*,*,*,*
を 助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*
行う 動詞,一般,*,*,五段-ワア行,連体形-一般,オコナウ,行う,行う,オコナウ,行う,オコナウ,和,*,*,*,*
こと 名詞,普通名詞,一般,*,*,*,コト,事,こと,コト,こと,コト,和,コ濁,基本形,*,*
が 助詞,格助詞,*,*,*,*,ガ,が,が,ガ,が,ガ,和,*,*,*,*
でき 動詞,非自立可能,*,*,上一段-カ行,連用形-一般,デキル,出来る,でき,デキ,できる,デキル,和,*,*,*,*
ます 助動詞,*,*,*,助動詞-マス,終止形-一般,マス,ます,ます,マス,ます,マス,和,*,*,*,*
。 補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*
EOS
注意: UniDic辞書をバイナリに含めるには、--features=embedded-unidic オプションを使用してビルドする必要があります。
埋め込みIPADIC NEologd(日本語辞書)を使用したトークナイズ
% echo "日本語の形態素解析を行うことができます。" | lindera tokenize \
--dict embedded://ipadic-neologd
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
形態素解析 名詞,固有名詞,一般,*,*,*,形態素解析,ケイタイソカイセキ,ケイタイソカイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う 動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
でき 動詞,自立,*,*,一段,連用形,できる,デキ,デキ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
注意: IPADIC NEologd辞書をバイナリに含めるには、--features=embedded-ipadic-neologd オプションを使用してビルドする必要があります。
埋め込みko-dic(韓国語辞書)を使用したトークナイズ
% echo "한국어의형태해석을실시할수있습니다." | lindera tokenize \
--dict embedded://ko-dic
한국어 NNG,*,F,한국어,Compound,*,*,한국/NNG/*+어/NNG/*
의 JKG,*,F,의,*,*,*,*
형태 NNG,*,F,형태,*,*,*,*
해석 NNG,행위,T,해석,*,*,*,*
을 JKO,*,T,을,*,*,*,*
실시 NNG,행위,F,실시,*,*,*,*
할 VV+ETM,*,T,할,Inflect,VV,ETM,하/VV/*+ᆯ/ETM/*
수 NNG,*,F,수,*,*,*,*
있 VX,*,T,있,*,*,*,*
습니다 EF,*,F,습니다,*,*,*,*
. UNK
EOS
注意: ko-dic辞書をバイナリに含めるには、--features=embedded-ko-dic オプションを使用してビルドする必要があります。
埋め込みCC-CEDICT(中国語辞書)を使用したトークナイズ
% echo "可以进行中文形态学分析。" | lindera tokenize \
--dict embedded://cc-cedict
可以 *,*,*,*,ke3 yi3,可以,可以,can/may/possible/able to/not bad/pretty good/
进行 *,*,*,*,jin4 xing2,進行,进行,to advance/to conduct/underway/in progress/to do/to carry out/to carry on/to execute/
中文 *,*,*,*,Zhong1 wen2,中文,中文,Chinese language/
形态学 *,*,*,*,xing2 tai4 xue2,形態學,形态学,morphology (in biology or linguistics)/
分析 *,*,*,*,fen1 xi1,分析,分析,to analyze/analysis/CL:個|个[ge4]/
。 UNK
EOS
注意: CC-CEDICT辞書をバイナリに含めるには、--features=embedded-cc-cedict オプションを使用してビルドする必要があります。
ユーザー辞書の例
Linderaは、システム辞書と一緒にカスタム単語を追加するためのユーザー辞書をサポートしています。ユーザー辞書はCSVまたはバイナリ形式にすることができます。
ユーザー辞書の使用(CSV形式)
% echo "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です" | lindera tokenize \
--dict embedded://ipadic \
--user-dict ./resources/user_dict/ipadic_simple_userdic.csv
東京スカイツリー カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
の 助詞,連体化,*,*,*,*,の,ノ,ノ
最寄り駅 名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
とうきょうスカイツリー駅 カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
ユーザー辞書の使用(バイナリ形式)
% echo "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です" | lindera tokenize \
--dict /tmp/lindera-ipadic-2.7.0-20250920 \
--user-dict ./resources/user_dict/ipadic_simple_userdic.bin
東京スカイツリー カスタム名詞,*,*,*,*,*,東京スカイツリー,トウキョウスカイツリー,*
の 助詞,連体化,*,*,*,*,の,ノ,ノ
最寄り駅 名詞,一般,*,*,*,*,最寄り駅,モヨリエキ,モヨリエキ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
とうきょうスカイツリー駅 カスタム名詞,*,*,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
トークナイズモード
Linderaは2つのトークナイズモードを提供します:normal と decompose です。
Normal モード(デフォルト)
辞書に登録された単語に基づいて忠実にトークナイズします:
% echo "関西国際空港限定トートバッグ" | lindera tokenize \
--dict embedded://ipadic \
--mode normal
関西国際空港 名詞,固有名詞,組織,*,*,*,関西国際空港,カンサイコクサイクウコウ,カンサイコクサイクーコー
限定 名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
トートバッグ UNK,*,*,*,*,*,*,*,*
EOS
Decompose モード
複合語をさらに分解してトークナイズします:
% echo "関西国際空港限定トートバッグ" | lindera tokenize \
--dict embedded://ipadic \
--mode decompose
関西 名詞,固有名詞,地域,一般,*,*,関西,カンサイ,カンサイ
国際 名詞,一般,*,*,*,*,国際,コクサイ,コクサイ
空港 名詞,一般,*,*,*,*,空港,クウコウ,クーコー
限定 名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイ
トートバッグ UNK,*,*,*,*,*,*,*,*
EOS
出力形式
Linderaは3つの出力形式を提供します:mecab, wakati, json。
MeCab 形式(デフォルト)
品詞情報を含むMeCab互換形式で結果を出力します:
% echo "お待ちしております。" | lindera tokenize \
--dict embedded://ipadic \
--output mecab
お待ち 名詞,サ変接続,*,*,*,*,お待ち,オマチ,オマチ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
おり 動詞,非自立,*,*,五段・ラ行,連用形,おる,オリ,オリ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。 記号,句点,*,*,*,*,。,。,。
EOS
Wakati 形式
トークンテキストのみをスペース区切りで出力します:
% echo "お待ちしております。" | lindera tokenize \
--dict embedded://ipadic \
--output wakati
お待ち し て おり ます 。
JSON 形式
すべてのトークン情報を含む詳細なJSON形式で出力します:
% echo "お待ちしております。" | lindera tokenize \
--dict embedded://ipadic \
--output json
[
{
"base_form": "お待ち",
"byte_end": 9,
"byte_start": 0,
"conjugation_form": "*",
"conjugation_type": "*",
"part_of_speech": "名詞",
"part_of_speech_subcategory_1": "サ変接続",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "オマチ",
"reading": "オマチ",
"surface": "お待ち",
"word_id": 14698
},
{
"base_form": "する",
"byte_end": 12,
"byte_start": 9,
"conjugation_form": "サ変・スル",
"conjugation_type": "連用形",
"part_of_speech": "動詞",
"part_of_speech_subcategory_1": "自立",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "シ",
"reading": "シ",
"surface": "し",
"word_id": 30763
},
{
"base_form": "て",
"byte_end": 15,
"byte_start": 12,
"conjugation_form": "*",
"conjugation_type": "*",
"part_of_speech": "助詞",
"part_of_speech_subcategory_1": "接続助詞",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "テ",
"reading": "テ",
"surface": "て",
"word_id": 46603
},
{
"base_form": "おる",
"byte_end": 21,
"byte_start": 15,
"conjugation_form": "五段・ラ行",
"conjugation_type": "連用形",
"part_of_speech": "動詞",
"part_of_speech_subcategory_1": "非自立",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "オリ",
"reading": "オリ",
"surface": "おり",
"word_id": 14239
},
{
"base_form": "ます",
"byte_end": 27,
"byte_start": 21,
"conjugation_form": "特殊・マス",
"conjugation_type": "基本形",
"part_of_speech": "助動詞",
"part_of_speech_subcategory_1": "*",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "マス",
"reading": "マス",
"surface": "ます",
"word_id": 68733
},
{
"base_form": "。",
"byte_end": 30,
"byte_start": 27,
"conjugation_form": "*",
"conjugation_type": "*",
"part_of_speech": "記号",
"part_of_speech_subcategory_1": "句点",
"part_of_speech_subcategory_2": "*",
"part_of_speech_subcategory_3": "*",
"pronunciation": "。",
"reading": "。",
"surface": "。",
"word_id": 101
}
]
高度なトークナイズ
Linderaは、文字フィルタ、トークナイザー、トークンフィルタを組み合わせた分析フレームワークを提供します。フィルタはJSONを使用して構成します。
文字フィルタとトークンフィルタの使用
% echo "すもももももももものうち" | lindera tokenize \
--dict embedded://ipadic \
--char-filter 'unicode_normalize:{"kind":"nfkc"}' \
--token-filter 'japanese_keep_tags:{"tags":["名詞,一般"]}'
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
EOS
辞書の学習(実験的機能)
注釈付きコーパスデータから新しい形態素解析モデルを学習します。この機能を使用するには、train 機能フラグを有効にしてビルドする必要があります。(train 機能フラグはデフォルトで有効になっています。)
学習パラメータ
--seed/-s: 重み付けを行うシード語彙ファイル(CSV形式)--corpus/-c: 学習用コーパス(注釈付きテキスト)--char-def/-C: 文字定義ファイル (char.def)--unk-def/-u: 未知語定義ファイル (unk.def) - 重み付けの対象--feature-def/-f: 素性定義ファイル (feature.def)--rewrite-def/-r: 書換えルール定義ファイル (rewrite.def)--output/-o: 出力モデルファイル--lambda/-l: L1正則化 (0.0-1.0) (デフォルト: 0.01)--max-iterations/-i: 学習の最大反復回数 (デフォルト: 100)--max-threads/-t: 最大スレッド数 (デフォルトはCPUコア数、データセットサイズに基づいて自動調整)
基本的なワークフロー
1. 学習用ファイルの準備
シード語彙ファイル (seed.csv):
シード語彙ファイルは、CRFモデルの学習に使用される初期辞書エントリを含みます。各行はカンマ区切りのフィールドを持つ単語エントリを表します。具体的なフィールド構成は辞書フォーマットによって異なります:
- 表層形
- 左文脈ID
- 右文脈ID
- 単語コスト
- 品詞タグ(複数のフィールド)
- 原形
- 読み(カタカナ)
- 発音
注意: 正確なフィールド定義は辞書フォーマット(IPADIC, UniDic, ko-dic, CC-CEDICT)によって異なります。詳細は各辞書のフォーマット仕様を参照してください。
外国,0,0,0,名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人,0,0,0,名詞,接尾,一般,*,*,*,人,ジン,ジン
学習用コーパス (corpus.txt):
学習用コーパスファイルは、CRFモデルの学習に使用される注釈付きテキストデータを含みます。各行は以下で構成されます:
- 表層形(単語)とそれに続くタブ文字
- カンマ区切りの形態素素性(品詞タグ、原形、読み、発音)
- 文は "EOS" (End Of Sentence) マーカーで区切られます
注意: 形態素素性のフォーマットは辞書(IPADIC, UniDic, ko-dic, CC-CEDICT)によって異なります。詳細は各辞書のフォーマット仕様を参照してください。
外国 名詞,一般,*,*,*,*,外国,ガイコク,ガイコク
人 名詞,接尾,一般,*,*,*,人,ジン,ジン
参政 名詞,サ変接続,*,*,*,*,参政,サンセイ,サンセイ
権 名詞,接尾,一般,*,*,*,権,ケン,ケン
EOS
これ 連体詞,*,*,*,*,*,これ,コレ,コレ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
テスト 名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS
形態 名詞,一般,*,*,*,*,形態,ケイタイ,ケイタイ
素 名詞,接尾,一般,*,*,*,素,ソ,ソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行う 動詞,自立,*,*,五段・ワ行促音便,基本形,行う,オコナウ,オコナウ
EOS
ファイルフォーマットや高度な機能の詳細については、TRAINER_README.md を参照してください。
2. モデルの学習
lindera train \
--seed ./resources/training/seed.csv \
--corpus ./resources/training/corpus.txt \
--unk-def ./resources/training/unk.def \
--char-def ./resources/training/char.def \
--feature-def ./resources/training/feature.def \
--rewrite-def ./resources/training/rewrite.def \
--output /tmp/lindera/training/model.dat \
--lambda 0.01 \
--max-iterations 100
3. 学習結果
学習済みモデルには以下が含まれます:
- 既存単語: 新しく学習された重みを持つすべてのシード辞書レコード
- 新語: シード辞書にはないがコーパスに含まれる単語(適切な重み付きで追加)
学習済みモデルの辞書へのエクスポート
学習済みモデルファイルをLindera辞書フォーマットのファイルにエクスポートします。この機能を使用するには、train 機能フラグを有効にしてビルドする必要があります。
基本的なエクスポート方法
# 学習済みモデルを辞書ファイルにエクスポート
lindera export \
--model /tmp/lindera/training/model.dat \
--metadata ./resources/training/metadata.json \
--output /tmp/lindera/training/dictionary
エクスポートパラメータ
--model/-m: 学習済みモデルファイル(.dat形式)のパス--output/-o: 辞書ファイルの出力先ディレクトリ--metadata: オプションの metadata.json ファイル(学習済みモデル情報で更新されます)
出力ファイル
エクスポートコマンドは出力ディレクトリに以下の辞書ファイルを作成します:
lex.csv: 学習された重みを持つ語彙ファイルmatrix.def: 接続コスト行列unk.def: 未知語定義char.def: 文字種定義metadata.json: 更新されたメタデータファイル(--metadataオプションが指定された場合)
完全なワークフロー例
1. モデルの学習
lindera train \
--seed ./resources/training/seed.csv \
--corpus ./resources/training/corpus.txt \
--unk-def ./resources/training/unk.def \
--char-def ./resources/training/char.def \
--feature-def ./resources/training/feature.def \
--rewrite-def ./resources/training/rewrite.def \
--output /tmp/lindera/training/model.dat \
--lambda 0.01 \
--max-iterations 100
2. 辞書フォーマットへのエクスポート
lindera export \
--model /tmp/lindera/training/model.dat \
--metadata ./resources/training/metadata.json \
--output /tmp/lindera/training/dictionary
3. 辞書のビルド
lindera build \
--src /tmp/lindera/training/dictionary \
--dest /tmp/lindera/training/compiled_dictionary \
--metadata /tmp/lindera/training/dictionary/metadata.json
4. 学習済み辞書の使用
echo "これは外国人参政権です。" | lindera tokenize \
-d /tmp/lindera/training/compiled_dictionary
メタデータ更新機能
--metadata オプションが指定されると、エクスポートコマンドは以下の処理を行います:
-
ベースとなる metadata.json ファイルを読み込み、既存の設定を保持します
-
特定のフィールドを学習済みモデルの値で更新します:
default_left_context_id: 学習済みモデルからの最大左文脈IDdefault_right_context_id: 学習済みモデルからの最大右文脈IDdefault_word_cost: 素性重みの中央値から計算された値model_info: 以下の学習統計情報を含む:feature_count: モデル内の素性数label_count: モデル内のラベル数max_left_context_id: 最大左文脈IDmax_right_context_id: 最大右文脈IDconnection_matrix_size: 接続コスト行列のサイズtraining_iterations: 実行された学習反復回数regularization: 使用されたL1正則化パラメータversion: モデルバージョンupdated_at: モデルがエクスポートされたタイムスタンプ
-
既存の設定を保持します(以下など):
- 辞書名
- 文字エンコード設定
- スキーマ定義
- その他のユーザー定義設定
これにより、基本となる辞書設定を維持しながら、学習中に最適化されたパラメータを取り込むことができます。
APIリファレンス
APIリファレンスは以下で公開されています:
APIリファレンス
APIリファレンスは以下で公開されています:
貢献ガイド
(貢献ガイドの内容をここに記述します)