Lindera Python

Lindera Python は、PyO3 を使用して構築された Lindera 形態素解析エンジンの Python バインディングです。Python 3.10 以降をサポートし、Lindera の高性能なトークナイズ機能を Python エコシステムに提供します。

特徴

多言語対応: 日本語（IPADIC、IPADIC NEologd、UniDic）、韓国語（ko-dic）、中国語（CC-CEDICT、Jieba）のテキストをトークナイズ
テキスト処理パイプライン: 文字フィルタとトークンフィルタを組み合わせて、柔軟な前処理・後処理が可能
CRF ベースの辞書学習: アノテーション付きコーパスからカスタム形態素解析モデルを学習（train feature が必要）
複数のトークナイズモード: 解析粒度に応じた Normal モードと Decompose モード
N-best トークナイズ: コスト順にランク付けされた複数のトークナイズ候補を取得
ユーザー辞書: システム辞書をカスタム語彙で拡張