Lindera Python

Lindera Python は、PyO3 を使用して構築された Lindera 形態素解析エンジンの Python バインディングです。Python 3.10 以降をサポートし、Lindera の高性能なトークナイズ機能を Python エコシステムに提供します。

特徴

  • 多言語対応: 日本語(IPADIC、IPADIC NEologd、UniDic)、韓国語(ko-dic)、中国語(CC-CEDICT、Jieba)のテキストをトークナイズ
  • テキスト処理パイプライン: 文字フィルタとトークンフィルタを組み合わせて、柔軟な前処理・後処理が可能
  • CRF ベースの辞書学習: アノテーション付きコーパスからカスタム形態素解析モデルを学習(train feature が必要)
  • 複数のトークナイズモード: 解析粒度に応じた Normal モードと Decompose モード
  • N-best トークナイズ: コスト順にランク付けされた複数のトークナイズ候補を取得
  • ユーザー辞書: システム辞書をカスタム語彙で拡張

ドキュメント