Lindera PHP

Lindera PHP は、ext-php-rs を使用して構築された Lindera 形態素解析エンジンの PHP バインディングです。PHP 8.1 以降をサポートし、Lindera の高性能なトークナイズ機能を PHP エコシステムに提供します。

特徴

  • 多言語対応: 日本語(IPADIC、IPADIC NEologd、UniDic)、韓国語(ko-dic)、中国語(CC-CEDICT、Jieba)のテキストをトークナイズ
  • テキスト処理パイプライン: 文字フィルタとトークンフィルタを組み合わせて、柔軟な前処理・後処理が可能
  • CRF ベースの辞書学習: アノテーション付きコーパスからカスタム形態素解析モデルを学習(train feature が必要)
  • 複数のトークナイズモード: 解析粒度に応じた Normal モードと Decompose モード
  • N-best トークナイズ: コスト順にランク付けされた複数のトークナイズ候補を取得
  • ユーザー辞書: システム辞書をカスタム語彙で拡張

ドキュメント