×
🔧 技術詳細・免責事項
📊 感情分析(Sentiment Analysis)
使用辞書:DLUT感情辞書(大連理工大学情報検索研究室)
- 約27,466語の中国語感情語を収録
- 7つの感情カテゴリ:楽(PA)、好(PE)、怒(NA)、哀(NB)、懼(NC)、悪(ND)、驚(NN)
- 各語に感情強度(1=最弱〜9=最強)を付与
- 極性(positive/negative)による分類
処理フロー:
- jieba.posseg による形態素解析(単語分割+品詞タグ付け)
- DLUT辞書との照合で感情語を検出
- 否定語処理:「不」「没」「无」「别」等で極性反転(×-1)
- 程度副詞処理:「很」(×1.5)「非常」(×2.0)「有点」(×0.5)等でスコア調整
- シグモイド関数で0〜1にスケーリング:score = 1/(1+e^(-raw×0.2))
- 閾値判定:0.6以上=positive、0.4未満=negative、中間=neutral
🔤 キーワード抽出(Keyword Extraction)
TF-IDF法(Term Frequency - Inverse Document Frequency)
- jieba.analyse.extract_tags() を使用
- 文書内での出現頻度(TF)と文書集合内での希少性(IDF)を乗算
- 一般的な語(的、是、了等)は自動的に重要度が下がる
TextRank法(グラフベースランキング)
- jieba.analyse.textrank() を使用
- 単語間の共起関係をグラフ化し、PageRank類似のアルゴリズムで重要度算出
- 文脈を考慮した抽出が可能
品詞フィルタリング:名詞(n*)、動詞(v*)、形容詞(a*)、副詞(d)を分類
🗺️ クロス分析(Cross Analysis)
グループ化軸:地域別 / 日付別 / 時間帯別 / 投稿者区分
- 各グループごとに感情分析を実施し、平均スコア・分布を算出
- グループごとの特徴的キーワードをTF-IDFで抽出
- 地図表示:Leaflet.js + OpenStreetMap、SVGによる円グラフマーカー
👤 キャラクター分析(Character Analysis)
自動抽出:
- jieba.posseg で品詞タグ「nr」(人名)を検出
- 役割語辞書(女主、男主、哥哥、妹妹等)とのマッチング
- 出現頻度でランキング
感情分析:キャラクター名を含むコメント全体の感情を集計
🛠️ 使用ライブラリ
| 形態素解析 | jieba 0.42.1(Python) |
| 感情辞書 | DLUT Emotion Ontology(大連理工大学) |
| バックエンド | Flask 2.x(Python)on PythonAnywhere |
| チャート描画 | Chart.js 4.x / ECharts 5.x |
| ワードクラウド | wordcloud2.js |
| 地図表示 | Leaflet.js 1.9 + OpenStreetMap |
⚠️ 免責事項
1. 分析精度について
本ツールの分析結果は機械的な処理によるものであり、100%の正確性を保証するものではありません。
特に、皮肉・比喩・文脈依存の表現は正確に分析できない場合があります。
2. 利用責任について
本ツールの分析結果を基にした判断・行動について、開発者は一切の責任を負いません。
商用利用、学術研究、意思決定等での使用は利用者の自己責任となります。
3. データ取り扱いについて
アップロードされたデータはAPI処理のためサーバーに送信されますが、保存・蓄積は行いません。
機密情報・個人情報を含むデータの取り扱いには十分ご注意ください。
📝 引用について
本ツールを発表や論文等で引用される場合は、以下の形式をご使用ください:
氷野善寛 (2025)「中国語口コミ分析ツール」目白大学
https://hinox.sakura.ne.jp/chtexts/kuchikomi/