1. データ前処理(Excel → JSON)
- Excel(市民・小学生・中学生・高校生・近隣住民)を縦持ちで統合。
- ノイズ除去・全半角整形・空白折り畳み等の基本正規化を実施。
- Gemini により cleaned を生成(敬体統一、否定は建設的・未来志向へ変換)。
- 無気力回答は除外。意味が通らない場合は補完し、それでも不可なら除外。
- 全レコードに安定ID(target|number|item|segment をハッシュ)を付与。
2. 埋め込み生成(ruri)
- テキストは cleaned を使用。cl-nagoya/ruri-v3-310m で文ベクトル化。
- JSONL/Parquet にメタ情報(id, target, item, district ほか)を同梱。
3. 次元削減とクラスタリング
- PCA(累積分散 ≈95%)で次元削減 → KMeans(k=20)でクラスタ割当。
- 可視化は t‑SNE 投影(Atlas上で 2次元表示)。
4. 要約・タイトル・カテゴリ付与(v4.1)
- Gemini(v4.1プロンプト)でタイトル/要約/代表引用/対象ヒント/ニーズレイヤを生成。
- カテゴリは行政ニーズの 7分類(防災/自然/住環境/産業/交通/福祉/学び)。
- 1クラスタは最大2カテゴリまで所属可。全体で均等になるよう再配分。
- 重複タイトルは自動調整(カテゴリ/対象語を織り込み、12〜16字に正規化)。
5. ダッシュボード表示仕様
- 代表意見: クラスタ中心に近いものを属性ごとに10%以上サンプリング(原文優先、ID重複除外)。
- 全件表示: クラスタ内で文字列としてユニークな意見のみ(属性跨ぎも重複不可)。
- カテゴリタイルで絞込、属性/設問/地区の比率を円グラフで提示。
6. データ保護と公開配慮
- 生データの外部提供は行わず、集約・正規化後のテキストのみを掲載。
- 個人特定の恐れがある記述は除外・抽象化。番号や自由記述の生引用の再同定を避ける運用。
- .env など鍵情報は非公開。APIキーはローカルでのみ使用。
本サイトは意思決定支援を目的とした可視化であり、政策判断の唯一根拠ではありません。詳細な集計や原票確認は担当部署の手続に従ってください。
トップへ戻る