アンテナサイトに自作タグクラウドを設置する Part 1

以前アンテナサイトを作っているという話題を書きましたが、そのアンテナサイトに今更ながら何周か周回遅れでタグクラウドを設置したいと思います。

サイトの仕様上、PHPとMySQLを使用して作りたいと思います。(どちらも初心者なので、間違いが有ればアドバイスをして頂けるとありがたいです。)

まだ、構想段階です。(2014年9月15日現在)

一般的にブログ等のタグクラウドはブログ作成時に各記事に付けたタグをカウントして多いものから表示するものですが、今回作成したいタグクラウドは次のようなものです。

 

一言で言うと、自動でタグ生成から行うタグクラウドです。手順を各ステップに分けると...

Step 1: アンテナサイトが他サイト様からRSSで記事を収集し、タイトルをデータベースに追加

Step 2: RSSにはタグがついていないので、タイトルからタグを自動的に抽出する。

Step 2-1: 各RSSの記事のタイトルを品詞分解する。

Step 2-2: 助詞等を取り除き、各記事のタグを生成する。

Step 3: 全ての記事(または最新1000記事など)のタグを集計する。

Step 4: タグの登場回数上位50キーワードを選択する。

Step 5: 50キーワードをランダムに(アンテナサイト上に)表示する。

Step 6: Step5において、タグの登場回数に応じてフォントの大きさを変更する。

Step 7: タグクラウド上のリンク(タグ)をクリックすると専用ページ(tag.php?tag=タグなど)にリンクする。

Step 8: リンク先の専用ページにおいて、タグを記事タイトルに含む記事を新しい順に表示する。

 

と言った形のものを考えています。

タイトルの品詞分解にはYahoo デベロッパーネットワークの日本語形態素解析APIキーフレーズ抽出を用いる予定です。具体的な作成は次回以降に行っていきます。(まだ、コードを1文字も書いてないです。)

次回→アンテナサイトに自作タグクラウドを設置する Part 2 (完成後リンクを設置)


素人が始めるプログラミングと投資のブログ

インデックスファンドへの投資を中心に自分の実体験を報告していく予定です。ゆくゆくはAIやdeep learningを使用して株価予測や自動ポートフォリオ作成も行っていきたいです。