特集 2020年12月24日

ワードクラウドで振り返る2020年~1月のニュースの最頻出単語は「ゴーン」

ワードクラウドとは、こういうやつです。

2020年がついに終わろうとしている。今年は本当にいったい何だったんだろう。わけのわからないまま、ただ終わろうとしている。こんな年はなかなか無いので、いまのうちに記録しておく。ワードクラウドというものを使います。

1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。

前の記事:難易度MAX!激むず謎解きを作って解いてもらった

> 個人サイト ほりげー

わけがわからなすぎた2020年を淡々と振り返ります。

2020年はわけのわからない年だった。世界中で疫病がはやり、オリンピックが延期になった。できればなかったことにしたい2020年。しかし現実は冷静で、あと数日もすれば2021年がやってくる。そこで、このよくわからないまま過ぎ去っていった2020年を、今のうちにワードクラウドで振り返る。ただし、しんみりするのも嫌なので、ここからはできるだけ淡々と、そしてポジティブに振り返っていきます。

ワードクラウドとは?

ワードクラウドとは、こういうやつです。見てもらったほうが早い。

extracted_all.png
こういうやつ。これが何のワードクラウドなのかについては後ほど。

ワードクラウドではたくさんの文章を読み込んで、頻出する単語ほど大きく表示する。タグクラウドともいう。雲のように表現するのでクラウド(Cloud)だ。群衆を表すCrowdだと思っていたが調べたら違った。どうやって作るのかはここでは割愛するが、今回はPythonプログラムというものでワードクラウドを作る。(この記事を参考にしました。)

仕組み.png
ワードクラウド作成の仕組み。とりあえずは、ロボットがワードクラウドを作っているイメージでいいと思います。とにかく大量の文章が必要。

さっそく、ここから2020年をどんどんワードクラウドにしていく。

ヤフーのトップニュースをワードクラウドにした。

日本のできごとをタイムリーに表す媒体といえばYahoo! JAPANだろう。私は5分に一回はスマホでヤフーニュースを見ている。まずはヤフーのトップニュースをワードクラウドにする。

ワードクラウドをつくるためには文章が必要だ。つまり、ヤフーのトップニュースをテキストデータで引っこ抜いてくる必要がある。

ありがたいことに、WeyBackMachineというサイトには、いろんなサイトの過去の状態が保存されている。これはつまりタイムマシンだ。これを使って2020年の1月1日から2020年の12月13日(記事執筆時点)まで 、1日ずつタイムマシンに乗ってもどり、Yahoo! JAPANのトップニュースを引っこ抜く。
(300日以上もあって手作業だと気が狂いそうになるので、Seleniumというソフトで自動操作しています。その際、サーバーに負荷がかからないよう十分配慮しました。)

さて出ました。今年のヤフートップニュースをワードクラウドにするとこうなります!

yahoo_all.png
2020年のYahoo! Japanのトップニュースのワードクラウド。どひゃ~。

やはり圧倒的に「感染」「コロナ」がでかい。そうですよね。ひゃ~つらい~!今年1年みんなマジでお疲れ!(できるだけポジティブに振り返っています。)

コロナよりも大きい「米」はアメリカだと思う。お米大好きジャパンみたいなことではない。

yahoo_all_hanshin_kyojin.png
野球の話題に〇を付けた。

意外なところだと、野球に関係する言葉が結構出てくる。巨人と阪神だと阪神のほうが大きい。ヤフートップで繰り広げられる伝統の一戦は阪神に軍配か。巨人はジャイアンツの頭文字をとって「G」と呼ばれることもあるので票が割れたのかもしれない。

他にも、広島、監督、試合、開幕、移籍、引退など、野球に関係する言葉がワードクラウドに出てきた。もちろんこれらは野球以外の話題で使われた可能性もある。

他の話題だと、芸能ニュース関係がちらほら。つまりヤフートップの2020年は、コロナ、政治、野球、芸能ということになりました。

dena.jpg
私の好きなチームである横浜DeNAベイスターズはワードクラウドに出てこなかった。悲しい。(「自分の得意ジャンルを神経衰弱にしたら絶対に勝てるか」 より)

ちなみに、まるまる1年でワードクラウドを作るのではなく、1か月単位でワードクラウドを作ると、興味深い。

yahoo_01.png
2020年1月。すでに新型コロナウイルスは国外で流行り始めていたのだが、まだ「コロナ」と呼ばれていない。「新型肺炎」だ。そういえばそうだった。あと、「ゴーン被告」も目立つ。 あの「私はレバノンにいる」は2019年の大みそかで、正月早々ビッグニュースだったなぁ。
yahoo_02.png
2月。まだ「コロナ」と呼ばれていない。ただし感染は広まってきた。
yahoo_03.png
3月。いよいよ「コロナ」が出てきた。このあたりから実生活に影響が出てきた。
yahoo_04.png
4月。緊急事態宣言とかあった。

さすがにしんどくなってきたのでこれ以上はやめておく。今年は疲れたねえ。すべての医療従事者と、医療従事者じゃなくても大変だった人と、そこまで大変じゃないけど例年よりはちょっとしんどかった人、みなさま本当にお疲れさまでした。ようやっとる。

light_mask.gif
ここでいったん、自作の光るマスクを着用する筆者で心を落ち着けていただければと思います。
いったん広告です

デイリーポータルZをワードクラウドにしたらほっこりした。

さて、当サイトデイリーポータルZでもワードクラウドを作った。2020年に公開された約900個の記事のタイトルとリード文をもとに、ワードクラウドを作るとこうなった。ちょっとほっこりした。

extracted_all.png
2020年のデイリーポータルZ。冒頭でもお見せしたこちらの画像になります。

着目したいのは最も大きい「自分」だ。自分語り大好きポータルサイトである。次に注目したいのは「家」だ。これもわかる。デイリーポータルZの多くの記事は外でネタを練る印象があるが、外出自粛で外に出られなかった。ステイホーム。おうち時間。私も頭をひねって家でできるネタを考えたなぁ。

ちなみに2020年の私ほりの記事に限定すると、こんなワードクラウドに。

extracted_writer_ほり.png
ほりの記事。そうだ、家でも実現可能な記事のネタとして、ゲームを作ったのだった。
amabie.png
記事で作った「アマビエ」か「アマエビ」かを見極めて「アマビエ」を選び続けるゲーム。FlashではなくJavaScriptで作っているので今後もしばらく遊べます。

実はデイリーポータルZのワードクラウドはいろんなパターンで作ったので、後日別枠で解説することになりました。お楽しみに。

市川海老蔵さんのオフィシャルブログをワードクラウドに。

続いて、歌舞伎役者の市川海老蔵さんのオフィシャルブログをワードクラウドにした。芸能人のブログといって真っ先に浮かんだのが市川海老蔵さんだ。記事の数が多いし、どれもポジティブでとても元気が出る。

市川海老蔵さんが2020年に執筆したAmebaブログの記事の本数は、8909本 (12/13 22:32時点)。見間違いじゃないです。1年で約九千本。年を越すまでに1万本を超える可能性さえある。これをワードクラウドにするとこうなります。

ebizo.png
市川海老蔵さんのブログ。ポジティブワードが多くてこちらも元気になります。

「笑笑」は海老蔵さんのブログに頻出する表現だ。「草」や「ww」と同じように使う。「~草 笑笑」のように併用されることもある。ほかにも「愛」「最高」「幸せ」「感謝」「好き」など、ポジティブな言葉が多くみられる。ポジティブなワードクラウドができた。

この最高にポジティブなワードクラウドを作ってからというもの、海老蔵さんのブログが毎日気になって15分に一回はチェックするようになった。(今まではたまに読むぐらいでした。すみません!) みんなも読んだほうがいいです。

ちなみに、「Yahoo ニュース」「yahoo」などの言葉も見られるが、海老蔵さんは自分のブログがヤフーニュースに掲載されるとそれをブログで報告する傾向にあるためである。毎日チェックするようになるとそういうのもわかってきた。

歌舞伎揚げ.jpg
歌舞伎といえば、今年のデイリーポータルZではきだてたくさんの「歌舞伎揚専門店で買える最高級歌舞伎揚を知っているか」という記事が注目されていました。

雑誌をワードクラウドにするとどうなる。

ワードクラウドを作るのが楽しすぎるので、まだまだ作ります。次は週刊誌。フライデーや文春はちょっと生々しいので、ちょうどいいのを見つけた。女性自身。実家の母がよく読んでたなぁ。久しく実家に帰れていない……。

ありがたいことに公式サイトにて雑誌のバックナンバーが紹介されており、そこから表紙のテキストデータを収集することができた。

2020年に発刊された女性自身の見出しをワードクラウドにするとこうなった。

joseijishin.png
女性自身。「コロナ」「感染」はあるが、他のキーワードも目立つ。

目に留まるのが、皇室関係の話題と、「嵐」「ジャニーズ」「中居正広」「木村拓哉」などのジャニーズ関係の話題だ。他にも「氷川」(氷川きよしさん)、「米倉涼子」などの芸能人も挙がっている。確かに実家の母もジャニーズが好きだし米倉涼子も好きだ。これは実家のオカンの一次ソースなのではないか。

こうやって、雑誌の傾向が分かりやすい形で可視化されるのは面白い。せっかくなのでもう一つ、別のとある雑誌を可視化してみる。

nikkei_money.png
さてこれは何の雑誌のワードクラウドでしょうか?(唐突なクイズ)

何の雑誌のワードクラウドでしょうか。答えは…。







日経マネーでした。こちらもバックナンバーが充実しており、見出しをワードクラウドにした。「コロナ」「コロナ禍」以上に「銘柄」「投資家」「株」などのワードが目立つ。専門誌の面白いところだ。

ちなみに、日経マネーに初めて「コロナ」というワードが出てきたのは 2020年5月号 で、発売日は3月21日だ。これ、かなりタイムリーなタイミングなのでは。月刊誌ということもあり、早い段階からある程度構成が決まっているだろうに、対応の柔軟さがすごい。

札束風呂.jpg
箸休めに編集部安藤さんの札束風呂の画像を置いておきます。いつかこうなりたい。
いったん広告です

自治体のオープンデータを使ってワードクラウドを作ってみる。

最後に、自治体のオープンデータを使ってワードクラウドを作ってみる。例えば私の住んでいる川崎市では、学校の給食の献立をオープンデータとして公開しており誰もが利用することができる。これをワードクラウドにしてみよう。

川崎市の2020年1月~12月の南部学校給食センターA献立のメニューをワードクラウドにするとこうなった。

kondate_menu.png
川崎市の給食のメニュー。麦ごはん、ごはん、ヨーグルト!

※この画像と次の画像は以下の著作物を改変して利用しています。南部学校給食センターA献立の給食献立表、川崎市、クリエイティブ・コモンズ・ライセンス 表示 2.1

川崎市の2020年の給食では麦ごはんがほぼ毎日出されたようで、ワードクラウドに大きく描かれた。定食屋と似ているメニューもあるが、それ以上に給食っぽさのあるメニューが目立つ。青菜ときのこのスープ野菜ソテーひじきのサラダ。このワードクラウド、いつまでも眺めていられるなぁ。

また、献立にはメニューだけでなく食材の情報も載っているので、食材でもワードクラウドを作ってみた。

kondate.png
川崎市の給食の食材。しょうゆ!にんじん!水!塩!油!

2020年、川崎市の給食で最も頻出した食材はしょうゆであることが可視化された。(しょうゆの量が最も多いわけじゃなくて、献立に登場する頻度が最も多いという意味です。)砂糖や塩よりも多いのは意外だった。

調味料が大きく描かれる中、野菜でひときわ目立つのがにんじんである。そんなに含まれることある?と思って元データを見ると、ほぼすべてのスープににんじんが含まれていた。確かに、学校のスープといえばにんじんだった気がする。うっすらとした記憶がよみがえる。

ワードクラウドを眺めていると、パッと目に留まる食材でカレーや肉じゃがが作れる。そういう遊びも面白いかもしれない。


自分のツイートをワードクラウドにするのも面白い。

自分のツイートをワードクラウドにするもの面白い。私は自作したが、手軽にワードクラウドを作れるサイトもあるようだ。

tweet.png
私の2020年のツイート(@horicun)のワードクラウド。

私のツイートのワードクラウドによれば、記事(=DPZ)と謎(=謎解き)とゲームと酒で最高の2020年だったようだ。コロナ禍でまぁまぁしんどかったけどツイートはけっこうポジティブ。ひきつづき、海老蔵さんを目指していきます。来年もよろしくお願いします。

▽デイリーポータルZトップへ

banner.jpg

 

デイリーポータルZのTwitterをフォローすると、あなたのタイムラインに「役には立たないけどなんかいい情報」がとどきます!

→→→  ←←←

 

デイリーポータルZは、Amazonアソシエイト・プログラムに参加しています。

デイリーポータルZを

 

バックナンバー

バックナンバー

▲デイリーポータルZトップへ バックナンバーいちらんへ