ネット上のデータを上手に集めよう~初級スクレイピング講座

田中孝憲(報知新聞)

第2会議室

27日(土)

​〜

15:10

16:30

この講座では、インターネット上のデータを集める「スクレイピング」を学びます。本来なら複雑なプログラミング技術が必要ですが、Googleが提供する「スプレッドシート」を利用すると、エクセルを操作するような簡単な関数だけでデータを集めるられます。今回は初歩的な使い方について、実際にパソコンを使いながら操作方法を分かりやすく説明します。
発展的な使い方の一例として、ショッピングサイトの定点ウオッチがあります。特定の商品を追い続けると、日々値段が大きく上下していることが分かります。さらにある時間になると値段が上がり、また特定の時間になると下がる動きがあることも分かります。取材の取っかかりとなる「気づき」を得るためにも「スクレイピング」という技術を知ることは大切です。
今講座では、あわせて著作権などの注意点についても紹介します。
◆実際にパソコンを操作するハンズオン形式で行いますので、自分のパソコンをお持ちください。
◆Googleのアカウントをお持ちでない方は下記のURLで事前に作成しておいてください。
https://support.google.com/accounts/answer/27441?hl=ja
◆Wifi環境はありますが、ポケットwifiをお持ちの方は持参願います。

田中孝憲(たなか・たかのり、報知新聞東京本社メディア局コンテンツ編集部)
2003年入社。大阪本社運動部のプロ野球、サッカー担当などを経て、同本社での電子メディア部門立ち上げを主導。東京本社へのデジタル部門統合に伴い、メディア戦略局編集部に異動。主要な仕事はWEB編集やスポーツデータを受信して自社サイトに表示させるプログラミングなど、編集・開発両面にわたる。広告担当と収益の最大化も目指している。現在の興味は、自然言語処理を用いた自動校閲およびスポーツ原稿執筆の自動化など。

Logo.png

報道実務家フォーラムは、調査報道を支える非営利ジャーナリズム団体の国際組織「世界調査報道ネットワーク」(GIJN)に加入しています