データの抽出、クリーニング、前処理のためのツール

投稿日:

編集:​The GIJN Collection
翻訳:エァクレーレン

この記事はthe Global Investigative Journalism Network (GIJN)によって公開されました。日本語訳はGIJNのご支援のもと報道実務家フォーラムが公開したものです。貴重な情報を提供してくださり心より感謝申し上げます。

This story was originally published by the Global Investigative Journalism Network.
J-Forum publish the Japanese translation with GIJN’s support. 
We’re grateful to GIJN for offering and allowing to translate it into Japanese. 

 ノイズの多いデータや煩わしいPDFを入手してしまったらどうするか。以下で紹介するのは、手許のデータを「使える」フォーマットに整える際に役に立つプログラムだ。

 「OpenRefine」は、データの探索、クリーニング、照合のための無料ツールだ。整理されていないデータを扱うときには特に有効である。英語、中国語、スペイン語、フランス語、ロシア語、ポルトガル語(ブラジル語)、ドイツ語、日本語、イタリア語、ハンガリー語、ヘブライ語、フィリピノ語、セブアノ語、タガログ語で利用できる。ここに「OpenRefine」の優れたマニュアルがある。

 PDFからのデータ抽出は、多くのジャーナリストが向き合わざるをえない業務である。この手間を楽にしてくれる無料ツールがいくつかある。「タビュラ」はPDFファイルから表データを抽出するためのオープンソースのツールである。もう一つの無料ツール「XPDF」は、英語以外の複数の言語をサポートしている。「CometDocs」も機能限定の無料アカウントを提供しているが、有料プランではオンラインストレージの容量が増え、アップロード可能なファイルサイズも大きくなる。

 「CSVkit」には、最も一般的な表計算ファイル形式であるCSVファイルの変換・処理に用いるコマンドライン式のツールが集められている。

 「Workbench」は、データの抽出、クリーニング、分析のためのツールを集めたもので、コロンビア大学スクール・オブ・ジャーナリズムが提供している。


原文はこちら:Tools for Scraping, Cleaning, and Prepping Datas
この翻訳はGoogle News InitiativeとGoogle Asia Pacificの支援を受けて行われました。
This translation is supported by the Google News Initiative and Google Asia Pacific.
Creative Commons Attribution-NonCommercial 4.0 International licence