大量の表形式データを 有効活用するための方法論 – 70個以上のソフトウェア作成からの知見–

shimonotoshiyuki 0 views 3 slides Oct 16, 2025
Slide 1
Slide 1 of 3
Slide 1
1
Slide 2
2
Slide 3
3

About This Presentation

(1) データは、様々な不具合を必ず含む。
― 私の経験上のいくつかの例外を除いて。�
欠損, 意味不明な特別値, 不要なデータの混入, � 不自然な値の頻発, 表または列を結合時の不整合

→ 不具合の様子を、全把...


Slide Content

大量の表形式データを
有効活用するための方法論
–70個以上のソフトウェア作成からの知見–
山梨大学疫学・環境医学講座助教
統計数理研究所客員助教
下野寿之
(しものとしゆき)
脳科学若手の会 秋の懇話会Short Talk 2025-10-11 (sat)
https://github.com/tulamili
https://metacpan.org/author/tulamili

ソフトウェアを自作
2
(1) データは、様々な不具合を必ず含む。
― 私の経験上のいくつかの例外を除いて。
欠損, 意味不明な特別値, 不要なデータの混入,
不自然な値の頻発, 表または列を結合時の不整合
→ 不具合の様子を、全把握するのは困難。
(2) データがあっても、活用の困難が生じる。
値の意味が解読困難, 列が多すぎ, 表が多すぎ,
よく似た列または表がいくつもある
(⇒
把握の困難
)
→ 既存ソフトでは、効果的な対処は困難。
Pythonのcsvkit, pandas, R言語のsummaryなどでは不十分。
コマンドラインのプログラムとして、70個以上を
GitHub とMetaCPANで、それぞれ公開している。
数式を書くにはLaTeX、統計処理はR言語。表データには?
高機能・親切設計のソフトを自分で作った。 どの国の統計局でも、大企業の古いDBサーバーでも使えるように設計した。
各プログラムについて:
-
UNIX哲学に基づいて設計された機能を持つ。
-オプションにより、様々な機能を設定可能。
-コピペでエクセルなどに結果を簡単に保存可能。
-コマンド端末操作での親切さを追求。色など。
使い慣れると、他のソフトウェアを使う気が失せるようなコマンド体系である。

3

1個の表に対して全ての列について、異なる値の数、値の範囲、最頻値と頻度、桁数を、整理して出力。
どんな文字が各行の先頭から何文字目に何回出現したのかを出力。書式の理解に容易になる。

1. 整理した出力表が、上記の様にコマンドによって、一発で現れる。
データの値に不具合が存在した場合: 「どの列にどんな不具合があった」について、ほぼ一目瞭然となる。
データの「把握と活用の困難」に対し: 上記のコマンド出力でほぼ解決。
(エクセル等にコピペし、後で便利に参照が容
易。)
2. 様々な作業が非常に楽になる: Data cleansing、使い易いDatabaseの設計、うっかり大事なdataを忘れることの防止
3. このことにより、世の中に多数ある 表形式データ の有効活用が大きく進む。
表形式データ
(CSV形式など)
の形式
(文字列の様子や作られ方)
を、即座に解読して、
その結果を整理可能な形で出力するコマンドラインを多数作った(70個
以上
公開)。
表形式データを、多分野にて活用可能にする、方法論の体系化を試みたい。