(1) データは、様々な不具合を必ず含む。
― 私の経験上のいくつかの例外を除いて。�
欠損, 意味不明な特別値, 不要なデータの混入, � 不自然な値の頻発, 表または列を結合時の不整合
→ 不具合の様子を、全把...
(1) データは、様々な不具合を必ず含む。
― 私の経験上のいくつかの例外を除いて。�
欠損, 意味不明な特別値, 不要なデータの混入, � 不自然な値の頻発, 表または列を結合時の不整合
→ 不具合の様子を、全把握するのは困難。
(2) データがあっても、活用の困難が生じる。
値の意味が解読困難, 列が多すぎ, 表が多すぎ,
よく似た列または表がいくつもある(⇒ 把握の困難)
→ 既存ソフトでは、効果的な対処は困難。 Pythonのcsvkit, pandas, R言語のsummaryなどでは不十分。
高機能・親切設計のソフトを自分で作った。
どの国の統計局でも、大企業の古いDBサーバーでも使えるように設計した。