Skip to content

20240519‐法人データの確認

KosukeWATANABE edited this page Aug 14, 2024 · 11 revisions

データの作成

% wc -l 00_zenkoku_all_20240430.csv
 5467443 00_zenkoku_all_20240430.csv
% iconv -f SHIFT_JIS -t UTF-8 00_zenkoku_all_20240430.csv > 00_zenkoku_all_20240430.utf8.csv
% cat 00_zenkoku_all_20240430.utf8.csv | cut -d, -f 10,11,12 | tr -d '"' | tr -d ',' | tr '_' '_' > address.txt
% wc -l address.txt
 5467443 address.txt

# md5確認
% md5 00_zenkoku_all_20240430.csv    
MD5 (00_zenkoku_all_20240430.csv) = 8cac6963a5cd5a9cd00aa60e1fffcb13
% md5 00_zenkoku_all_20240430.utf8.csv 
MD5 (00_zenkoku_all_20240430.utf8.csv) = c7a37e72beba1ec6f8081f19bf632a74
% md5 address.txt                     
MD5 (address.txt) = e9876a0334994cce7c8fc57ab3f12655

外字を含む割合をチェック

総レコード 商号又は名称イメージID 国内所在地イメージID 国外所在地イメージID
Not Null 115,539 63,662 53,092 393
Null 5,351,904 5,403,781 5,414,351 5,467,050
外字が含まれる割合 2.1588% 1.1781% 0.9806% 0.0072%
if
IF (
  ISNULL([Name Image Id])
  AND
  ISNULL([Address Image Id])
  AND
  ISNULL([Address Outside Image Id])
)
THEN
  TRUE
ELSE
  FALSE
END

% cat 00_zenkoku_all_20240430.utf8.csv |tr '_' '_'|grep "_"|tr -d '"'| awk -F, '{print $10 $11 $12 " /* "$2" "$7 " */"}'|head

北海道札幌市西区発寒十四条2丁目3番1号 /* 1430001072738 華_日本旅行株式会社 */
北海道札幌市北区新川三条14丁目7番22号 /* 1430002016669 有限会社_田建設工業 */
北海道小樽市塩谷2丁目15番16号 /* 1430002056839 有限会社聚楽_ */
北海道登別市鷲別町6丁目40番地9 /* 1430002065559 有限会社_田橋梁架設 */
北海道岩内郡岩内町字高台1番地 /* 1430002066549 寶化_工業有限会社 */
北海道札幌市中央区(札幌区北二条西三丁目3番地) /* 1430003000432 北海道鉄道_告合資会社 */
北海道小樽市花園町東二丁目11番地 /* 1430003002890 合資会社_文堂 */
北海道留萌郡小平町字大椴297番地の9 /* 1450001009283 株式会社鳳_ */
北海道旭川市旭町二条5丁目12番地の193 /* 1450002006404 有限会社_北 */
北海道釧路市末広町6丁目1番地 /* 1460003000371 合資会社_尾木材店 */
Match Level	Id のカウント
prefecture	620
city	340
machiaza	1,285
residential_block	167
residential_detail	1,264
parcel	1,403

重複住所を除く

% cat ./00_zenkoku_all_20240731.csv| cut -d, -f 10,11,12 | tr -d '"' | tr -d ',' | tr '_' '_' |sort|uniq > address.txt