3.4Mの太陽光パネル
概要
- GM-SEUSデータセットv2のレビューと新機能の紹介
- ハードウェア環境や使用ツール・アプリケーションの明示
- データ取得・変換手順の詳細な解説
- 各データセットのレコード数やカラム統計の提示
- Parquet変換方法やNULL値の扱いに関する具体例
GM-SEUS v2 データセットレビュー
- GM-SEUS(Ground-Mounted Solar Energy in the United States)データセットのv2が公開、パネル数が2.9M→3.4Mに増加
- 新たにRooftop Arrayデータセットが追加
- 各データセットのリフレッシュおよび拡充
作業環境
- AMD Ryzen 9 9950X(16コア32スレッド、5.7GHz動作)のワークステーションを使用
- DDR5 96GB RAM(4,800MT/s)、Crucial T700 4TB NVMe SSD(12,400MB/s読み込み)搭載
- Cooler Master HAF 700ケース、Corsair 1,200W電源、ASRock X870E Nova 90マザーボード
- **Ubuntu 24 LTS(Windows 11 Pro上のWSL2)**で運用
- Nvidia GTX 1080使用理由:Windowsの方がドライバサポートが良好、ArcGIS ProはWindows専用
必要なツールのインストール
- GDAL 3.9.3のインストール手順
sudo add-apt-repository ppa:ubuntugis/ubuntugis-unstablesudo apt updatesudo apt install gdal-bin
- DuckDB v1.5.1のインストールと拡張機能(H3, JSON, Lindel, Parquet, Spatial)の導入
- 拡張機能自動ロード設定(
~/.duckdbrcに記述)
- 拡張機能自動ロード設定(
マッピングツール
- QGIS v4.0.1を使用
- HCMGISプラグインでEsriベースマップ追加
- 月間1,500万回以上の起動実績
データセットのダウンロードと準備
- **GMSEUS v2データ(3.4GB ZIP)**のダウンロード・GeoPackage(GPKG)抽出
wget -O GMSEUS_v2.zip 'https://zenodo.org/records/19581821/files/GMSEUS.zip?download=1'unzip -j GMSEUS_v2.zip "*.gpkg"
- GPKGファイルの投影法
- Albers Equal Area(AEA)を使用
gdalsrsinfo -o proj4 GMSEUS_RooftopArrays_2025_v2_0.gpkg
Rooftop ArrayデータセットのParquet変換
- DuckDB v1.4.4利用(v1.5.1では例外発生のため)
- Parquet形式への変換SQL例を提示
- レコード数:5,822件
- カラムごとのNULL値率・ユニーク値数・最小/最大値を集計
パネルデータセットのParquet変換
- パネルデータ(
GMSEUS_Panels_Final_2025_v2_0.gpkg)をParquet形式へ変換 - レコード数:3,429,157件
- 各カラムのNULL率・ユニーク値数・最小/最大値を集計
アレイデータセットのParquet変換
- アレイデータ(
GMSEUS_Arrays_Final_2025_v2_0.gpkg)のParquet変換 - レコード数:18,980件
- カラムごとの詳細統計情報を提供
データ分析のポイント
- NULL値や異常値(-9999など)の適切な変換
- 空間情報の投影変換とWKB化による可視化・分析の効率化
- HILBERTエンコードによる空間インデックスの利用
- **Parquet形式+高圧縮(ZSTD, 圧縮レベル22)**でストレージ効率向上
まとめ
- GM-SEUS v2データセットは米国の太陽光発電所・パネル・屋根設置型アレイの最新・網羅的な空間データベース
- GDAL・DuckDB・QGISなどのツールを組み合わせることで、大規模空間データの取得・前処理・変換・分析が容易
- NULL値処理や空間変換のノウハウがデータ品質を高める鍵