前置き
随分と前にGooglePlayのデータを使っていましたが、データ抽出方法を整理しておこうと思います。
必要なライブラリ
下記のライブラリをインポートします。
pip install google_play_scraper
ライブラリのインストール
ライブラリのインストールを行います。
from google_play_scraper import Sort, reviews_all
import pandas as pd
データの取得
実際にデータを抽出するためのコードは下記となります。
app_idはplaystoreのURLのid部分を用いることでデータの取得が可能です。
※原神のURLは下記となり、この場合のapp_idは'com.miHoYo.GenshinImpact'となります。
https://play.google.com/store/apps/details?id=com.miHoYo.GenshinImpact&hl=ja&gl=US&pli=1
#日本版の取得
result = reviews_all(
'com.miHoYo.GenshinImpact', #原神のapp_id
sleep_milliseconds=0, # defaults to 0
lang='ja', # defaults to 'en'
country='jp', # defaults to 'us'
sort=Sort.MOST_RELEVANT, # defaults to Sort.MOST_RELEVANT
# filter_score_with=5 # defaults to None(means all score)
)
#結果を直接DataFrameに変換
df_jp = pd.DataFrame(result)
# 'country'カラムを追加
df_jp['country'] = "jp"
df_jp
実行結果
処理が上手く実行されれば下記のような結果が出力されると思います。
これでデータが準備できたので可視化や分析に使用することが可能になります。