🐳 Android 数据集 AndroZoo 🐳
1、AndroZoo 简介
Android app 数据集 AndroZoo 发布于 2016 MSR,且持续更新。截至 2021 年 7 月 17 日共有 15877038 个 app。
其原文引用为 “Allix K, Bissyandé T F, Klein J, et al. Androzoo: Collecting millions of android apps for the research community[C]. 2016 IEEE/ACM 13th Working Conference on Mining Software Repositories (MSR). IEEE, 2016: 468-471.”。
2、AndroZoo app size
AndroZoo app size 分布如下表所示。其中平均 app size 约为 12MB。
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
App size (MB) | 14210484 | 11.98778 | 14.16921 | 0.0031 | 3.4992 | 7.3705 | 15.7156 | 608.259 |
3、AndroZoo app market
AndroZoo app market 分布如图 1 所示。其中提供最多 app (11819640) 的 market 为 play.google.com (Google Play)。
4、AndroZoo app year
AndroZoo app year 分布如图 2 所示。除 1980 年之外出现 app 最多 (1770202) 的 year 为 2014 年。有接近一半的 Google Play 中的 app 的时间标注为 1980。
5、AndroZoo app download
使用 python 提供的包 azoo (pip install azoo
) 配合 AndroZoo 提供的 API KEY (邮件申请),即可下载数据。部分参数如下所示。
'--number', '-n', type=click.INT, help='Number of apks to download.'
'--dexdate', '-d', help='The date on a dex file, format %Y-%m-%d, e.g. 2015-10-03.'
'--apksize', '-s', help='Apk size, in bytes.'
'--vtdetection', '-vt', help='Virus total rating, integer.'
'--pkgname', '-pn', help='Package names.'
'--markets', '-m', help='Markets, e.g. play.google.com. Possible values (can differ, since repository is updating): 1mobile,angeeks,anzhi,apk_bang,appchina,fdroid,freewarelovers,genome,hiapk,markets,mi.com,play.google.com,proandroid,slideme,torrents.'
'--sha256', help='SHA256 hashes of apks to download.'
'--sha1', help='SHA1 hashes of apks to download.'
'--md5', help='MD5 hashes of apks to download.'
'--metadata', '-md', help='Metadata. This is a subset of latest.csv column names to keep in metadata.csv. By default sha256,pkg_name,apk_size,dex_date,markets.'
'--out', '-o', help='Output folder name. By default current directory.'
'--seed', '-sd', type=click.INT, help='Seed for a random algorithm.'
'--key', '-k', help='Androzoo api key.'
'--input-file', '-i', help='Path to input csv.'
'--threads', '-t', type=click.INT, default=4, help='Number of threads for concurrent download. 4 by default.'
注:其中 dexdate, apksize and vtdetection require specifying lower and upper bounds in format lower:upper, both inclusive.
。
6、AndroZoo app download 示例
使用命令 az -n 10 -d 2015-12-11: -s :3000000 -m play.google.com,appchina
即表示:
- app 起始日期为 2015-12-11,终止日期未设置;
- app 最小未设置,最大为 3000000 byte;
- app 来源为 play.google.com 或 appchina;
- app 数量为 10。