【编译免杀三】


🐳 Android 数据集 AndroZoo 🐳

1、AndroZoo 简介

Android app 数据集 AndroZoo 发布于 2016 MSR,且持续更新。截至 2021 ‎年 ‎7‎ 月 ‎17‎ 日共有 15877038 个 app。
其原文引用为 “Allix K, Bissyandé T F, Klein J, et al. Androzoo: Collecting millions of android apps for the research community[C]. 2016 IEEE/ACM 13th Working Conference on Mining Software Repositories (MSR). IEEE, 2016: 468-471.”。

2、AndroZoo app size

AndroZoo app size 分布如下表所示。其中平均 app size 约为 12MB。

count mean std min 25% 50% 75% max
App size (MB) 14210484 11.98778 14.16921 0.0031 3.4992 7.3705 15.7156 608.259

3、AndroZoo app market

AndroZoo app market 分布如图 1 所示。其中提供最多 app (11819640) 的 market 为 play.google.com (Google Play)。

图 1. AndroZoo app market 分布情况

4、AndroZoo app year

AndroZoo app year 分布如图 2 所示。除 1980 年之外出现 app 最多 (1770202) 的 year 为 2014 年。有接近一半的 Google Play 中的 app 的时间标注为 1980。

图 2. AndroZoo app year 分布情况

5、AndroZoo app download

使用 python 提供的包 azoo (pip install azoo) 配合 AndroZoo 提供的 API KEY (邮件申请),即可下载数据。部分参数如下所示。

    '--number', '-n', type=click.INT, help='Number of apks to download.'
    '--dexdate', '-d', help='The date on a dex file, format %Y-%m-%d, e.g. 2015-10-03.'
    '--apksize', '-s', help='Apk size, in bytes.'
    '--vtdetection', '-vt', help='Virus total rating, integer.'
    '--pkgname', '-pn', help='Package names.'
    '--markets', '-m', help='Markets, e.g. play.google.com. Possible values (can differ, since repository is updating): 1mobile,angeeks,anzhi,apk_bang,appchina,fdroid,freewarelovers,genome,hiapk,markets,mi.com,play.google.com,proandroid,slideme,torrents.'
    '--sha256', help='SHA256 hashes of apks to download.'
    '--sha1', help='SHA1 hashes of apks to download.'
    '--md5', help='MD5 hashes of apks to download.'
    '--metadata', '-md', help='Metadata. This is a subset of latest.csv column names to keep in metadata.csv. By default sha256,pkg_name,apk_size,dex_date,markets.'
    '--out', '-o', help='Output folder name. By default current directory.'
    '--seed', '-sd', type=click.INT, help='Seed for a random algorithm.'
    '--key', '-k', help='Androzoo api key.'
    '--input-file', '-i', help='Path to input csv.'
    '--threads', '-t', type=click.INT, default=4, help='Number of threads for concurrent download. 4 by default.'

注:其中 dexdate, apksize and vtdetection require specifying lower and upper bounds in format lower:upper, both inclusive.

6、AndroZoo app download 示例

使用命令 az -n 10 -d 2015-12-11: -s :3000000 -m play.google.com,appchina 即表示:

  • app 起始日期为 2015-12-11,终止日期未设置;
  • app 最小未设置,最大为 3000000 byte;
  • app 来源为 play.google.com 或 appchina;
  • app 数量为 10。


文章作者: Yude Bai
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Yude Bai !
  目录