【技术探索四】


🐳 NLP 标注工具 doccano 使用简版教程 🐳

1、本地环境配置

VMware 16.1.0 + Ubuntu 18.0 + doccano(一般取最新版本)。其中 doccano 官方 Github 为 doccano-Github

2、设置 input/output data 格式

由于安装在 root 下,所以先 sudo su - 切换到 root,再执行命令 doccano。

  • input 选择 csv 格式,设置格式为:
text,label
"Terrible customer service.","negative"
"Really great transaction.","positive"
"Great price.","positive"
  • output 选择 csv 格式,导出格式为(官网样例,实际使用时会更详细):
id,text,label,user
1,"Terrible customer service.",1,1
2,"Really great transaction.",2,1
3,"Great price.",2,1

3、设置 label 格式

  • label 规模不大时手工提取设置即可。
  • 其 json 格式为(官网样例,实际使用时会更详细):
[
    {
        "text": "Dog",
        "suffix_key": "a",
        "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "Cat",
        "suffix_key": "c",
        "background_color": "#FF0000",
        "text_color": "#ffffff"
    }
]

4、其他设置

其他设置。

  • 分类、标注、翻译三种任务在初始创建工程时可按需选择。
  • Members 可以管理参与者账号。
  • Statistics 可以查看标注量和未标注量。


文章作者: Yude Bai
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Yude Bai !
  目录