🐳 NLP 标注工具 doccano 使用简版教程 🐳
1、本地环境配置
VMware 16.1.0 + Ubuntu 18.0 + doccano(一般取最新版本)。其中 doccano 官方 Github 为 doccano-Github。
2、设置 input/output data 格式
由于安装在 root 下,所以先 sudo su - 切换到 root,再执行命令 doccano。
- input 选择 csv 格式,设置格式为:
text,label
"Terrible customer service.","negative"
"Really great transaction.","positive"
"Great price.","positive"
- output 选择 csv 格式,导出格式为(官网样例,实际使用时会更详细):
id,text,label,user
1,"Terrible customer service.",1,1
2,"Really great transaction.",2,1
3,"Great price.",2,1
3、设置 label 格式
- label 规模不大时手工提取设置即可。
- 其 json 格式为(官网样例,实际使用时会更详细):
[
{
"text": "Dog",
"suffix_key": "a",
"background_color": "#FF0000",
"text_color": "#ffffff"
},
{
"text": "Cat",
"suffix_key": "c",
"background_color": "#FF0000",
"text_color": "#ffffff"
}
]
4、其他设置
其他设置。
- 分类、标注、翻译三种任务在初始创建工程时可按需选择。
- Members 可以管理参与者账号。
- Statistics 可以查看标注量和未标注量。