Bug Report, Feature Request, or Simply Praise? On Automatically Classifying App Reviews

郝伟，2021/02/23

1 前言

1.1 论文信息

论文题目：Bug Report, Feature Request, or Simply Praise?On Automatically Classifying App Reviews
发表级别：2015 IEEE 23rd International Requirements Engineering Conference (RE)
作者列表：Walid Maalej; Hadeer Nabil; et.al;
作者单位：University of Hamburg, Hamburg, Germany
下载页面：链接

1.2 论文简介

本文主要用于文本分类的一个重要研究文章。文章通过对利用方式对Google Play和Apple Store上的300万个APP的描述信息的分类处理，包括Bug报告，特性需求，用户体验和评价。主要结论如下：

Metadata alone results in a poor classification accuracy.
When combined with natural language processing, the classification precision got between 70-95% while the recall between 80-90%.

1.3 论文摘要

Google Play和Apple AppStore的应用程序商店拥有超过300万个应用程序，几乎涵盖了每种软件和服务。数十亿用户定期下载，使用和查看这些应用。最近的研究表明，用户撰写的评论为应用程序供应商和开发人员提供了丰富的信息来源，因为它们包括有关错误的信息，新功能的想法或已发布功能的文档。

本文介绍了几种概率技术，可将应用程序评论分为四种类型：错误报告，功能请求，用户体验和评级。为此，我们使用评论元数据，例如星级和时态，以及文本分类，自然语言处理和情感分析技术。我们进行了一系列实验来比较这些技术的准确性，并将它们与简单的字符串匹配进行比较。我们发现仅元数据会导致较差的分类准确性。当结合自然语言处理时，分类精度在70-95％之间，而召回率在80-90％之间。多个二元分类器优于单个多分类器。我们的结果影响了评论分析工具的设计，该工具可帮助应用程序供应商，开发人员和用户处理大量评论，过滤重要评论并将其分配给适当的利益相关者。

2 主要内容

2.1 背景

APP的评价具有很高的商业和开发价值，值得研究；
APP的评价数据量大，同时包括了大量不规则的信息，人工处理耗时太长，机器也不易处理；
现有的文本分类技术的实际效果没有直观的比较。

2.2 论文目的

论文的核心任务就是通过基于上面说的实际的数据，验证几种不同的语言分类方式的实际效果。

2.3 核心贡献

论文的核心贡献具体任务包括以下三点：

调研介绍主流的文本分类方法，包括字符串匹配、词袋法、处理语言处理（NLP）、APP打分法、情感打分法、监督学习和贝叶斯分类；
分析不同分类技术在APP评价中的实际准确度；
实验验证并分析结果给出观察结论。

3 方法论

3.1 研究问题

分类技术
分类算法
性能表现和数据

3.2 实验数据源

方法论：本论文采用实验研究方法，通过使用不同的方法对相同的数据进行分类处理，以比较算法的性能。
数据源：通过爬虫，抓取 Apple AppStore) 和 Google Play上的用户评论，其数据分别为：

Apple AppStore: 110万条对1100个APPs的评论；
Google Play: 14.6万条对40个App的评论。

3.3 学习方法

通过开发一款软件提供了比较友好的界面，以方便人工进行标注；
支付费用给学生，让其进行标注。

3.4 评价方法：使用召回率和F1进行评价

3.5 比较方法：以贝叶斯分类作为基准进行横向比较

3.6 对比内容

如论文标题所示，对 Bug Reports, Feature Requests, User Experiences 和 Rating 四类内容进行分类。

4 结论

论文最终给出了一系列离散的结论，这里提供几条有价值的：

贝叶斯训练速度最快；
对于不同的情况没有哪种分类法能够做到最快；
语言的时态在很多场景中能够提高分类准确性；
多重分类器一般比单一分类器效果要好；
大部分分类法都可以达到70%以上的分类准确性；
一些细节的结论可以帮助开发人员选择合适的分类法进行软件开发。