热点新闻
代码注释数据治理研究取得进展
2022-07-27 22:00  浏览:652  搜索引擎搜索“广企汇”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在广企汇看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

近日,中国科学院软件研究所互联网软件技术实验室在代码注释数据治理方面取得进展。该研究针对当前代码注释大数据质量治理难的问题,通过分析4个大规模代码注释基准数据集,归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具,能够高效、精准地自动治理代码注释数据质量,为代码注释自动生成模型形成高质量数据提供保障,有效促进现有的代码注释自动生成模型提升性能。

代码注释自动生成技术旨在减轻人工编写注释代码的工作量,从而提高软件开发效率。目前主流的代码注释生成模型大多采用深度学习框架,模型的有效性依赖大规模高质量数据集。然而现实中基准数据集主要采集自真实的开源项目代码,其数据质量如何尚无研究深入分析。

针对上述问题,科研人员检测了4个基准数据集中的噪声,发现这些数据集中均广泛存在噪声数据,噪声数据占比最低31%,最多高达到65%;定义了12种类型的噪声数据并给出了具体示例;并研发了基于规则的代码注释数据噪声清理工具,治理准确率达到97.5%。科研人员对比了清理前后的3个最新代码注释自动生成模型,发现去除噪声后,模型的性能普遍提升了21%-27%。

相关研究成果以Are We Building on the Rock? On the importance of Data Preprocessing for Code Summarization为题,被软件工程领域会议ESEC/FSE 2022录用。研究工作得到国家重点研发计划的支持。


代码注释数据质量分析方法框架

来源:中国科学院软件研究所


发布人:83a3****    IP:117.173.23.***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发