Python语言在大数据环境下会计师事务所审计中的应用

2022-05-11 版权声明 我要投稿

进入21世纪,信息技术创新日新月异,以数字化、网络化、智能化为特征的信息化浪潮蓬勃兴起。文本、图片、XML、HTML、各类报表、图像和音频/视频等非结构化数据的大量涌现,以及会计资料电子化、办公无纸化以及数据规模、数据种类的极速增长,给审计人员开展审计工作带来了新的挑战。过去传统的审计技术已经不能适应当下事务所审计人员提高审计质量和效率的要求。审计人员要想寻求新的突破,需要改变审计思路:即从传统审计的手工查账转变为结合大数据分析技术来辅助审计。面对这一改变,审计工作中使用的数据分析技术该如何改进才能适应当前社会的发展成为时下研究热点。

Python是一种跨平台的计算机程序设计语言,是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。由于Python语言的简洁性、易读性以及可扩展性,深受数据分析者的喜爱。大数据环境下,会计师事务所审计人员在开展审计工作中可以利用这一编程语言分析处理数据,编写爬虫、数据可视化、数据分析等与审计有关的程序,以此来提高审计效率。本文就大数据环境下Python语言在会计师事务所审计中的应用进行探讨。

一、当前会计师事务所审计工作中存在的问题

1.审计效率低。在审计方式上,审计小组入驻现场之前,只能由项目负责人通过电话跟被审计单位对接人沟通索要相关审计资料,对项目现场的审计情况不可预估。当审计小组进场时可能就需要花费一定的时间去了解,这样就占用了大量的人力和精力。执行审计时,审计小组成员全程参与从审计准备到出具审计报告的所有流程,不能让审计组成员发挥各自的审计特长,这样会降低项目组审计的专业性;其次,按审计对象划分审计小组参与审计业务流程的审计模式,使得审计资源得不到优化。

目前我国信息化环境下所使用的审计数据分析方法主要有:账表分析、数据查询、审计抽样、统计分析和数值分析等,常用的辅助审计工具有:审计软件、SQLsever、excel等。目前会计师事务所审计人员大都使用excel分析处理数据、审计软件来开展财务审计工作,但是面对海量的非结构化数据,传统的辅助审计工具在提升审计效率上往往显得力不从心,在分析处理数据时容易造成电脑运行速度缓慢,甚至出现宕机现象。

2.现有的审计技术难应对被审计单位提供的混合型数据。当前大部分会计师事务所的审计人员缺乏对大数据知识和技术的了解,整体审计知识结构也较为单薄,仍然依赖于传统的审计工具开展审计工作,但这些辅助审计工具也存在着局限性,审计人员无法深层次去挖掘非结构化数据之间隐藏的有价值信息,容易造成审计遗漏,忽略重要的审计信息。大数据与传统数据对比结果如图1所示。

目前国际四大会计师事务所均引入了先进的审计技术来应对这些混合型数据,如表1所示。面对海量的数据,本土事务所为了减小审计风险,只是在审计工作中不断加大细节测试,未能提出升级审计技术、改进审计流程等应对措施。

二、数据科学视角下的审计数据分析诠释

大数据时代,数据科学视角下审计数据分析对象由以前的结构化数据扩展为复杂多变的海量混合型数据,其数据分析方法也由传统审计经验导向的数据汇总与查询转变为数据导向的数据的采集、审计数据的预处理、数据分析及深度挖掘、数据可视化等步骤,因此有必要构建大数据技术应用于审计数据分析的框架,如表2所示,使用大数据审计分析技术开展审计工作,而Python语言正是将传统审计数据分析引入数据科学分析的有利利器之一。

Python是一个高层次结合了解释性、编译性、互动性和面向对象的脚本语言。它拥有丰富的工具包与活跃的开源社区,能够对数据进行行之有效的探索性分析;其超强的可视化功能,能够将非结构化数据以可视化的效果展现出来,为实现在审计实务中运用大数据技术提供经验支持。完成同一个任务,C语言要写1000行代码,Java只需要写100行,而Python可能只要20行,而且Python的学习并不困难,并不一定要具备编程基础,对于初学者来讲,可以下载SublimeText编辑器对数据进行分析。

三、引入Python实施大数据审计的可行性

大数据环境下,事务所审计人员使用Python开展审计工作时,有以下几点但又不限于此几点的应用功能:

1.网络爬虫巨潮资讯网下载A股上市公司半年报或年报技术。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,将目标定为抓取与某一特定主题内容相关的网页,获取其中有价值的信息,为面向主题的用户查询准备数据资源。审计人员可以使用Python从巨潮资讯网(http://www.cninfo.com.cn/new/index)自动化下载审计需要的上市公司某一年份或者多年份的年度报告或者半年报,从而减少审计人员人工下载的时间。此处以煤炭行业上市公司阳泉煤业为例,爬虫过程如图2所示,爬虫结果如图3所示。也可以通过Python自动下载某一时间段A股或者H股上市公司的所有年报、半年报数据,譬如下载2020年6月30日后的A股上市公司半年报,爬虫下载过程如图4所示,爬虫下载结果如图5所示。

2.相似度分析技术。在开展审计工作前,项目组负责人可以通过大数据相似度分析技术了解审计助理对现场负责人的期望。这样可以让他们明确审计计划、目的和任务。对XX所2019年新进员工展开了一次问卷调查,通过相似度分析技术对调查问卷第三小问:“您希望现场负责人在审计进场前给予哪些帮助”结果进行统计分析,统计结果如图6所示,分析结果如图7所示,形成的可视化结果如图8所示。从图7发现:“项目”“审计”“计划”“介绍”“情况”“安排”这些词语字体较大,代表这些词语在答卷内容中出现的次数较多,图8发现“介绍项目情况,审计目的,审计计划安排以及特别注意事项”这项回答相似度占比为8%,比例最高,是审计助理普遍的想法。审计项目负责人可以针对项目组成员的需求,在开展审计工作前做到分工明确。

3.标签云分析技术。开展审计工作时,审计人员可以利用Python语言的Requests模块从各大主流行业网站上爬取当前年度某一行业发展规模及行业发展趋势分析等数据,将其中的文字全部提取出来保存为Txt格式,使用Python中的Jieba包对这类非结构化数据进行分词、词频统计,通过大数据分析技术——标签云对其进行文本分析,提取出文本中出现的高频词语,统计各个分词出现的频数,最终将这些非结构化数据以可视化图形展现出来,从而生成初步的判断,这样方便审计人员快速抓取审计重点。以2020年度煤炭发展规模及行业发展趋势分析为例,形成的可视化图形如图9所示,

从图形中可以看出,“销售”“下游”“煤价”“复产”“恢复”字体较大,出现的次数较多,可见2020年度煤炭行业因为受疫情影响销售量下降、价格出现下跌,复产过后煤炭行业的需求有所增长,但下游市场恢复较慢,煤炭全产业链复苏仍面临库存和价格剧烈波动、进口煤冲击等关键隐患,这些信息能够帮助审计人员在开展审计工作时,明确被审计单位行业发展情况。

4.可视化分析技术。大数据环境下,文本、图片、XML、HTML、各类报表、图像和音频/视频等非结构化数据具有数据量大、来源多样性、数据高价值的特点,这也就意味着这些数据成为审计人员开展审计工作不可忽视的一部分。可视化分析技术可以将这些非结构化数据蕴含的信息变得直观,帮助审计人员更快识别审计风险。标签云是可视化的方式之一,对审计文档进行可视化分析处理,可以帮助审计人员快速确定审计重点。

可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。Python语言里面的matplotlib是一个2D绘图库,可以将数据以直方图、条形图、散点图形式展现出来,方便审计人员直观明了地查看数据之间的比例关系变化。以某企业某年1-12月份煤炭销售毛利分析为例,该企业某年份的煤炭销售毛利分析表如表3所示,形成的折线图如图10所示,同时审计人员可以将被审计单位的账套导出到excel,整理被审计单位1-12月份的主营业务收入和主营业务成本,将产品类别、订单数量、销售收入、成本归集整理在一张表格上,通过Python绘画出散点图进行可视化分析,多维度挖掘数据之间隐藏的信息,从视觉上更直观地发现数据异常值。

通过上述对审计数据的分析,大数据环境下事务所审计人员在开展审计工作时,可以利用Python的爬虫技术从外部获取被审计单位某一时间段的年度或者半年度报告;使用Python的标签云分析技术了解审计组成员进场前需要的审计需求和被审计单位及所在行业发展情况;使用Python的可视化技术分析被审计单位的收入分布,发现是否存在虚增收入的情况等等,这样能够帮助审计人员从海量的混合型数据中将重要信息抽离出来,抓住审计重点,发现数据之间的异常值,从而提高审计人员的工作效率和工作质量。

总之,大数据时代,会计师事务所审计人员可以将大数据分析语言Python运用于审计分析程序,对文本、图片、XML、HTML、各类报表、图像和音频/视频等非结构化数据进行深层次的挖掘,利用Python的爬虫技术、相似度分析技术、标签云分析技术以及可视化分析技术对数据进行异常分析,找出规律,发现数据间的异常值,从而判断出审计重点,为后续的审计工作提供指引方向,减少审计人员的工作量。

上一篇:微信APP在手术室仪器设备维护管理中的应用效果下一篇:国内外健康教育课程发展对比研究