空气污染是许多可导致死亡的疾病的危险因素,制定当局可以使用的预测机制非常重要,能够在不久的将来预计某些污染物浓度较高时预测采取的措施。特别是深度学习模型,已被广泛用于预测空气质量,全面回顾了该领域的主要贡献。
世界卫生组织称空气污染是一个“无声杀手”,每年导致近700万人过早死亡,空气污染预测对于了解污染水平非常有用。这将使政策制定者能够采取措施减少其影响,可以实施交通限制以避免高污染事件。
空气质量指数用于表示空气污染程度,是污染物浓度的分段线性函数,并不存在全球标准。不同国家和地区根据自己的空气质量标准有自己的AQI指数,机器学习技术是预测空气质量的最常见方法。
提出了不同模型的实现以获得空气质量指数或污染物浓度预测的最佳精度。关于应用不同的机器学习算法来预测与空气质量相关的特定污染物的浓度水平已经有很多经验,有一些收集了机器学习在空气质量方面的应用。
它们的范围相当有限,分析的总数非常小,并且考虑的分类类别非常有限。不知道有大量的工作来回顾这个重要领域,机器学习是人工智能的一个分支,旨在为计算机提供学习如何执行特定任务的能力,而无需人类显示编程。
该模型从数据中学习并在新数据可用时做出决策或预测,深度学习可以看作是演变,使用称为人工神经网络的多层结构。深度学习算法需要较少的人类参与,因为特征是自动提取的,与其他机器学习技术的一个重要区别是深度学习需要大量数据才能正常工作。
第一个计算机学习程序是于1952年编写的,第一个神经网络是由于1957年提出的。机器学习和深度学习都取得了显著的发展,这主要是由于计算能力的增加和大量数据的可用性,存在许多可用于解决不同问题的机器学习方法。
回顾那些用于预测污染物测量值的算法,可以区分基于回归分析的分析和使用神经网络的分析。将区分经典回归算法和机器学习算法的使用,该算法的目的是设计一个模型,用于从一组自变量中预测定量变量,该算法基于递归划分,树由决策节点和叶子组成。
通过考虑标准差减少来构建的,以确定如何将一个节点拆分为两个或多个分支。根节点是根据最相关的自变量划分的第一个决策节点,通过将误差估计平方和较小的变量视为决策节点再次分割节点,根据所选变量的值划分数据集。
当满足先前建立的终止标准时该过程结束,最后的节点称为离开节点并提供因变量预测。该值对应于与叶子相关的值的平均值,显示了标准决策树的一般结构的图形表示。随机森林基于多个决策树的生成,预测将是不同树提供的预测的平均值。
为了构建每个决策树从训练数据集中选择一个数据样本,其余数据将用于估计决策树误差。可用于分裂每个节点的自变量子集是随机选择的,极端随机树是一种稍微修改的随机森林算法,显示了随机森林回归器一般结构的图形表示。
人工神经网络是一种基于由神经元或节点组成的生物神经元连接的算法,这些连接分为三层类型。输入层接收原始预测变量作为输入,输出层生成给定输入的预测值,这两层通过隐藏层连接,隐藏层包含负责计算的不可观察神经元。
一层每个节点都与下一层中的节点连接,每个连接都关联一个用于组合输入的权重。下一层中的每个节点或神经元接收加权值并通过激活函数对其进行转换。函数和修正线性单位函数是最流行的,获得的结果是作为输入传递到下一层节点的值。
这个过程一直持续到到达输出层输出预测就产生了。人工神经网络的最终目标是拟合权重以最小化误差函数,人工神经网络使用所谓的反向传播算法,该算法采用梯度下降法,利用层偏导数来寻找每个节点的最优权值。
编码器-解码器模型是一种用于序列到序列预测问题的循环神经网络,其架构由编码器中间向量和解码器组成。编码器和解码器由一组循环单元组成,每个单元处理输入序列的元素并尝试将相关信息封装在中间向量中,以提高解码器预测的准确性。
说明了特定国家如何影响与应用机器学习技术预测空气污染相关的出版物数量,将机器学习应用于空气质量预测领域最有影响力的进展。这一事实是由于中国大学的科技潜力和它们所遭受的严重空气污染问题造成的。
不知道有一个分类可以清楚地表明每种污染物的危害性,唯一可用于分析这些污染物的危险程度的数据是与每种污染物造成的过早死亡相关的数据。由于确定这一事实很困难,所以找到这些信息并不容易。
所提出模型中其他变量的影响,本次调查中包含的不同方法主要考虑与时间线相关的变量。分析了地理位置的影响,即地理位置和可见度,某些模型中还出现了其他特征,只考虑了至少使用的变量5%的提案。
包含的预测变量在不同污染物预测的模型中分布不均匀,最常见的变量是月份和小时。这些预测变量作为外部因素在预测中确实很重要,夜间通常与交通和工业活动的减少有关,这应该意味着污染物浓度的下降。
在月份的情况下也会发生类似的情况,在许多城市夏季的工作活动明显低于一年中的其他时间。污染物浓度的下降是可以预期的,季节和能见度是此类别的较少使用的变量,任何提出的CO预测模型中均未使用季节。
污染物变量是最常用的变量,这与对预测变量的强烈影响有关。与污染物变量相比天气变量的使用较少,除了露点之外的所有因素都经常被考虑。因为气象与空气质量高度相关,重要的是要考虑到它是在阳光下形成的。
与日期和地理位置相关的其他变量对预测变量有影响但并不显着,因变量的存在与其对污染物浓度和空气质量指数变化的影响直接相关。广泛使用是由于它对解决一般序列问题,特别是时间序列问题的高度适应性。
由于其受欢迎程度而经常使用,在时间序列问题中的使用可能会带来一些困难。自动编码器是主要应用领域与时间序列有很大不同的算法,这是其使用率低的原因,近年来RNN的受欢迎程度有所下降,因为LSTM提高了它们的性能。
了解应用机器学习预测空气质量的新趋势,提出了一项关于空气质量与气候变化之间相关性的全面调查,以开发增强预警机制并支持有效应对气候变化引起的空气污染的技术和模型,从而促进可持续的城市和社会。
谈到新算法的趋势必须提到深度变压器网络的使用,最初是为了解决自然语言处理任务而开发的,但近年来它们的用途已扩展到其他领域,进而扩展到空气质量预测。变压器已被用于预测两个城市臭氧浓度。