1. 首页
  2. 自学中心
  3. 软件
  4. Modeler

IBM SPSS Modeler 在电力负荷预测中的应用

电力负荷预测是电力系统调度、用电、计划、规划等管理部门的重要工作之一。提高负荷预测水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电网建设规划,有利于提高电力系统的经济效益和社会效益。因此,负荷预测已成为实现电力系统管理和现代化的重要内容之一。

IBM SPSS Modeler 简介

IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用计算机技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。

IBM SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。

CRISP-DM 过程模型

IBM SPSS Modeler 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。

通用的 CRISP-DM 过程模型包括六个用来解决数据挖掘主要问题的阶段。这六个阶段拟合在一个为将数据挖掘应用于较大业务实践而设计的循环过程中。

  • 商业理解:确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。
  • 数据理解:收集初始数据、描述数据、探索数据和验证数据质量。
  • 数据准备:选择、清理、构建、集成数据以及格式化数据。
  • 建模:选择建模技术、生成测试设计,以及构建和评估模型。
  • 评估:评估结果、查看数据挖掘过程,以及确定后续步骤。
  • 部署:计划部署、监视和维护、生成最终报告,以及复查该工程。
图 1. CRISP-DM 模型

crisp-dm

IBM SPSS Modeler 丰富的模型为电力负荷预测提供支持

IBM SPSS Modeler 数据挖掘工具,提供了多种数据挖掘算法,支持数据挖掘的完整过程,将其用于电力负荷预测,可以有效地提高负荷预测的准确性和时效性。

时间序列模型

时间序列是以规律的时间间隔采集的测量值的有序集合,例如,每日的股票价格或每周的销售数据。时间序列建模方法假定历史总会自我重演——即使不是完全一样也会非常接近,足以通过研究过去对将来作出更好的决策。

时间序列模型可以分为指数平滑模型和综合自回归移动平均 (ARIMA) 。

  • 指数平滑模型:是一种使用以前的序列观察的加权值来预测未来值的预测方法。因此,指数平滑不是以对数据的理论理解为基础的。
  • ARIMA 模型:比起指数平滑模型在对趋势和季节组件建模方面可提供更成熟的方法,特别是,增加了可在模型中包括自变量(预测变量)的优势。这包括明确指定自回归阶数和移动平均阶数以及差分次数。可以包含预测变量并为任意或所有预测变量定义变换函数以及指定对离群值的自动检测或精确设置。

神经网络模型

神经网络是神经系统运转方式的简单模型。其基本单元是神经元,通常将其组织到层中,如下面的图所示。

图 2. 神经网络模型

neural-net

神经网络是模拟人类大脑处理信息方式的简化模型。此模型通过模拟大量类似于神经元的抽象形式的互连处理单元而运行。

神经网络可以近似多种预测模型,而对模型结构和假设只有最小需求,关系形式在学习过程中确定。如果目标与预测变量间的线性关系适当,神经网络结果会非常接近传统线性模型的结果。如果非线性关系更为适当,神经网络会自动接近“正确”的模型结构。

自动建模模型

自动建模模型估算和比较多个不同的建模方法,在一次建模运行中即可尝试各种方法。可以选择所使用的建模算法,以及每个建模算法的具体选项,包括可能互斥的组合。自动建模模型研究选项的每个可能组合,根据指定的测量为每个候选模型排序,并保存最佳模型用于评分或将来的分析。

IBM SPSS Modeler 在电力负荷预测中的应用实例

某电力公司希望通过历史负荷数据和一些额外数据预测日最大负荷值。历史数据包括一年内每半小时的负荷数据,当天的平均气温,以及一年内的假期时间,需要预测下一年 1 月份 31 天的最大负荷值。

商业理解

电力负荷预测是电力系统调度、用电、计划、规划等管理部门的重要工作之一。提高负荷预测水平,有利于计划用电管理,有利于合理安排电网运行方式和机组检修计划,有利于节煤、节油和降低发电成本,有利于制定合理的电源建设规划,有利于提高电力系统的经济效益和社会效益。

电力负荷按照用电部门属性通常可以分为工业用电、农业用电、城市民用电、商业用电和交通运输用电;按照负荷的大小可以分为最大负荷、最小负荷和平均负荷等。电力负荷的预测通常可以根据时间划分为

  • 超短期负荷预测:未来 1 小时或一小时以内的负荷预测。
  • 短期负荷预测:未来一天内或者一天为单位的一周至一个月内的负荷预测。
  • 中期负荷预测:未来 5 年左右以年为单位的负荷预测。
  • 长期负荷预测:未来 10 年以上以年为单位的负荷预测。

影响电力负荷的因素有很多,比如说负荷类别、时间、气候、政策法规、产业规划、电价、活动和事件等等,但进行预测的时候通常没有办法获取所有的相关数据,同时过多的相关因素也使得电力负荷预测更加的复杂,却不一定会提高预测精度。

根据给定的信息,可以知道需要解决的商业问题是短期电力负荷最大值预测,相关的因素有平均气温和假期信息。负荷预测的误差通常要求不大于 5%,以此误差值作为预测精度目标。

数据理解和数据准备

数据理解和数据准备在真实的数据挖掘项目中将占很大的比重。根据 IBM SPSS 执行数据挖掘项目的经验,这一工作在全部数据挖掘过程中常常要占到 60-70% 的工作量。在此案例中,数据来源主要包括三个方面,负荷数据、平均气温数据和假期数据。数据结构如下:

表 1. 负荷数据
字段名称 字段类型 字段描述 字段值域
Datetime String 负荷数据采集时间
Total Load (KW) Float 总负荷
表 2. 平均气温
字段名称 字段类型 字段描述 字段值域
Date String 日期
Temperature Float 平均气温
表 3. 假期信息
字段名称 字段类型 字段描述 字段值域
Holiday String 假期 只包含是假期的日期

数据准备之前首先分析理解一下现有数据,使用 IBM SPSS Modeler 对负荷数据和温度数据分析的结果如下图所示:

图 3. 2012 年日最大负荷曲线

2012-load-max

图 4. 2012 年日平均温度曲线

2012-temperature-avg

图 5. 2012 年 1 月份负荷曲线

2012-load-jan

可以看出来负荷数据跟平均气温有明显关系。从月负荷曲线也可以看出来负荷数据有明显的周周期性。基于以上分析,可以按照以下步骤进行数据准备:

  • 找出每天负荷最大值
  • 将 30 分钟负荷数据过滤
  • 将温度数据与负荷数据合并
  • 将假期数据与负荷数据合并
  • 增加一个字段表明是一周中的第几天

准备好的数据如下图所示:

图 6. 数据准备结果

data-prepare

建模

时间序列和神经网络是常用的负荷预测算法,其它可用的算法包括回归分析、决策树等,IBM SPSS Modeler 支持自动建模技术,可以估算和比较多个不同的建模方法,在一次建模运行中即可尝试各种方法。

时间序列模型

首先基于时间序列模型建立预测工作流:

图 7. 时间序列模型工作流

timeseries-stream

数据字段的类型设置如下图所示:

图 8. 时间序列模型字段类型设置

timeseries-typenode

模型参数设置如下图所示:

图 9. 时间序列模型参数设置

timeseries-modelnode

时间序列模型的预测结果如下图所示:

图 10. 时间序列模型预测结果

timeseries-result

自动建模模型

下面基于自动建模模型建立工作流,自动建模模型可以同时指定多个模型。

图 11. 自动建模模型工作流

autonumeric-stream

自动建模节点的选项如下图所示:

图 12. 自动建模模型参数设置

autonumeric-modelnode

自动建模模型根据用户设置尝试和比较多个模型,并返回指定个数的优选模型,最终预测结果由三个模型的结果加权平均得到:

图 13. 自动建模模型

autonumeric-nugget

下图是自动建模模型的预测结果:

图 14. 自动建模模型预测结果

autonumeric-result

评估

这个阶段需要评估数据挖掘结果在多大程度上能实现业务目标。如果预测结果能够帮助实现业务目标,则进入部署阶段,否则需要重新评估商业理解,然后重新进行 CRISP-DM 过程的其余部分。

下面将建模阶段两种模型的预测值与 2003 年 1 月份实际负荷值做比较 , 结果下图所示:

图 15. 模型预测结果评估

results

预测精度如下图所示:

图 16. 模型预测精度评估

precisions

可以看出来总体来说时间序列的预测结果要好于自动建模模型的预测结果,这在很大程度上是因为时间序列参数过仔细调整,而在自动建模过程中用的都是默认参数,但是两种模型的预测精度基本上都在 95% 以内,预测结果达到目标要求。

部署

建立模型和评估模型并不是数据挖掘的目的。只有把模型发布到相关决策者手中,才能使我们通过数据挖掘提高企业利润或降低企业成本。

模型的部署包括两个方面:

  • 预测结果输出:将负荷预测结果以报告、图表、导入数据库等方式输出,作为电力运营和调度等部门生成运营的依据。
  • 部署与集成:与电力企业原有系统或者 IBM 解决方案集成,以便为电力负荷预测和生成运营提供持续的支持。

模型部署的意义绝不仅仅是把数据挖掘的方案放入一个计算机自动化系统了事。在发布数据挖掘项目时,最重要的一点是决策者如何根据数据挖掘产生的结果采取相应的活动,从而使建立的模型得到充分的利用。

总结

电力负荷有多重分类,在时间和空间上呈现复杂的负荷特性,影响电力负荷变化的因素也很多,用单一模型来支持各种负荷预测是很难办到的,通常需要针对不同的负荷预测类型建立不同的预测模型;另一方面,随着时间推移,负荷预测模型也需要根据实际数据更新,以保证预测精度能满足实际业务需求。

原创文章,作者:xsmile,如若转载,请注明出处:http://www.17bigdata.com/ibm-spss-modeler-%e5%9c%a8%e7%94%b5%e5%8a%9b%e8%b4%9f%e8%8d%b7%e9%a2%84%e6%b5%8b%e4%b8%ad%e7%9a%84%e5%ba%94%e7%94%a8/

联系我们

在线咨询:点击这里给我发消息

邮件:23683716@qq.com

跳至工具栏