Author: jay | Published: 11th May 2009 | RSS | LINK |
受相关的心理学理论的启发,在计算机科学中,强化学习是机器学习的一个子集,处理的是代理如何在某种环境下进行动作以求获得最大的长期收益。强化学习算法试图找到映射状态和代理行为的一种准则。在经济学和博弈论中,认为强化学习是对均衡形成的有限理性解释。
强化学习中的环境一般被构造成一个有限状态的马尔可夫决策过程,而其中的强化学习算法与动态规划技术紧密相关。马尔可夫决策过程中的状态转移概率和奖励概率一般是随机的,但是随着问题的进程,将逐渐趋于确定。
强化学习区别于监督学习的不同在于:强化学习并不给出准确的输入/输出对,也不明确的修正局部最优的行为。强化学习更多的关注即时的行为,代理如何在对未知区域的探索和对已有知识的利用之间找到平衡。
从形式上,基本的应用于MDPs的强化学习算法模型包括:
l 环境状态集合S;
l 行动区间集合A;
l “奖励”的标量集合R;

所以,强化学习算法尤其适用于那些包括了长期、短期收益协调的问题。强化学习算法已经被成功运用到不同的问题当中,包括:机器人控制,电梯安排,通信,以及棋类。
Author: jay | Published: 11th May 2009 | RSS | LINK |
马尔可夫决策过程(Markov decision processes,简称MDPs),是以Andrey Markov的名字命名的。MDPs提供了对在随机环境(部分随机,部分由决策者决定)下进行决策的数学框架。MDPs使得可以通过动态规划和强化学习方法来研究优化问题。早在20世纪50年代,MDPs就由Bellman提出。而大量的相关工作在Ronald A. Howard的书中提到(Programming and Markov Processes,1960)。目前,MDPs被应用到广泛的领域当中,包括:机器人,自动控制,经济学和制造学。
更准确地说,马尔可夫决策过程是一个离散时间的随机控制过程。它由一组状态组成,在每个状态之下,决策必须选择多个决策中的一种。对状态s和动作a,状态转移函数Pa(s)决定了转移到下一个状态的概率。每次状态转移之后,决策者都会获得一个奖励。马尔可夫决策过程的状态转移具有马尔可夫性质(Markov property):如果MDP在时间t的状态已知,到时间t+1的状态转移概率与之前所有的状态和行为无关。
MDPs是马尔可夫链(Markov chains)的一个延伸。两者的区别在于:MDPs增加了动作(可选策略)和奖励(提供激励)。如果只有一个动作,或者对每个状态动作都是确定的,那么MDPs将会简化为马尔可夫链。
Author: jay | Published: 15th April 2009 | RSS | LINK |
原来只是知道宠辱不惊这个词,偶然看到这个这个词来自一副对联,到网上一搜,原来出自明陈继儒集编的《小窗幽记》。原联云:宠辱不惊,看庭前花开花落;去留无意,望天空云卷云舒。摘抄下来,只是因为喜欢这个句子,喜欢这种意境。
先从这个对联体现出来的周围环境来说,庭前,天空,想必大概是在秋季一个晴朗的日子,也许有风,伴着花瓣飘落,抬头望去天空云儿朵朵。。挺惬意的,上次我有这种感觉还是漫步在大阪一个幽静的巷子里的时候,总之就是静,恬静,心静,别无他念。
再说宠辱,去留吧。博主涉世不深,显然也没有真正遇到过大起大落,大悲大喜。平时偶尔的牢骚也大多无病呻吟,现在谈到宠辱不惊,去留无意,没有切身体会,确实也很难有说服力。我想说的就是希望自己能够达到这样的境界,这似乎不可能。那退而求其次吧,希望我能够不断接近这样的心境。
人是一个疲惫的动物,尤其在这个社会,在中国,周遭的压力太大,杂念太多,而可怜的虚荣心会让你不断与别人攀比。如果没有流言,没有嫉妒,没有落井下石,可能要宠辱不惊还相对容易些。战胜自己容易,抵挡他人难也。
像《非诚勿扰》里面那位性冷淡女士说的,“这是我的梦想,啊。。”“宠辱不惊 去留无意”也是我的梦想。如果一定要那么俗的话,我希望是“一年, (俗)一次”。
Author: jay | Published: 11th April 2009 | RSS | LINK |
基于代理的模型(ABM)是仿真多个自治成员之间的互动行为的一个用于计算的模型。ABM的作用是评估这些自治成员对于系统整体的影响。ABM结合了博弈论,复杂系统,突显,计算社会学,多代理系统和演化规划这些元素。可用使用蒙特卡罗方法来引入随机性。
ABM对多个代理同时的行为进行仿真,目的是为了再现和预测各种复杂现象。这个过程是一种从系统的底层(微观)到高层(宏观)的“突显”现象。假定各个独立的代理按自身偏好,比如复制,经济利益和社会地位进行行动,且具备有限知识。ABM代理可能会经历学习,适应,复制这几个阶段。
历史
基于代理的建模思想早在20世纪40年代末期就已经萌芽。出于其计算密集性,直到20实际90年代该思想才开始被普遍使用。
理论
大多数计算建模方法研究把系统描述为均衡,或是在均衡中切换。ABM使用简单的规则,确可以演化出复杂的多的,有趣的行为。
ABM的三个中心思想是:对象,浮现和复杂性。
ABM包含了基于动态互动规则的代理。在这样的系统中,代理之间的互动可以产生类似于真实世界的复杂行为。这些代理是:
- 智能化的,有明确目标的。但并不足够智能化,以至于可以达到博弈论中的认知封闭水平。
- 处于时间和空间当中,代理处于网络和网格化的环境之中。代理的位置,他们的反应和目的性行为被定义在计算机程序代码当中。建模的过程可以用“诱导”来描述。建模者针对目前的环境做出合适的假设,然后观察现象在代理之间的互动过程中逐渐浮现出来。
ABM在某些方面可以补充传统的分析方法。分析方法使研究人员可以描述系统的均衡状态,而ABM可以帮助生成这些均衡。ABM的主要贡献可能就在于帮助均衡的产生。ABM可以说明更高阶模式的浮现过程。
ABM关注的是系统的鲁棒性(复杂系统对内部和外部影响的适应,以便保证其性能),而不是系统稳定的状态。处理这种复杂性需要考虑代理自身的一些特性,包括多样化,连同性,以及互动的水平。
Author: jay | Published: 28th March 2009 | RSS | LINK |
该系列文章选自:Multi-Dimensional Procurement Auctions for Power Reserves: Robust Incentive-Compatible Scoring and Settlement Rules,由本人翻译。
旋转备用的竞标过程大致如下:
在日前电能市场结束之后,对于下一日某小时已经确定的旋转备用容量进行竞标,以此来满足SO对于系统备用的需求(为了保证电网的可靠性)。
以周二为例,针对周三各个小时的旋转备用需求,同时进行24个竞标。对每个小时,旋转备用的提供者将递交一个两部制的报价(满足爬坡率和最大运行时间约束):容量报价($/MW)和电量报价($/MWH)。SO使用排序准则来评价所有的备用报价,并选择足够的旋转备用以满足可靠性需求。中标的机组必须在周三的指定小时保证充足的旋转备用,否则会受到惩罚。周三实时运行时,一旦出现容量缺额,SO将调用中标的机组出力来进行弥补。中标机组将按电能成本从低到高的顺序被调用(In Merit Order)。
这种结算方式确定了中标机组被支付费用的形式。包括:由最开始的排序准则确定的容量支付费用,一旦电能被调用的电能支付费用。
待续。。。
Author: jay | Published: 26th March 2009 | RSS | LINK |
为什么采取这两个单词呢
第一,我喜欢蓝色,特积极,特清爽的感觉;喜欢blues,特有节奏;
第二,一直对bloom这个单词挺有好感,最佳时期, 茂盛时期,盛开;
合并两个单词,再加上两个^^,又像个笑脸,多好呀。当然,官方用法还是blueoom
综合以上,就是我目前的心境,也算是寄托吧,希望人如其名。
From now on, I’m bl^ue^oom!
Author: jay | Published: 26th March 2009 | RSS | LINK |
今天早上从通济门隧道走,速度有点小快。。。前面面包突然刹车,我也随之刹车,可是距离太近,追了!

对方的保险杠被撞下来一块,反观我的小宝来,只有一点擦伤

德国车就是耐造!
与所有驾驶员共勉,谨慎驾驶啊!
Author: jay | Published: 18th March 2009 | RSS | LINK |
电力系统容量缺额扰动发生之后的备用调用顺序:
1. 扰动发生后的数秒之内,primary regulation(初级调节,由AGC机组承担) 动作,保证系统频率在可接受的范围之内,即调频;
2. 扰动发生后的数分钟之内,secondary regulation(二级调节,由旋转备用承担) 动作,跟踪负荷,以调整Area Control Error至零;
3. 扰动发生后的10-15分钟之后,tertiary regulation(三级调节,由慢速备用,冷备用承担) 动作,在满足所有传输潮流约束的情况下,调整Area Control Error至零,在扰动后建立起一个新的工作点。
Author: jay | Published: 18th March 2009 | RSS | LINK |
如我所愿,我面临的重大问题总算得到了妥善的解决。最终大家还是做出了让步,成全了一桩美事。
事情解决了,也该反思一下自己,性格上到底出现了什么问题?
现将自己的陋习总结一下:
1.做事拖拉;喜欢盯着一件事,对其他事漠不关心,顾此失彼,常常两头的事情都没有做好;
2.没主意;对于一件事的轻重、主次常常无法做出正确的判断,没有主心骨,故而极易受其他人的意见影响;
3.注意力不集中;一路顺风顺水过来,在学习上已经渐露疲态,难以集中注意力一段较长的时间;
毛病还很多,而我认为以上三个是最最主要的问题,决定集中整治!
整治方案:
1. 做事主次清晰;将面临的事情进行主次划分,集中注意力,逐个击破!
2. 每天的工作进行规划;工作开始前,先规划好今天要解决的问题,必须完成!
3. 凡事多思考;面对问题时,切忌烦躁,冷静思考,分清是非和后果,拿定主意!
基本上就是这样,我要敦促自己,完成!
Author: jay | Published: 13th March 2009 | RSS | LINK |
Article 10 of the Directive 2003/87/EC stipulates that for the first and second trading period Member States shall allocate at least 95% respectively 90% of the allowances free of charge. During the first trading period, Member States have auctioned only very limited quantities of allowances. For the second trading period, still the lion’s share of allowances will be allocated for free, although somewhat more significant quantities will be auctioned, see the table below.
2003年制定的章程当中要求各成员国将排污许可的95%或90%免费分配出去。在第一交易阶段,成员国只拍卖了很小量的排污许可。在第二交易阶段,尽管拍卖量将会有所增加,大部分的排污许可仍然免费发放。
The Commission’s proposal of 23 January 2008 to improve and extend the ETS foresees a fundamental change. Auctioning of allowances is to be the rule rather than the exception. Full auctioning is to be the rule for the power sector as from 2013, allocating for free is to be phased out for industry over the 2013-2020 period, with a possible exception with respect to certain energy intensive (sub-)sectors found to be subject to a significant risk of carbon leakage. This implies a much larger and increasing share of allowances to be auctioned.
2008年1月23号的委员会提案预见了一个重大的改变,对排污许可的拍卖将成为硬性规定。从2013年开始,能源部门将必须进行完全的排污许可拍卖。从2013到2020年期间,对排污权的免费分配将会逐渐淡出历史的舞台,可能有一个例外,就是对某些能源密集型的部门企业(承担了高昂的排污风险)。这意味着,越来越多的排污许可将被拍卖。
In order to ensure efficient and timely auctioning, the Commission’s proposal foresees the adoption of a Regulation. Art. 10(5) of the proposed amended text reads:
“By December 2010, the Commission shall adopt a Regulation on timing, administration and other aspects of auctioning to ensure that it is conducted in an open, transparent and non-discriminatory manner. Auctions shall be designed to ensure that operators, and in particular any small and medium-sized enterprises covered by the Community scheme, have full access and any other participants do not undermine the operation of the auction.”
A similar provision is included in the Commission’s proposal to include aviation in the EU ETS. The Regulation is to be adopted under comitology procedures. A consultation is planned for 2009.
Auctioning is considered by several other countries / regions designing or implementing carbon markets. The International Carbon Action Partnership (ICAP) will hold a public conference on auctioning of carbon allowances in November 2008.
For details about carbon allowance auctions held in the Regional Greenhouse Gas Initiative (RGGI) please visit [http://www.rggi.org/home].