Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

题目
单选题
Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。
A

期望值

B

最大值

C

最小值

D

总和

如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

7位选手Z、Q、S、L、W、C和D参加击剑比赛,最后根据这7位选手的得分的点数多少来进行排名。结果,每一个选手的得分点数都不相同。比赛结果如下。

(1) Z得到的点数比C的多。

(2) C得到的点数比Q的多。

(3) Q得到的点数比l的多。

(4) W得到的点数不是最少的。

(5) D得到的点数比S的少,但是比W得到的多,也比C的多。

下面哪一项可能是7位选手从第1到第7的正确排序?

A.Z、S、D、W、Q、C、L

B.Z、S、D、C、Q、L、W

C.S、D、Z、W、C、Q、L

D.S、D、W、C、Z、Q、L


正确答案:C
解析:根据题干可以得到几个点数排名顺序是Z、C、Q、L,还有S多于 D,D多于C和W,并且W不是第7名。所以点数最少的一定是L,而点数最多的不是2就是S。仔细分析还能发现,C不是在第4名就是在第5名。W不是第7名,排除选项B;C在Q前面,排除选项A;Z在C前面,排除选项D。

第2题:

下列钢板去向中间库的钢板是哪项?()

A.热轧状态交货的Q345B

B.热处理状态交货的Q345R

C.S32168

D.S32304


参考答案:A

第3题:

空闲状态下TD->GSM的重选涉及哪些参数()

A.Q-Search-I

B.S_SearchRat

C.TDD_offset

D.QHyst1S


参考答案:B, D

第4题:

Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

  • A、期望值
  • B、最大值
  • C、最小值
  • D、总和

正确答案:A

第5题:

设栈S的初始状态为空,队列Q的初始状态如图所示。

对栈S和队列Q进行下列两步操作: (1)删除Q中的元素,将删除的元素插入S,直至Q为空。 (2)依次将S中的元素插入Q,直至S为空。在上述两步操作后,队列Q的状态是【 】。


正确答案:a4a3a2a1
a4a3a2a1 解析:队列的删除是从队头开始的,所以在执行第一步后,S中的内容及顺序应为a1a2a3a4。但栈的出栈顺序是先进后出,所以出栈/顷序为a4a3a2a1。队列的内容及顷序也与出栈情况一致。

第6题:

使触发器呈计数状态的控制函数是()

A、J=K+1

B、D=Q

C、/S=Q,/R=Q

D、T=0


参考答案A

第7题:

下列钢板去向热处理的有()。

A.热轧状态交货的Q345B

B.热轧状态交货的Q345R

C.热轧状态交货的Q235B

D.S32304


参考答案:D

第8题:

下列给定程序中,函数 fun() 的功能是:计算并输出下列级数的的N项之和SN,直到SN+1大于q为止,q的值通过形参传入。

SN=2/1+3/2+4/3+(N+1)/N

例如,若q的值为50.0,则函数值为49.394948。

请改正程序中的错误,使它能得出正确的结果。

注意;不要改动main 函数,不得增行或删行,也不得更改程序的结构.

试题程序:

include <conio.h>

include <stdio. h>

/**************found***************/

double fun(double q)

{ int n; double s,t;

n=2;

s=2.0;

while (s<=q)

{

t=s

/*************found *************/

s=s+ (n+1)/n;

n++;

}

printf ("n=%d\n ", n);

/************found***************/

return s;

}

main ()

{ clrscr();

printf ("%f\n ",fun (50));

}


正确答案:(1)错误:double fun (double q) 正确:double fun (int q) (2)错误:s=s+(n+1)/n; 正确:s=s+(double)(n+1)/n; (3)错误:return s; 正确:return t;
(1)错误:double fun (double q) 正确:double fun (int q) (2)错误:s=s+(n+1)/n; 正确:s=s+(double)(n+1)/n; (3)错误:return s; 正确:return t; 解析:该程序中多次出现了函数调用过程中定义混乱的错误,关于类似问题,我们在前面的试题中已经做过比较详细的解释,主要是对基础知识的把握。在这里我们再对函数调用规则做一简单说明。
C语言规定,在以下几种情况下可以不在调用函数前对被调用函数做类型说明。
(1)如果函数的值(函数的返回值)是整型或字符型,可以不必进行说明,系统对它们自动按整型说明。但为清晰起见,建议都加以说明为好。
(2)如果被调用函数的定义出现在主调函数之前,可以不必加以说明。因为编译系统已经先知道了已定义的函数类型,会自动处理的。也就是说,将被调用的函数的定义放在主调函数之前,就可以不必另加类型说明。
(3)如果已在所有函数定义之前,在文件的开头,在函数的外部已说明了函数类型,则在各个主调函数中不必对所调用的函数再做类型说明。
除了以上3种情况外,都应该按上述介绍的方法对所调用函数的返回值做类型说明,否则编译时就会出现错误。

第9题:

在一个单链表中,q结点是p结点的前驱结点,若在q与p之间插入结点s,则执行(29)。

A.s→link=p→link;p→link=s;

B.p→link=s;s→link=q;

C.p→link=s→link;s→link=p;

D.q→link=s;s→link=p;


正确答案:D
解析:q结点是p结点的前驱结点,若在q与p之间插入结点s,只需先将q的指针指向s,然后再将s指向p即可。

第10题:

在Q-Learning中,所谓的Q函数是指()。

  • A、状态动作函数
  • B、状态值函数
  • C、动作值函数
  • D、策略函数

正确答案:A

更多相关问题