标签归档：毕业设计

魔方日记 – 2

发表评论

吃了啥：常德米粉，还好大钟寺有那么一家，哎呀，太好吃了，米粉。。。就快回去吃了

新鲜事：Coldplay的歌，好像很多不错的，也有做背景音乐的

技术宅：sql语句很强大的，可以实现很多代码的功能，也可以定义变量，触发器很好用

天|空气：冷啊！！！

世界末日：谁知道玛雅人说的是不是真的，不过我还蛮期待黑暗3天，然后啥事都没有的形式，黑暗3天岂不是很有意思？

赶时髦：life of pi，心中有猛虎，悄悄嗅玫瑰。你相信现实还是理想？

备忘录：有两个PPT要做，要讲，要准备展示了

阶段性：考试完啦，论文初稿也交了，差不多解放了~

19th meeting

发表评论

这次开会主要是演示了一下evaluation的东西，了解到需要进行一些更科学的评测。

比如mu取不同值，sigma趋向于零的时候，也就是说，当所有的任务需要时间都相似的时候，动静态调度的对比。

另外取不同的MU值，SIGMA不同的时候，当irregular，大小变化的时候，加速比的变化。

这几天做完了，基本上就是这样了。

论文正在进行中。中英文并行，需要把自己做的东西写明白一点。

还有两个星期，事情还是挺多的，完成论文的同时，处理好回去前的一些事情。

另外搞一搞GPU，写一个概述出来。交待好需要做的任务~

OVER~ 加油！

17th and 18th meeting

发表评论

这两次的会议主要是围绕evaluation。找到一些好的测试方法和图表，数据来展示整个工作。总的来说还是很不错的。

比如如下几个表：

继续阅读 →

13th meeting

发表评论

13^th meeting

1. Graduate work and essay title:

2. Open document: background, content, mechanism, tech

3. Task book: title, original data, goal, content.

4. Translate an essay about 2000 English words, 5000 Chinese characters.

5. Data Single Para

744 0.173 0.110

3600 5.600 1.300

6. Which one is faster? A[m][n] or A[m*n]

7. Which one is better? a[i] = I; or a[i~4] = i~4;

At the beginning, task book

Title:

Original document and data:

Mechanism:

Work content:

今天工作想到的一些东西

发表评论

记录一下。

数据图表的测定，可以有的选择

1.不同spe个数，测得同一数据量的运算时间。

2.相同spe个数，不同数据量的运算时间。

3.是否将原序列作为数据包发送的运算时间。用不同数据量。

4.不同spe调度方式，测得的运算时间

你觉得，
1.矩阵用二维数组存储，进行计算和访问。
2.矩阵用一维数组存储，进行计算和访问，在访问的时候变换角标，比如a(i,j)=a + i*width + j , 类似于a[i,j]。
这两个方法哪个快，还是一样快。

那：
for(i=0;i<N;i++)
a[i]=b[i];
和
for(i=0;i<N;i+=4){
a[i]=b[i];
a[i+1]=b[i+1];
a[i+2]=b[i+2];
a[i+3]=b[i+3];
}
你觉得哪个快？

12th meeting

发表评论

昨天忘记写了，今天补上。

大家都开学啦，虽然我的学期也算是完了，但是好像没有丝毫放假的迹象啊，这一次的持续学习时间真长了，从去年9月就开始了，一直要到今年6月吧。

年终于过完了，心情也慢慢变好了，开始计划回家的事情。

这个月争取和他们到北海道去滑滑雪，然后看什么时候再去一趟东京，还有富士山。

扯远啦，继续说毕业设计的事情，首先说说昨天开的会。

我成功地实现了上次设计的那些东西，然后用大到3000的数据测试了，能够到1倍多的加速吧。

今天的最新成果，在比较好的情况下，能够到4倍加速，这是一个令人高兴的消息，因为我还没有进行太多的优化。

昨天从山口老师那里知道，并行计算不一定能够加速的，而且随着程序本身的运行时间长短变化，越长的程序，可能得到加速的可能越大。

一般情况下，4-5倍是比较理想的情况。最梦幻的情况是几个处理器，达到几倍加速，但是那是不可能的，因为还有一些系统延迟，数据传输等等。所以6个处理器，4-5倍应该是比较好的结果了吧。

加速方案主要有：

1.一次传输更多的需要计算的数据

2.spu一次计算更多可能的数据，也就是说减少创建和销毁context，thread的时间

3.加速SPU计算，利用一些向量化，这个还没有考虑到。

现在已经实现的和还可以改进的：

1.一次传输最大可能的数据，但是我在想，应该是可以传输和传回不同量的，这样的话，传过去只需要传初始值就行，不需要将全部的数组传过去。

2.减少创建和销毁次数，现在已经减少到了最小，也就是6次。接下来要做的，是进行一些动态的优化调度，这个继续思考吧。

3.也就是向量化，这个是从前没有遇到过的。

今天加速的心得：减少线程创建，利用多线程的同步和互斥机制，防止死锁。昨天就是死锁了好多，晕。

然后传输是不是除了最简单的mfc_get put，还有更好点的。比如什么DMA双缓冲之类的。

继续努力吧，看见了曙光，哈哈~ 论文？！

8th week summary and 9th week meeting

发表评论

根据上周开会之后，写了一个并行等待方案，基本上可行，就是不知道有没有类似的东西，或者已经有人做过了。关于那个wave front algorithm，我也仔细阅读了一些论文，有人对他进行了优化，然后我也做了一些改进。

和山口老师的讨论中，我了解到其实我们是需要一个dynamic的调度，所以就不再存在什么static的优化了，对于所有的算法，都可以用我们的方法来进行动态调度。可能在某些程度上，没有对某一算法单独的加速要好，但是从大体上讲，更加方便和简单。在前面的日志中，已经写了一些关于动态调度的问题，这里就不再继续讨论。

这周把这个动态调度算法基本实现了一个模拟，就是按照设计，可以相互传递信息，传递数据，PPU作为总调度，为每一个SPU开一个线程，来完成相应的任务。同时，我还学习了harris interest point算法，实现了角点检测功能，如果以后需要将这个作为benchmark的话，可以直接拆分程序，进行并行的计算。

今天需要讨论的几个问题：

1.应该是所有SPU运行的代码都一样，只是根据传来的信息不同和接收的参数不同，调用的函数不同，得到的结果也不同。

2.数据量的划分，比如一个100*100的图像矩阵，怎么划分才比较好，因为如果化成100个10*10，那么边角问题的处理。

3.实际操作，和benchmark的实现，因为以前没有做过类似东西。

4.是不是要选择这个harris interest point算法，还是用那个wave front的比较好表现。

其他问题：

1.新的中国学生？

2.3月份的假期怎么安排。

2010-2-9 Gu

Wavefront algorithm Optimization

发表评论

接触到了一种新的依赖解决算法问题，英文叫做wavefront algorithm，中文好像叫波前算法吧。大体思路是，对于一个X*Y数组结构的数据，当运算依赖关系是从西北角开始运算，直到覆盖所有的表项，得到最终结果的时候。每一个运算单元，都必须依赖其西，西北和北边相邻的数据才能开始运算时，其运算方式如同水波一样，逐层前进。

如下图模拟，数字增长，表示随着时间推移，运算的顺序：从1-》2-》3-》 -》7结束，完成整个数据的运算。

1	2	3	4
2	3	4	5
3	4	5	6
4	5	6	7

继续阅读 →

Cell BroadEngine 并行等待方案

发表评论

PPE执行的几项任务：

1.检查是否有free spe

2.创建spe结构，分配tag_id

3.创建spe线程并运行

4.等待一个spe运行结果的返回

5.激活一个已经创建的spe结构，让它开始运行

继续阅读 →

The 7th week meeting

发表评论

Yesterday is the 7th week meeting with Mr.yamaguchi. I demonstrated what I’ve learned these days and he soleved lots of my questions.

昨天是第七次和山口老师交流，我首先报告了一下我学习了一些什么东西，然后他解答了很多我提出的问题。

继续阅读 →

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

大顾在学习

路漫漫其修远兮

标签归档：毕业设计

魔方日记 – 2

19th meeting

17th and 18th meeting

13th meeting

今天工作想到的一些东西

12th meeting

8th week summary and 9th week meeting

Wavefront algorithm Optimization

Cell BroadEngine 并行等待方案

The 7th week meeting