findhao

用户名:findhao

注册于:2017-08-13

主题数: 30     回贴数: 51

网站:

介绍:

最后活动于24 天前
回复了主题  › vps的ip被谷歌学术ban掉

修改hosts以后,记得重启vps

«  24 天前
创建了主题  › vps的ip被谷歌学术ban掉

原因应该是穿越服务器的 IPv4 被 Google Scholar 封锁,可能是由于借用代理服务器滥用 Scholar 资源的缘故。

«  24 天前
回复了主题  › linux安装nvidia 驱动以及cuda toolkit

记得重启一下。

«  2017-11-15
创建了主题  › 发现自己之前写的linux取词还能用

https://github.com/findhao/ciba

准备抽时间更新下一些新功能。

todo:

监听剪贴板的同时,查看焦点窗口,只在某些窗口里取词。

«  2017-11-08
回复了主题  › FindYoutube.net 更新说明

todo:

去掉onekeyhosts的链接。

«  2017-11-08
创建了主题  › login with ajax wordpress插件

在给luckydag调试的时候,发现了

Ultimate Member

这个好用的后台管理插件,但是即便使用了redirection重定向一些链接,也无法完美实现链接替换,比如login with ajax 的widget中user profile的链接始终无法重定向到新的用户profile。最后想修改他插件的代码,在readme里发现了lwa的一些配置。在子主题下设置自己的widget即可。简单修改原来的url为 /account/即可。

«  2017-11-07
回复了主题  › FindYoutube.net 更新说明

todo:

字幕结果列表不是按照字母表顺序排列的。

«  2017-11-06
创建了主题  › wordpress定时任务导致vps cpu占用100%

wordpress的

wordpress的定时任务功能我们还是经常要用到的,例如w

«  2017-11-06
创建了主题  › 实验室服务器使用的一些建议

ubuntu系统请尽量使用山大的源,速度快。

deb http://mirror.sdu.edu.cn/ubuntu/ xenial main restricted universe multiverse deb-src http://mirror.sdu.edu.cn/ubuntu/ xenial main restricted universe multiverse deb http://mirror.sdu.edu.cn/ubuntu/ xenial-security main restr
«  2017-11-01
创建了主题  › 更改Linux用户的登录shell环境


使用普通用户zhangrong登录系统,并将自己的登录的shell改为tcsh。

设置了新的登录shell后,将在该用户下次登录系统时生效。

 

 

root用户可以直接通过修改"/etc/passwd"文件来修改用户的登录shell,也可以使用usermod命令进行更改:


[[email protected] ~]# usermod -s /bin/csh zhangrong

[[email protected] ~]# grep zhangrong /etc/passwd

«  2017-10-31
回复了主题  › debiancn的ustc镜像源

官网 https://www.debiancn.org/

«  2017-10-23
创建了主题  › debiancn的ustc镜像源

不过ustc的是每天同步

deb  http://mirrors6.ustc.edu.cn/debiancn stretch main

官方仓库地址

https://repo.debiancn.org/

«  2017-10-23
创建了主题  › carbonforum 生成log #!/bin/bash a=a.jpg quality=90 convert -resize 40x40 -quality $quality $a logo.png  convert -resize 57x57 -quality $quality $a apple-touch-icon-57x57-precomposed.png convert -resize 72x72 -quality $quality $a apple-touch-icon-72x72-precomposed.png convert -resiz
«  2017-10-22
回复了主题  › cuda学习笔记

--print-gpu-trace 获得每个线程使用的寄存器数量。

«  2017-10-20
回复了主题  › cuda学习笔记

--generate-line-info -Xptxas="-v" 几个重要的运行参数

«  2017-10-19
回复了主题  › cuda学习笔记

Fermi hardware limit is 63 registers per thread. kepler is 256.

https://stackoverflow.com/questions/16975727/confusion-with-cuda-ptx-code-and-register-memory

«  2017-10-19
回复了主题  › 迁移博客过程 LNMP 0.9禁用了部分存在危险的PHP函数,如何开启?
«  2017-10-17
创建了主题  › 命令行下载crossover

crossover内测版必须有权限才能下载。

F12调出开发者工具。Network标签页,刷新以后即有了cookie,保存cookie和useragent字段。

填入命令:

aria2c -c -s10 -k1M -x16 --enable-rpc=false -o 'crossover_17.0.0beta5-1.deb' --header "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,
«  2017-10-14
创建了主题  › linux安装nvidia 驱动以及cuda toolkit apt install nvidia-cuda-dev nvidia-cuda-toolkit

如果出现依赖问题,可能需要手动去安装类似`nvidia-375`之类的包。根据依赖提示进行即可。

然后再安装

apt install nvidia-driver


«  2017-10-13
回复了主题  › cuda学习笔记

In the Pascal architecture, the FPU is capable of execut-

ing 2-way SIMD instruction of the half2 (FP16x2) data type. Figure 2 shows the example for adding two values in half2 using API from cuda_fp16.h provided starting from CUDA 7.5

«  2017-10-13
回复了主题  › cuda学习笔记

CUDA上FP16计算方式的发展变化:
 


«  2017-10-12
回复了主题  › cuda学习笔记

内部函数更快速,但是损失了部分精度。

«  2017-10-11
回复了主题  › cuda学习笔记

数组结构体AoS

struct innerStruct{ float x; float y; } struct innerStruct myAoS[N];

结构体数组SoA

struct innerArray{ float x[N]; float y[N]; }

SoA在SIMD模型上更好,因为x是连续的

«  2017-10-10
回复了主题  › cuda学习笔记

没有缓存的加载,在内存段的粒度(32字节)而非缓存池的粒度(128字节)执行,这是更细粒度的加载,可以为非对齐或非合并的内存访问带来更好的总线利用率。


是否使用缓存在P138-P140页的几个分类和示例中,非常明确地进行了说明!

«  2017-10-10
回复了主题  › cuda学习笔记

CPU一级缓存和GPU一级缓存之间的差异

CPU一级缓存优化了时间和空间局部性,GPU的则专为空间局部性,而不为时间局部性设计。频繁访问一个一级缓存的内存位置不会增加数据留在缓存中的概率。

«  2017-10-10
回复了主题  › cuda学习笔记

对齐内存访问、合并内存访问。

当设备内存事物的第一个地址适用于事务服务的缓存粒度的偶数倍时(32字节的二级缓存或者128字节的一级缓存),就会出现对齐内存访问。运行非对齐的加载会造成带宽浪费。

当一个线程束中全部32个线程访问一个连续的内存块时,就会出现合并内存访问。

核函数的内存请求通常是在DRAM设备和片上内存间以128字节或者32字节内存事务来实现的。

如果两级缓存都启用,那么内存访问是由一个128字节的内存事务实现的,如果只使用了二级缓存,那么这个内存访问室友一个32字节的内存事务实现的。

P137页的图4-7 4-8例

«  2017-10-10
回复了主题  › cuda学习笔记

零拷贝内存 https://www.findhao.net/easycoding/1448 

当设备内存不足时,可利用主机内存。

避免主机和设备间的显示数据传输

提高PCIe传输率

在进行频繁的读写操作时,使用零拷贝内存将显著降低性能。因为每

«  2017-10-10
回复了主题  › cuda学习笔记

共享内存是片上内存,类似CPU的一级缓存,但是可编程。__shared__

本地内存本质上和全局内存是同一块存储区域。高延迟,低带宽。

SM中的一级缓存和共享内存都使用64KB的片上内存,静态划分或者运行时动态配置。

常量内存:静态声明,对同一编译单元中的所有核函数可见。必须在主机端初始化。如果线程束里的每个线程都从不同地址空间读取数据,并且只读一次,那么常量内存就不是最佳选择,因为每从一个常量内存读取一次数据,都会广播给线程束的所有线程。

全局内存:__device__ 内存事务必须自然对其,即首地址必须是32,64,128字节的倍数。

«  2017-10-10
回复了主题  › cuda学习笔记

核函数中声明的一个没有其他修饰符的自变量,通常存储在寄存器中。

在核函数声明的数组中,若索引是常量且编译时确定,则该数组也在寄存器中。寄存器变量对于每个线程来说都是私有的。

不同架构GPU,每个线程可以拥有的寄存器数量不同。


寄存器溢出。https://www.findhao.net/easycoding/1682 

«  2017-10-10
回复了主题  › cuda学习笔记

   

cuda内存模型:

一个核函数中的线程都有自己的私有本地内存,一个线程块有自己的共享内存,对同一个线程块中的所有线程可见,其内容持续线程块的整个生命周期。所有线程都能访问全局内存。

«  2017-10-10