Tag: gpgpu

在Metal中手动设置一维纹理: 我试图用值手动填充一维纹理，并将纹理传递给计算着色器（这些是我想通过代码设置的2个像素，它们不代表任何图像）。由于目前less量的金属例子，我能find的所有例子都处理2D纹理，通过将加载的UIImage转换为原始字节数据来加载纹理，但是创build一个虚拟UIImage对我来说就像是黑客。这是我开始的“天真”的方式 – … var manualTextureData: [Float] = [ 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 1.0, 1.0 ]; let region: MTLRegion = MTLRegionMake1D(0, textureDescriptor.width); myTexture.replaceRegion(region, mipmapLevel: 0, withBytes: &manualTextureData, bytesPerRow: 0); 但是Metal没有在着色器中识别这些值（除了第一个值，它会得到一个空的纹理）。我很快意识到，浮点数组可能必须转换成一个字节数组（例如UInt8 ），但无法find一种方法从[Float]转换为[UInt8] 。我考虑的另一个可能的select是使用一个CVPixelBuffer对象，但是这也是解决问题的办法。那么最好的解决方法是什么？提前致谢。请注意，我不熟悉Objective-C ，因此我不确定使用CVPixelBuffer / UIImage是否夸大了某些应该是直截了当的事情。

为iOS Metal中的MTLBuffer使用的数据分配内存: 作为这个答案的后续问题。我试图用一个在Metal中的内核函数replaceCPU上运行的for-loop来并行化计算并加速性能。我的function基本上是一个卷积。由于我反复接收到我的input数组值的新数据（数据来自AVCaptureSession ），似乎使用newBufferWithBytesNoCopy:length:options:deallocator:是创buildMTLBuffer对象的明智选项。这是相关的代码： id <MTLBuffer> dataBuffer = [device newBufferWithBytesNoCopy:dataVector length:sizeof(dataVector) options:MTLResourceStorageModeShared deallocator:nil]; id <MTLBuffer> filterBuffer = [device newBufferWithBytesNoCopy:filterVector length:sizeof(filterVector) options:MTLResourceStorageModeShared deallocator:nil]; id <MTLBuffer> outBuffer = [device newBufferWithBytesNoCopy:outVector length:sizeof(outVector) options:MTLResourceStorageModeShared deallocator:nil]; 当运行这个我得到以下错误：失败的断言`newBufferWithBytesNoCopy：指针0x16fd0bd48不是4096字节alignment。现在，我没有分配任何内存，但是（为了testing目的）只是创build一个固定大小的浮动数组并填充随机数。所以我的主要问题是：如何以正确的方式分配这些浮点数组，以满足以下要求该值必须导致页面alignment的内存区域。另外，还有一些问题：用newBufferWithBytesNoCopy方法创buildMTLBuffer还是复制数据在性能方面并不是一个真正的问题？（我的实际数据将包含每个video帧大约43'000浮点值。） MTLResourceStorageModeShared是否正确selectMTLResourceOptions API参考说返回的新MTLBuffer对象的存储分配与指针input值相同。现有的内存分配必须由单个VM区域覆盖，通常由vm_allocate或mmap分配。由malloc分配的内存被明确禁止。这是否仅适用于输出缓冲区，或者与MTLBuffer一起使用的所有对象的存储分配是否不能用malloc完成？

在iPhone GPU上解码video帧: 我正在寻找最快的方式来解码iPhone上的本地mpeg-4video帧。我只是感兴趣的像素在每10帧的亮度值。我不需要在任何地方渲染video。我试过ffmpeg，AVAssetReader，ImageAssetGenerator，OpenCV和MPMoviePlayer，但它们都太慢了。我能得到的最快速度是2倍（一分钟内扫描2分钟的video）。我想要更接近10倍的东西。假设我上面的尝试没有使用GPU，是否有任何方法来完成我的目标与GPU上运行的东西？ OpenGL似乎主要是为渲染输出，但我已经看到它用作传入video的filter。也许这是一个select？提前致谢！