Wan2.2-I2V

我把wan的代码迁移到wan22图生视频任务上，81帧外推2倍，生成161帧的视频，同样是修改自注意力层attn1。但是出来的效果非常差，视频全是噪点。wan22也是从wan21上训练而来的，模型结构应该基本相同，按理来说不应该有那么大的差异，又或者是该方法不支持图生视频的原因吗？

以下是视频的前几s的其中一帧
<img width="349" height="661" alt="Image" src="https://github.com/user-attachments/assets/12de7219-6568-4edf-bfac-9a1ce6c11ab5" />