Closure's Blog

为什么这个房间会烧起来呢?

Elliptic库Nonce重用漏洞分析

Elliptic库漏洞 https://paulmillr.com/posts/deterministic-signatures 之前披露的这个Elliptic库漏洞的手法我看完了相关研判觉得非常狡猾,它攻击的不是加密算法而是这个程序的异常处理逻辑,没有去硬碰硬破解椭圆曲线,曲线救国找到了代码处理意外情况的薄弱环节。整个攻击的核心是先故意触发一次失败的签名,发送一个一个超出范围的哈希值来...

Markov blanket和强化学习

把马尔科夫毯看作RL的核心假设,会发生什么? 核心预设就是把马尔科夫毯看作时间因果图中“把过去和未来隔绝开来”的最小变量集合,谁在该毯内和谁在毯外直接决定了能否把决策问题压缩为仅依赖当前表征的形式,是否能在有限维的状态上写出Bellman递归?是否能用平稳Markov策略而不损失最优性? 概念回顾一下,马尔科夫毯是在因果图或贝叶斯网络里,给定一个节点,这里是当前状态变量,马尔科夫毯由能屏...

Deep Researcher with Test Time Diffusion

原始论文地址 由大型语言模型(LLMs)驱动的深度研究代理正在迅速发展;然而,在使用通用的测试时扩展算法生成复杂的长篇研究报告时,它们的性能常常会停滞不前。受人类研究迭代特性的启发——该过程涉及搜索、推理和修订的循环——我们提出了测试时扩散深度研究员(TTD-DR)。 这个新颖的框架将研究报告的生成过程概念化为一个扩散过程。TTD-DR通过一份初步草稿来启动此过程,这份草稿是一个可更...

vscode钓鱼插件制作

扩展名伪装 vscode:// 协议是一个便捷功能,软件在安装时可以向操作系统注册一个自定义协议,安装了 VSCode 后系统就认识了 vscode:// 这个协议并知道所有以此开头的链接都应该交给 VSCode 程序来处理。但是这个传送门不仅能打开 VSCode 也可以直接向它传递指令,其中一个关键指令就是 extension/,它可以命令 VSCode 去在线应用市场查找并准备安装一个...

强化学习模型使用RNN/LSTM,是否违背了马尔可夫性质的初衷?

马尔可夫性质的初衷是通过定义一个包罗万象的当前状态,将对无限历史的依赖简化为对有限信息的依赖,让对动态系统的分析和预测和决策变得Tractable。随时间演变的系统包含天气&炒股&智能体在游戏中的行为,都是未来取决于过去。一个系统的未来状态 St+1 可能受到从初始时刻 S0 到当前时刻 St 的完整历史路径 Ht ={S0 ,S1 ,…,St } 的影响。带来的问题是如果需...

密码114514

Protected Page ...

Fortinet FortiWeb Fabric Connector (CVE-2025-25257)复现

Pre-Auth SQL Injection to RCE - Fortinet FortiWeb Fabric Connector (CVE-2025-25257) Pre-Auth SQL Injection to RCE - Fortinet FortiWeb Fabric Connector (CVE-2025-25257) 这是Fortinet FortiWeb Fabric ...

Vyper开发小记-合约

概念 curve-contract Vyper 官方仓库 Vyper的核心理念安全性&可审计性&简洁,它设计之初就将安全性放在首位,通过强制执行一系列严格的语言特性来最大限度地降低漏洞风险。比如Vyper严格禁止递归调用,只通过限制外部调用和状态修改的顺序来确保合约执行的原子性,以及Vyper强制使用定点数运算而不是浮点数来消除了浮点数精度问题可能导致的安全隐患,另外还排...

接上篇的PPO优化

接上篇,一个ppo雏形,实现相对直观但缺乏工业级优化qaq根据openai这篇论文Proximal Policy Optimization Algorithms提出的内容进行了优化qwq 第一个版本里单环境采样效率低下,使用的是串行的gym.make(“CartPole-v1”),每次采样都在一个环境中逐步完成,单线程采样有训练效率瓶颈,速度慢的同时还容易导致样本相关性过高。PPO算法本质...

Proximal Policy Optimization&基于colab的基础滑杆项目

Proximal Policy Optimization 传统策略梯度方法是直接最大化策略的期望收益,但更新步长过大会策略跳太远让性能反而下降,类似PPO的TRPO是通过约束策略更新的KL散度,实现了信赖域更新,缺点是但算法复杂和计算开销大。PPO意在设计一个简单高效的目标函数,实现类似TRPO的保守更新效果。 PPO的基本思路是限制策略更新的幅度,防止新策略与旧策略差距太大,引入剪...