SAM通过transformer将点、框、Mask、文本等prompt和图片进行编码学习,可以实现对图片任意目标的分割

阅读全文 »

通过设计新的预测头 T-Head 和样本对齐损失 (TAL),实现分类、定位分支的对齐,使得两个分支的最佳锚框更加接近。这样可以减少“低分类概率+准确位置预测”、“高概率预测+不太准确预测”这两种情况目标的漏检

阅读全文 »

属于EAST的演进版本,还是类似 anchor-free 的方式预测文本行,除了输出 grid 的 score +边框预测外,还输出更多的文本实例信息,比如 grid 到实例矩形四角、中心点、四边的距离,使得SAST可以检测弯曲文本行、中间有间隔的文本行

阅读全文 »