ZHPMATRIX blog

Jun 24, 2025 要素抽取之我见

要素抽取是财税对话系统最为核心的算法环节

Jun 24, 2025 为什么构建一个财税对话系统是难的？

垂直强知识依赖的对话系统都是极具挑战性的工作

Jun 23, 2025 会话标准化之最后一句话抽取

最后一句话是会话标准化的一种具体实现方式

May 29, 2025 基于树/图结构实现对话系统中的推理

树/图结构如何用于对话系统

Apr 21, 2025 财税咨询系统的架构思考

Lepton AI的一个启发是通过对单点能力的良性组合实现系统价值的最大化。

Apr 20, 2025 初识财税咨询对话系统

LLM时代的垂域对话

Apr 19, 2025 2025Q1-阶段性思考碎碎念

回归本质，专注价值。

Dec 31, 2024 2024年终总结

按照惯例，每年一篇年终自我总结。

Dec 5, 2024 《Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data》

问答系统中，无论采用模型微调的方式，还是RAG的方式，将表格转化为markdown总没有错。

Nov 2, 2024 读粱宁的《真需求》

真需求在哪里？如何触达真需求？

Oct 30, 2024 再议规则引擎

一种支持系统可扩展性的实现方式

Oct 12, 2024 搜医搜-从0到1的故事

这篇文章讨论搜医搜从想法到变现的0→1的全流程，是一次“一人公司”的路径可行性探索。专注于讲故事，不讲技术。

Sep 24, 2024 《Enhancing Asymmetric Web Search through Question-Answer Generation and Ranking》

通过问答对生成的方式强化非对称网页搜索

Sep 7, 2024 一次面向垂域搜索系统的实践与思考

一个如何做架构的故事

Aug 26, 2024 《A Surprisingly Simple yet Effective Multi-Query Rewriting Method for Conversational Passage Retrieval》

SIGIR2024的文章，Query改写用于检索系统

Jun 25, 2024 《FIRST: Faster Improved Listwise Reranking with Single Token Decoding》

LLM用于重排序的各种玩法

Apr 16, 2024 结束

江湖再见

Feb 25, 2024 RAG在若干医疗场景的实践和思考

RAG是一种下限无限低，上限无限高的技术

Dec 31, 2023 2023年终总结

这篇博客主要讨论2023年的一些技术总结。

Sep 22, 2023 两年半过去了，这支算法团队做了啥？

今天是个特殊的日子，是笔者切入医疗NLP方向的差不多30个月的时间，也是本公众号的第50篇文章，其中有一篇团队同学的工作。在这个具有纪念意义的时间节点，梳理和反思一下我们在这个方向的主要工作和思考，以期和业界同行交流学习，请大家拍砖指教

Aug 9, 2023 大语言模型时代的长文本处理讨论

给出一组数据，《了不起的盖茨比》有72K词元，210页，按1.7分钟/页的阅读速度计算，需要6小时的阅读时间。

Jul 3, 2023 患者模拟，不一样的医疗大模型应用

患者模拟，希望利用大模型的能力模拟患者完成和人类医生的对话

Jun 21, 2023 一个有意思的关于ChatGPT的问题清单

这篇文章梳理ChatGPT相关的基础概念和问题，主要分为两个部分，第一部分围绕scaling laws, compute optimal和compression三个核心概念。第二部分主要围绕张家俊老师在知乎中谈到的8个非常有意思的问题。

Jun 16, 2023 训练全流程源码剖析

包含预训练，监督微调，RM模型构建和强化学习四个阶段。

Jun 12, 2023 关于hippocratic.ai和glass.health的产品讨论

这篇文章讨论两款基于英语世界医疗大模型的应用产品以及笔者做的背后技术拆解，最后给出近段时间笔者在大模型应用的开发推进上，形成的一些心得。

Jun 5, 2023 中文医疗大模型的2W1H分析

经过过去一段时间的实践和探索，这篇文章将进一步思考LLM这件事情背后的Why，What和How。

May 28, 2023 中文医疗大模型也可以“学富五车”？

BERT时代，笔者一个未竟的工作是如何训练一个充满知识的医疗领域BERT模型。在这篇文章中得到了工作上的延续，这里我们讨论如何为中文医疗大模型插上知识的翅膀。

May 28, 2023 医疗信息抽取中的那些Bad-Cherry-Pick?

日常和业务方的交流过程中，有木有被对方拿着具体例子怼的经历？如果有，可以仔细看下这篇文章。

May 9, 2023 关于医疗LLM的随笔

本周在思考基于医疗LLM的应用侧的工作，限于与司内业务关系较强，暂不通过文章讨论。应用侧的工作基本理清之后，接下来需要思考模型侧的问题，简而言之，如何得到一个中文医疗领域的LLM？

May 2, 2023 死宅的读书笔记

对于一个死宅而言，最大的快乐就是五一假期哪也不去，或者宅在图书馆也行。这是一篇假期宅在梦想小镇图书馆翻书写的读书笔记。

Mar 11, 2023 记一次ChatGPT的应用探索与实践

时逢OpenAI开放了API，于是笔者近期相对系统地思考了围绕ChatGPT的一些问题。此外花了大概30分钟，写了50行代码，做了一个小应用。

Mar 2, 2023 医疗算法思考

这篇博客主要讨论医疗算法领域的一些技术思考。

Feb 4, 2023 《Build》，2023年的开年好书

这是一篇读书笔记，春节前期读了第一遍之后就积极地推荐给周围的朋友，节后第一周又快速阅读了第二遍，边读边总结，于是能够形成此文，也算是完成了林师兄布置的假期作业。

Dec 31, 2022 我的2022年终总结

按照惯例，每年一篇年终自我总结。

Dec 10, 2022 ChatGPT在医疗NLP场景的应用

站在医疗NLP的视角，以一个用户的身份，给出一些常见任务上的测试结果。

Oct 30, 2022 也谈FedNLP

一个有意思的问题是：能否实现数据不出医院内部环境，但是可以实现模型的共享？

Oct 30, 2022 面向文本结构化的标准分析工具

这篇文章是在由《海外独角兽》组织的HuggingFace&ML茶话会上吹水的同时写的，也许受投资人和开发者的影响，整盘文章的思路比较跳，不过比较有意思。另外也算回应团队小伙伴吐槽说，最近笔者在技术思考上“只上图，光偷懒了”的问题。

Sep 30, 2022 医疗文本结构化：一种新视角

这篇文章中的一些想法在写出来之前，和身边的一群可爱的小伙伴们做了碰撞和讨论，因此也算是共创的结果。

Sep 18, 2022 我和Github

从二零一三年六月六日正式加入Github至今大概十年。

Sep 7, 2022 深夜科普文：指标和标签

什么是指标？什么是标签？指标和标签的联系和区别是什么？二者的产品架构设计是什么？哪些产品值得关注？

Sep 6, 2022 一篇关于SaaS产品的读书笔记

这篇读书笔记主要会围绕四个笔者比较关注的内容，分别是SaaS面临的竞争态势，SaaS的护城河，SaaS的大坑和SaaS的未来。

Aug 28, 2022 NLP算法思考

继《NLP，吹爆与落地》，《业务，工程和算法的互殴现场》之后，笔者又来诉苦了。

Aug 27, 2022 我的三句话书评

这是一篇书评，文章中希望用比较轻松的方式，以一种偏感性的叙述方式来描述自己的推荐理由。

Jul 16, 2022 一个NLP人眼中的医疗大数据

倒上冰水，泡几颗冰块，小王和李大千做了一场关于李大千眼中的医疗大数据的讨论。

Jul 9, 2022 CHIP2022，相约在夏季

医疗NLP相关的比赛

Jun 12, 2022 Mendel.ai，面向全世界80%的非结构化临床数据

医疗结构化产品分析

May 22, 2022 记一次模型探索过程（百度的UIE）

这是一篇针对UIE的探索记录

Mar 20, 2022 书文推介/《机器学习系统：设计和实现》

一早起床，读完了这本书，还是很过瘾的

Jan 15, 2022 病历质控产品观

全链路病历质控，还能这样？

Jan 7, 2022 2021年终总结

一年一度的年终总结。

Nov 15, 2021 QA技术调研

这篇博客主要讨论QA领域的一些技术调研。

Oct 28, 2021 一个想象的搜索系统

从一个基础的问题出发，一个空白的markdown，看我们能否推出搜索系统的核心要素？

Oct 25, 2021 再议推荐系统

杭州城，十里桂花香的季节，一篇迟迟未能写完的文章。

Oct 16, 2021 2021年的推荐系统杂文

这篇博客是最近一段时间对推荐系统做的一个回顾性思考和整理。

Oct 16, 2021 数据中台注

上海的雨，一直下个不停。这篇博客是针对数据中台的读书笔记。

Oct 15, 2021 因果推断+NLP

这是一篇学习笔记，讨论因果推断和NLP的互动。

Oct 2, 2021 NLP中的范式转移

宅在家里读的一些文章的笔记和想法

Oct 1, 2021 专病库方法论

五人团队，三个月，All in国内某超级大三甲胃癌专病库的沉淀的产品和技术方法论

Sep 17, 2021 医疗NLP:医学对话临床发现阴阳性判别任务

CHIP2021的评测任务一的解决方案

Aug 17, 2021 医疗视角：智能问答产品事

个人非常想要写的一篇文章

Aug 16, 2021 医疗NLP的友商都有谁？

这篇文章是一篇友商调研，主要关注友商暂且集中在浙江杭州和中国上海。

Aug 15, 2021 医疗NLP: 事件抽取是啥？

这篇文章结合三个具体例子，讨论医疗NLP中的事件抽取在做啥？

Aug 15, 2021 医疗NLP: 命名实体识别全家桶~

信息抽取三板斧：命名实体识别，关系抽取和事件抽取。这里是第一把斧头，命名实体识别。

Aug 14, 2021 关系抽取，仅推荐这两篇！

医疗领域的关系抽取

Aug 10, 2021 医疗输入法，这儿有一款。

输入法的江湖厮杀已经过去好多年。那么输入法，还有机会吗？

Aug 10, 2021 医疗实体修饰识别，是啥任务？

和术语标准化任务类似，医疗实体修饰识别也是医疗NLP方向的特色任务

Aug 9, 2021 藏在智能分诊系统背后的技术

问答系统在医疗领域：智能分诊

Aug 9, 2021 智能问诊：一种轻量级实现方法

问答系统在医疗领域

Aug 9, 2021 关于CDSS产品的预研

CDSS是啥？医疗NLP小白一脸懵逼中~

Aug 3, 2021 PM血泪史

PM是一个过程，一个角色

Aug 3, 2021 医疗领域的推理方法

规则与案例融合的方法论

Aug 2, 2021 钉钉周报，还能这么玩儿？

一次有趣好玩儿不严肃的脑洞实验

Aug 1, 2021 假如要DIY一个mini版算法中台？

一个小的尝试：基于开源工具基本可以搭建一个算法中台

Jul 28, 2021 也谈FedNLP

联邦学习在NLP领域中的应用。

Jul 27, 2021 BERT加速的N种方法

模型太重，inference时间太长，效果好，但是在线场景基本不能使用？

Jul 27, 2021 医疗NLP：标准化能力建设初步

医疗NLP领域的特色任务：标准化能力建设

Jul 27, 2021 数据，要！知识，更要！

在医疗NLP领域，知识和数据，都很重要。

Jul 26, 2021 2021年中总结

工作三年总结

Mar 11, 2021 啥？听说你要构建一个新冠知识图谱

这个图谱构建，有点意思。

Mar 10, 2021 NLP人误闯医疗界

结果，他疯了？

Feb 17, 2021 一粒沙，也有骄傲的思索

每个人都是时代的一粒沙，渺小并倔强。思索，从未离开，结局都交给时间吧。

Feb 7, 2021 Embedding is All You Need: Node Embedding

CS224W：《Machine Learning with Graphs》，Node Embedding

Feb 6, 2021 GNNs

CS224W：《Machine Learning with Graphs》，Graph Neural Networks

Feb 5, 2021 图神经网络的局限性思考

CS224W：《Machine Learning with Graphs》，Limitations of Graph Neural Networks

Jan 1, 2021 2020年终总结

这篇博客主要讨论2020年的一些技术总结。

Dec 19, 2020 Graph Learning: 一种数据组织观点

这篇博客是近期在组里的一个分享内容。主要讨论GL是什么，为什么要研究GL，怎么用GL，以及简要讨论我们自己做过的一些工作和想法。

Nov 29, 2020 基于Graph的Learning问题

这篇博客主要预研关于Graph的问题，目的是推进知识图谱在应用层的进展。

Nov 29, 2020 智能服饰搭配的方案讨论

简单梳理专家模型，CV，NLP和Graph的各种解决方案和思路，以基于CV的几个工作为主。同时，站在产品和运营的角度聊一聊智能穿搭这件事儿

Nov 25, 2020 电商域图谱构建-问题复盘

在之前的文章中讨论了AliMe KG的工作，这篇文章主要讨论我们自己在真正实践过程中发现的问题。

Nov 10, 2020 一种电商域知识图谱的构建方法

这篇博客主要讨论AliMe KG的工作，没错，博主正在做知识图谱。

Oct 26, 2020 初识图数据库

这篇博客是一篇图数据库入门记录。之前主要关注点在模型层，图数据层的问题没有深入了解，大佬可飘过。

Oct 21, 2020 兜底哲学：规则引擎方法论

秋水共长天一色，模型与规则齐飞。

Oct 21, 2020 基于Python的服务部署

菜鸟角度看算法服务部署

Sep 15, 2020 总结

这篇博客主要讨论一些技术总结和思考。

Sep 14, 2020 问答匹配，有点难

这篇博客不讨论智能问答系统中的QQ匹配，只说QA匹配。具体内容包括对QA匹配问题的思考，具体的建模方式等。

Sep 5, 2020 电商问答系统的产品侧讨论

这篇博客主要讨论问答系统产品侧的一些想法，包括具体解决的问题和基本思路。

Aug 2, 2020 Learning to Rank用于问答匹配/答案推荐建模

讨论问答匹配和答案推荐建模想法

Aug 2, 2020 对话系统的一些思考

这篇博客主要讨论对话系统的一些思考，包括具体解决的问题和基本思路。

Aug 2, 2020 答案推荐的评估指标设计

针对智能问答系统，讨论答案推荐任务中的评估指标设计问题

Jun 26, 2020 冷启动，知多少？

讨论一下对话系统中的冷启动问题

Jun 13, 2020 对话系统思考

这篇博客主要讨论对话系统的一些技术思考。

May 15, 2020 NLP技术思考

这篇博客主要讨论NLP领域的一些技术思考。

May 10, 2020 NLP技术思考

这篇博客主要讨论NLP领域的一些技术思考。

May 7, 2020 MRC is All you Need?

讨论一些用MRC的方式建模文本分类，关系抽取，命名实体识别和指代消解等多个任务的想法

Apr 4, 2020 样本构造中的偏置问题

样本偏置是引起模型偏置的直接原因，尤其是在自己构造样本的时候，较容易引入偏置。偏置的问题解决容易但是发现难，但是这正是考验对问题理解程度深浅的时刻。

Mar 22, 2020 漫谈模板模式

以模板模式为例，聊一聊怎么扣代码设计。

Mar 22, 2020 算法开发中的设计模式

Alex Martelli说，设计模式是被发现，而不是被发明出来的。

Mar 21, 2020 多线程和多进程用于代码加速

代码加速，于己而言实在是一个非常有吸引力的题目。

Mar 11, 2020 开放信息抽取-监督视角

开放并不意味着不能监督，监督视角下的开放信息抽取也是很有意思。

Feb 14, 2020 Few/Zero Shot Learning简单梳理

同样是工业界的硬核问题。假设问题是有N个类，N很大，比如5000，每个类的样本只有10个。那么，任给一个样本，做5000分类，怎么办？

Feb 14, 2020 你的样本OOD啦

Out of Distribution是又一个工业界非常实际的问题。多数情况下，我们假定IID成立，但是实际当模型面向用户时，用户会带来OOD的样本。你不能说，OOD啦，不是我的锅吧？

Feb 9, 2020 关于Continual Learning在NLP问题中的应用讨论

业务多变，模型要连续迭代，CL就是一个工业界非常实际的问题。CL@NLP的工作相对较少，这篇博客主要做一些围绕这个问题的思考，为后续研究做理论准备。

Jan 22, 2020 有趣的数据结构

树状数组，字典树，线段树，并查集，跳表

Jan 22, 2020 LC100：相约新年伊始

对LeetCode中HOT100的思考

Jan 21, 2020 为什么要LC，从树开始

从春节前开始，一直在做一些LC的题目，甚是觉得LC的思想比起DL的一些思想要更加有趣。这是一篇专题笔记，后续会有其他的专题笔记补充。

Jan 21, 2020 设计题目

传统算法中的系统设计类题目汇总列表，不包含思路

Jan 21, 2020 字符串

字符串是传统算法中的高频考题，变种复杂有趣

Jan 21, 2020 Hash，值得拥有

Hash思想在传统算法中的应用

Dec 31, 2019 2019年终总结

2020年，我将迎面所有的挫折和挑战，不畏惧，不退缩。2021年，尚且码字行文，畅谈光阴和故事。

Dec 30, 2019 《Energy-Based Self-supervised Learning》

最近围绕Masked LM做了一些工作，个人对此很是感兴趣。这篇博客以Yann LeCun最近的一次报告为纲，梳理一些个人相对认同的观点和结论。

Nov 30, 2019 业务，工程和算法的互殴现场

一个NLP算法工程师的日常？

Nov 5, 2019 用Masked Language Model搞事情

这篇博客是根据个人在组里的技术分享整理而来，主要梳理近期围绕MLM在应用层上的一些工作。比如，可以用于情感迁移，中文纠错，知识发现等。

Nov 2, 2019 NLP，吹爆与落地

眼看他起朱楼，眼看他宴宾客，眼看他楼塌了。

Sep 6, 2019 基于知识图谱的主动聊天-数据篇

关于2019语言与智能技术竞赛-知识驱动对话任务的讨论

Sep 4, 2019 《Neural Text Generation: A Practical Guide》

论文阅读。这篇文章从实用角度梳理了神经文本生成的相关细节，结合自己的理解和实践，对论文内容进行个人的理解。

Aug 25, 2019 OpenNMT核心类设计

梳理了OpenNMT源码在关键类上的设计，具体包括框架类，数据类，模型类和服务类。

Aug 8, 2019 MT-DNN相关

论文阅读

Jul 28, 2019 开放域信息抽取

关系抽取可以预先定义schema，这是目前的一种主流做法。但是同样在一些场景下，可以不预先定义schema，称为开放域信息抽取。在自己之前的工作中，多数做了前者，但是目前的一个工作，可能后者更加符合需求，因此这篇博客主要调研相关工作。

Jul 22, 2019 如何建模

2019之江杯全球人工智能大赛的电商评论观点挖掘任务为例，讨论一下对如何建模的思考。

Jul 19, 2019 《Interpretable Machine Learning》

A Guide for Making Black Box Models Explainable

Jul 18, 2019 PyTorch用于大模型训练

梳理有助于大模型训练的一些方法，具体包括混合精度加速，XLA加速，分布式训练，梯度累积，梯度Checkpoint相关技术。

Jul 14, 2019 《A Brief Introduction to Weakly Supervised Learning》

data hungry场景下，也许需要弱监督。

Jul 3, 2019 Python高级编程

《Effective Python》笔记

Jul 3, 2019 forward中的复杂tensor操作

收集了一些在模型实现中可能会遇到的一些不太好写的tensor操作，后续持续补充中。

Jul 1, 2019 基于混和精度的模型加速

pytorch中基于apex使用混合精度加速的四个步骤，原始非apex加速代码也可以做对应的修改，体验fp16可能带来的加速效果。

Jun 30, 2019 神经关系抽取

总结18年，特别是19年到现在的一些关于实体识别和关系抽取的工作。其中多数是自己在近期的工作中主要参考实现并且证明有效的工作，算是对近期工作内容的一个总结。

Jun 30, 2019 模型实现中的Debug问题

《Troubleshooting Deep Neural Networks-A Field Guide to Fixing Your Model》的tutorial笔记

Jun 29, 2019 sklearn分类报告

sklearn.metrics中提供了多个计算classification相关任务的评估指标，一些函数功能类似，例如f1 score，precison recall fscore support和classification report等。此外，版本不一致情况下，函数的计算输出也不一定相同。

Jun 5, 2019 snorkel相关论文阅读

snorkel是一个框架，通过该框架可以用弱监督的方式产生数据，减少人工标注的数据缺失的问题，尤其适合于信息抽取任务。

May 6, 2019 神经网络的Low-Memory技术

这是一篇技术报告笔记，讨论了训练神经网络时能够减少memory的技术，同时讨论了该技术与模型最终效果的影响。

May 4, 2019 从中文纠错技术中所想到的

从去年实习开始着手做中文纠错技术，到现在拥有一个线上可用的模型(其实还很不错)。期间做了一些有意思的探索，形成了一些新的思考和感悟。这篇博客不是一篇技术文章，姑且算是一篇杂谈吧。

Apr 26, 2019 sentencepiece

无监督分词器的对比，两个subword算法以及tensor2tensor中subword的实现思路，以及讨论一些subword regularization的东西，其中sentencepiece中某些部分的理解需要去读源代码中的注释才行。

Apr 23, 2019 源码阅读:目录结构和部分重点参数讨论

去年对比opennmt-py和tensor2tensor，但是只是写了opennmt-py的源码结构，并没有梳理tensor2tensor的结构，最近刚好重启一个大实验，组里同学也在做相关的事情，因此借此机会重新梳理一些关于tensor2tensor的内容。

Apr 4, 2019 pycorrector统计语言模型部分源码阅读

统计语言模型用于中文纠错，这部分代码可能有一定的启发性。

Mar 30, 2019 七年学生生涯总结(本科+研究生)

一般这样的总结都是在大论文的致谢部分，但是在大论文的致谢部分，有些内容总是不能够客观的去写。此外，这样的总结适合在参加完毕业典礼的时候写，但是估计那个时候情绪复杂也难以冷静的思考，从而给自己一个客观全面的总结，因此索性就放在博客中吧。

Mar 25, 2019 扫盲-搜索，广告和推荐

电商领域三大应用，搜索，广告和推荐，估计很大一部分NLP从业者在做相关业务。因此，有必要给自己扫个盲。

Mar 13, 2019 Rethink系列-Transformer

梳理一下Transformer实现时的一些基础问题。

Mar 11, 2019 默参都是全局的，局部学习率调度和局部梯度Clipping，咋搞？

PyTorch中模型分层设置学习率和灵活的梯度操作，比如梯度Clipping问题。

Mar 11, 2019 CNN系列接口Highlights

讨论PyTorch中与CNN实现相关的接口，包括Conv层，Pooling层，Normalization层和Dropout层，Padding层。

Mar 9, 2019 直观认识torch.jit模块

在之前的一篇博客中讨论了PyTorch的C++前端，而这篇文章是关于PyTorch模型部署的第二篇博客，用具体的代码讨论了Tracing和Script两种方式的区别和联系。

Mar 9, 2019 代码复现时的拦路虎-维度操作

可能是多数萌新在代码复现时遇到的最大的问题，shape不对齐。这篇博客目的就是讨论这些基础操作，以求复现时的随心所欲。

Mar 8, 2019 聊一聊，预处理和数据增强技术

这篇博客梳理了NLP中英文的预处理方法和一些通用但是实现成本不高的数据增强思路。

Mar 7, 2019 RNN遇上PyTorch

解释了PyTorch中RNN系的参数，输入和输出。接口包括两类，分别是多层结构和Cell结构。相比于Tensorflow中的多个版本实现，PyTorch中的要清晰很多。

Mar 2, 2019 NAACL2019论文马拉松

NAACL2019论文接受列表放出来了，照例要通读一下题目，选一些自己喜欢的文章读一读。

Mar 1, 2019 PyTorch的C++前端和模型部署

PyTorch1.0发布后，PyTorch的春天似乎就到了。在此之前，关于PyTorch的吐槽主要集中在不适用生产环境，个人认为某种意义上就是缺少C++的前端。最近用PyTorch复现一篇文章，顺道考察了一下C++端的应用。是的，我从没有喜欢过Tensorflow。

Feb 16, 2019 论文阅读-《Language Models are Unsupervised Multitask Learners》

GPT-2的论文阅读，陈述了主要内容，比较了实验结果，并提出了关于该模型的几点思考。

Feb 5, 2019 论文阅读-《Generating Sentences from a Continuous Space》

主要从贝叶斯角度讨论了VAE的目标函数的由来，分三步由浅入深讨论VAE，同时给出了VAE应用于文本生成任务的工作。

Feb 4, 2019 论文阅读-《SeqGAN:Sequence Generative Adversarial Nets with Policy Gradient》

NLG的几个思路：GAN，VAE，RL，其他和流模型，之所以将流模型放在最后，是因为目前还没有看到流模型用于NLP的任务。

Feb 2, 2019 论文阅读-文本风格迁移

慢慢地需要从自然语言理解过渡到自然语言生成，生成的应用场景较广，值得关注。这篇博客是最近读的几篇文章的一个论文笔记，主要目的是帮助自己建立一个对风格迁移任务的印象。

Feb 1, 2019 OpenNMT中Attention相关参数

对opennmt-py中的train模块与attention相关的参数进行了解释和梳理，官方文档确实写的比较落后。部分参数可能需要回到代码中，或者issues区才能理解。

Feb 1, 2019 中文拼写检纠错-和百度比一比

在文本纠错任务上，用自己的模型和百度API开放的接口测试效果对比。

Jan 31, 2019 Rethink系列-词法/句法/语义

这是一篇写给自己的扫盲短文。我们希望DL的方式能够获取语法和语义信息，但是评估的方式多是通过下游任务的性能，没有从过程上去分析是否确实获得了期望的语法和语义信息，个人对这种分析方式并不认同。直接对词法，句法和语义信息进行分析的技术作为NLP的底层技术，值得进一步探索和思考。

Jan 30, 2019 《A Neural Compositional Paradigm for Image Captioning》

NIPS2018的文章，用于解决Image Captioning问题，整体上没有采用端到端的思路，不过其中的语言生成策略或许有值得借鉴的地方。

Jan 29, 2019 Rethink系列-copy和coverage机制

从一篇论文出发，讨论了与attention相关的两种机制，这两种机制在opennmt-py中都有相应的实现，同时提了一些可以进一步思考的问题。

Jan 28, 2019 Rethink系列-seq2seq

主要是对encoder和decoder的一些想法

Jan 27, 2019 Rethink系列-CNN/RNN

对CNN在NLP中应用的方法，缺点，优点及其目前发展形势做的小思考。

Jan 27, 2019 Rethink系列-Attention

回顾了Bahdanau和Luong的工作，讨论了围绕self-attention的一点想法，重新思考了Transformer/BERT。

Jan 3, 2019 数据流

传统算法中的数据流问题，一个经典的数据场景，流式数据处理

Jan 3, 2019 LeetCode终结：题解

这是一份题解列表，总结了高频面试题

Jan 1, 2019 重说：递归

最近读组里同学代码的时候，看到一个递归实现。于是借助这篇短文，回顾一些关于递归的问题。

Jan 1, 2019 重说：动态规划

关于动态规划的一些题目

Dec 31, 2018 二零一九，GO!

总结二零一八，迎接二零一九。

Dec 22, 2018 论文思考-神经机器翻译中的六个挑战

这篇博客是一篇为讨论班报告写的论文笔记，论文原题《Six Challenges for Neural Machine Translation》，时间2017年，作者来自JHU的Philipp Koehn等人。虽然有标题党之嫌，但是论文很实用。论文指出了NMT中的domain mismatch, amount of training data, rare words, long sentences, word alignment,beam search相关问题。

Dec 17, 2018 训练模块源码剖析

讨论训练模块的相关设计

Dec 17, 2018 预处理模块源码剖析

讨论预处理模块的相关设计

Dec 17, 2018 中文拼写检纠错

针对该任务，基于自己构建的数据集和相关评测方法，尝试的思路包括统计语言模型，序列标注思路，seq2seq思路，本文是对实验结果，数据选择，模型选择，框架选择的一个简单整理。虽然统计语言模型目前应用广泛，但是实验证明，基于序列生成的思路结果更好。这是一个有趣的问题，需要持续研究思考。

Dec 14, 2018 从一个例子谈DL论文的复现问题

针对EMNLP2018关于对话生成的一篇文章《An Auto-Encoder Matching Model for Learning Utterance-Level Semantic Dependency in Dialogue Generation》，对实验复现过程的讨论和思考

Oct 13, 2018 关于BERT的讨论

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文阅读想法

Sep 28, 2018 Eigen实习总结

围绕在Eigen的实习内容，回顾了任务分析，论文复现，拼写检查，经验教训四个方面的内容。讲述一个小白掉入NLP坑中的辛酸史。

Aug 27, 2018 全国第一届“军事智能·机器阅读”挑战赛

放在草稿箱好久的一篇调研，本来是为比赛准备的，Pipeline跑通之后因为各种原因没有时间继续调试。梳理了比赛任务，相关比赛和数据集，经典模型等。

Aug 26, 2018 关于NLG的一个调研

调研了NLG的框架，主流方法，评估方法，业界落地情况等，没有好的评估体系和方法会制约NLG的发展，因此设计合理有效好用的评估指标是一个非常有挑战性的问题。

Aug 24, 2018 机器学习开发沉思录

结合最近的项目，做一些关于机器学习系统开发的思考。我是个算法工程师，同时也是一个软件工程师。如果非要选，可能我需要首先是个软件工程师。

Jul 6, 2018 Tech Notes

Tech Notes

Jun 29, 2018 KL Divergence

KL Divergence

Jun 25, 2018 《推荐系统实践》读书笔记

一直对推荐系统保持好奇心，但是没有系统的读过推荐系统方面的资料。最近可能需要一些推荐系统的知识，所以花了一个下午和一个晚上的时间读了项亮的《推荐系统实践》这本书，这篇博客主要是读书笔记，有一些自己的认识和总结。

Jun 18, 2018 阿里妈妈CTR预测

比赛复盘

Jun 14, 2018 回调函数，线程安全，Monkey Patch和try/except使用

读了一份syncbn的代码，博文是对一些基本概念的回顾。

Jun 11, 2018 Face Loss

梳理ArcFace，SphereFace和CosineFace的联系和区别，并提出一种更加general的想法

Jun 6, 2018 Hard Mining

Hard Mining

Jun 3, 2018 《原则》读后感

《原则》是Ray DaLio的作品，RD是桥水基金的创始人，桥水基金是世界上最棒的对冲基金公司。自己是一个工程师，对量化投资所知甚少，幸好这本书不是一本专业书籍，还是找到了一些很有启发的观点。

May 15, 2018 GDB调试

利用bt和f命令调试core文件

May 13, 2018 坐标回归

坐标回归作为经典问题出现在检测任务中，这篇博客站在几何变换和数值优化的角度，尝试正推和逆推两个方向理解一下坐标回归，殊途同归。

May 12, 2018 RCNN系列

单独把分类器和回归器的训练数据构造过程拉出来思考一下，同时对比了Region Proposal和YOLO中Cell的联系和区别。

May 12, 2018 重新思考YOLO的一些问题

这篇博客从整体上回顾了检测任务，通过梳理脉络，了解历史，重新发现并提出一些自己的思考。不会看到网络结构图，损失函数，各种参数介绍，这些并不是这篇博文的目的。

Apr 23, 2018 Caffe修改源码支持多标签输入

通过修改Caffe源码的方式，使得Caffe可以支持多标签输入。同时给出了一个使用Caffe进行多标签训练的例子。附带讲了如何调试Caffe的CPU和GPU版本的源代码。博客中的例子已经分享到我的Github上了，还有训练数据。

Apr 21, 2018 Linux常用工具整理

系统梳理了自己在日常学习和工作中常用的Linux工具

Apr 16, 2018 2018-JSAI模式识别专委会学术年会总结

关于JSAI学术报告的总结，反思

Feb 21, 2018 Detection Paper Reading

春节假期在家简单梳理了一些目标检测领域经典的文章，每篇文章主要包括Contributions，可Follow方向，我的想法，参考文献四部分内容。随着阅读量的增加和阅读深度的增加，这篇博文会保持持续更新。

Feb 18, 2018 京东实习碎碎念

打开京东ME，显示在职天数三十九天。

Jan 2, 2018 聊聊二零一七半年纪事

我不禁想到，一代人的芳华已逝，面目全非，虽然他们谈笑如故，可还是不难看出岁月给每个人带来的改变。倒是刘峰和小萍显得更为知足，话虽不多，却待人温和

Dec 31, 2017 Neural Networks Theory

深度神经网络的损失函数的非凸性讨论，局部最小值和鞍点理论，如何用可视化的方式讨论神经网络的损失函数

Dec 27, 2017 模型之间的关系

这篇博客梳理了机器学习常见模型之间的关系，涉及到从不同的角度看同一个模型，或者从同一个角度看不同的模型。

Dec 5, 2017 map和set的坑

做题过程中遇到很多需要map和set处理的场景，这篇博客讨论map，unordered_map，set，unordered_set，unordered_multiset的区别和联系，以及背后的数据结构实现等。

Nov 24, 2017 计算理论

带着一个LeetCode题目能否有一个形式化的数学描述，并且存在一个数学的解决方法，梳理了计算理论的基本概念，然而疑惑并没有得到解决。

Nov 14, 2017 Spark从入门到离家出走

这篇Blog是关于Spark的第二篇，主要回顾了三道题目，分别是词频统计，大文本去重和topK问题。同时在参考部分，列出了一些非常棒的参考资料。

Nov 14, 2017 Linux下的文本处理工具

在很多数据处理场景下，很多人倾向于屠龙刀和倚天剑，如果一不小心砍歪了，重新抡起刀剑砍就是了。但是如果砍一下的cost很大的情况下，不如用匕首补刀。而Linux下的文本处理工具就像这把匕首，更贴切的感觉像是一把瑞士军刀，小而功能齐全。

Nov 10, 2017 关于Gas Station的思考

Gas Station是一道Medium类型的题目，这篇Blog仅仅是对该题的一些思考，并不是一个答案解析的过程。

Nov 4, 2017 用进程池Pool进行代码加速

给出了不使用成熟大框架spark和hadoop的前提下，如何发挥集群算力的解决方案的想法，分布式进程进行任务分配+单机多核多进程+单核协程(仿多线程），实际上比赛代码加速还是多进程好使，其他的技术可能只是讨论讨论

Oct 19, 2017 XGBoost调参

这篇博客是为了配合组会做XGBoost的论文报告，包括XGBoost的基本超参数调节，自定义目标函数和度量函数，特征重要性，决策树绘制和保存，特征离散化。

Oct 19, 2017 关于Blending和Stacking的讨论

这篇博客讨论了模型融合技术中的Blending和Stacking，分析了二者之间的关系，同时开了Stacking和神经网络的脑洞。

Oct 5, 2017 从C++的字符串分割展开讨论

C++没有内置字符串的分割函数，惊不惊喜，意不意外？

Sep 30, 2017 Python技巧

这篇博客讨论了KNN实现过程中涉及到的排序和查找，TopN问题，词频统计等非常经典的基础问题，同时引入了heapq和Counter两个模块。

Sep 24, 2017 记一次Debug经历

最近在备战PAC2017-AI组的决赛，下午写metric模块的时候，考虑到边界条件，必要时需要捕获除零异常。但是，在问题没有发现之前，怎么也捕获不到，这是为什么呢？

Aug 25, 2017 利用statsmodels做数学建模比赛

最近备战华为杯数学建模竞赛，作为一个Pythoner，偏向于通过coding进行统计分析，主要是因为SAS和SPSS不会用，囧。

Aug 13, 2017 pandas引用和复制的PK

经常会遇到一个warning，叫做SettingWithCopyWarning，本文尝试弄清楚pandas在各种场景下的引用和复制的问题，也就是view和copy的对比。

Aug 13, 2017 针对密集目标检测的焦点损失函数

这是何凯明老师团队8月7日挂在arXiv的一篇文章，文章原名《Focal Loss for Dense Object Detection》，恰逢我们在做的一个NLP的比赛遇到不平衡问题，小林师兄就提到这篇文章，但是苦于BigDL有点儿坑，在自定义loss的时候学习成本略大，就没用到比赛中(其实就是懒)，今天读读文章，还是有启发的。

Aug 12, 2017 Spark学习笔记

全国并行应用挑战赛之人工智能组的赛题：基于NLP的金融营销活动情感分析，指定关于开源库为Intel开发的基于Spark的BigDL，这篇文章回顾了比赛中使用Spark进行数据预处理的代码细节。

Jul 30, 2017 写在回家之前-研一下半学期总结

冒冒问我，看过冒险小虎队没？我说没。以前回家会带一些技术方面的书，CSAPP的第二刷就是寒假在家完成的。这次，我又是带了一箱子的书，嗯，皮皮鲁，舒克贝塔。

Jun 29, 2017 自定义XGBoost

在有些比赛中，需要根据自己的需求来自定义目标函数和评估函数，就自己而言，目标函数需要自定义的场景不太多。为了充分发挥xgboost的框架作用，很多时候自定义评估函数的需求相对强烈。

Jun 27, 2017 LeNet

文章通过梳理一个具体的网络结构LeNet，计算参数数量和连接数，分析卷积核和下采样核等，感性的认识网络结构的建立，同时给出了自己的判断。

Jun 26, 2017 细数二维数组的坑

在LR的MPI实现中，吐槽了使用Eigen在消息传递中的不方便之处。在RDPSO的优化实现中，采用原生二维数组，本文是关于二维数组相关的坑的总结。

Jun 26, 2017 Linux编译安装

linux环境下的编译安装相关，文中结合自己日常run代码和使用开源工具的经历，总结需要的编译安装知识，不是所有的问题都可以apt-get,yum,pip,brew等来搞定，必要时还是需要编译安装。

Jun 22, 2017 图划分

嗯，这个事情应该没有人做过滴，因为老板是RDPSO主要发明人呀。本文简要谈RDPSO的加速计算，主要涉及MPI的通信函数梳理和一些基本且重要的概念。

Jun 18, 2017 关于tensorflow和keras的思考点

图计算，静态图和动态图，符号计算

Jun 15, 2017 关于K-means变种的论文阅读

K-means是特殊情况下的高斯混合模型，关于K-means的各种改进论文，看作者看会议，真的有意思。K-means看似逻辑简单，关于该算法的研究一直没有停止过，ICML 2017就有三篇

Jun 14, 2017 图划分

自然科学基金项目，求解大规模数据分析中复杂优化问题的演化算法研究中的一个比较基础的问题，想法是将原目标函数分解成多个子目标函数的和的形式，每个子目标用节点表示，两个子目标的共享变量用边表示，合作协同演化。

Jun 1, 2017 啊哈，CNN!

趁着跑Eve代码的时间，读了一些关于CNN的东西，在这之前，只在组会上听实验室的师兄师姐聊。可能会看到一些关于R(2)NN,LSTM的一丢丢东西。

May 27, 2017 ICML 2017论文马拉松

给浏览的ICML 2017的论文做一个笔记，由于文章太多了，只选择了我自己感兴趣的领域去读。

May 17, 2017 Recursive Decompose for Noncovex Optimization

论文阅读。这篇文章主要讨论了非凸优化问题的一种递归分解方法。

May 15, 2017 SGD with Feedback Coding Experiences

SGD with Feedback Coding Experiences

May 11, 2017 并行与问题分解技术

老板给了一篇IJCAI2015的BestPaper，Pedro Domingos出品，针对Non-Convex问题的递归分解。网上关于这篇文章的讨论不太多，在读这篇文章之前，先讨论一个ACM题目，涉及一些关于递归，加法原理和如何进行问题分解的思考。

May 8, 2017 Basic Notes About Convex

论文阅读。这篇文章主要讨论了凸优化相关的基础知识。

May 5, 2017 SGD with Feedback

论文阅读。这篇文章主要讨论了带有反馈的随机梯度下降算法。

May 4, 2017 关于学术/竞赛资源的想法

和周围同学聊天，有几个同学问起我所使用的学术资源，这里简单做一个总结。

Apr 12, 2017 Deep Learning Optimizer Tricks

论文阅读。这篇文章主要讨论了深度学习中的优化技巧。

Apr 10, 2017 Regression Forward Lars

论文阅读。这篇文章主要讨论了回归问题中的LARS算法。

Apr 8, 2017 Idea from Bottou

论文阅读。这篇文章主要讨论了深度学习中的优化问题。

Apr 6, 2017 Regret Bound for SGD

论文阅读。这篇文章主要讨论了随机梯度下降算法的遗憾界分析。

Apr 1, 2017 GBDT-下里巴人版

XGBoost是GBDT的高效实现，本文用一个简单的例子说明GBDT工作方式，尽量不堆公式。同时关于XGBOOST，给出了几个经典的问题，关于XGBOOST在实现上可能带有作者们自己的偏好，不管怎样，从比赛和项目使用来看，效果很不错。

Mar 26, 2017 Optimization Method for Large Scale ML

论文阅读。这篇文章主要讨论了大规模机器学习中的优化方法。

Mar 20, 2017 sklearn中的并行和串行

聊聊pipeline,featureunion,gridsearch等话题

Mar 19, 2017 Optimization Method for Large Scale ML

论文阅读。这篇文章主要讨论了大规模机器学习中的优化方法。

Mar 15, 2017 xgboost源码阅读-启动过程

这篇短文聊聊xgboost的启动过程，其中包括对rabit的介绍，启动流程等，rabit在之前的文章中也有提到过。

Mar 14, 2017 逻辑回归并行化

讨论了并行化的一些话题，对于逻辑回归用于分类问题，采用MPI进行并行化，优化过程采用批量梯度下降(BGD)

Mar 6, 2017 矩阵乘法的分布式实践

MPI负责管理节点和计算节点通信，OpenMP负责计算节点并行加速，给出了并行加速比和效率曲线

Feb 24, 2017 深入理解数据结构

回顾了关于copy的坑，常用数据结构的时空复杂度，同时结合CS231n的视觉课程做了python基础的review。

Feb 22, 2017 后知后觉函数式编程

文中主要谈了匿名函数,filter,map,reduce等，同时给出了一些短小精美的代码。

Feb 22, 2017 若干有意思的知识点

鸭子类型，装饰器，闭包，生成器

Feb 21, 2017 IJCAI-17 口碑商家客流量预测

这是一篇比赛中途的思路梳理，回顾了比赛方案设计，具体包括特征工程，模型融合，代码加速三部分，以期从过去激发新想法。

Feb 20, 2017 Learning from Imbalanced Data

解决数据不平衡问题的一篇论文笔记

Feb 19, 2017 分布式加速

在代码加速篇中谈到了多线程和多进程的方式，并提出了分布式的设想。本文在设想基础上，给出了更加详细的描述。

Feb 19, 2017 天池比赛-口碑商家客流量预测(代码加速篇)

比赛还未结束，目前排名前15%。利用周末时间，进行代码复盘，重点在代码加速方面，稍后会给出我们的设计思路。

Jan 9, 2017 shared_ptr

xgboost中对于智能指针的使用，主要有两个shared_ptr和unique_ptr。这篇文章是对shared_ptr的理解和典型使用场景说明，以读懂xgboost源码中的使用场景为目的。

Jan 9, 2017 unique_ptr

xgboost中对于智能指针的使用，主要有两个shared_ptr和unique_ptr。这篇文章是对unique_ptr的理解和典型使用场景说明，以读懂xgboost源码中的使用场景为目的。

Jan 9, 2017 xgboost源码调试

mac中使用lldb调试器在vim中调试xgboost的c++源代码，其中xgboost为单线程版本

Jan 8, 2017 聊聊const

放眼望去，xgboost源码尽是const。合理使用const，是编程质量高的一个表现。谁说的，出来，我保证不给他鼓掌。隐藏保证数据安全性，共享破坏数据安全性。

Jan 7, 2017 工厂设计模式

最近读xgboost源码，在目标函数设计时，contributors们采用了工厂设计模式，这个技能点有没有Get到?

Dec 31, 2016 写在2016年最后一天

2015年，人生中艰难的一年，举步维艰。2016年，自己是幸运的。2017年，没有什么大的梦想，只愿世界和平，编程没有野指针

Dec 28, 2016 STL陷阱

一次关于erase的踩坑经历

Dec 25, 2016 数据概貌

行动之前看数据

Dec 22, 2016 图像处理知识框图

马上就是圣诞节了

Dec 21, 2016 绘图简化

收集主程序待输出数据，统一绘图

Dec 20, 2016 形态学与图像

关于冈萨雷斯《数字图像处理》课后一道习题的想法

Dec 5, 2016 交叉验证

偶然间看到余凯在某次工业界报告中谈到误差，就想写点关于模型选择，偏差方差均衡，交叉验证之类的东西。

Dec 4, 2016 编程复盘

BP算法实现后的想法

Nov 10, 2016 从最优装载看贪心

贪心选择证明和最优子结构证明

Oct 28, 2016 NP问题和近似算法

计算理论和几个近似算法的讨论(非数学)

Oct 11, 2016 两个tricks

尾递归和回溯

Oct 8, 2016 再聊动态规划

从问题中验证思想

Oct 7, 2016 尚方宝剑之右值引用

C++11新特性

Oct 7, 2016 浅聊算法思想和策略

大多时候的我们对于算法思想(策略)只是看起来明白了而已

Oct 6, 2016 一个关于写时Copy的问题

室友发现了C++的一个大Bug!

Oct 5, 2016 聊聊size_t

最熟悉的陌生类型声明

Sep 11, 2016 结博语

写文字，亦是一种修炼。这是一封给博客读者的信

Sep 10, 2016 开博语

总要写点文字来点缀生活，无论是数学，文学还是其他

标签搜索

日期搜索

访客统计