技术开发 频道

母延年:希望以后提到Lucene除了ES还能想到录信

  【IT168 专访】在搜索领域你可能没有听过“录信”,但是一定听过Lucene。

录信数软CTO 母延年

  “‘录信’是‘Lucene’的谐音,我的Lucene发音不太准。”在刚刚过去的SACC2019大会上,录信数软CTO母延年讲到公司名字由来时脸上满是笑意,那笑意里有他对Lucene十多年的热爱与坚持,也有对万亿级数据时代到来的信心。

垂直深处有洞天

  Apache Lucene被誉为迄今为止最先进、性能最好、功能最全的搜索引擎库,业内耳熟能详的Elasticsearch(ES)便是基于Lucene 的开源搜索引擎,目前在大数据搜索领域ES基本上一家独大。

  2018年10月ES的母公司Elastic在大洋彼岸敲钟上市,这被视为技术创业者的春天来了。在此三个月前,一家名为录信数软的中国技术公司正式注册,基于Lucene开发支持超万亿级规模的大数据搜索与统计产品,要与ES分一杯羹。

  在数据是新石油的大数据时代,创业者众多,2013年被称为中国大数据元年,前后涌现了大批大数据创业者,有的基于业务有的偏于底层,经过7、8年的发展,当初的创业公司大浪淘沙后不少从工具做到了平台,而平台间的厮杀要拼技术、资源与生态。

  “如果现在做平台的话,可能机会不是特别多了。”创业初期母延年就决定深耕垂直领域,躲开红海的厮杀,发挥自己的长处。从新浪做搜索第一次接触Lucene到现在十多年,虽然中途辗转过几个公司,但是技术方向从未变过,一直是Lucene,他了解Lucene的任何细节,明白自己的长处是索引,录信一开始也定位在做一个有垂直特性的小插件。在服务客户的时候与更懂业务的行业集成商合作,发挥自己的技术优势。

  业内做索引大多是基于ES,对于一家商业公司而言无法随便更改。录信一方面做ES没有的特性,基于Lucene开发可以搜人、搜图、搜轨迹等,另一方面与ES形成互补,基于Hadoop存储对于容灾以及过载保护有独特的优势。此外优化改造Lucene使之支持列簇存储,能够根据场景存储,实现万亿数据秒查。

  根据IDC预测,全球数据总量预计2020年达到44个ZB,中国国数据量将达到8060个EB,占全球数据总量的18%,海量的数据带来很多挑战和机遇。

  去年8月份,录信推出了检索分析型数据库,恰逢军民融合的浪潮,其首个客户也是来自军队,随着国产自主可控的需求加大,海量数据的处理涉及很多特性场景ES的通用解决方案的不足也逐渐凸显,录信迎来了自己的机会,凭借产品的高性能和低成本,其客户也延伸到公安、汽车等行业。

  随着合作的深入,基于客户的需求录信也不断延展自己产品,某一合作客户有数据统计分析的需求,海外的一款产品1T数据量需要20万元,而该客户一个集群几亿数据成本太高,录信自研推出了自己的统计分析型数据库产品,将成本降到了几百万元,而在服务客户的过程中发现有些客户有一体机的需求,推出了检索分析一体机。

  目前录信已经推出检索分析型数据库、统计分析型数据库、检索分析一体机三款产品,与行业集成商累计服务300多个项目,涵盖公安、军队、汽车等垂直行业。

技术之外多修行

  成立一年多来录信目前有20多人,支撑起300多个项目已经达到了较高的人均产出比,这离不开母延年最初产品化发展的路线。

  “我更适合做产品,ToB服务每个行业做项目都需要理解定制化的需求。如果按照项目堆很多人,成本不合算,我们出产品,与行业集成商一起为客户提供整体解决方案。”现在市场的认可给了母延年更多的信心,而可以经受风雨的信心需要与现实的磨合积累。

  任何公司应用新的技术都会比较谨慎,尤其是录信服务的几个行业可能会更慎重。一开始从边缘业务和场景测试,慢慢向核心业务转直到生产环境中。最初第一个军队的客户测试了半年多还没有成单。卖掉股票创业的母延年对启动资金能支撑多久心里没底,对奋斗的小伙伴也有肩上的责任,他开始质疑自己的这次创业。

  消除质疑的最好方式是实践,在反思与坚持中伴随着努力、等待和希望,后来慢慢得到军队和公安几个客户的认可,“吃了一颗定心丸。”母延年回忆。

  几乎每个创业者都会经历一个探索期,产品在探索中不断打磨,而创业者也会以更快的速度成长。“创业跟之前在阿里、腾讯工作完全不一样,在阿里、腾讯工作比较单纯,就是我只需要做这一样事情做好就可以,创业要教代码、带团队、融资,也要制定好企业未来的方向。”没有谁是天生的领导者,母延年在Lucene十年如一日的积累让他在搜索技术方面有了可以与ES一较高下的资本,而创业需要综合能力,木桶效应会被无情的战场放大,所以他快速意识到团队的重要性,势必要建立一支真正无往不胜的战队。

  如今录信以平均每天都有项目在上线的速度增长,客户从测试到落地周期也缩短到三个月。母延年相信随着5G的不断商用,万亿级数据时代会真正到来,那是录信团队可以一展身手的舞台。未来录信一方面会深挖垂直领域的索引和分析场景,比如时空分析、音波碰撞、农业图谱等,另一方面会探索更多与特种硬件的结合,比如一体机与GPU结合性能可以提升一个量级,都需要从Lucene底层架构改造,那正是他擅长的地方。

  在这次采访过程中母延年一直强调要感谢这个时代,资本与市场都逐渐认可纯技术研发创业者。创业维艰,技术之外还有很多需要录信团队去思考摸索,我们愿意相信常怀感恩之心的人运气终不会太差。

  “大家一提到Lucene,除了能想到ES以外,还能想到录信。”这是母延年最朴素的期望,他认为对于有巨大需求的市场一家独大不太正常,国内也需要更多的人投入到基础研发领域。

  对于技术创业者来说,这是最好的时代,没有任何一个时期能像现在这样对底层技术需求如此之深而迫切,这也是最坏的时代,没有任何时代像现在这样瞬息万变。而对于能够把自己喜欢的事变成事业的人来说,好和坏还那么重要吗?

2
相关文章