“这是从我入职,赵姐那边给到的所有数据,每一个文件夹都有详细说明。”
咎因点开其中一个已使用数据,里面仍然是分类整理,排在最开头的就是说明文档。
她还想继续讲,凌壹打断道:“我自己看,有什么问题再问可以吗?”
“哦”咎因丢了鼠标,道:“那你自己看吧。”
凌壹笑道:“所以我们以后的工作就是,我把干净的数据给你,如果有需要,连同数据使用方法给你,你来实现业务是吗?”
“对。”
“你以前是怎么处理数据的?”
“就按照正常逻辑啊,先对比缺失值,查找异常和重复,标准化数据,减去不平衡段,然后验证。”
“听上去没啥问题,那为什么说最近没数据。”
“不是没有数据,是赵姐那边给的数据非常杂,我感觉他们遇到了瓶颈。”
“怎么个杂法?”
“我们的项目只要味觉细胞数据,一开始来的时候,数据特征是很明显的。
最开始做的,是对味觉的酸甜咸鲜苦进行编码,赵姐说口腔细胞能感受到的味觉都是由这五种组成的。
比如说咸味,具体规则我记不太清楚,你在代码注释里可以查到。大致来说就是,咸味是Na 浓度决定的。
Na 在扩散的时候,离子直接通过味觉细胞顶端膜上的通道介导,产生了去极化,也就是静息电位向膜内负值减小的方向。
在最开始的数据里,这是对的,越到后面,就越不符合。一定有一份数据是错误的,我跟赵姐都倾向于后面的数据有问题。
她想让我试试能不能在一堆明显有问题的数据里,分离出一丁丁点有用数据。
这个难度太高,也许本来就不可能,只能让她继续测。”
“为什么会造成这种情况你想过吗?”
“有啊。”咎因笑,“我要是没想过,赵姐都要发火了,她自己也很清楚,一开始的测试数据是大方向的。
比如说,开始的时候,测试对象是一百个细胞组成的整体,他们感受到了咸味,表现出去极化。
这个结果是可复现的,批量测试出来的数据误差值也小,那我肯定知道数据正确稳定可靠。
然后现在大方向已经完成,你看那个草莓已经很像了,只是需要细化,我们就需要微量级数据。
可能测试对象就变成单个细胞,然后发现每一个细胞的结果都不相同,该表现数据的没表现,表现出的数据不稳定,还有一些根本不该出现的数据值在里面。
你把单个细胞的值相加,总值和细胞团无法配平,细胞小团和小团值相加,又没办法配平成大团的总值。
所以结果全部都是乱的,以前建立起来的模型和算法完全无法带入,我想应该是赵姐他们没有发现细胞和细胞团之间结合的规律是什么。
他们都没发现,我更加不可能发现啦,当然就没办法用代码模拟业务逻辑,所以就闲下来了。
具体你可以跟赵姐聊聊,不过她最近脾气不太好,你小心点。”
“嗯,知道了。”凌壹点点头。
“你可以先看看我以前写的东西,帮我改进一下,嘿嘿。”咎因笑着用脚撑地,将椅子滑了回去。
凌壹调出编译器,进入到源代码读了几页,发现咎因的程序习惯确实非常好。
计算机行业来说,一份优秀的代码应该包含以下特征:编码规范,文档记录清楚,可读性好,可维护性高,效率性能优化得当。
不管从哪方面来看,咎因甚至能称得上完美。尤其是在程序效率这块,其使用的数据结构和算法都非常符合业务情况,基本没有冗余浪费。
逻辑方面,很少出现循环迭代等垃圾机制,I/O操作也很少。代码写的简洁漂亮,每行都有注释,简直是个活菩萨。
“这几个算法模块也是你写的吗?”凌壹问。
“对啊,那个很初级,赵姐稍微说下原理,我就可以实现。后面就不行,他们说不出来,只给我一堆结果数据让我倒推。
就那堆结果数据,还是不准确的。所以,到你大展身手的时候了。”
凌壹缓缓出了口气,她不是不会写算法,是根本没有内容需要算法实现,也没有数据模型验证正确与否。
换言之,Genesis只知道算法跑出来的结果,现在想要根据结果推过程,问题是结果也不准确,存在太多杂质,推都不知道从哪推。
和自己想的一模一样,实验数据中其实还包含了肢体动作电流和大脑电流。
咎因只计算味觉细胞特性,怎么可能配平。