neuroscince为何需要big data?


NeuroTimes | Oct. 20, 2015



虽然neuroscince看起来没有与data science有太多交集,但其实有很多联系:

例如光遗传学,每小时内产生的数据可能就要上TB,如何理解和分析这些数据就很重要。但目前的大多数神经科学数据分析都是用一台电脑跑数据,事实上更需要分布式计算。Apache Spark较好用,一是因为 abstraction for in-memory caching ,二是因为它为Scala, Java和Python 提供 APIs。

neuroscince中的data science
例如,对于brain map的研究,当斑马鱼转向时,     脑中不同的神经元激活,那么向不同的方向转是不是由于不同集群的神经元激活?对于不同方向转向的统计可能产生关于方向选择的brain map。就好像投票,人们投票给候选者,神经元们投票给方向,一定规则下的投票结果统计就决定了要前进的方向。但这只是静态数据,动态数据会大的可怕,一定要分布式计算来统计。

神经科学的长期目标之一是揭示神经编码机制。人脑某种程度上像计算机,但功耗更低,某些功能更强,如识别、在复杂环境中行动。虽然现在的 neural networks和人工智能在向 “neuron”-like nodes发展,尝试用芯片模拟神经元,通过互相连接来模拟大脑。但与真实大脑还是有差距,真实大脑中有各种不同的细胞,具有不同的形状、功能、连接和交流方式,并非单一。可能人类需要解决各种任务,需要灵活性以适应这个复杂多变的世界,而非像机器一样去解决单一的任务。

短期内,神经科学同样对data science有作用,神经数据大而复杂,与其他学科可以互助,例如brain map的手段可以与卫星数据和地理数据的处理相似,时间序列的处理也在越来越多的传感器中被用到,可以互相借鉴。

挑战也是类似的: 数据预处理,分布式管道,算法模式,可视化。pre-processing, distributed pipelines, algorithms for pattern discovery, visualization




分享到


© 2014-2015 NeuroTimes