关于海量数据处理的面试题
关于海量数据处理的面试题
面试由于它的灵活性和有效性常被运用招聘中。那关于海量数据处理的一些面试题有哪些呢?下面是学习啦小编为你整理的海量数据处理的一些面试题,希望对你有帮助。
海量数据处理的面试题
在处理海量数据问题时,首先要仔细分析问题,明白问题需要解决那些关键问题,明白需要达到怎样的存储、性能要求,在这之前,应充分理解业务数据的分布、数据粒度、数据服务的质量要求、数据的动态性、数据的关联性等真实数据、业务熟悉。通常,处理海量数据问题时,心中要有一些基本概念:
1. 现有的开源的优秀工具那些是处理海量数据的;
2. 海量数据就因为数据大吗,可以考虑对海量数据进行分区操作;
3. 加快海量数据的访问,数据索引必不可是;
4. 内存总是有限的,内存的速度是最好的,建立缓存机制是十分必要的;
5. 海量数据来源多样,数据格式也不相同,最好是统一为字符串处理,逻辑处理交给上层应用;
6. 海量数据离不开集群、分布式,分布式的出错处理、负载均衡就必然要有一套可行的机制;
7. 所有底层的问题或者说存储的问题解决了,未来方便上层应用或者夸大底层支持的业务,对外应该有一个明朗的逻辑视图;
8. 系统设计和结构,会因为不同的语言、操作性在实现难以上不同,这也需要考虑;
9. 海量数据的一个应用就是数据挖掘服务,多域数据来源统一管理下,数据仓库和相关计算也应该了解一二;
10. 尽管说存储不是问题,如果能对数据进行压缩处理,又可以接受的性能,这何乐而不为呢。
在参考前人博客、文摘加上个人一点理解,汇总以下一些基础概念已帮助和我一样面临就业的学生,应对未来公司的面试考核。当然,有实际工作经验的大牛门来说,下面的问题早已不是问题,他们都在某个问题上是专家了。欢迎大牛指导!
具有通用性的数据结构和算法思路汇总有:
1. Bloom filter
2. Hashing
3. bit-map
4. 堆
5. 双层桶划分,可以理解为多级索引
6. 数据库索引
7. 倒排索引(Inverted index)
8. 外排序
9.trie树
10.分布式处理
看过“关于海量数据处理的面试题”的人还看了: