case语句和偏函数

博客分类：

scala

Scala通过case语句提供了形式简单、功能强大的模式匹配功能。但是也许你不知道，Scala还具有一个与case语句相关的语言特性，那就是：在Scala中，被“{}”包含的一系列case语句可以被看成是一个函数字面量，它可以被用在任何普通的函数字面量适用的地方，例如被当做参数传递。 Scala代码 scala> val defaultValue:Option[Int] => Int = { case Some(x) => x case None =>

2015-07-03 09:26
浏览 629
评论(0)
分类:编程语言

Linux下高cpu解决方案（转载）

昨天搞定了一个十万火急的issue，客户抱怨产品升级后系统会变慢和CPU使用率相当高，客户脾气很大，声称不尽快解决这个问题就退货，弄得我们 R&D压力很大，解决这个issue的任务分给了我，客户是南非的一个公司，由于时差问题，我只好在家远程解决问题，晚上8点半用 gotomeeting远程到客户电脑查看我们的系统，折腾了四个多小时，终于在凌晨时reproduce了这个high CPU，赶紧抓Log，用wireshark抓包，用gcore,gstack,strace和top保存了系统的相关输出。在第2天分析了这些文件后，找到了产品的bug，代码的作者分配了10K的缓冲区，并想当然认为10 ...

2015-07-01 18:05
浏览 616
评论(0)
分类:操作系统

How-to: Use HBase Bulk Loading, and Why

博客分类：

HBASE

Hbase对外提供随机、实时的读写访问大数据，但问题是首先需要高效的把数据导入HBASE。通常我们通过mapreduce任务以及设置TableOutputFormat来调用hbase API导入数据。但是这样需要经过hbase的writepath：写数据到memstore，写WAL，flush

2015-06-26 16:46
浏览 1390
评论(0)
分类:开源软件

java中priorityQueue的实现

博客分类：

JAVA

PriorityQueue介绍在平时的编程工作中似乎很少碰到PriorityQueue（优先队列），故很多人一开始看到优先队列的时候还会有点迷惑。优先队列本质上就是一个最小堆。前面一篇文章介绍了堆排序和堆的性质。而堆又是什么呢？它是一个数组，不过满足一个特殊的性质。我们以一种完全二叉树的视角去看这个数组，并用二叉树的上下级关系来映射到数组上面。如果是最大堆，则二叉树的顶点是保存的最大值，最小堆则保存的最小值。下面是一个典型的优先队列的结构图：它的每个父节点都比两个子节点要小，但是整个数组又不是完全顺序的。有了前面的这些铺垫，我们再来 ...

2015-06-25 10:43
浏览 3237
评论(0)
分类:编程语言

JAVA中的ConcurrentHashMap实现

博客分类：

JAVA

ConcurrentHashMap ConcurrentHashMap是一个线程安全的Hash Table，它的主要功能是提供了一组和HashTable功能相同但是线程安全的方法。ConcurrentHashMap可以做到读取数据不加锁，并且其内部的结构可以让其在进行写操作的时候能够将锁的粒度 ...

2015-06-19 14:55
浏览 1487
评论(0)
分类:编程语言

HBase的Block Cache实现机制分析

博客分类：

HBASE

本文结合HBase 0.94.1版本源码，对HBase的Block Cache实现机制进行分析，总结学习其Cache设计的核心思想。 1. 概述 HBase上Regionserver的内存分为两个部分，一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读。写请求会先写入Memstore，Regionserver会给每个region提供一个Memstore，当Memstore满64MB以后，会启动 flush刷新到磁盘。当Memstore的总大小超过限制时（heapsize * hbase.regionserver.global.mems ...

2015-06-19 11:45
浏览 551
评论(0)
分类:开源软件

hbase中的MSLAB

博客分类：

HBASE

CDH用MSLAB避免Hbase FullＧＣ使用Hbase过程中如果出现长时间Stop-The-World GC，会造成以下两种影响： 1. 在Stop-The-World GC过程中，用户请求被阻塞，导致明显的延迟甚至超时。 2. Hbase通过zookeeper维系集群节� ...

2015-06-19 10:21
浏览 1189
评论(0)
分类:开源软件

hbase优化（1）

博客分类：

HBASE

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化 zookeeper.session.timeout 默认值：3分钟(180000ms) 说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管. 调优：这个ti ...

2015-06-18 11:16
浏览 747
评论(0)
分类:开源软件

实时系统HBase读写优化--大量写入无障碍

博客分类：

HBASE

在使用hbase过程中发现在写入hbase的数据量很大时，经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的，一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。 1.禁止Major Compaction 在hbase进行Major Compaction时，该region将合并所有的storefile，因此整个region都不可读，所有对此region的查询都会block。HBase默认一天左右执行一次Major Compaction。我们将Major Compaction禁掉并用Cron脚本每天在系统空闲时对所有表执行major co ...

2015-06-18 10:55
浏览 3855
评论(0)
分类:开源软件

HIVESERVER2问题解决

博客分类：

HIVE

hiveserver2是hiveserver的高级版本，在安全和并发上有所增强。hiveserver2相关的基础参数有： hive.server2.transport.mode – 默认值为binary（TCP），可选值HTTP，0.13版本后开始支持。 hive.server2.thrift.http.port– HTTP的监听端口，默认值为10001。 hive.server2.thrift.min.worker.threads– 最小工作线程数，默认为5。 hive.server2.thrift.max.worker.threads – 最大工作线程数，默认为500。 ...

2015-06-18 10:30
浏览 15794
评论(0)
分类:开源软件

hiveserver2配置

博客分类：

HIVE

在之前的学习和实践Hive中，使用的都是CLI或者hive –e的方式，该方式仅允许使用HiveQL执行查询、更新等操作，并且该方式比较笨拙单一。幸好Hive提供了轻客户端的实现，通过HiveServer或者HiveServer2，客户端可以在不启动CLI的情况下对Hive中的数据进行操作，两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求，取回结果。HiveServer或者HiveServer2都是基于Thrift的，但HiveSever有时被称为Thrift server，而HiveServer2却不会。既然已经存在HiveServer为什么还需要HiveSer ...

2015-06-17 10:59
浏览 3766
评论(0)
分类:开源软件

java内部类详解

博客分类：

JAVA

说起内部类这个词，想必很多人都不陌生，但是又会觉得不熟悉。原因是平时编写代码时可能用到的场景不多，用得最多的是在有事件监听的情况下，并且即使用到也很少去总结内部类的用法。今天我们就来一探究竟。下面是本文的目录大纲：　　一.内部类基础　　二.深入理解内部类　　三.内部类的使用场景和好处　　四.常见的与内部类相关的笔试面试题　　若有不正之处，请多谅解并欢迎批评指正。　　请尊重作者劳动成果，转载请标明原文链接：　　http://www.cnblogs.com/dolphin0520/p/3811445.html 一.内部类基础　　在Java中，可以将一个类定义在另一 ...

2015-06-16 15:33
浏览 594
评论(0)
分类:编程语言

HIVE优化5）

目录[-] 1、Map阶段的优化(map phase) 2、Reduce阶段的优化(reduce phase) 3、Map与Reduce之间的优化(spill, copy, sort phase) 3.1 Spill 与 Sort 3.2 Copy

2015-06-12 17:42
浏览 671
评论(0)
分类:开源软件

YARN的一些常见错误

博客分类：

HADOOP

hadoop

问题导读1、Hadoop YARN常见问题有哪些？2、你是如何解决这些问题的？　　本文汇总了几个hadoop yarn中常见问题以及解决方案，注意，本文介绍解决方案适用于hadoop 2.2.0以及以上版本。　　（1）默认情况下，各个节点的负载不均衡（任务数目不同），有的节点很多任务在跑，有的没有任务，怎样让各个节点任务数目尽可能均衡呢？

2015-06-12 13:58
浏览 1938
评论(0)
分类:开源软件

（转）hadoop yarn 内存相关配置

博客分类：

HADOOP

yarn 内存

1.YARN中处理能力的基本单元是什么？2.什么是保留内存？3.4到8G Container建议多少M？在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的

2015-06-11 09:09
浏览 1428
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

case语句和偏函数

Linux下高cpu解决方案（转载）

How-to: Use HBase Bulk Loading, and Why

java中priorityQueue的实现

JAVA中的ConcurrentHashMap实现

HBase的Block Cache实现机制分析

hbase中的MSLAB

hbase优化（1）

实时系统HBase读写优化--大量写入无障碍

HIVESERVER2问题解决

hiveserver2配置

java内部类详解

HIVE优化5）

YARN的一些常见错误

（转）hadoop yarn 内存相关配置

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>