我有这样的a custom Pig loader:
A = LOAD 'myfile' USING myudf_loader()
A
包含:((key1, val1), (key2, val2), (key3, val3), ...)
A
具有一个外部元组,其中包含存储在内部元组中的键值对。chararrays
,而值可以为chararrays
,ints
和floats
。A
的内部元组,以及这些元组中的(键,值)对。FILTER
A
的键,以便剩下的唯一字段是key = "city"
和value = "New York City"
。DUMP A;
(("city", "New York City"), ("city", "Boston"),
("city", "Washington, D.C."), ("non-city-key", "non-city-value"),
("city", "New York City"), ("non-city-key", "non-city-value"))
B
中:DUMP B;
("city", "New York City")
("city", "New York City")
最佳答案
我没有完整的 pig 拉丁文字。
但是您可以使用以下思路实现
grouped_records = GROUP records By Key;
filtered_records = FILTER grouped_records By group='CITY'
Dump filtered_records
https://stackoverflow.com/questions/24337117/
相关文章:
docker - 运行openshift/origin docker时出错:运行 'chcon'来设
docker - Docker:对apache虚拟主机进行Docker化
amazon-web-services - 如何为Docker注册日志记录驱动程序?
amazon-web-services - 我可以安排Docker在特定时间在Amazon ECS上
amazon-web-services - 如何使用 Amazon ECS 从 Tutum 私有(p
docker - 是 "docker start"完全恢复由 "docker run"启动的所有正在
nginx - 为什么Docker https-portal的 “See It Work”部分给我一