ferventdesert / hawk Goto Github PK
View Code? Open in Web Editor NEWvisualized crawler & ETL IDE written with C#/WPF
License: Apache License 2.0
visualized crawler & ETL IDE written with C#/WPF
License: Apache License 2.0
无线市场群雄逐鹿 H3C等厂商崭露头角——2007年无线网络市场回顾与展望
请问一下,类似于这样的a标签,要怎么把href的地址做为一个属性抓出来呢?
这个是反扒了吧?
临时将此IP地址进行安全保护,但可能导致您无法正常登陆。
如有问题,请发送邮件至[email protected]。带来不便,敬请谅解,谢谢!
在网页采集器输入url后刷新的时候出现“尝试自动重定向的次数太多”的错误,要怎么解决?
[Failure] Could not find file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs'.
Severity Code Description Project File Line Suppression State
Error Source file 'D:\Github\Hawk\Hawk.ETL\Plugins\Transformers\ResponseTF.cs' could not be found. Hawk.ETL D:\Github\Hawk\Hawk.ETL\CSC
正则转换时无法使用正则表达式中的&匹配结尾
(?<=单位\s*\]\s*:\s*).*?(?=学院\s*)
能出结果
(?<=单位\s*\]\s*:\s*).*?(?=学院\s*&)
就出不了新列
您好:
在学习链家demo中,执行从爬虫转换总是不响应?
感觉问题是在从爬取获取那出问题了吧 ,但教程看了很多次,做了也很多次,还是不行呢
您好:
学习了大众点评的数据采集视频,但是在最终采集的数据表中,发现极大多数的数据重复项,请问这可能是哪种情况造成的?
多谢
严重性 代码 说明 项目 文件 行 禁止显示状态
错误 Program does not contain a static 'Main' method suitable for an entry point Hawk.Core E:\Course\Hawk\Hawk-master\Hawk.Core\CSC
启动的是Hawk.Core
为什么在属性提取模块中输入某一套房的单价出现的信息是:
2016-07-13 18:08:37 WARN 找不到其他符合条件的节点,搜索器已经返回开头 ?
只调用采集的核心功能,界面根据用户需求重新去开发
大众点评的例子中, 启动并行 page 默认开启时获取到的列表页为 3170个。关闭这个选项,获取到的列表页有6506个。即,启动并行 时,会发生数据丢失的现象。
我看源码中 SmartETLTool.cs 中,标注了 //TODO:这种分组方式可能会丢数据!!
请问,这个bug现在解决了吗。谢谢!
Win10 x64,没装WinCap Fiddle,默认的开启360浏览器,发现无法自动嗅探。手动开IE,也同样抓取不到内容。。。
最新源码用vs 2015编译后只有“调试信息窗口”,“属性配置器”两个窗口,其它窗口都不显示,这是什么问题?
例如有的网站有每次访问间隔不小于1秒之类的限制,多次违禁后屏蔽,该如何应对?
2016-05-30 10:20:36 ERROR 任务已经出错:System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Plugins.Executor.DbEX.<>c__DisplayClass14_0.b__2(IFreeDocument document)
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.Core.Utils.ExtendEnumerable.<MergeAll>d__35
1.MoveNext()
在 System.Linq.Enumerable.WhereSelectEnumerableIterator2.MoveNext() 在 Hawk.ETL.Plugins.Executor.TableEX.<Execute>d__12.MoveNext() 在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_0
1.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()
2016-12-16 19:47:54 ERROR 点击按钮: 添加 执行失败,错误信息 System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)
文案是不是也要跟着改一下?
图传不上来,就是调试信息窗口“2017-07-09 14:02:53 WARN 在该网页中找不到关键字 xxxxxx,可能是动态请求,可以启用【自动嗅探】,并将浏览器页面翻到包含该关键字的位置 ”
然后右侧3.动态请求嗅探中的文案是“超级模式”
有两个需求,一个是按照搜索关键词和一些条件,爬取相关微博账号,第二个是爬取这些账号的关注数、粉丝数、粉丝列表、注册时间、微博、微博发布时间、等内容,不知道能不能实现啊
要安装.net环境才能使用吗? 要不然写个详细点的使用教程 小白不懂得使用啊
现在链家北京的网页和视频不一样了,hawk抓取到数据表现为 远洋德邑 | 2室1厅 | 97.64平米 | 东南 | 精装 ,这种情况下需要户型、面积和朝向信息分别成列要怎样写表达式?
谢谢大神分享,还望不吝赐教。。
网址: http://0756fang.com/fang/974914.html
直接打开没有问题,把网页另存,在用hex看,也没有问题
但用hawk的网页采集器抓到的是乱码。
比对后发现是有些字节错了,文件头是 EF BB 3F, 应该没有这么一个头,
etf-8是EF BB BF,把头尝试该为EF BB BF,发现有些字对了,但有些字还是显示不出来,
@ferventdesert 有时间看看是啥原因?
加载的HtmlAgilityPack版本不对
System.Exception: System.Reflection.TargetInvocationException: 调用的目标发生了异常。 ---> System.IO.FileLoadException: 未能加载文件或程序集“HtmlAgilityPack, Version=1.4.9.5, Culture=neutral, PublicKeyToken=bd319b19eaf3b43a”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 (异常来自 HRESULT:0x80131040)
在 Hawk.ETL.Process.SmartCrawler..ctor()
--- 内部异常堆栈跟踪的结尾 ---
在 System.RuntimeTypeHandle.CreateInstance(RuntimeType type, Boolean publicOnly, Boolean noCheck, Boolean& canBeCached, RuntimeMethodHandleInternal& ctor, Boolean& bNeedSecurityCheck)
在 System.RuntimeType.CreateInstanceSlow(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.RuntimeType.CreateInstanceDefaultCtor(Boolean publicOnly, Boolean skipCheckThis, Boolean fillCache, StackCrawlMark& stackMark)
在 System.Activator.CreateInstance(Type type, Boolean nonPublic)
在 System.Activator.CreateInstance(Type type)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)SmartCrawler
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectInstance(Type pluginType)
在 Hawk.Core.Utils.Plugins.PluginProvider.GetObjectByType[T](String name)
在 Hawk.ETL.Managements.DataProcessManager.GetOneInstance(String name, Boolean isAddToList, Boolean newOne, Boolean isAddUI)
在 Hawk.ETL.Managements.ProcessTask.<>c__DisplayClass12_0.b__1()
在 Hawk.Core.Utils.ControlExtended.UIInvoke(Action handler)
在 Hawk.Core.Utils.ControlExtended.SafeInvoke(Action action, LogType type, String name, Boolean isui)
使用txt、csv单行一个数据时都存在此问题
<root>
<Doc Name="" Description="" Version="0" SavePath="D:\BaiduNetdiskDownload\Hawk\工程文件\cnblogs.xml">
<DBConnections>
<Children DBName="" Name="文件管理" TypeName="FileManager" ConnectString="" AutoConnect="True" />
<Children DBName="hawk" Name="MongoDB连接器" TypeName="MongoDBConnector" ConnectString="" AutoConnect="False" />
</DBConnections>
<Children Name="cnblogs文章列表" Type="SmartCrawler" URL="www.cnblogs.com" RootXPath="" IsMultiData="List" IsSuperMode="False" ShareCookie="" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
<HttpSet URL="" Allowautoredirect="True" Postdata="" Encoding="Unknown" Method="GET" Parameters="User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36
" />
<Children Name="diggit_diggnum" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[1]/div[1]/span[1]" IsHtml="False" />
<Children Name="digg_diggit_onclick" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[8]/div[1]/div[1]/@onclick[1]" IsHtml="False" />
<Children Name="digg_digg_tip_id" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[10]/div[1]/div[3]/@id[1]" IsHtml="False" />
<Children Name="titlelnk" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[16]/div[2]/h3[1]/a[1]" IsHtml="False" />
<Children Name="pfs_src" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[5]/div[2]/p[1]/a[1]/img[1]/@src[1]" IsHtml="False" />
<Children Name="a_href" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/p[1]/a[1]/@href[1]" IsHtml="False" />
<Children Name="post_item_foot_lightblue" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[6]/div[2]/div[1]/a[1]" IsHtml="False" />
<Children Name="article_comment_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[18]/div[2]/div[1]/span[1]/a[1]" IsHtml="False" />
<Children Name="article_view_gray" XPath="/html[1]/body[1]/div[1]/div[4]/div[6]/div[3]/div[2]/div[1]/span[2]/a[1]" IsHtml="False" />
</Children>
<Children Name="cnblogs数据流" Type="SmartETLTool" MaxThreadCount="20" GenerateMode="串行模式" SampleMount="20" Description="任务描述" ScriptPath="" Children="System.Collections.Generic.List`1[Hawk.Core.Utils.Plugins.FreeDocument]">
<Children Enabled="True" MinValue="1" MaxValue="20" Interval="1" Column="page" MergeType="Append" Type="RangeGE" Group="Generator" />
<Children Enabled="True" MergeWith="" Format="http://www.cnblogs.com/p{0}" Column="page" NewColumn="url" OneOutput="True" IsMultiYield="False" Type="MergeTF" Group="Transformer" />
<Children Enabled="True" MaxTryCount="1" ErrorDelay="3000" CrawlerSelector="cnblogs_spider" Column="url" NewColumn="" OneOutput="False" IsMultiYield="True" Type="CrawlerTF" Group="Transformer" />
<Children Group="Executor" Enabled="True" EncodingType="UTF8" Type="WriteFileTextTF" />
<Children Enabled="True" Column="diggit_diggnum" NewColumn="" OneOutput="False" IsMultiYield="False" Type="DeleteTF" Group="Transformer" />
</Children>
</Doc>
</root>
微信文章用于对外分享的标题、描述、图片是在页面js内写的,请问一下这类信息如何采集?通过搜索字符获取的XPath地址是不正确的,也获取不到想要的数据。
大众点评,根据视频的教程,最后一步从爬虫转换url,没有出现内容,只是出现了content里面一堆JavaScript,没有出现各种属性。请问是为什么,其他的步骤显示都是正确的。完全按照视频来的。
Hawk.ETL\Plugins\Transformers\ResponseTF.cs row:51:
您好,我转到这里提问.感谢不吝赐教~ 我是发邮件给您的人.辛苦啦~~~
百度网盘的可执行包,貌似好久没更新了。
为什么我下载源码运行之后,界面只有“属性配置器”和“调试信息窗口”两个窗口
模块窗口和ETL窗口都没有。请问这是什么原因导致的
单转多文档的特别说明
当你使用List模式的爬虫,或单转多时,虽然生成了多个文档,但原始的数据(如URL)不见了。这是因为Hawk丢弃了这些列。`
经过大量实践,如果不这么做,每个新数据后面,都会跟上原始的老数据,如果1转20,则老数据会重复生成20次,这是没有必要的。
当然,有时转换时需要包含原始数据的部分列,则可在转换器的新列名中填写要鲤鱼跳龙门的列的名称,中间用空格分割。
上面这个操作找不到对应的转换,请问要如何处理啊?
如题, 没能找到处理的方法?指导一下?
你的MongoDB的驱动太旧了。
推荐使用最新的MongoDB驱动。
我是MongoCola的作者,能不能考虑两个工具的合作呢。
我的想法是你的工作可以作为抓取数据,我的工具作为存储和管理数据。
然后再找个人做机器学习和自然语言处理的工作。
我在爬下面的网址遇到这么一个问题:
点击下面换页的页码, 发现上面的网页地址不会变, 所以就不知道怎么爬这个网页了,
请告诉怎么爬? 能给给个示例代码最好 :-), 先谢了.
http://data.eastmoney.com/bbsj/201703/yysj.html
D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj : error : 未能加载项目文件。未能找到路径“D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj”的一部分。 D:\vs_home\WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid\System.Windows.Controls.WPFPropertyGrid.csproj
看起来似乎时这样的,win上生成xml,再跑到linux下用etlpy
我在搜索字符里输入点评数获价格的时候,任务管理视图跳出找不到其他符合条件的节点,多点几次搜索xpath,他会搜索到一条xpath,但是在提取测试里还是提取不到内容,不知道为什么
Can you add language settings to configuration file
采集的页面url:http://www.dianping.com/search/category/2/20/g187r2591
在采集器配置界面,选择“提取测试”,能够获取到预期的结果,如下图
配置数据清洗任务后,点击执行,提示HTML数据抽取失败。 如下图
相关配置:
生成区间数:最小值为1,最大值为50,生成模式为append
合并多列:url format为http://www.dianping.com/search/category/2/20/g187r2591p{0}
再把分类枚举拖入HTML列后,加载爬虫报错
2016-12-10 14:40:06 ERROR 任务已经出错:System.NullReferenceException: 未将对象引用设置到对象的实例。
在 Hawk.ETL.Crawlers.XPathTF2.Get(HtmlDocument docu, IEnumerable1 source, String name, String xpath) 在 Hawk.ETL.Crawlers.XPathTF2.<TransformManyData>d__8.MoveNext() 在 System.Linq.Enumerable.<TakeIterator>d__24
1.MoveNext()
在 Hawk.ETL.Managements.TemporaryTask.<>c__DisplayClass6_0`1.b__0()
在 Hawk.ETL.Managements.TemporaryTask.b__7_0()
when i click '从爬虫转换' ,the list show error like ' 未将对象引用设置到对象的实例'
When the IP is forbidden during the crawling, I didnt find how to resume to crawl after I change my ip
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.