Codejie's C++ Space

Using C++

轮子:用于分析Lingoes结果的HTML解析对象(二)


    今天才有时间继续写HTML解析对象的查找部分代码。代码如下,下次再整理~

    CDocumentObject类,增加了两类查询函数,一种用于从根部开始的遍历性查询,另一种则是指定Tag范围内查询。
class CDocumentObject
{
protected:
    static const char TAG_LT        =   '<';
    static const char TAG_GT        =   '>';
    static const char TAG_SLASH     =   '/';
    static const char TAG_BSLASH    =   '\\';
    static const char TAG_AND       =   '&';

    typedef std::vector<CParserData> TDataVector;

    typedef std::stack<CParserData> TDataStack;
    struct TNodeData
    {
        size_t level;
        CParserData tag;
        CParserData value;
//        CParserData end;
    };
    typedef std::deque<TNodeData> TNodeQueue;
public:
    typedef std::stack<const CElementObject*> TElementStack;
public:
    CDocumentObject();
    virtual ~CDocumentObject();

    int Load(const std::string& str);

    const CElementObject* Root() const;

    const CElementObject* FindFirstElement(const std::string& tag);
    const CElementObject* FindNextElement();

    const CElementObject* FindFirstElement(const CElementObject* element, const std::string& tag, TElementStack& tmpstack);
    const CElementObject* FindNextElement(const CElementObject* element, const std::string& tag, TElementStack& tmpstack);

    const CAttributeObject* FindAttribute(const CElementObject* element, const std::string& attr);
    
    void Show(std::ostream& os) const;
protected:
    int PreProcess(const std::string& str, std::string& html);
    int PreParser(const std::string& html, TNodeQueue& vct);
    int Parser(const std::string& html, TNodeQueue& que);
private:
    int PreParserLT(const std::string& html, std::string::size_type& pos, CParserData& data);
    int PushValueData(const CParserData& data, TDataStack& datastack) const;
    int PushTagData(const std::string& html, const CParserData& data, TDataStack& datatstack, TNodeQueue& nodeque) const;
    
    int CheckSpecialTag(const std::string& html, const CParserData& data) const;
    int CheckTag(const std::string& html, const CParserData& tag, const CParserData& end) const;
    CElementObject* MakeElement(const std::string& html, const TNodeData& node, CElementObject* parent, CElementObject* sibling) const;

    void CDocumentObject::ShowElement(std::ostream& os, const CElementObject* e) const;

    void FreeElement(CElementObject* root);

    const CElementObject* FindElement(const CElementObject* root, const CElementObject* pe, const std::string& tag, TElementStack& stack);
private:
    CElementObject* _root;
private:
    std::string _findtag;
    TElementStack _findstack;
};

    实现代码如下:
const CElementObject* CDocumentObject::FindFirstElement(const std::string &tag)
{
    
if(_root == NULL)
        
return NULL;

    _findtag 
= tag;
    
while(!_findstack.empty())
        _findstack.pop();
 
    
return FindElement(NULL, _root, _findtag, _findstack);
}


const CElementObject* CDocumentObject::FindNextElement()
{
    
if(_findstack.empty())
        
return NULL;

    
return FindElement(NULL, _findstack.top()->child, _findtag, _findstack);
}


const CElementObject* CDocumentObject::FindFirstElement(const CElementObject* element, const std::string& tag, TElementStack& tmpstack)
{
    
if(element == NULL)
        
return NULL;

    
while(!tmpstack.empty())
        tmpstack.pop();

    
return FindElement(element, element, tag, tmpstack);
}


const CElementObject* CDocumentObject::FindNextElement(const CElementObject* element, const std::string& tag, TElementStack& tmpstack)
{
    
if(tmpstack.empty())
        
return NULL;

    
return FindElement(element, tmpstack.top()->child, tag, tmpstack);
}


const CElementObject* CDocumentObject::FindElement(const CElementObject* root, const CElementObject* pe, const std::string& tag, TElementStack& stack)
{
    
while(pe != NULL)
    
{
        stack.push(pe);
        
if(pe->tag == tag)
            
return pe;
        pe 
= pe->child;
    }

    
    
while(!stack.empty() && stack.top() != root && pe == NULL)
    
{
        pe 
= stack.top()->sibling;  
        stack.pop();
    }


    
if(pe == NULL)
        
return NULL;

    
return FindElement(root, pe, tag, stack);
}


const CAttributeObject* CDocumentObject::FindAttribute(const TinyHtmlParser::CElementObject *element, const std::string &attr)
{
    
if(element == NULL)
        
return NULL;
    
    
const CAttributeObject* pa = element->attrib;
    
while(pa != NULL)
    
{
        
if(pa->attr == attr)
            
return pa;
        pa 
= pa->next;
    }

    
return pa;
}


    先不关心性能和繁琐性,能写成这样已经累的我半死了。。。通过写这个功能,发现自己对于算法的设计不能一步到位,实现过程中总是有这样或哪样的地方没有考虑到,整个对象简直就是测试出来的。。。还好一条路不通,能马上换一条,还好敲字快,能马上再敲一边。。。

    下面是测试代码:

    const CElementObject* pe = doc.FindFirstElement("TABLE");
    
    
while(pe != NULL)
    
{
        pe
->Show(std::cout);

        CDocumentObject::TElementStack tmp;

        
const CElementObject* p = doc.FindFirstElement(pe, "DIV", tmp);
        
while(p != NULL)
        
{
            p
->Show(std::cout);
            p 
= doc.FindNextElement(pe, "DIV", tmp);
        }

        pe 
= doc.FindNextElement();
    }


--------------------

[
3]Tag : TABLE
    attr : onselectstart 
-- value = "return true"
    attr : id 
-- value = dict_head_E1C27E806399D047822B6650194A3D32
    attr : cellSpacing 
-- value = 0
    attr : cellPadding 
-- value = 0
    attr : border 
-- value = 0

[
7]Tag : DIV
    attr : onmouseup 
-- value = "this.className='btn2_mouse_up'"
    attr : 
class -- value = btn2_mouse_out
    attr : onmousedown 
-- value = "this.className='btn2_mouse_down'"
    attr : id 
-- value = dict_title_E1C27E806399D047822B6650194A3D32
    attr : onmouseover 
-- value = "this.className='btn2_mouse_over'"
    attr : title 
-- value = "Dictionary Menu"
    attr : style 
-- value = "MARGIN: 0px 3px 1px 0px"
    attr : onclick 
-- value = "window.navigate('app://dictmenu/E1C27E806399D047822B6650194A3D32-2')"
    attr : onmouseout -- value = "this.className='btn2_mouse_out'"

[
7]Tag : DIV
    attr : style 
-- value = "OVERFLOW: hidden; WIDTH: 10px; CURSOR: hand; MARGIN-RIGHT: 2px; HEIGHT: 10px"

posted on 2010-02-22 18:32 codejie 阅读(254) 评论(0)  编辑 收藏 引用 所属分类: C++轮子精神


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理


公告

Using C++

导航

统计

留言簿(73)

随笔分类(513)

积分与排名

最新评论

阅读排行榜

评论排行榜